PENERAPAN SPEECH EMOTION RECOGNITION (SER) DALAM MENGIDENTIFIKASI EMOSI SUARA MENGGUNAKAN DEEP LEARNING | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI

PENERAPAN SPEECH EMOTION RECOGNITION (SER) DALAM MENGIDENTIFIKASI EMOSI SUARA MENGGUNAKAN DEEP LEARNING


Pengarang

Tasya Nadila - Personal Name;

Dosen Pembimbing

Alim Misbullah - 198806032019031011 - Dosen Pembimbing I



Nomor Pokok Mahasiswa

2108107010036

Fakultas & Prodi

Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201

Subject
-
Kata Kunci
-
Penerbit

Banda Aceh : Fakultas MIPA Informatika., 2025

Bahasa

No Classification

-

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Emosi merupakan hal yang erat kaitannya dengan keberadaan manusia, dan tidak dapat terpisahkan. Salah satu cara untuk mengenali emosi seseorang adalah melalui suara. Speech Emotion Recognition (SER) bertujuan untuk menganalisis dan mengklasifikasikan emosi berdasarkan sinyal suara. Penelitian ini membangun model SER berbasis Convolutional Neural Network (CNN) dengan menggunakan dua dataset publik, yaitu RAVDESS yang berbahasa Inggris dan EmoDB yang berbahasa Jerman, untuk mengenali enam jenis emosi: marah, jijik, takut, sedih, netral, dan bahagia. Terdapat dua jenis model yang dibangun, yaitu model spesifik yang dilatih menggunakan satu dataset dan model general yang dilatih menggunakan gabungan dari kedua dataset. Hasil akurasi terbaik untuk model spesifik EmoDB mencapai 86,95% dan untuk model spesifik RAVDESS 80,18%, sedangkan model general memperoleh akurasi sebesar 81,13% pada dataset RAVDESS dan 76,09% pada dataset EmoDB. Dalam rangka menguji kemampuan generalisasi model terhadap konteks bahasa dan ekspresi yang berbeda, penelitian ini menggunakan data primer berupa rekaman suara mahasiswa Universitas Syiah Kuala yang berbahasa Indonesia. Data primer diproses dengan mengonversi format audio ke dalam bentuk .wav, kemudian dilakukan ekstraksi fitur menggunakan metode Mel-Frequency Cepstral Coefficients (MFCC), dan normalisasi untuk menyesuaikan distribusi data. Hasil evaluasi dengan data primer menunjukkan bahwa model general memiliki performa generalisasi yang lebih baik terhadap data primer, dengan akurasi mencapai 76%. Angka ini lebih tinggi dibandingkan model spesifik EmoDB yang mencapai 50% dan model spesifik RAVDESS yang mencapai 40%. Penelitian ini juga menegaskan bahwa normalisasi pada tahap inferensi merupakan langkah penting untuk menjaga akurasi prediksi, serta membuktikan bahwa model mampu mengenali emosi dari data di luar pelatihan.

Kata kunci: Speech Emotion Recognition, Convolutional Neural Network, Sinyal Suara, MFCC, RAVDESS, EmoDB

Emotion is deeply intertwined with human existence and is inseparable from it. One way to recognize a person’s emotions is through their voice. Speech Emotion Recognition (SER) aims to analyze and classify emotions based on speech signals. This study develops an SER model based on a Convolutional Neural Network (CNN), utilizing two public datasets—RAVDESS (English) and EmoDB (German)—to recognize six emotion classes: angry, disgust, fear, sad, neutral, and happy. Two types of models were built: specific models trained on individual datasets and a general model trained on the combined datasets. The best accuracy achieved by the specific models was 86.95% on EmoDB and 80.18% on RAVDESS, while the general model reached 81.13% on RAVDESS and 76.09% on EmoDB. To assess the model’s generalization ability across different languages and expressions, primary data consisting of Indonesian-language voice recordings from Universitas Syiah Kuala students were used. The primary data were preprocessed by converting audio formats to .wav, extracting features using Mel-Frequency Cepstral Coefficients (MFCC), and applying normalization to align data distributions. Evaluation results using the primary data indicated that the general model demonstrated superior generalization performance, achieving an accuracy of 76%. This surpasses the specific models trained on EmoDB (50%) and RAVDESS (40%). This study also highlights that normalization during inference is a critical step in maintaining prediction accuracy and shows that the model can effectively recognize emotions from previously unseen data. Keywords: Speech Emotion Recognition, Convolutional Neural Network, Audio Signal, MFCC, RAVDESS, EmoDB

Citation



    SERVICES DESK