PENERAPAN SPEECH EMOTION RECOGNITION (SER) DALAM MENGIDENTIFIKASI EMOSI SUARA MENGGUNAKAN DEEP LEARNING

PENERAPAN SPEECH EMOTION RECOGNITION (SER) DALAM MENGIDENTIFIKASI EMOSI SUARA MENGGUNAKAN DEEP LEARNING Tasya Nadila Primary Author mixed material bibliography Banda Aceh Fakultas MIPA Informatika 2025 Emosi merupakan hal yang erat kaitannya dengan keberadaan manusia, dan tidak dapat terpisahkan. Salah satu cara untuk mengenali emosi seseorang adalah melalui suara. Speech Emotion Recognition (SER) bertujuan untuk menganalisis dan mengklasifikasikan emosi berdasarkan sinyal suara. Penelitian ini membangun model SER berbasis Convolutional Neural Network (CNN) dengan menggunakan dua dataset publik, yaitu RAVDESS yang berbahasa Inggris dan EmoDB yang berbahasa Jerman, untuk mengenali enam jenis emosi: marah, jijik, takut, sedih, netral, dan bahagia. Terdapat dua jenis model yang dibangun, yaitu model spesifik yang dilatih menggunakan satu dataset dan model general yang dilatih menggunakan gabungan dari kedua dataset. Hasil akurasi terbaik untuk model spesifik EmoDB mencapai 86,95% dan untuk model spesifik RAVDESS 80,18%, sedangkan model general memperoleh akurasi sebesar 81,13% pada dataset RAVDESS dan 76,09% pada dataset EmoDB. Dalam rangka menguji kemampuan generalisasi model terhadap konteks bahasa dan ekspresi yang berbeda, penelitian ini menggunakan data primer berupa rekaman suara mahasiswa Universitas Syiah Kuala yang berbahasa Indonesia. Data primer diproses dengan mengonversi format audio ke dalam bentuk .wav, kemudian dilakukan ekstraksi fitur menggunakan metode Mel-Frequency Cepstral Coefficients (MFCC), dan normalisasi untuk menyesuaikan distribusi data. Hasil evaluasi dengan data primer menunjukkan bahwa model general memiliki performa generalisasi yang lebih baik terhadap data primer, dengan akurasi mencapai 76%. Angka ini lebih tinggi dibandingkan model spesifik EmoDB yang mencapai 50% dan model spesifik RAVDESS yang mencapai 40%. Penelitian ini juga menegaskan bahwa normalisasi pada tahap inferensi merupakan langkah penting untuk menjaga akurasi prediksi, serta membuktikan bahwa model mampu mengenali emosi dari data di luar pelatihan. Kata kunci: Speech Emotion Recognition, Convolutional Neural Network, Sinyal Suara, MFCC, RAVDESS, EmoDB 0 ELECTRONIC THESES AND DISSERTATION Universitas Syiah Kuala 158443 2025-07-03 17:55:37 2025-07-04 09:18:37 machine generated