Electronic Theses and Dissertation
Universitas Syiah Kuala
SKRIPSI
PENERAPAN X-VECTORS EMBEDDING PADA SISTEM IDENTIFIKASI PEMBICARA BERBAHASA INDONESIA
Pengarang
Muhammad Saifullah Sani - Personal Name;
Dosen Pembimbing
Alim Misbullah - 198806032019031011 - Dosen Pembimbing I
Husaini - 198806242022031006 - Dosen Pembimbing II
Nomor Pokok Mahasiswa
1908107010062
Fakultas & Prodi
Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201
Penerbit
Banda Aceh : Fakultas MIPA - Informatika., 2023
Bahasa
Indonesia
No Classification
005.1
Literature Searching Service
Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)
Banyak alat canggih telah menggunakan teknologi speech recognition atau pengenalan ucapan, seperti pada laptop, mobil pintar, dan ponsel cerdas. Teknologi pengenalan ucapan memuat speaker recognition atau pengenalan pembicara untuk mendapatkan informasi individu yang menunjukkan siapa yang sedang berbicara. Berdasarkan perbedaan aturan penggunaannya, sistem pengenalan pembicara dibedakan menjadi speaker identification dan speaker verification. Algoritma terkini dalam sistem pengenalan pembicara menggunakan model deep neural network (DNN) dan diekstrak speaker embedding yang bernama x-vectors, yaitu vektor fitur yang merepresentasikan pembicara. Penelitian ini bertujuan untuk membangun model speaker identification dengan menerapkan algoritma terkini yang memiliki performa yang baik, terutama untuk dataset pembicara berbahasa Indonesia agar dapat digunakan pada aplikasi yang membutuhkan sistem identifikasi pembicara berbahasa Indonesia. Oleh karena itu, perlu dibangun dataset pembicara berbahasa Indonesia terlebih dahulu yang kemudian dinamai dataset INF19. Fitur-fitur yang digunakan untuk membangun model berupa mel frequency cepstrum coefficient (MFCC) yang diekstrak dari dataset data train, yaitu VoxCeleb1 dev, VoxCeleb2 dev, dan VoxCeleb2 test, yang diaugmentasi menggunakan dataset RIRs Noise dan MUSAN. Dibangun empat model dengan menggunakan kombinasi dari dua konfigurasi MFCC dan dua arsitektur DNN yang memanfaatkan time delay neural network (TDNN) dengan mengikuti recipe Voxceleb v2 di Kaldi. Model-model yang dibangun diberi nama Model-I, Model-II, Model-III, dan Model-IV. Pengujian model menggunakan dataset VoxCeleb1 test, inf19_test_td, dan inf19_test_tid. Dipilih model terbaik berdasarkan akurasi tertinggi yang dihitung menggunakan metrik equal error rate (EER) dan durasi ekstraksi x-vectors tersingkat. Berdasarkan hasil pengujian, Model-II adalah model yang terbaik. Nilai EER Model-II untuk dataset VoxCeleb1 test sebesar 3,51%, inf19_test_td sebesar 1,3%, dan inf19_test_tid sebesar 1,4%. Durasi ekstraksi x-vectors menggunakan Model-II untuk dataset data train berdurasi 6 jam 42 menit 39 detik, VoxCeleb1 test berdurasi 2 menit 24 detik, inf19_enroll berdurasi 18 detik, inf19_test_td berdurasi 25 detik, dan inf19_test_tid berdurasi 9 detik.
Kata kunci: Speaker Identification, Time Delay Neural Network, X-Vectors, Mel Frequency Cepstrum Coefficient, Kaldi, Equal Error Rate
Many of sophisticated tools have been using speech recognition technology, such as laptop, smart car, and smartphone. Speech recognition includes speaker recognition to extract individual information indicating who is speaking. According to different application settings, speaker recognition system categorized into speaker identification and speaker verification. State-of-the-art in speaker recognition systems are using deep neural network (DNN) model and extract speaker embedding known as x-vectors, feature vector that represent the speaker. The goal of this research is to build a model using state-of-the-art algorithm that has good performance, especially for Indonesian speaker dataset so that it could be used in applications that require Indonesian speaker identification system. Therefore, it is necessary to build Indonesian speaker dataset first which was later named as INF19. The features used for modeling are mel frequency cepstrum coefficient (MFCC) which extracted from data train dataset, that is VoxCeleb1 dev, VoxCeleb2 dev, and VoxCeleb2 test, that augmented using RIRs Noise and MUSAN dataset. This research built four models using combination of two MFCC configurations and two DNN architectures that using time delay neural network (TDNN) by following Voxceleb v2 recipe in Kaldi. The models are named as Model-I, Model-II, Model-III, and Model-IV. Model testing is using VoxCeleb1 test, inf19_test_td, and inf19_test_tid dataset. The best model is selected based on the highest accuration that measured using equal error rate (EER) metric and shortest x-vectors extraction duration. Based on result from model testing, Model-II is the best model. Model-II accuracy for VoxCeleb1 test is 3,51%, inf19_test_td is 1,3%, and inf19_test_tid is 1,4%. Duration for x-vectors extraction using Model-II for data train dataset is 6 hours 42 minutes 39 seconds, VoxCeleb1 test is 2 minutes 24 seconds, inf19_enroll is 18 seconds, inf19_test_td is 25 seconds, and inf19_test_tid is 9 seconds. Keywords: Speaker Identification, Time Delay Neural Network, X-Vectors, Mel Frequency Cepstrum Coefficient, Kaldi, Equal Error Rate
PERFORMANCE ANALYSIS OF COMPUTER CLUSTERS AND NON-CLUSTER (Aridhatullah, 2015)
PENERAPAN METODE FUZZY LINEAR PROGRAMMING DALAM MENGOPTIMALKAN HASIL PRODUKSIRN(STUDI KASUS: UD. ADEX PEYEK, BANDA ACEH) (T. SUKMI ADDIANSYAH, 2022)
PENGARUH FAKTOR DEMOGRAFI, COMPUTER SELF EFFICACY DAN COMPUTER ANXIETY DALAM PENGGUNAAN SISTEM INFORMASI AKUNTANSI BERBASIS KOMPUTER TERHADAP KINERJA KARYAWAN PADA BAPPEDA PROVINSI ACEH (Romi Maulana , 2016)
TELAAH KESANTUNAN BERBAHASA GURU DALAM PEMBELAJARAN BAHASA INDONESIA DI SMP NEGERI BANDA ACEH (Sridawati, 2014)
PENGARUH COMPUTER ANXIETY TERHADAP NIAT PENGGUNAAN TEKNOLOGI INFORMASI DENGAN COMPUTER SELF EFFICACY SEBAGAI VARIABEL MODERATING (STUDI EMPIRIS PADA MAHASISWA PROGRAM DIPLOMA III AKUNTANSI FAKULTAS EKONOMI UNIVERSITAS SYIAH KUALA BANDA ACEH) (Putri Heliyawati, 2024)