Automatic speech recognition (asr) memungkinkan komputer untuk mengubah suara menjadi teks. penelitian asr telah banyak dilakukan, namun masih sangat sedikit dalam bahasa indonesia. salah satu faktornya adalah ketersediaan dataset yang dibutuhkan belum banyak tersedia secara terbuka. asr memiliki tiga komponen utama, yaitu acoustic model (am), language model (lm), dan pronunciation model (pm) / lexicon. pada tahun 2020, tim dari universitas syiah kuala telah melakukan penelitian asr yang menghasilkan data benchmark untuk membangun asr bahasa indonesia dan dijadikan baseline dari penelitian ini. pada baseline dilakukan pembangkitan lexicon secara otomatis, namun belum diterapkan aturan berbasis fonem dan alofon. maka, penelitian ini menawarkan metode pembangkitan lexicon berbasis fonem dan alofon dalam meningkatkan dan mengetahui pengaruh lexicon tersebut pada asr berbahasa indonesia. penelitian melibatkan lima tahapan utama. pertama pengembangan pembangkit lexicon berbasis fonem dan alofon yang mencakup algoritma stemming, syllabification, phonemic-transcription, dan allophonic-transcription. kedua pengembangan algoritma pembangkit korpus untuk membangun lm. ketiga pembangunan setiap model menggunakan toolkit kaldi asr, di mana am dibangun dengan gaussian mixture model-hidden markov model (gmm-hmm) dan berikutnya menggunakan deep neural network (dnn); time-delay neural network factorized (tdnnf) dan convolutional neural network-time-delay neural network factorized (cnn-tdnnf). keempat pengujian setiap model yang telah dibangun untuk mendapatkan model terbaik. kelima implementasi asr berbasis android dan web-service. hasil akhir penelitian menunjukkan lexicon berbasis fonem dan alofon memberikan performa lebih baik dari baseline penelitian dengan relative improvement terbaik untuk model gmm dan tdnnf secara berturut-turut sebesar 11.5% dan 7.3%, namun pada cnn-tdnnf belum memberikan performa yang diharapkan dengan selisih absolut terhadap baseline sebesar 0.47%. cnn-tdnnf memberikan performa yang lebih dari tdnnf, di mana %wer untuk setiap model adalah 19.51% dan 23.39%. hasil uji model terhadap data test berbeda memberikan performa yang cukup baik sebesar 21.30 %wer dan setelah dilakukan peningkatan pada lm mampu turun hingga 19.78 %wer.
Electronic Theses and Dissertation
Universitas Syiah Kuala
SKRIPSI
PENINGKATAN PERFORMA SISTEM PENGENALAN SUARA BAHASA INDONESIA MENGGUNAKAN LEXICON BERBASIS FONEMRNDAN ALOFON. Banda Aceh Fakultas MIPA (S1),2022
Baca Juga : PENERAPAN METODE DEEP LEARNING BERBASIS FREKUENSI SUARA PADA SISTEM RUMAH PINTAR (Shaumi Syahri Fithria, 2024)
Abstract
Automatic speech recognition (ASR) allows computers to convert speech into text. A lot of research on ASR has been carried out, however, there is still few amounts of research on ASR for Indonesian Language. The factor is the availability of the required datasets for ASR is not widely available. ASR has three major components, namely acoustic model (AM), language model (LM), and pronunciation model (PM) / lexicon. In 2020, a team from Syiah Kuala University conducted an ASR research that produced benchmark data to build Indonesian ASR and served as the baseline for this research. At the baseline, lexicon generation was carried out automatically, however, phoneme-based and allophone-based generation rules for lexicon generation had not yet applied. Thus, this study offers a method to generate phoneme and allophone-based lexicon in improving and to determine the effect of using the lexicon on Indonesian ASR. This research involves five main stages. First is development of a phoneme and allophone-based lexicon generator, which includes the development of stemming algorithms, syllabification, phonemic transcription, and allophonic transcription. Second is development of the corpus algorithm that is required for LM. Third, model training using the Kaldi ASR toolkit, where AM is built using Kaldi-ASR toolkit, where AM is built using Gaussian - hidden Markov model (GMM-hmm) and then use a deep neural network (DNN); time-delay neural network factorized (TDNNF) and convolutional neural network - time-delay neural network factorized (CNN-TDNNF). Fourth is models testing for all model that has been developed. Fifth is implementation of android-based and web-service. The final result of the study showed that the phoneme and allophone-based lexicon gave better performance than the research baseline with the best relative improvement for the GMM and TDNNF models, respectively 11.5% and 7.3%, but CNN-TDNNF did not provide the expected performance with an absolute difference against the research baseline was 0.47%. The results of the model test on different test data gave a fairly positive performance of 21.30 %WER and after an expansion for LM the performance improved to 19.78 %WER.
Baca Juga : PERBANDINGAN MODEL MOBILENETV2 DAN MEDIAPIPE CNN DALAM MENGENALI ABJAD BAHASA ISYARAT INDONESIA (BISINDO) (Ivan Chiari, 2025)