Universitas Syiah Kuala | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI
FAUZY NISA, SISTEM PENGENALAN SUARA PADA APLIKASI ROUTE GUIDANCE UNTUK TUNANETRA BERBASIS INDOOR POSITIONING. Banda Aceh Fakultas MIPA (S1),2022

Penyandang tunanetra dapat mengganti fungsi indra penglihatan dengan mempertajam indra pendengarannya untuk mendengar suara di sekitarnya. teknologi yang berkaitan dengan suara telah banyak dikembangkan seperti automatic speech recognition (asr). asr dapat membantu penyandang tunanetra dalam aspek kehidupannya. universitas syiah kuala belum memiliki fasilitas yang mendukung untuk penyandang tunanetra, terutama dalam memberikan penamaan ruangan atau gedung dalam huruf braille. maka, salah satu solusi lainnya, yang dapat diberikan adalah dengan sistem pengenalan suara. penelitian ini menawarkan pembangunan model sistem pengenalan suara yang sesuai dengan kebutuhan, yaitu dengan menggunakan data dari nama ruangan pada gedung a fmipa universitas syiah kuala. pada pembangunan model pengenalan suara menggunakan mel frequency ceptral coefficient (mfcc) sebagai ekstraksi fiturnya, gaussian mixture model - hidden markov model (gmmhmm) sebagai data alignment setelah itu dilanjut dengan menggunakan dua arsitektur deep neural network (dnn), yaitu time-delay neural network factorized (tdnnf) dan convolutional neural network - time-delay neural network factorized (cnntdnnf) untuk acoustic modelling. terdapat dua pengujian yang dilakukan, yaitu dengan decoding dari kaldi dan dengan vosk berbasis python. model yang paling baik dari hasil pengujian didapatkan pada model cnn-tdnnf 13 dimensi dengan 7 layer dan 5 epoch serta learning rate sebesar 0.01, dimana model tersebut memberikan akurasi paling bagus daripada model cnn-tdnnf lainnya maupun model tdnnf. model tersebut selanjutnya diimplementasikan pada aplikasi berbasis android dengan menggunakan vosk.



Abstract

Visually impaired people have the ability to replace the function of the sense of sight by sharpening their sense of hearing to hear the sounds around them. Many technologies related to voice have been developed such as Automatic Speech Recognition (ASR). ASR can help blind people in all aspects of their lives. Syiah Kuala University does not yet have supporting facilities for blind people, especially in naming rooms or buildings in Braille. Therefore, another solution that can be devised for this problem is by using speech recognition system. Thus, this study offers the development of a speech recognition system model that fits the needs, namely by using data from the name of the room in Building A FMIPA Syiah Kuala University. In the development of the speech recognition model using the Mel Frequency Cepstral Coefficient (MFCC) as the feature extraction, the Gaussian Mixture Model - Hidden Markov Model (GMM-HMM) as the alignment data, then continued by using two deep neural network (DNN) architectures, namely Time-Delay Factorized Neural Network (TDNNF) and Convolutional Neural Network - Time-Delay Neural Network Factorized (CNN-TDNNF) for acoustic modeling. There were two tests carried out, namely with decoding from Kaldi and with Pythonbased Vosk. The best model from the test results was obtained on the 13-dimensional CNN-TDNNF model with 7 layers and 5 epochs and a learning rate of 0.01, where the model provides the best accuracy than other CNN-TDNNF models and TDNNF models. The model is then implemented in an Android-based application using Vosk.



    SERVICES DESK