Universitas Syiah Kuala | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI
Muhammad Farhan, PENGEMBANGAN MODEL KLASIFIKASI UNTUK DETEKSI DAN VISUALISASI CYBERBULLYING MELALUI PEMROSESAN AUDIO DI YOUTUBE. Banda Aceh Fakultas Matematika dan Ilmu Pengetahua,2025

Cyberbullying di platform digital seperti youtube telah menjadi masalah serius yang berdampak pada kesehatan mental pengguna, khususnya anak-anak. penelitian ini bertujuan mengembangkan model klasifikasi untuk mendeteksi dan memvisualisasikan cyberbullying berdasarkan transkrip audio dari video youtube berbahasa indonesia. data diperoleh melalui proses transkripsi otomatis menggunakan faster-whisper dan dilabeli dengan model indobert-bullying-classifier, yang kemudian dievaluasi ulang oleh manusia. distribusi data diperbaiki melalui teknik random undersampling dan augmentasi data menggunakan metode back-translation. model indobert dilatih dengan data hasil prapemrosesan dan dievaluasi menggunakan metrik akurasi, presisi, recall, dan f1-score. pelatihan model dilakukan dengan menggunakan data sebelum proses augmentasi dan sesudah proses augmentasi. model terbaik didapatkan pada dataset undersampling 10.000 yang belum melalui proses augmentasi dengan akurasi sebesar 97,61%, presisi 87,61%, recall 91,02%, dan f1-score 89,10%. hasil pengujian menunjukkan bahwa proses augmentasi tidak meningkatkan performa model dalam mendeteksi konten cyberbullying. model terbaik diimplementasikan dalam sebuah antarmuka web berbasis streamlit, yang memungkinkan pengguna menganalisis video youtube secara langsung dengan visualisasi hasil klasifikasi dan perhatian model (attention visualization) untuk menyoroti kata-kata yang berkontribusi pada keputusan klasifikasi. penelitian ini menunjukkan bahwa pendekatan berbasis deep learning yang dikombinasikan dengan transkripsi audio dan visualisasi dapat memberikan solusi efektif dalam mendeteksi serta memahami konten bermuatan cyberbullying di platform video digital.



Abstract

Cyberbullying on digital platforms such as YouTube has become a serious issue affecting users’ mental health, particularly among children. This research aims to develop a classification model for detecting and visualizing cyberbullying from audio transcripts of Indonesian-language YouTube videos. Data were collected through an automatic transcription process using Faster-Whisper and labeled with the IndoBERT-Bullying-Classifier, followed by human re-evaluation. Data distribution was balanced using random undersampling and further expanded via back-translation for data augmentation. The IndoBERT model was trained on the preprocessed data and evaluated using accuracy, precision, recall, and F1-score. Model training was conducted on datasets both before and after augmentation. The best performance was achieved on the 10,000-sample undersampled dataset without augmentation, yielding an accuracy of 97.61%, precision of 87.61%, recall of 91.02%, and F1-score of 89.10%. Experimental results show that data augmentation did not improve model performance in detecting cyberbullying. The best model was deployed in a web interface built with Streamlit, enabling users to analyze YouTube videos with classification results and attention visualization to highlight words influencing the classification. This study demonstrates that combining deep learning, audio transcription, and visualization provides an effective approach for detecting and understanding cyberbullying content on digital video platforms.



    SERVICES DESK