Youtube telah menjadi platform utama berbagi informasi dalam bentuk video dengan jutaan pengguna aktif di indonesia. banyaknya interaksi pengguna melalui fitur komentar menjadikannya sebagai sarana evaluasi nilai edukasi terhadap konten video. namun, keberagaman komentar dan adanya manipulasi sistem peringkat menyulitkan penilaian konten video yang akurat. penelitian ini bertujuan untuk mengembangkan sistem klasifikasi otomatis komentar youtube menggunakan model indobert untuk mengkategorikan komentar ke dalam tiga kelas: mendidik, motivasi, dan negatif. dataset penelitian terdiri dari 71.546 komentar yang dikumpulkan melalui web scraping dari lima channel edukasi populer: mata najwa, ruang guru, sisi terang, kak seto, dan kok bisa?. proses pelabelan dilakukan secara otomatis menggunakan generative ai melalui library g4f (gpt-4 free), kemudian divalidasi secara manual untuk memastikan akurasi label. tahap pra-pemrosesan data meliputi pembersihan teks, normalisasi huruf, penghapusan stopword, stemming, dan tokenisasi. model indobert dioptimalkan melalui hyperparameter tuning dengan konfigurasi terbaik: batch size 16, epoch 4, dan learning rate 2e-5. hasil evaluasi menunjukkan performa yang baik dengan akurasi 88,05%, presisi 82,04%, recall 82,30%, dan f1-score 82,17%. untuk memudahkan interpretasi hasil, klasifikasi divisualisasikan menggunakan diagram lingkaran dan word cloud yang menampilkan distribusi kategori komentar dan kata-kata dominan pada setiap kategori. penelitian ini membuktikan efektivitas model indobert dalam mengklasifikasi komentar youtube berbahasa indonesia. sistem yang dikembangkan dapat membantu pengguna mengidentifikasi konten edukatif dan memberikan content creator umpan balik secara otomatis mengenai respons audiens terhadap konten mereka. kata kunci: youtube, web scraping, indobert, generative ai, klasifikasi teks
Electronic Theses and Dissertation
Universitas Syiah Kuala
SKRIPSI
PENERAPAN MODEL INDOBERT DALAM MENGANALISIS KONTEN VIDEO YOUTUBE BERDASARKAN KOMENTAR PENGGUNA. Banda Aceh Fakultas MIPA - Informatika,2025
Baca Juga : DETEKSI KOMENTAR SPAM PADA YOUTUBE MENGGUNAKAN ENSEMBLE MACHINE LEARNING (Ahmad Faqih Al Ghiffary, 2025)
Abstract
YouTube has become the primary platform for sharing information in the form of videos with millions of active users in Indonesia. The high level of user interaction through the comment feature makes it a means of evaluating the educational value of video content. However, the diversity of comments and the manipulation of the rating system make it difficult to assess video content accurately. This study aims to develop an automatic YouTube comment classification system using the IndoBERT model to categorize comments into three classes: educational, motivational, and negative. The research dataset consists of 71,546 comments collected through web scraping from five popular educational channels: Mata Najwa, Ruang Guru, Sisi Terang, Kak Seto, and Kok Bisa?. The labeling process was performed automatically using Generative AI via the G4F (GPT-4 Free) library, then manually validated to ensure label accuracy. The data preprocessing stage includes text cleaning, character normalization, stopword removal, stemming, and tokenization. The IndoBERT model was optimized through hyperparameter tuning with the best configuration: batch size 16, epoch 4, and learning rate 2e-5. The evaluation results show good performance with an accuracy of 88.05%, precision of 82.04%, recall of 82.30% and f1-score of 82.17%. To facilitate interpretation of the results, the classification is visualized using a pie chart and word cloud showing the distribution of comment categories and dominant words in each category. This study demonstrates the effectiveness of the IndoBERT model in classifying Indonesian-language YouTube comments. The developed system can assist users in identifying educational content and provide content creators with automatic feedback on audience responses to their content. Keywords: YouTube, Web Scraping, IndoBERT, Generative AI, Text Classification