PERBANDINGAN METODE SVM, NAIVE BAYES DAN INDOBERT DALAM MENDETEKSI UJARAN KEBENCIAN MENGGUNAKAN DATASET MULTI-LABEL BERBAHASA INDONESIA | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI

PERBANDINGAN METODE SVM, NAIVE BAYES DAN INDOBERT DALAM MENDETEKSI UJARAN KEBENCIAN MENGGUNAKAN DATASET MULTI-LABEL BERBAHASA INDONESIA


Pengarang

Ricky Bagestra - Personal Name;

Dosen Pembimbing

Alim Misbullah - 198806032019031011 - Dosen Pembimbing I
Zulfan - 198606022015041003 - Dosen Pembimbing II



Nomor Pokok Mahasiswa

1908107010092

Fakultas & Prodi

Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201

Subject
-
Kata Kunci
-
Penerbit

Banda Aceh : Fakultas MIPA Informatika., 2024

Bahasa

No Classification

-

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Penelitian ini bertujuan untuk membandingkan performa metode Support Vector Machine (SVM), Naive Bayes, dan IndoBERT dalam deteksi ujaran kebencian pada dataset multi-label berbahasa Indonesia. Dataset yang digunakan berasal dari penelitian Ibrohim dan Budi (2019), terdiri dari 13.169 tweet dengan 12 label. Proses pre-processing data dilakukan untuk mempersiapkan dataset, mencakup case folding, penghapusan karakter yang tidak diperlukan, normalisasi kata alay, stemming, dan penghapusan stopword. Perbandingan performa dilakukan sebelum dan sesudah proses tuning untuk setiap metode. Faktor-faktor yang mempengaruhi performa masing- masing metode dianalisis, meliputi karakteristik dataset, fitur bahasa, teknik pra- pemrosesan, arsitektur model, dan ketersediaan sumber daya komputasi. Penanganan ketidakseimbangan kelas menggunakan teknik augmentasi data berbasis BERT juga dievaluasi dampaknya terhadap performa metode. Hasil penelitian menunjukkan bahwa metode IndoBERT memberikan performa terbaik setelah tuning, dengan akurasi 93%, F1-score 91%, recall 91%, dan precision 91%. SVM dan Naive Bayes juga mengalami peningkatan performa setelah tuning, meskipun tidak sebaik IndoBERT. Augmentasi data berbasis BERT terbukti efektif dalam meningkatkan performa semua metode. Model terbaik diimplementasikan dalam interface web menggunakan framework Flask untuk memudahkan pengguna dalam mendeteksi ujaran kebencian pada teks berbahasa Indonesia. Penelitian ini memberikan kontribusi pada pengembangan sistem deteksi ujaran kebencian yang lebih akurat dan efisien, serta memberikan wawasan tentang faktor-faktor yang mempengaruhi performa metode dalam konteks bahasa Indonesia.
Kata kunci: Deteksi Ujaran Kebencian, Bahasa Kasar, Support Vector Machine, Naive Bayes, IndoBERT.

This study aims to compare the performance of Support Vector Machine (SVM), Naive Bayes, and IndoBERT methods in detecting hate speech on a multi- label dataset in the Indonesian language. The dataset used is derived from the research of Ibrohim and Budi (2019), consisting of 13,169 tweets with 12 labels. Data pre-processing is carried out to prepare the dataset, including case folding, removal of unnecessary characters, normalization of slang words, stemming, and stopword removal. Performance comparisons are conducted before and after the tuning process for each method. Factors affecting the performance of each method are analyzed, including dataset characteristics, language features, pre-processing techniques, model architecture, and computational resource availability. The impact of handling class imbalance using BERT-based data augmentation techniques on method performance is also evaluated. The results show that IndoBERT achieves the best performance after tuning, with an accuracy of 93%, F1-score of 91%, recall of 91%, and precision of 91%. SVM and Naive Bayes also experience performance improvements after tuning, although not as good as IndoBERT. BERT-based data augmentation proves to be effective in enhancing the performance of all methods. The best model is implemented in a web interface using the Flask framework to facilitate users in detecting hate speech in Indonesian text. This research contributes to the development of more accurate and efficient hate speech detection systems and provides insights into factors influencing method performance in the context of the Indonesian language. Keywords: Hate Speech Detection, Abusive Language, Support Vector Machine, Naive Bayes, IndoBERT.

Citation



    SERVICES DESK