DETEKSI POTENSI PELANGGARAN UU ITE DARI KOMENTAR YOUTUBE DAN TIKTOK MENGGUNAKAN INDOBERT DAN CNN-BILSTM | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI

DETEKSI POTENSI PELANGGARAN UU ITE DARI KOMENTAR YOUTUBE DAN TIKTOK MENGGUNAKAN INDOBERT DAN CNN-BILSTM


Pengarang

Aulia Muzhaffar - Personal Name;

Dosen Pembimbing

Irvanizam - 198103152003121003 - Dosen Pembimbing I
Kikye Martiwi Sukiakhy - 198605202019032009 - Dosen Pembimbing II



Nomor Pokok Mahasiswa

2108107010033

Fakultas & Prodi

Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201

Subject
-
Kata Kunci
-
Penerbit

Banda Aceh : Fakultas MIPA (S1)., 2026

Bahasa

No Classification

-

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Perkembangan teknologi digital, khususnya media sosial seperti YouTube dan TikTok,
telah meningkatkan penyalahgunaan kebebasan berpendapat yang berpotensi melanggar
Undang-Undang Informasi dan Transaksi Elektronik (UU ITE). Tantangan utama dalam
penelitian ini adalah keterbatasan dataset serta kebutuhan akan model yang efektif untuk
mendeteksi potensi pelanggaran tersebut secara otomatis. Penelitian ini bertujuan untuk
mengembangkan dan membandingkan kinerja model deteksi potensi pelanggaran UU
ITE pada komentar YouTube dan TikTok menggunakan dua arsitektur deep learning,
yaitu IndoBERT dan Hybrid CNN-BiLSTM. Dataset dikumpulkan melalui proses web
scraping dan dilabeli menggunakan Large Language Model (LLM) GPT-4 Free (G4F)
dengan pendekatan zero-shot template-based, kemudian divalidasi secara manual oleh
peneliti dan validator. Untuk mengatasi ketidakseimbangan kelas, digunakan teknik
random undersampling pada kelas mayoritas (Netral) serta penambahan data pendukung
pada kelas minoritas (Berita Hoaks). Model mengklasifikasikan komentar ke dalam
enam label, yaitu Netral, Pornografi, Berita Hoaks, Cyberbullying/Pencemaran Nama
Baik, Ujaran Kebencian berbasis SARA, dan Judi Online. Hasil evaluasi menunjukkan
bahwa model IndoBERT memberikan performa terbaik pada skenario dataset random
undersampling 30k dengan nilai akurasi sebesar 78,76%, presisi 77,11%, recall 79,01%,
dan F1-score tertinggi sebesar 77,97%. Sementara itu, model CNN-BiLSTM pada
skenario yang sama mencapai akurasi 74,86%, presisi 72,64%, recall 72,81%, dan
F1-score sebesar 72,66%. Hasil ini menunjukkan bahwa arsitektur berbasis transformer
lebih unggul dalam memahami konteks bahasa alami dan mendeteksi pola pelanggaran
UUITEpada komentar media sosial.

Kata kunci: IndoBERT, CNN-BiLSTM, deep learning, Klasifikasi Teks, UU ITE,
Komentar Media Sosial

The rapid growth of digital technology, particularly social media platforms such as YouTube and TikTok, has intensified the misuse of freedom of expression that potentially violates the Indonesian Law on Information and Electronic Transactions (ITE Law). One of the main challenges in this domain is the limited availability of labeled datasets and the need for effective automated detection models. This study aims to develop and compare models for detecting potential ITE Law violations in YouTube and TikTok comments using two deep learning architectures, namely IndoBERT and a hybrid CNN BiLSTM model. The dataset was collected through web scraping and labeled using a Large Language Model (LLM), GPT-4 Free (G4F), with a zero-shot template-based approach, followed by manual validation by the researcher and an independent validator. To address class imbalance, random undersampling was applied to the majority class (Neutral), and additional supporting data were incorporated into the minority class (Hoax News). The models classify comments into six labels: Neutral, Pornography, Hoax News, Cyberbullying/Defamation, Hate Speech based on SARA, and Online Gambling. Experimental results show that IndoBERT achieved the best performance on the random undersampling 30k dataset, with an accuracy of 78.76%, precision of 77.11%, recall of 79.01%, and the highest F1-score of 77.97%. In comparison, the CNN-BiLSTM model achieved an accuracy of 74.86%, precision of 72.64%, recall of 72.81%, and an F1-score of 72.66% under the same scenario. These findings confirm that transformer-based architectures outperform CNN-BiLSTM in capturing contextual semantics and identifying patterns of ITE Law violations in social media comments. Keywords: IndoBERT, CNN-BiLSTM, Deep Learning, Text Classification, ITE Law, Social Media Comments

Citation



    SERVICES DESK