Electronic Theses and Dissertation
Universitas Syiah Kuala
SKRIPSI
EVALUASI KINERJA ENCODER DARI MODEL NO LANGUAGE LEFT BEHIND UNTUK KLASIFIKASI TEKS SENTIMEN DALAM BEBERAPA BAHASA DAERAH DI INDONESIA
Pengarang
Zul Akhyar - Personal Name;
Dosen Pembimbing
Zahnur - 196905291994031002 - Dosen Pembimbing I
Kikye Martiwi Sukiakhy - 198605202019032009 - Dosen Pembimbing II
Nomor Pokok Mahasiswa
2008107010080
Fakultas & Prodi
Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201
Penerbit
Banda Aceh : Fakultas mipa., 2026
Bahasa
Indonesia
No Classification
006.35
Literature Searching Service
Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)
Penelitian ini bertujuan untuk mengevaluasi kinerja encoder dari model No Language
Left Behind (NLLB) dalam tugas klasifikasi sentimen pada beberapa bahasa daerah di
Indonesia. Model NLLB yang awalnya dikembangkan untuk penerjemahan mesin
dieksplorasi kemampuannya dalam menghasilkan representasi kontekstual teks yang
relevan untuk tugas klasifikasi sentimen. Dataset yang digunakan adalah NusaX, yang
mencakup 12 bahasa, termasuk Bahasa Indonesia, Inggris, dan 10 bahasa daerah. Dua
pendekatan pelatihan diterapkan, yaitu fine-tuning, di mana seluruh parameter model
disesuaikan dengan data klasifikasi sentimen, dan partial fine-tuning, di mana hanya
lapisan atas yang diperbarui sementara embedding layer dibekukan untuk
mempertahankan representasi leksikal awal. Pelatihan dilakukan menggunakan
algoritma optimisasi AdamW dengan fungsi kerugian CrossEntropyLoss, serta mean
pooling sebagai mekanisme agregasi fitur. Evaluasi dilakukan menggunakan metrik
accuracy dan macro F1-score baik secara multibahasa maupun per-bahasa. Hasil
penelitian menunjukkan bahwa kedua pendekatan menghasilkan performa yang
sebanding dengan nilai accuracy 81% dan macro F1-score 80% pada data
multibahasa. Analisis per-bahasa juga memperlihatkan bahwa model bekerja lebih
baik pada bahasa yang telah terdaftar dalam pelatihan awal NLLB, seperti bahasa
Aceh, Bali, Banjar, Minangkabau, Jawa, dan Sunda, dengan accuracy berkisar antara
79–86%. Sementara itu, beberapa bahasa yang belum termasuk dalam cakupan
pelatihan NLLB, seperti Ngaju, Madura, dan Batak Toba, menunjukkan performa yang
sedikit lebih rendah, dengan accuracy berkisar antara 70–78%. Penelitian ini
menunjukkan bahwa encoder NLLB memiliki potensi adaptasi yang baik untuk tugas
klasifikasi teks, bahkan dalam konteks bahasa daerah dengan sumber daya terbatas.
This study aims to evaluate the performance of the encoder from the No Language Left Behind (NLLB) model in sentiment classification tasks across several regional languages of Indonesia. Originally developed for machine translation, the NLLB model is explored for its capability to generate contextual text representations relevant to sentiment classification. The dataset used is NusaX, which covers 12 languages, including Indonesian, English, and 10 regional languages. Two training approaches are applied: fine-tuning, where all model parameters are adjusted to the sentiment classification data, and partial fine-tuning, where only the upper layers are updated while the embedding layer is frozen to preserve the initial lexical representations. The training process utilizes the AdamW optimization algorithm with the CrossEntropyLoss function and employs mean pooling as the feature aggregation mechanism. Evaluation is conducted using accuracy and macro F1-score metrics, both in multilingual and per-language settings. The results show that both approaches yield comparable performance, achieving an accuracy of 81% and a macro F1-score of 80% on multilingual data. Per-language analysis also reveals that the model performs better on languages included in the original NLLB training, such as Acehnese, Balinese, Banjarese, Minangkabau, Javanese, and Sundanese, with accuracies ranging from 79–86%. In contrast, languages not covered in NLLB’s initial training, such as Ngaju, Madurese, and Batak Toba, exhibit slightly lower performance, with accuracies between 70–78%. This study demonstrates that the NLLB encoder has strong adaptability potential for text classification tasks, even in low-resource regional language contexts.
PENGEMBANGAN MODEL BERT DAN HIBRID UNTUK ANALISIS SENTIMEN DENGAN ACEHX FINE-TUNING DAN PENYESUAIAN TOKENIZER (Doni Sumito Sukiswo, 2026)
MODEL PEMAHAMAN BAHASA INDONESIA BERBASIS TRANSFORMERS (Hendri Ahmadian, 2025)
ANALISIS SENTIMEN ULASAN PRODUK KECANTIKAN PADA MARKETPLACE MENGGUNAKAN PENDEKATAN NATURAL LANGUAGE PROCESSING (Adelia Shinta, 2023)
ANALISIS SENTIMEN ULASAN PENGGUNA TWITTER DAN ARTIKEL BERITA ONLINE TERHADAP DAMPAK CHATGPT DALAM BIDANG PENDIDIKAN (Muhammad Faris Adzkia, 2024)
INVESTIGATING THE LANGUAGE CHOICE OF ACEHNESE INTERMARRIAGE COUPLES IN THE HOME DOMAIN (Windasari, 2017)