EVALUASI KINERJA ENCODER DARI MODEL NO LANGUAGE LEFT BEHIND UNTUK KLASIFIKASI TEKS SENTIMEN DALAM BEBERAPA BAHASA DAERAH DI INDONESIA

EVALUASI KINERJA ENCODER DARI MODEL NO LANGUAGE LEFT BEHIND UNTUK KLASIFIKASI TEKS SENTIMEN DALAM BEBERAPA BAHASA DAERAH DI INDONESIA Zul Akhyar Primary Author mixed material bibliography Banda Aceh Fakultas mipa 2026 id Indonesia Penelitian ini bertujuan untuk mengevaluasi kinerja encoder dari model No Language Left Behind (NLLB) dalam tugas klasifikasi sentimen pada beberapa bahasa daerah di Indonesia. Model NLLB yang awalnya dikembangkan untuk penerjemahan mesin dieksplorasi kemampuannya dalam menghasilkan representasi kontekstual teks yang relevan untuk tugas klasifikasi sentimen. Dataset yang digunakan adalah NusaX, yang mencakup 12 bahasa, termasuk Bahasa Indonesia, Inggris, dan 10 bahasa daerah. Dua pendekatan pelatihan diterapkan, yaitu fine-tuning, di mana seluruh parameter model disesuaikan dengan data klasifikasi sentimen, dan partial fine-tuning, di mana hanya lapisan atas yang diperbarui sementara embedding layer dibekukan untuk mempertahankan representasi leksikal awal. Pelatihan dilakukan menggunakan algoritma optimisasi AdamW dengan fungsi kerugian CrossEntropyLoss, serta mean pooling sebagai mekanisme agregasi fitur. Evaluasi dilakukan menggunakan metrik accuracy dan macro F1-score baik secara multibahasa maupun per-bahasa. Hasil penelitian menunjukkan bahwa kedua pendekatan menghasilkan performa yang sebanding dengan nilai accuracy 81% dan macro F1-score 80% pada data multibahasa. Analisis per-bahasa juga memperlihatkan bahwa model bekerja lebih baik pada bahasa yang telah terdaftar dalam pelatihan awal NLLB, seperti bahasa Aceh, Bali, Banjar, Minangkabau, Jawa, dan Sunda, dengan accuracy berkisar antara 79–86%. Sementara itu, beberapa bahasa yang belum termasuk dalam cakupan pelatihan NLLB, seperti Ngaju, Madura, dan Batak Toba, menunjukkan performa yang sedikit lebih rendah, dengan accuracy berkisar antara 70–78%. Penelitian ini menunjukkan bahwa encoder NLLB memiliki potensi adaptasi yang baik untuk tugas klasifikasi teks, bahkan dalam konteks bahasa daerah dengan sumber daya terbatas. NATURAL LANGUAGE PROCESSING - COMPUTER SCIENCE 006.35 ELECTRONIC THESES AND DISSERTATION Universitas Syiah Kuala 1712363 2026-02-25 11:26:51 2026-02-25 12:22:39 machine generated