Electronic Theses and Dissertation
Universitas Syiah Kuala
THESES
PENGEMBANGAN MODEL BERT DAN HIBRID UNTUK ANALISIS SENTIMEN DENGAN ACEHX FINE-TUNING DAN PENYESUAIAN TOKENIZER
Pengarang
Doni Sumito Sukiswo - Personal Name;
Dosen Pembimbing
Hammam Riza - 196208081987111001 - Dosen Pembimbing I
Muhammad Subianto - 196812111994031005 - Dosen Pembimbing II
Nomor Pokok Mahasiswa
2308207010008
Fakultas & Prodi
Fakultas MIPA / Magister Kecerdasan Buatan (S2) / PDDIKTI : 49302
Subject
Kata Kunci
Penerbit
Banda Aceh : Fakultas MIPA (S2)., 2026
Bahasa
No Classification
-
Literature Searching Service
Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)
Dalam era digital, analisis sentimen menjadi salah satu bidang penting dalam natural language processing (NLP). NLP untuk bahasa daerah di Indonesia masih sangat terbatas, termasuk untuk Bahasa Aceh yang memiliki kekayaan leksikal dan struktur morfologi yang unik. Salah satu tantangan utama dalam pengembangan analisis sentimen Bahasa Aceh adalah belum cukup tersedianya dataset yang representatif untuk tugas analisis sentimen. Selain itu, hingga saat ini belum tersedia model berbasis BERT dengan pendekatan Masked Language Modeling (MLM) yang dioptimalkan secara khusus untuk Bahasa Aceh. Model-model pralatih seperti IndoBERT masih mengandalkan data dari bahasa Indonesia dan belum sepenuhnya menangkap karakteristik linguistik Bahasa Aceh yang khas. Oleh karena itu, penelitian dalam makalah ini bertujuan untuk membangun sebuah dataset AcehX sentimen dalam Bahasa Aceh dan membangun model AcehXBERT dengan melakukan pre-training ulang model IndoBERT-base menggunakan MLM pada korpus AcehX untuk memperkuat pemahaman semantik dan kontekstual model terhadap Bahasa Aceh, mengkaji proses fine-tuning dalam menyelesaikan tugas klasifikasi sentimen pada teks Bahasa Aceh guna mengetahui sejauh mana pemahaman model terhadap konteks lokal dan performa klasifikasi sentimen. Hasil eksperimen pada dataset AcehX menggunakan data uji menunjukkan model AcehXBERT untuk klasifikasi sentimen berhasil mencapai F1-makro sebesar 82,50% dan model AcehXBERT+BiLSTM mencapai F1-makro 81,62% sedangkan untuk dataset NusaX menggunakan data uji, AcehXBERT mencapai F1-makro sebesar 81,89% dan AcehXBERT+BiLSTM mencapai F1-makro 82,29% mengungguli model dari NusaBERT. Penelitian ini menunjukkan bahwa pendekatan adaptif terhadap model pralatih dan tokenizer sangat penting dalam pengembangan NLP untuk bahasa daerah, khususnya dalam upaya mendukung pelestarian dan pemanfaatan Bahasa Aceh dalam teknologi modern.
In the digital era, sentiment analysis has become one of the key areas in natural language processing (NLP). NLP development for regional languages in Indonesia remains very limited, including for the Acehnese language which possesses rich lexical diversity and unique morphological structures. One of the main challenges in developing sentiment analysis for Acehnese is the lack of a representative dataset for sentiment analysis tasks. Moreover, there is currently no BERT-based model utilizing the Masked Language Modeling (MLM) approach that has been specifically optimized for the Acehnese language. Existing pretrained models such as IndoBERT still rely on Indonesian-language data and have yet to fully capture the distinctive linguistic characteristics of Acehnese. Therefore, this study aims to construct an AcehX Sentiment dataset in the Acehnese language and develop the AcehXBERT model by re-training the IndoBERT-base model using the MLM approach on the AcehX corpus. This aims to enhance the model’s semantic and contextual understanding of the Acehnese language. The study also investigates the fine-tuning process for sentiment classification tasks on Acehnese text to evaluate the model’s comprehension of local context and its sentiment classification performance. Experimental results on the AcehX dataset using test data show that the AcehXBERT model for sentiment classification successfully achieved an F1-macro of 82.50% and the AcehXBERT+BiLSTM model achieved an F1-macro of 81.62% while for the NusaX dataset using test data, AcehXBERT achieved an F1-macro of 81.89% and AcehXBERT+BiLSTM achieved an F1-macro of 82.29% outperforming the model from NusaBERT. This study shows that an adaptive approach to pre-trained models and tokenizers is very important in the development of NLP for regional languages, especially in efforts to support the preservation and utilization of the Acehnese language in modern technology.
PENGEMBANGAN SISTEM CERDAS ANALISIS SENTIMEN ARTIKEL BERITA DAN MEDIA SOSIAL X MENGGUNAKAN ALGORITMA INDOBERT DAN ROBERTA (, 2025)
EVALUASI KINERJA ENCODER DARI MODEL NO LANGUAGE LEFT BEHIND UNTUK KLASIFIKASI TEKS SENTIMEN DALAM BEBERAPA BAHASA DAERAH DI INDONESIA (Zul Akhyar, 2026)
MODEL HYBRID TRANSFORMER-RNN UNTUK KLASIFIKASI TEKS BAHASA DAERAH (Muhammad Fadhil Al Amal, 2025)
PENERAPAN COMPUTER VISION UNTUK KLASIFIKASI GAMBAR TANAMAN HERBAL DI ACEH MENGGUNAKAN RESNET50V2 (Putri Ulfayani, 2025)
PENGEMBANGAN LARGE LANGUAGE MODEL UNTUK MENJAWAB PERTANYAAN TERKAIT AKADEMIK DI UNIVERSITAS SYIAH KUALA DENGAN METODE FINE-TUNING DAN RETRIEVAL-AUGMENTED GENERATION (Hary Rachmat, 2024)