Electronic Theses and Dissertation

Universitas Syiah Kuala

THESES

PENGEMBANGAN MODEL BERT DAN HIBRID UNTUK ANALISIS SENTIMEN DENGAN ACEHX FINE-TUNING DAN PENYESUAIAN TOKENIZER

Pengarang

Doni Sumito Sukiswo - Personal Name;

Dosen Pembimbing

Hammam Riza - 196208081987111001 - Dosen Pembimbing I
Muhammad Subianto - 196812111994031005 - Dosen Pembimbing II

Nomor Pokok Mahasiswa

2308207010008

Fakultas & Prodi

Fakultas MIPA / Magister Kecerdasan Buatan (S2) / PDDIKTI : 49302

Subject

Kata Kunci

Penerbit

Banda Aceh : Fakultas MIPA (S2)., 2026

Bahasa

No Classification

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Dalam era digital, analisis sentimen menjadi salah satu bidang penting dalam natural language processing (NLP). NLP untuk bahasa daerah di Indonesia masih sangat terbatas, termasuk untuk Bahasa Aceh yang memiliki kekayaan leksikal dan struktur morfologi yang unik. Salah satu tantangan utama dalam pengembangan analisis sentimen Bahasa Aceh adalah belum cukup tersedianya dataset yang representatif untuk tugas analisis sentimen. Selain itu, hingga saat ini belum tersedia model berbasis BERT dengan pendekatan Masked Language Modeling (MLM) yang dioptimalkan secara khusus untuk Bahasa Aceh. Model-model pralatih seperti IndoBERT masih mengandalkan data dari bahasa Indonesia dan belum sepenuhnya menangkap karakteristik linguistik Bahasa Aceh yang khas. Oleh karena itu, penelitian dalam makalah ini bertujuan untuk membangun sebuah dataset AcehX sentimen dalam Bahasa Aceh dan membangun model AcehXBERT dengan melakukan pre-training ulang model IndoBERT-base menggunakan MLM pada korpus AcehX untuk memperkuat pemahaman semantik dan kontekstual model terhadap Bahasa Aceh, mengkaji proses fine-tuning dalam menyelesaikan tugas klasifikasi sentimen pada teks Bahasa Aceh guna mengetahui sejauh mana pemahaman model terhadap konteks lokal dan performa klasifikasi sentimen. Hasil eksperimen pada dataset AcehX menggunakan data uji menunjukkan model AcehXBERT untuk klasifikasi sentimen berhasil mencapai F1-makro sebesar 82,50% dan model AcehXBERT+BiLSTM mencapai F1-makro 81,62% sedangkan untuk dataset NusaX menggunakan data uji, AcehXBERT mencapai F1-makro sebesar 81,89% dan AcehXBERT+BiLSTM mencapai F1-makro 82,29% mengungguli model dari NusaBERT. Penelitian ini menunjukkan bahwa pendekatan adaptif terhadap model pralatih dan tokenizer sangat penting dalam pengembangan NLP untuk bahasa daerah, khususnya dalam upaya mendukung pelestarian dan pemanfaatan Bahasa Aceh dalam teknologi modern.

Abstrak Inggris

In the digital era, sentiment analysis has become one of the key areas in natural language processing (NLP). NLP development for regional languages in Indonesia remains very limited, including for the Acehnese language which possesses rich lexical diversity and unique morphological structures. One of the main challenges in developing sentiment analysis for Acehnese is the lack of a representative dataset for sentiment analysis tasks. Moreover, there is currently no BERT-based model utilizing the Masked Language Modeling (MLM) approach that has been specifically optimized for the Acehnese language. Existing pretrained models such as IndoBERT still rely on Indonesian-language data and have yet to fully capture the distinctive linguistic characteristics of Acehnese. Therefore, this study aims to construct an AcehX Sentiment dataset in the Acehnese language and develop the AcehXBERT model by re-training the IndoBERT-base model using the MLM approach on the AcehX corpus. This aims to enhance the model’s semantic and contextual understanding of the Acehnese language. The study also investigates the fine-tuning process for sentiment classification tasks on Acehnese text to evaluate the model’s comprehension of local context and its sentiment classification performance. Experimental results on the AcehX dataset using test data show that the AcehXBERT model for sentiment classification successfully achieved an F1-macro of 82.50% and the AcehXBERT+BiLSTM model achieved an F1-macro of 81.62% while for the NusaX dataset using test data, AcehXBERT achieved an F1-macro of 81.89% and AcehXBERT+BiLSTM achieved an F1-macro of 82.29% outperforming the model from NusaBERT. This study shows that an adaptive approach to pre-trained models and tokenizers is very important in the development of NLP for regional languages, especially in efforts to support the preservation and utilization of the Acehnese language in modern technology.

Tulisan Relevan

LC-BERT: IMPLEMENTASI REDUKSI DIMENSI PADA VEKTOR WORD EMBEDDING YANG DIHASILKAN OLEH BIDIRECTIONAL ENCODER REPRESENTATIONS FROM TRANSFORMERS (BERT) (Andri Darnius, 2024)

ANALISIS SENTIMEN TERHADAP APLIKASI BELAJAR ONLINE BERDASARKAN DATA ULASAN APLIKASI PLAY STORE (Muhammad Rizky Hidayah Akbar, 2025)

PENGEMBANGAN SISTEM CERDAS ANALISIS SENTIMEN ARTIKEL BERITA DAN MEDIA SOSIAL X MENGGUNAKAN ALGORITMA INDOBERT DAN ROBERTA (, 2025)

IMPLEMENTASI ROBERTA DAN INDOBERT DALAM ANALISIS SENTIMEN ISU PERKEMBANGAN EKONOMI INDONESIA DARI PLATFORM X DAN ARTIKEL BERITA ONLINE (Yoan Rifqi Candra, 2024)

MODEL PEMAHAMAN BAHASA INDONESIA BERBASIS TRANSFORMERS (Hendri Ahmadian, 2025)

APA Citation Style

Sukiswo, Doni Sumito .(2026). PENGEMBANGAN MODEL BERT DAN HIBRID UNTUK ANALISIS SENTIMEN DENGAN ACEHX FINE-TUNING DAN PENYESUAIAN TOKENIZER. Banda Aceh: Fakultas MIPA (S2).

Chicago/Turabian Citation Style

Sukiswo, Doni Sumito . PENGEMBANGAN MODEL BERT DAN HIBRID UNTUK ANALISIS SENTIMEN DENGAN ACEHX FINE-TUNING DAN PENYESUAIAN TOKENIZER. Banda Aceh: Fakultas MIPA (S2), 2026.

MLA Citation Style

Sukiswo, Doni Sumito . PENGEMBANGAN MODEL BERT DAN HIBRID UNTUK ANALISIS SENTIMEN DENGAN ACEHX FINE-TUNING DAN PENYESUAIAN TOKENIZER. Banda Aceh: Fakultas MIPA (S2), 2026. Print