Electronic Theses and Dissertation

Universitas Syiah Kuala

THESES

INTEGRASI INDOBERT DAN FITUR MACHINE LEARNING UNTUK MENINGKATKAN KINERJA PENGENALAN KETERKAITAN TEKSTUAL DALAM BAHASA INDONESIA

Pengarang

Teuku Yusransyah Tandi - Personal Name;

Dosen Pembimbing

Taufik Fuadi Abidin - 197010081994031002 - Dosen Pembimbing I
Hammam Riza - 196208081987111001 - Dosen Pembimbing II

Nomor Pokok Mahasiswa

2108207010002

Fakultas & Prodi

Fakultas MIPA / Magister Kecerdasan Buatan (S2) / PDDIKTI : 49302

Subject

Kata Kunci

Penerbit

Banda Aceh : Fakultas MIPA Informatika Magister Kecerdasan Buatan., 2024

Bahasa

No Classification

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Penelitian ini bertujuan untuk mengembangkan sebuah model Recognizing Textual Entailment (RTE) dalam bahasa Indonesia yang dinamakan Hybrid-IndoBERT-RTE. Model ini dirancang untuk menangani tantangan dalam pengenalan keterkaitan tekstual, yang merupakan tugas penting dalam pemrosesan bahasa alami atau Natural Language Processing (NLP). Arsitektur Hybrid-IndoBERT-RTE dibangun dengan melakukan modifikasi pada IndoBERT-large-p1, sebuah model bahasa yang telah terbukti efektif dalam berbagai tugas NLP bahasa Indonesia. Dalam modifikasi ini, vektor output yang dihasilkan dari IndoBERT-large-p1 digabungkan dengan fitur machine learning dari klasifikasi feature rich, yang memungkinkan model untuk menangkap informasi lebih kaya dan mendalam. Bagian classification head dari model ini terdiri dari 1 input layer, 3 hidden layer, 1 dropout layer, dan 1 output layer, yang didesain untuk meningkatkan performa prediksi model. Untuk menguji performa model, penelitian ini menggunakan dataset Wiki Revisions Edits Textual Entailment (WRETE), yang terdiri dari 450 data yang terdiri dari 300 data digunakan untuk pelatihan, 50 data untuk validasi, dan 100 data untuk pengujian. Hasil eksperimen menunjukkan bahwa Hybrid-IndoBERT-RTE mampu mencapai nilai F1-score sebesar 85%, yang menandakan bahwa model ini memiliki kemampuan yang baik dalam mengenali keterkaitan tekstual dalam bahasa Indonesia. Selain performa yang baik, model Hybrid-IndoBERT-RTE juga menunjukkan efisiensi dalam penggunaan sumber daya komputasi. Selama proses pelatihan, model ini menggunakan rata-rata sumber daya Video Random Access Memory Graphics Processing Unit (VRAM GPU) 4,2 kali lebih efisien dibandingkan dengan IndoBERT-large-p1 yang digunakan dalam penelitian IndoNLU sebelumnya. Tidak hanya itu, waktu pelatihan model ini juga 44,44 kali lebih cepat, yang memungkinkan proses eksperimen dilakukan dengan lebih cepat dan dalam iterasi yang lebih banyak. Efisiensi ini sangat penting dalam konteks pengembangan model RTE, di mana penghematan sumber daya komputasi dan waktu pelatihan dapat mempercepat inovasi dan aplikasi lebih lanjut.

Abstrak Inggris

This research aims to develop a Recognizing Textual Entailment (RTE) model in the Indonesian language, named Hybrid-IndoBERT-RTE. The model is designed to address challenges in recognizing textual entailment, which is a critical task in Natural Language Processing (NLP). The architecture of Hybrid-IndoBERT-RTE is built by modifying IndoBERT-large-p1, a language model that has proven effective in various NLP tasks in the Indonesian language. In this modification, the output vectors generated by IndoBERT-large-p1 are combined with machine learning features from a feature rich classifiers, enabling the model to capture richer and deeper information. The classification head of this model consists of 1 input layer, 3 hidden layers, 1 dropout layer, and 1 output layer, which are designed to enhance the model's predictive performance. To test the model's performance, this research uses the Wiki Revisions Edits Textual Entailment (WRETE) dataset, which consists of 450 data samples, with 300 data samples used for training, 50 for validation, and 100 for testing. Experimental results show that Hybrid-IndoBERT-RTE achieved an F1-score of 85%, indicating that the model has a strong capability in recognizing textual entailment in Indonesian. In addition to good performance, the Hybrid-IndoBERT-RTE model also demonstrates efficiency in computational resource usage. During the training process, this model utilized Video Random Access Memory Graphics Processing Unit (VRAM GPU) resources 4.2 times more efficiently on average compared to IndoBERT-large-p1 used in previous IndoNLU research. Moreover, the training time of this model is 44.44 times faster, allowing for quicker experimentation and more iterations. This efficiency is crucial in the context of RTE model development, where saving computational resources and training time can accelerate innovation and further applications.

Tulisan Relevan

MODEL PEMAHAMAN BAHASA INDONESIA BERBASIS TRANSFORMERS (Hendri Ahmadian, 2025)

PERBANDINGAN METODE SVM, NAIVE BAYES DAN INDOBERT DALAM MENDETEKSI UJARAN KEBENCIAN MENGGUNAKAN DATASET MULTI-LABEL BERBAHASA INDONESIA (Ricky Bagestra, 2024)

TEKNIK EKSTRAKSI HISTOGRAM OF ORIENTED GRADIENT (HOG) UNTUK PENINGKATAN AKURASI PADA KLASIFIKASI EKSPRESI WAJAH BERBASIS SUPPORT VECTOR MACHINE. (Luthfiar Ramiady, 2023)

PERBANDINGAN ALGORITMA MACHINE LEARNING DALAM MENENTUKAN PERFORMA PENGGUNA PADA APLIKASI LARI JAVA (Arif Munandar, 2021)

PENERAPAN ARTIFICIAL NEURAL NETWORK UNTUK MENERJEMAHKAN BAHASA ISYARAT INDONESIA (BISINDO) DENGAN METODE BACKPROPAGATION (IVAN HORATIUS, 2022)

APA Citation Style

Tandi, Teuku Yusransyah .(2024). INTEGRASI INDOBERT DAN FITUR MACHINE LEARNING UNTUK MENINGKATKAN KINERJA PENGENALAN KETERKAITAN TEKSTUAL DALAM BAHASA INDONESIA. Banda Aceh: Fakultas MIPA Informatika Magister Kecerdasan Buatan.

Chicago/Turabian Citation Style

Tandi, Teuku Yusransyah . INTEGRASI INDOBERT DAN FITUR MACHINE LEARNING UNTUK MENINGKATKAN KINERJA PENGENALAN KETERKAITAN TEKSTUAL DALAM BAHASA INDONESIA. Banda Aceh: Fakultas MIPA Informatika Magister Kecerdasan Buatan, 2024.

MLA Citation Style