Electronic Theses and Dissertation
Universitas Syiah Kuala
SKRIPSI
PERBANDINGAN KINERJA ARSITEKTUR VGG19-LSTM DAN BLIP DALAM VISUAL QUESTION ANSWERING (VQA) PADA CITRA MEDIS
Pengarang
Abdul Hafidh - Personal Name;
Dosen Pembimbing
Alim Misbullah - 198806032019031011 - Dosen Pembimbing I
Laina Farsiah - 198902032022032004 - Dosen Pembimbing II
Nomor Pokok Mahasiswa
2008107010056
Fakultas & Prodi
Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201
Subject
Kata Kunci
Penerbit
Banda Aceh : Fakultas MIPA Informatika., 2024
Bahasa
No Classification
-
Literature Searching Service
Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)
Visual Question Answering (VQA) merupakan tugas untuk menjawab pertanyaan berdasarkan gambar. Dalam dunia medis, VQA dapat membantu ahli kesehatan untuk mendapatkan informasi dari citra medis. Namun, citra medis memiliki tantangan tersendiri, seperti variasi pertanyaan yang kompleks dan tingkat keabstrakan yang tinggi, sehingga memerlukan model VQA yang dapat menangani hal tersebut. Penelitian ini melakukan eksperimen dengan dua model, yaitu VGG19-LSTM dan BLIP, dengan dataset PathVQA dan VQA-RAD. Model VGG19-LSTM menggabungkan Convolutional Neural Network (CNN) dengan Long Short-Term Memory (LSTM). BLIP adalah model terunifikasi untuk tugas vision-language yang menggunakan Vision Transformers (ViT) sebagai image encoder dan transformer sebagai text encoder. Hasil eksperimen menunjukkan keunggulan model BLIP dalam kedua dataset. BLIP yang dilatih dengan dataset PathVQA dengan konfigurasi hyperparameter 15 epochs, batch size 8, dan learning rate 1 x 10⁻⁵ setelah augmentasi pertanyaan mencapai akurasi 83,91%, akurasi pertanyaan close-ended 97,43%, dan akurasi pertanyaan open-ended 66,15%. Model BLIP yang dilatih dataset VQA-RAD dengan konfigurasi hyperparameter 45 epochs, batch size 8, dan learning rate 5 x 10⁻⁵ setelah augmentasi pertanyaan mencapai akurasi 82,86%, akurasi pertanyaan close-ended 87,85%, dan akurasi pertanyaan open-ended 76,82%. Pada tahap inferensi, model BLIP yang dikuantisasi menunjukkan performa yang lebih baik dibandingkan tanpa kuantisasi. Sebelum dilakukan kuantisasi, ukuran model BLIP adalah 1467,73 MB dengan waktu inferensi 0,24 detik pada dataset PathVQA, dan 1467,73 MB dengan waktu inferensi 0,21 detik pada dataset VQA-RAD. Setelah dilakukan kuantisasi, ukuran model BLIP menjadi 508,21 MB dengan waktu inferensi 0,20 detik pada dataset PathVQA, dan 508,20 MB dengan waktu inferensi 0,17 detik pada dataset VQA-RAD.
Visual Question Answering (VQA) is a task to answer questions based on images. In the medical world, VQA can help health experts to get information from medical images. However, medical images have their own challenges such as complex question variations and high levels of abstraction. Thus, it requires a VQA model that can handle these challenges. This research conducts experiments with two models, VGG19-LSTM and BLIP with PathVQA and VQA-RAD datasets. The VGG19-LSTM model combines Convolutional Neural Network (CNN) with Long Short-Term Memory (LSTM). BLIP is a unified model for vision-language tasks that uses Vision Transformers (ViT) as image encoders and transformers as text encoders. The experimental results show the superiority of the BLIP model in both datasets. BLIP trained with the PathVQA dataset with hyperparameter configuration of 15 epochs, batch size 8, and learning rate 1 x 10⁻⁵ after question augmentation achieves an accuracy of 83.91%, close-ended question accuracy of 97.43%, and open-ended question accuracy of 66.15%. After that, the BLIP model trained with the VQA-RAD dataset with hyperparameter configuration of 45 epochs, batch size 8, and learning rate 5 x 10⁻⁵ after question augmentation achieves an accuracy of 82.86%, close-ended question accuracy of 87.85%, and open-ended question accuracy of 76.82%. In the inference stage, the quantized BLIP model shows better performance than without quantization. Before quantization, the size of the BLIP model is 1467.73 MB with an inference time of 0.24 seconds on the PathVQA dataset, and 1467.73 MB with an inference time of 0.21 seconds on the VQA-RAD dataset. After quantization, the size of the BLIP model becomes 508.21 MB with an inference time of 0.20 seconds on the PathVQA dataset, and 508.20 MB with an inference time of 0.17 seconds on the VQA-RAD dataset.
METODE DETEKSI STUNTING MELALUI CITRA WAJAH ANAK MENGGUNAKAN CONVOLUTIONAL NEURAL NETWORK (CNN) (Yunidar, 2025)
DETEKSI TUBERKULOSIS MELALUI KLASIFIKASI CITRA X-RAY MENGGUNAKAN CONVOLUTIONAL NEURAL NETWORK (, 2023)
ANALYZING STUDENTS’ DIFFICULTIES IN READING COMPREHENSION TEST(A STUDY AT SMA NEGERI 2 LHOKSEUMAWE) (Zuhra, 2014)
PERBANDINGAN PERFORMA ARSITEKTUR LONG SHORT-TERM MEMORY (LSTM) DAN GATED RECURRENT UNIT (GRU) DALAM PREDIKSI CURAH HUJAN DI KECAMATAN INDRAPURI (Niswah Nasyithah, 2026)
PERBANDINGAN PERFORMA DALAM SEGMENTASI CITRA MAGNETIC RESONANCE IMAGING (MRI) TUMOR OTAK MENGGUNAKAN ARSITEKTUR U-NET DAN RES-UNET (Waliam Mursyida, 2023)