PERBANDINGAN KINERJA ARSITEKTUR VGG19-LSTM DAN BLIP DALAM VISUAL QUESTION ANSWERING (VQA) PADA CITRA MEDIS | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI

PERBANDINGAN KINERJA ARSITEKTUR VGG19-LSTM DAN BLIP DALAM VISUAL QUESTION ANSWERING (VQA) PADA CITRA MEDIS


Pengarang

Abdul Hafidh - Personal Name;

Dosen Pembimbing

Alim Misbullah - 198806032019031011 - Dosen Pembimbing I
Laina Farsiah - 198902032022032004 - Dosen Pembimbing II



Nomor Pokok Mahasiswa

2008107010056

Fakultas & Prodi

Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201

Subject
-
Kata Kunci
-
Penerbit

Banda Aceh : Fakultas MIPA Informatika., 2024

Bahasa

No Classification

-

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Visual Question Answering (VQA) merupakan tugas untuk menjawab pertanyaan berdasarkan gambar. Dalam dunia medis, VQA dapat membantu ahli kesehatan untuk mendapatkan informasi dari citra medis. Namun, citra medis memiliki tantangan tersendiri, seperti variasi pertanyaan yang kompleks dan tingkat keabstrakan yang tinggi, sehingga memerlukan model VQA yang dapat menangani hal tersebut. Penelitian ini melakukan eksperimen dengan dua model, yaitu VGG19-LSTM dan BLIP, dengan dataset PathVQA dan VQA-RAD. Model VGG19-LSTM menggabungkan Convolutional Neural Network (CNN) dengan Long Short-Term Memory (LSTM). BLIP adalah model terunifikasi untuk tugas vision-language yang menggunakan Vision Transformers (ViT) sebagai image encoder dan transformer sebagai text encoder. Hasil eksperimen menunjukkan keunggulan model BLIP dalam kedua dataset. BLIP yang dilatih dengan dataset PathVQA dengan konfigurasi hyperparameter 15 epochs, batch size 8, dan learning rate 1 x 10⁻⁵ setelah augmentasi pertanyaan mencapai akurasi 83,91%, akurasi pertanyaan close-ended 97,43%, dan akurasi pertanyaan open-ended 66,15%. Model BLIP yang dilatih dataset VQA-RAD dengan konfigurasi hyperparameter 45 epochs, batch size 8, dan learning rate 5 x 10⁻⁵ setelah augmentasi pertanyaan mencapai akurasi 82,86%, akurasi pertanyaan close-ended 87,85%, dan akurasi pertanyaan open-ended 76,82%. Pada tahap inferensi, model BLIP yang dikuantisasi menunjukkan performa yang lebih baik dibandingkan tanpa kuantisasi. Sebelum dilakukan kuantisasi, ukuran model BLIP adalah 1467,73 MB dengan waktu inferensi 0,24 detik pada dataset PathVQA, dan 1467,73 MB dengan waktu inferensi 0,21 detik pada dataset VQA-RAD. Setelah dilakukan kuantisasi, ukuran model BLIP menjadi 508,21 MB dengan waktu inferensi 0,20 detik pada dataset PathVQA, dan 508,20 MB dengan waktu inferensi 0,17 detik pada dataset VQA-RAD.

Visual Question Answering (VQA) is a task to answer questions based on images. In the medical world, VQA can help health experts to get information from medical images. However, medical images have their own challenges such as complex question variations and high levels of abstraction. Thus, it requires a VQA model that can handle these challenges. This research conducts experiments with two models, VGG19-LSTM and BLIP with PathVQA and VQA-RAD datasets. The VGG19-LSTM model combines Convolutional Neural Network (CNN) with Long Short-Term Memory (LSTM). BLIP is a unified model for vision-language tasks that uses Vision Transformers (ViT) as image encoders and transformers as text encoders. The experimental results show the superiority of the BLIP model in both datasets. BLIP trained with the PathVQA dataset with hyperparameter configuration of 15 epochs, batch size 8, and learning rate 1 x 10⁻⁵ after question augmentation achieves an accuracy of 83.91%, close-ended question accuracy of 97.43%, and open-ended question accuracy of 66.15%. After that, the BLIP model trained with the VQA-RAD dataset with hyperparameter configuration of 45 epochs, batch size 8, and learning rate 5 x 10⁻⁵ after question augmentation achieves an accuracy of 82.86%, close-ended question accuracy of 87.85%, and open-ended question accuracy of 76.82%. In the inference stage, the quantized BLIP model shows better performance than without quantization. Before quantization, the size of the BLIP model is 1467.73 MB with an inference time of 0.24 seconds on the PathVQA dataset, and 1467.73 MB with an inference time of 0.21 seconds on the VQA-RAD dataset. After quantization, the size of the BLIP model becomes 508.21 MB with an inference time of 0.20 seconds on the PathVQA dataset, and 508.20 MB with an inference time of 0.17 seconds on the VQA-RAD dataset.

Citation



    SERVICES DESK