PERBANDINGAN KINERJA ARSITEKTUR VGG19-LSTM DAN BLIP DALAM VISUAL QUESTION ANSWERING (VQA) PADA CITRA MEDIS

PERBANDINGAN KINERJA ARSITEKTUR VGG19-LSTM DAN BLIP DALAM VISUAL QUESTION ANSWERING (VQA) PADA CITRA MEDIS Abdul Hafidh Primary Author mixed material bibliography Banda Aceh Fakultas MIPA Informatika 2024 Visual Question Answering (VQA) merupakan tugas untuk menjawab pertanyaan berdasarkan gambar. Dalam dunia medis, VQA dapat membantu ahli kesehatan untuk mendapatkan informasi dari citra medis. Namun, citra medis memiliki tantangan tersendiri, seperti variasi pertanyaan yang kompleks dan tingkat keabstrakan yang tinggi, sehingga memerlukan model VQA yang dapat menangani hal tersebut. Penelitian ini melakukan eksperimen dengan dua model, yaitu VGG19-LSTM dan BLIP, dengan dataset PathVQA dan VQA-RAD. Model VGG19-LSTM menggabungkan Convolutional Neural Network (CNN) dengan Long Short-Term Memory (LSTM). BLIP adalah model terunifikasi untuk tugas vision-language yang menggunakan Vision Transformers (ViT) sebagai image encoder dan transformer sebagai text encoder. Hasil eksperimen menunjukkan keunggulan model BLIP dalam kedua dataset. BLIP yang dilatih dengan dataset PathVQA dengan konfigurasi hyperparameter 15 epochs, batch size 8, dan learning rate 1 x 10⁻⁵ setelah augmentasi pertanyaan mencapai akurasi 83,91%, akurasi pertanyaan close-ended 97,43%, dan akurasi pertanyaan open-ended 66,15%. Model BLIP yang dilatih dataset VQA-RAD dengan konfigurasi hyperparameter 45 epochs, batch size 8, dan learning rate 5 x 10⁻⁵ setelah augmentasi pertanyaan mencapai akurasi 82,86%, akurasi pertanyaan close-ended 87,85%, dan akurasi pertanyaan open-ended 76,82%. Pada tahap inferensi, model BLIP yang dikuantisasi menunjukkan performa yang lebih baik dibandingkan tanpa kuantisasi. Sebelum dilakukan kuantisasi, ukuran model BLIP adalah 1467,73 MB dengan waktu inferensi 0,24 detik pada dataset PathVQA, dan 1467,73 MB dengan waktu inferensi 0,21 detik pada dataset VQA-RAD. Setelah dilakukan kuantisasi, ukuran model BLIP menjadi 508,21 MB dengan waktu inferensi 0,20 detik pada dataset PathVQA, dan 508,20 MB dengan waktu inferensi 0,17 detik pada dataset VQA-RAD. 0 ELECTRONIC THESES AND DISSERTATION Universitas Syiah Kuala 124934 2024-07-12 18:35:43 2024-07-15 09:40:18 machine generated