Analisis citra radiologi merupakan proses penting dalam bidang medis yang memerlukan keahlian serta waktu analisis yang tidak sedikit. seiring dengan perkembangan kecerdasan buatan, pendekatan image captioning dapat dimanfaatkan untuk membantu menghasilkan deskripsi otomatis dari citra radiologi. penelitian ini bertujuan untuk mengembangkan model image captioning berbasis pretrained domain medis guna menghasilkan deskripsi teks dari citra radiologi secara otomatis. model yang diusulkan mengintegrasikan medclip sebagai visual encoder dengan biobart sebagai text decoder dalam arsitektur encoder-decoder, sehingga memungkinkan pemanfaatan representasi visual dan linguistik yang telah dilatih pada domain medis. selain itu, penelitian ini juga membandingkan performa model tersebut dengan pendekatan lain yang hanya memanfaatkan pretrained domain medis pada bagian encoder, yaitu medclip-gpt2. eksperimen dilakukan menggunakan dataset rocov2 yang berisi pasangan citra radiologi dan deskripsi medis. proses pelatihan model medclip-biobart dilakukan dalam dua fase, yaitu pelatihan awal dengan sebagian parameter dibekukan untuk menjaga stabilitas representasi awal, diikuti dengan pelatihan seluruh parameter untuk meningkatkan kemampuan adaptasi model. evaluasi performa dilakukan menggunakan metrik bleu, bertscore, dan clipscore untuk mengukur kesesuaian teks yang dihasilkan dengan referensi serta keselarasan antara citra dan teks. hasil penelitian menunjukkan bahwa model medclip-biobart menghasilkan performa yang lebih baik dibandingkan model medclip-gpt2 pada seluruh metrik evaluasi. model medclip-biobart memperoleh nilai bleu-1 sebesar 0.1425, f1-bertscore sebesar 0.6448, dan clipscore sebesar 0.7801, yang menunjukkan kemampuan yang lebih baik dalam menghasilkan deskripsi yang relevan secara semantik serta selaras dengan informasi visual pada citra radiologi. model terbaik selanjutnya diimplementasikan dalam prototipe berbasis web menggunakan fastapi untuk menghasilkan deskripsi otomatis dari citra radiologi.
Electronic Theses and Dissertation
Universitas Syiah Kuala
SKRIPSI
PEMBANGKITAN TEKS DESKRIPTIF SECARA OTOMATIS PADA CITRA RADIOLOGI MENGGUNAKAN MODEL MEDCLIP DAN BIOBART. Banda Aceh Fakultas MIPA - Informatika,2026
Baca Juga : APLIKASI DISCRETE COSINE TRANSFORM (DCT) UNTUK PENCOCOKAN CITRA (IMAGE MATCHING) GRAYSCALE (INTAN FITRIANA, 2024)
Abstract
Radiological image analysis plays a crucial role in medical diagnosis and requires substantial expertise and time from medical professionals. Recent advances in artificial intelligence, particularly in image captioning, provide opportunities to automatically generate descriptive text from radiological images to support clinical documentation and medical education. This study proposes a medical domain-based image captioning approach to automatically generate descriptive captions for radiological images. The proposed model integrates MedCLIP as the visual encoder and BioBART as the text decoder within an encoder-decoder architecture, enabling the utilization of pretrained visual and linguistic representations trained on medical data. To evaluate the effectiveness of the proposed approach, the model is compared with an alternative architecture that utilizes a medical pretrained encoder combined with a general language model decoder, namely MedCLIP-GPT2. Experiments were conducted using the ROCOv2 dataset, which consists of radiological images paired with medical descriptions. MedCLIP-BioBART training process was performed in two stages: an initial stage with partially frozen parameters to preserve pretrained representations, followed by full-parameter training to enhance model adaptability. Model performance was evaluated using BLEU, BERTScore, and CLIPScore metrics. Experimental results demonstrate that the MedCLIP-BioBART model consistently outperforms the MedCLIP-GPT2 model across all evaluation metrics. The MedCLIP-BioBART model achieves a BLEU-1 score of 0.1425, an F1-BERTScore of 0.6448, and a CLIPScore of 0.7801, indicating better semantic relevance and stronger alignment between visual content and generated text. The best-performing model was further deployed in a web-based prototype using FastAPI to generate automatic descriptions from radiological images.
Baca Juga : STUDI PENGARUH TIME ECHO DAN TIME REPETITION TERHADAP SIGNAL TO NOISE RATIO PADA CITRA MAGNETIC RESONANCE IMAGING WHOLE SPINE (MUHAMMAD AL FURQAN, 2023)