PEMBANGKITAN TEKS DESKRIPTIF SECARA OTOMATIS PADA CITRA RADIOLOGI MENGGUNAKAN MODEL MEDCLIP DAN BIOBART | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI

PEMBANGKITAN TEKS DESKRIPTIF SECARA OTOMATIS PADA CITRA RADIOLOGI MENGGUNAKAN MODEL MEDCLIP DAN BIOBART


Pengarang

Alhusna Hanifah - Personal Name;

Dosen Pembimbing

Irvanizam - 198103152003121003 - Dosen Pembimbing I
Razief Perucha Fauzie Afidh - 198408062012121002 - Dosen Pembimbing I



Nomor Pokok Mahasiswa

2208107010060

Fakultas & Prodi

Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201

Subject
-
Kata Kunci
-
Penerbit

Banda Aceh : Fakultas MIPA - Informatika., 2026

Bahasa

No Classification

-

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Analisis citra radiologi merupakan proses penting dalam bidang medis yang memerlukan keahlian serta waktu analisis yang tidak sedikit. Seiring dengan perkembangan kecerdasan buatan, pendekatan image captioning dapat dimanfaatkan untuk membantu menghasilkan deskripsi otomatis dari citra radiologi. Penelitian ini bertujuan untuk mengembangkan model image captioning berbasis pretrained domain medis guna menghasilkan deskripsi teks dari citra radiologi secara otomatis. Model yang diusulkan mengintegrasikan MedCLIP sebagai visual encoder dengan BioBART sebagai text decoder dalam arsitektur encoder-decoder, sehingga memungkinkan pemanfaatan representasi visual dan linguistik yang telah dilatih pada domain medis. Selain itu, penelitian ini juga membandingkan performa model tersebut dengan pendekatan lain yang hanya memanfaatkan pretrained domain medis pada bagian encoder, yaitu MedCLIP-GPT2. Eksperimen dilakukan menggunakan dataset ROCOv2 yang berisi pasangan citra radiologi dan deskripsi medis. Proses pelatihan model MedCLIP-BioBART dilakukan dalam dua fase, yaitu pelatihan awal dengan sebagian parameter dibekukan untuk menjaga stabilitas representasi awal, diikuti dengan pelatihan seluruh parameter untuk meningkatkan kemampuan adaptasi model. Evaluasi performa dilakukan menggunakan metrik BLEU, BERTScore, dan CLIPScore untuk mengukur kesesuaian teks yang dihasilkan dengan referensi serta keselarasan antara citra dan teks. Hasil penelitian menunjukkan bahwa model MedCLIP-BioBART menghasilkan performa yang lebih baik dibandingkan model MedCLIP-GPT2 pada seluruh metrik evaluasi. Model MedCLIP-BioBART memperoleh nilai BLEU-1 sebesar 0.1425, F1-BERTScore sebesar 0.6448, dan CLIPScore sebesar 0.7801, yang menunjukkan kemampuan yang lebih baik dalam menghasilkan deskripsi yang relevan secara semantik serta selaras dengan informasi visual pada citra radiologi. Model terbaik selanjutnya diimplementasikan dalam prototipe berbasis web menggunakan FastAPI untuk menghasilkan deskripsi otomatis dari citra radiologi.

Radiological image analysis plays a crucial role in medical diagnosis and requires substantial expertise and time from medical professionals. Recent advances in artificial intelligence, particularly in image captioning, provide opportunities to automatically generate descriptive text from radiological images to support clinical documentation and medical education. This study proposes a medical domain-based image captioning approach to automatically generate descriptive captions for radiological images. The proposed model integrates MedCLIP as the visual encoder and BioBART as the text decoder within an encoder-decoder architecture, enabling the utilization of pretrained visual and linguistic representations trained on medical data. To evaluate the effectiveness of the proposed approach, the model is compared with an alternative architecture that utilizes a medical pretrained encoder combined with a general language model decoder, namely MedCLIP-GPT2. Experiments were conducted using the ROCOv2 dataset, which consists of radiological images paired with medical descriptions. MedCLIP-BioBART training process was performed in two stages: an initial stage with partially frozen parameters to preserve pretrained representations, followed by full-parameter training to enhance model adaptability. Model performance was evaluated using BLEU, BERTScore, and CLIPScore metrics. Experimental results demonstrate that the MedCLIP-BioBART model consistently outperforms the MedCLIP-GPT2 model across all evaluation metrics. The MedCLIP-BioBART model achieves a BLEU-1 score of 0.1425, an F1-BERTScore of 0.6448, and a CLIPScore of 0.7801, indicating better semantic relevance and stronger alignment between visual content and generated text. The best-performing model was further deployed in a web-based prototype using FastAPI to generate automatic descriptions from radiological images.

Citation



    SERVICES DESK