Tuberkulosis (tb) terus menjadi ancaman kesehatan global yang signifikan, sehingga memerlukan metode diagnosis yang cepat, akurat, dan mudah diinterpretasikan. penelitian ini mengajukan sebuah kerangka kerja deep learning multimodal yang berlandaskan praktik klinis dengan menggabungkan data citra rontgen dada (cxr) dan rekaman suara paru untuk mendeteksi tb. untuk mengatasi ketiadaan dataset tersinkronisasi, dikembangkan mekanisme lesion-guided smart data pairing yang memanfaatkan pelokalan lesi berbasis yolov8 guna mencocokkan data visual dan akustik secara relevan terhadap posisi anatominya. dataset hasil pemetaan terdiri dari 450 citra cxr dan 2.700 rekaman suara paru, yang diproses menggunakan arsitektur dua cabang: encoder resnet50 untuk ekstraksi fitur visual dan crnn untuk representasi akustik. keluaran probabilistik keduanya digabungkan melalui strategi weighted average fusion, dengan bobot optimal w_cxr=0.51 dan w_audio=0.49 yang ditentukan berdasarkan nilai auc hasil validasi unimodal. hasil eksperimen menunjukkan bahwa kerangka yang diusulkan memberikan kinerja lebih baik (accuracy = 0.92, auc = 0.983) dibandingkan model unimodal cxr (accuracy=0.90, auc= 0.95) dan (accuracy=0.73, auc = 0.81). studi ini menawarkan pendekatan multimodal yang efisien terhadap data dan selaras dengan konteks fisiologis untuk skrining tb, sekaligus menjadi landasan bagi pengembangan sistem diagnosis berbantuan ai yang dapat diterapkan secara klinis. kata kunci: tuberkulosis, multimodal deep learning, smart data pairing, late fusion, yolov8
Electronic Theses and Dissertation
Universitas Syiah Kuala
THESES
DETEKSI PENYAKIT PARU MENGGUNAKAN METODE SMART DATA PAIRING DAN DECISION FUSION UNTUK INTEGRASI CITRA X-RAY DAN SUARA PARU. Banda Aceh FAKULTAS TEKNIK UNIVERSITAS SYIAH KUALA,2026
Baca Juga : PENERAPAN SHORT TIME FOURIER TRANSFORM (STFT) DAN CONVOLUTIONAL NEURAL NETWORK (CNN) UNTUK KLASIFIKASI SUARA PARU-PARU (M.HAFIZ ANWAR, 2024)
Abstract
Tuberculosis (TB) remains a significant global health threat, necessitating diagnostic methods that are fast, accurate, and clinically interpretable. This study proposes a clinically grounded multimodal deep learning framework that integrates chest X-ray (CXR) images and lung sound recordings for TB detection. To address the absence of synchronized multimodal datasets, a Lesion-Guided Smart Data Pairing mechanism is developed, leveraging YOLOv8-based lesion localization to anatomically align visual and acoustic data. The resulting paired dataset comprises 450 CXR images and 2,700 lung sound recordings, which are processed using a dual-branch architecture: a ResNet50 encoder for visual feature extraction and a CRNN for acoustic representation learning. The probabilistic outputs from both branches are fused using a Weighted Average Fusion strategy, with optimal weights of W_cxr=0.51 and W_audio=0.49 , derived from unimodal validation AUC values. Experimental results demonstrate that the proposed framework outperforms unimodal CXR (Accuracy = 0.90, AUC = 0.95) and audio-only models (Accuracy = 0.73, AUC = 0.81), achieving an overall performance of Accuracy = 0.92 and AUC = 0.983. This study presents a data-efficient and physiologically aligned multimodal approach for TB screening, providing a solid foundation for the development of clinically deployable AI-assisted diagnostic systems. Keyword: Tuberculosis, Multimodal Deep Learning, Smart Data Pairing, Late Fusion, YOLOv8
Baca Juga : GAMBARAN KARAKTERISTIK KLINIS DAN FOTO TORAKS PADA KELOMPOK PASIEN PENYAKIT PARU KRONIK BERISIKO MIKOSIS PARU (Nasywa Lubna Azzahra, 2026)