PERBANDINGAN PERFORMA ARSITEKTUR VISION TRANSFORMER (VIT) DAN HYBRID CNN-VIT UNTUK KLASIFIKASI CITRA WAJAH ANAK PENYANDANG AUTISM SPECTRUM DISORDER | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI

PERBANDINGAN PERFORMA ARSITEKTUR VISION TRANSFORMER (VIT) DAN HYBRID CNN-VIT UNTUK KLASIFIKASI CITRA WAJAH ANAK PENYANDANG AUTISM SPECTRUM DISORDER


Pengarang

Hadija Humaira - Personal Name;

Dosen Pembimbing

Nazaruddin - 197202061997021001 - Dosen Pembimbing I
Melinda - 197906102002122001 - Dosen Pembimbing II



Nomor Pokok Mahasiswa

2108107010084

Fakultas & Prodi

Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201

Subject
-
Kata Kunci
-
Penerbit

Banda Aceh : Fakultas mipa., 2025

Bahasa

No Classification

-

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Autism Spectrum Disorder (ASD) merupakan gangguan perkembangan yang berdampak pada kemampuan komunikasi dan interaksi sosial anak. Salah satu pendekatan yang mulai dikembangkan untuk mendeteksi autisme secara dini adalah melalui analisis citra wajah. Penelitian ini bertujuan untuk membandingkan kinerja dua arsitektur model deep learning, yaitu Vision Transformer (ViT) dan hybrid CNN-ViT, dalam mengklasifikasikan citra wajah autisme dan non autisme. Dataset yang digunakan terdiri dari 1.380 citra wajah anak, masing-masing 690 citra autisme dan 690 citra non autisme. Teknik augmentasi data diterapkan untuk meningkatkan keragaman data pelatihan, serta transfer learning digunakan dengan memanfaatkan model pre-trained dari ImageNet-21k. Evaluasi dilakukan menggunakan metrik evaluasi akurasi dan fungsi loss. Hasil menunjukkan bahwa ViTmencapaiakurasi pengujian tertinggi sebesar 97,5% dan loss sebesar 4,16%, akurasi ViT sedikit lebih tinggi dibandingkan hybrid CNN-ViT yang mencapai 88,41% dan loss sebesar 33,05%. Hasil ini mengindikasikan bahwa ViT memiliki keunggulan dalam klasifikasi citra wajah anak autisme, terutama dalam hal kestabilan akurasi saat pelatihan. Temuan ini menunjukkan bahwa dengan deep learning, khususnya ViT, memiliki potensi besar untuk dimanfaatkan dalam proses skrining awal autisme secara lebih objektif.

Autism Spectrum Disorder (ASD) merupakan gangguan perkembangan yang berdampak pada kemampuan komunikasi dan interaksi sosial anak. Salah satu pendekatan yang mulai dikembangkan untuk mendeteksi autisme secara dini adalah melalui analisis citra wajah. Penelitian ini bertujuan untuk membandingkan kinerja dua arsitektur model deep learning, yaitu Vision Transformer (ViT) dan hybrid CNN-ViT, dalam mengklasifikasikan citra wajah autisme dan non autisme. Dataset yang digunakan terdiri dari 1.380 citra wajah anak, masing-masing 690 citra autisme dan 690 citra non autisme. Teknik augmentasi data diterapkan untuk meningkatkan keragaman data pelatihan, serta transfer learning digunakan dengan memanfaatkan model pre-trained dari ImageNet-21k. Evaluasi dilakukan menggunakan metrik evaluasi akurasi dan fungsi loss. Hasil menunjukkan bahwa ViTmencapaiakurasi pengujian tertinggi sebesar 97,5% dan loss sebesar 4,16%, akurasi ViT sedikit lebih tinggi dibandingkan hybrid CNN-ViT yang mencapai 88,41% dan loss sebesar 33,05%. Hasil ini mengindikasikan bahwa ViT memiliki keunggulan dalam klasifikasi citra wajah anak autisme, terutama dalam hal kestabilan akurasi saat pelatihan. Temuan ini menunjukkan bahwa dengan deep learning, khususnya ViT, memiliki potensi besar untuk dimanfaatkan dalam proses skrining awal autisme secara lebih objektif. Autism Spectrum Disorder (ASD) is a developmental disorder that affects children’s communication and social interaction skills. One approach that has been developed to detect autism early is through facial image analysis. This study aims to compare the performance of two deep learning model architectures, namely Vision Transformer (ViT) and hybrid CNN-ViT, in classifying facial images of children with autism and non autism children. The dataset used consists of 1,380 facial images of children, 690 images of autism children and 690 images of non autism children respectively. Data augmentation techniques were applied to increase the diversity of the training data, and transfer learning was used by utilizing pre-trained models from ImageNet-21k. Evaluation was conducted using accuracy evaluation metrics and loss function. Results show that ViT achieved the highest testing accuracy of 97.5% and loss of 4,16%, ViT acccuracy slightly higher than hybrid CNN-ViT which achieved 88.41% and loss of 33,05%. These results indicate that ViT has advantages in the classification of facial images of children with autism, especially in terms of accuracy and stability during training. This finding shows that deep learning technology, especially ViT, has great potential to be utilized in the early screening process of autism and non autism more objectively.

Citation



    SERVICES DESK