Abstrak penelitian ini merupakan studi kuantitatif eksperimental yang bertujuan mengembangkan dan mengevaluasi kinerja model deep learning berbasis transformer untuk pengenalan wajah, menggunakan indonesian muslim student face dataset (imsfd) dengan subset 10 kelas. pendekatan dilakukan melalui integrasi arsitektur reformer ke dalam vision transformer (vit), membentuk model vision reformer (vir), yang dibandingkan dengan vit murni berdasarkan metrik akurasi, presisi, recall, dan f1-score. proses meliputi pra-pemrosesan data, perancangan arsitektur, pelatihan dan validasi model, evaluasi performa, serta visualisasi kurva pembelajaran. implementasi menggunakan python pada platform aws dengan menggunakan konfigurasi learning rate 0,001, 0,0001 dan google colab untuk evaluasi peforma. hasil pengujian menunjukkan bahwa model vir dengan learning rate 0,0001 memberikan performa terbaik dengan accuracy 0,9463, f1-score 0,9477, precision 0,9589, dan recall 0,9463, serta menunjukkan efisiensi waktu pelatihan sebesar 41.076 detik. sebaliknya, model vit memerlukan waktu pelatihan lebih lama 82.368 detik pada konfigurasi serupa, menghasilkan accuracy 0,9411, lebih rendah dari vir. selain itu, analisis penggunaan memori gpu menunjukkan bahwa model vir lebih efisien dibandingkan vit, khususnya pada konfigurasi batch size kecil. pada batch size besar (16 dan 32), vir tetap unggul dengan selisih penggunaan memori sebesar 78 mb dan 39 mb. selain itu, vir menunjukkan pola penggunaan memori yang stabil dan linear, mencerminkan konsistensi dalam pengelolaan sumber daya gpu. dengan demikian, model vision reformer terbukti mampu meningkatkan efisiensi waktu pelatihan dan penggunaan memori, serta mempertahankan performa akurasi tinggi, sehingga layak diterapkan dalam sistem pengenalan wajah berbasis deep learning di lingkungan pendidikan. kata kunci: pengenalan wajah, reformer, vision transformer, efisiensi memori, akurasi.
Electronic Theses and Dissertation
Universitas Syiah Kuala
THESES
MODEL VISION REFORMER UNTUK MENINGKATKAN EFESIENSI TRANSFORMER PADA PENGENALAN WAJAH. Banda Aceh Fakultas Teknik,2025
Baca Juga : RANCANG BANGUN PROTOTIPE PENGENALAN WAJAH UNTUK PENYANDANG TUNANETRA DENGAN OUTPUT SUARA MENGGUNAKAN METODE LBPH BERBASIS RASPBERRY PI 3 MODEL B (EKO WAHYUDI, 2019)
Abstract
ABSTRACT This study is a quantitative experimental research aimed at developing and evaluating the performance of a Transformer-based deep learning model for facial recognition, using the Indonesian Muslim Student Face Dataset (IMSFD) with a subset of 10 classes. The approach involves integrating the Reformer architecture into the Vision Transformer (ViT) framework, resulting in the Vision Reformer (ViR) model. ViR is compared against the standard ViT based on accuracy, precision, recall, and F1-score metrics. The process includes data preprocessing, architecture design, model training and validation, performance evaluation, and visualization of learning curves. The implementation was carried out using Python on the AWS platform with learning rates of 0,001, 0,0001 and performance evaluations were conducted on Google Colab. Experimental results show that the ViR model with a learning rate of 0,0001 achieved the best performance, with an accuracy of 0,9463, F1-score of 0,9477, precision of 0,9589, and recall of 0,9463. It also demonstrated training time efficiency, requiring only 41.076 seconds. In contrast, the ViT model took significantly longer 82.368 seconds under the same configuration and yielded a lower accuracy of 0,9411. Furthermore, GPU memory usage analysis indicated that the ViR model is more efficient than ViT, particularly with smaller batch sizes. Even at larger batch sizes (16 and 32), ViR maintained superiority with memory savings of 78 MB and 39 MB, respectively. Additionally, ViR exhibited a stable and linear memory usage pattern, reflecting consistent GPU resource management. In conclusion, the Vision Reformer model effectively enhances training time efficiency and memory utilization while maintaining high accuracy performance, making it a promising candidate for deep learning–based facial recognition systems in educational environments. Keywords: Facial Recognition, Reformer, Vision Transformer, Memory Efficiency, Accuracy.
Baca Juga : PEMANFAATAN SUPPORT VECTOR MACHINE (SVM) DALAM MENGENALI WAJAH DENGAN FITUR SURF DAN GLCM (Syamsul Bahri, 2019)