PENERAPAN SHAP PADA KLASIFIKASI CATBOOST UNTUK IDENTIFIKASI VARIABEL PENCIRI KEJADIAN RUMAH TANGGA RAWAN PANGAN DI PROVINSI ACEH | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI

PENERAPAN SHAP PADA KLASIFIKASI CATBOOST UNTUK IDENTIFIKASI VARIABEL PENCIRI KEJADIAN RUMAH TANGGA RAWAN PANGAN DI PROVINSI ACEH


Pengarang

Ina Yatul Ulya - Personal Name;

Dosen Pembimbing

Muhammad Subianto - 196812111994031005 - Dosen Pembimbing I
Evi Ramadhani - 197309281998022001 - Dosen Pembimbing II



Nomor Pokok Mahasiswa

1908108010036

Fakultas & Prodi

Fakultas MIPA / Statistika (S1) / PDDIKTI : 49201

Subject
-
Kata Kunci
-
Penerbit

Banda Aceh : Fakultas MIPA (S1)., 2023

Bahasa

No Classification

-

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Klasifikasi dalam machine learning adalah proses untuk membangun model yang dapat membedakan antar kelas data. Model tersebut bertujuan untuk memprediksi kelas pada data testing yang belum diketahui berdasarkan pola atau hubungan yang dipelajari dari data training yang sudah memiliki label atau kategori sebelumnya. Terdapat beberapa algoritma pengolahan data yang dapat digunakan untuk membangun model klasifikasi. Salah satu diantaranya adalah algoritma Categorical Boosting (CatBoost) yang berguna untuk memprediksi dan mengklasifikasikan data yang memiliki variabel kategorik. Namun pada umumnya, model yang dihasilkan sulit dijelaskan, untuk memudahkan interpretasi dari model klasifikasi yang kompleks, diperlukan metode seperti Shapley Additive Explanations (SHAP). Pada penelitian ini, dilakukan analisis variabel penting SHAP pada model klasifikasi CatBoost untuk mengidentifikasi variabel penciri kejadian rumah tangga rawan pangan di Provinsi Aceh pada tahun 2021. Data yang digunakan dalam penelitian ini adalah data hasil Susenas Maret 2021 Provinsi Aceh bersumber dari Badan Pusat Statistik (BPS). Hasil dari empat model klasifikasi yang dievaluasi pada data testing, diketahui bahwa model terbaik adalah model yang dibangun dengan menggunakan teknik SMOTE pada 70% data serta hyperparameter learning_rate sebesar 0,717; max_depth sebesar 16, dan n_estimators sebesar 180. Model ini berhasil mencapai nilai akurasi, sensitivitas, spesifisitas, dan AUC berturut-turut sebesar 0,703; 0,349; 0,798; dan 0,637. Selanjutnya dilakukan analisis variabel penting SHAP pada model terbaik yang terpilih. Hasil analisis menunjukkan bahwa terdapat lima variabel yang memiliki nilai SHAP tertinggi yaitu variabel jumlah Anggota Rumah Tangga (ART) yang merokok (X_13), pendidikan tertinggi Kepala Rumah Tangga (KRT) (X_1), jenis dinding tempat tinggal (X_28), sumber utama air minum (X_32), dan sanitasi layak (X_34). Hal ini menandakan bahwa variabel-variabel tersebut memiliki kontribusi yang signifikan terhadap kejadian rumah tangga rawan pangan di Provinsi Aceh pada tahun 2021.

Classification in machine learning is the process of building models that can differentiate between classes of data. The model aims to predict classes on unknown testing data based on patterns or relationships learned from training data that already has labels or categories before. There are several data processing algorithms that can be used to build a classification model. One of them is the Categorical Boosting (CatBoost) algorithm which is useful for predicting and classifying data that has categorical variables. However, in general, the resulting models are difficult to explain, to facilitate the interpretation of complex classification models, methods such as Shapley Additive Explanations (SHAP) are needed. In this study, an analysis of the important variable SHAP was carried out in the CatBoost classification model to identify variables that characterize the occurrence of food insecure households in Aceh Province in 2021. The data used in this study are data from the March 2021 Susenas data for Aceh Province sourced from the Badan Pusat Statistik (BPS). The results of the four classification models evaluated on data testing show that the best model is the model built using the SMOTE technique at 70% of the data and the hyperparameter learning rate is 0.717; max depth is 16, and n estimators is 180. This model achieves accuracy, sensitivity, specificity, and AUC of 0.703; 0.349; 0.798; and 0.637, respectively. Furthermore, an analysis of the important SHAP variables was carried out on the best selected model. The results of the analysis show that there are five variables that have the highest SHAP values, namely the variable number of household members who smoke (X_13), education of household head (X_1), wall types (X_28), drinking water source (X_32), and decent sanitation (X_34). This indicates that these variables have a significant contribution to the incidence of food insecure households in Aceh Province in 2021.

Citation



    SERVICES DESK