Universitas Syiah Kuala | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI
Irma Sulastri, PERBANDINGAN PERFORMA METODE-METODE IMPUTASI DALAM MENGATASI DATA HILANG PADA BERBAGAI KARAKTERISTIK DATA DERET WAKTU. Banda Aceh Fakultas mipa,2024

Data hilang merupakan masalah penting dalam analisis data deret waktu. adanya data hilang menyebabkan ketidaklengkapan urutan dari data deret waktu sehingga diperlukan proses imputasi data untuk mengatasi masalah ini. setiap metode imputasi tidak dapat memberikan performa terbaik pada semua jenis data deret waktu, oleh karena itu dilakukan perbandingan delapan metode imputasi yaitu interpolasi linier, interpolasi spline, interpolasi stine, kalman smoothing pada structural time series model, kalman smoothing pada arima, simple moving average, linear weighted moving average, dan exponentially weighted moving average. perbandingan ini dilakukan pada tiga jenis dataset deret waktu yaitu data tingkat inflasi bulanan indonesia tahun 2014-2023, data jumlah kasus positif mingguan covid-19 di indonesia tahun 2020-2023, dan data nilai tukar harian mata uang rupiah terhadap dolar as tahun 2020-2023. metrik kesalahan yang digunakan untuk evaluasi adalah rmse, wape, dan mae dengan tujuan untuk menentukan metode terbaik berdasarkan kombinasi jumlah data, karakteristik dataset, dan proporsi data hilang. hasil penelitian menunjukkan bahwa pada dataset tingkat inflasi bulanan indonesia dari tahun 2014-2023 yang memiliki karakteristik jangkauan data kecil dan jumlah data yang sedikit, metode kalman arima memberikan hasil terbaik untuk setiap proporsi data hilang mulai dari 5% hingga 25%. untuk dataset jumlah kasus positif mingguan covid-19 di indonesia dari tahun 2020-2023 yang memiliki karakteristik jangkauan data besar dan jumlah data yang sedikit lebih banyak dari t1 maka metode interpolasi stine menghasilkan performa terbaik pada proporsi data hilang 5% dan 10%, sedangkan interpolasi spline memberikan hasil terbaik pada proporsi data hilang 15%, 20%, dan 25%. terakhir, pada dataset nilai tukar harian mata uang rupiah terhadap dolar as dari tahun 2020-2023 yang memiliki karakteristik data bersifat stasioner dan jumlah data banyak, metode interpolasi linier memberikan hasil terbaik pada proporsi data hilang 5%, kalman struktural pada proporsi data hilang 10% hingga 20%, dan kalman arima pada proporsi data hilang 25%. kata kunci: data hilang, data deret waktu, metode imputasi, rmse, wape, mae.



Abstract

Missing data is a significant issue in time series data analysis. The presence of missing data disrupts the completeness of the time series sequence, necessitating data imputation processes to address this problem. No single imputation method performs best for all types of time series data. Therefore, a comparison of eight imputation methods was conducted: linear interpolation, spline interpolation, stine interpolation, Kalman smoothing on a structural time series model, Kalman smoothing on ARIMA, simple moving average, linear weighted moving average, and exponential weighted moving average. This comparison was conducted on three datasets: monthly inflation rates in Indonesia from 2014-2023, weekly positive Covid-19 cases in Indonesia from 2020-2023, and daily exchange rates of the Rupiah against the US Dollar from 2020-2023. The error metrics used were RMSE, WAPE, and MAE, aiming to determine the best method based on a combination of data quantity, characteristics, and missing data proportion. Results showed that for the monthly inflation rate dataset in Indonesia from 2014-2023, which has small data range characteristics and a limited amount of data, the Kalman ARIMA method provided the best results for missing data proportions ranging from 5% to 25%. For the weekly positive Covid-19 cases dataset in Indonesia from 2020-2023, which has a large data range and slightly more data than the first dataset, the stine interpolation method performed best for missing data proportions of 5% and 10%, while the spline interpolation method provided the best results for missing data proportions of 15%, 20%, and 25%. Lastly, for the daily exchange rate of the Rupiah against the US Dollar from 2020-2023, which is characterized by stationary data and a large amount of data, the linear interpolation method gave the best results for a 5% proportion of missing data, Kalman structural for 10% to 20% missing data, and Kalman ARIMA for 25% missing data. Keywords: Missing Data, Time Series Data, Imputation Methods, RMSE, WAPE, MAE.



    SERVICES DESK