Universitas Syiah Kuala | ELECTRONIC THESES AND DISSERTATION

Di dunia yang sangat terhubung, besarnya variasi data tumbuh dan berkembang. sejumlah besar data dihasilkan dari sensor, satelit, media sosial dan lainnya. salah satu cara untuk menangani data besar adalah menggunakan hadoop. platform hadoop digunakan untuk menyimpan, mengelola, dan mendistribusi data besar di beberapa node server. dalam penelitian ini digunakan metode naïve bayesian dan random forest. data sensor yangdigunakan berjumlah 10 juta baris. ada 4 langkah utama dalam pendekatan yang akan dilakukan, yaitu menginstal dan mengkonfigurasi hadoop, preprocessing data, mengubah format data ke bentuk file berurutan dan melakukan klasifikasi. akurasi klasifikasi diukur dengan menggunakan f-measure. hasil penelitian menunjukkan bahwa metode random forest lebih baik daripada metode naïve bayesian dengan nilai akurasi tertinggi fmeasure dari random forest adalah 1 dan nilai akurasi tertinggi f-measure dari naïve bayesian adalah 0,66. dalam hal waktu klasifikasi naïve bayesian lebih baik dari pada random forest. pada cluster hadoop, penambahan slave node dapat mempengaruhi kecepatan hadoop. kata kunci : apache hadoop, apache mahout, klasifikasi, naïve bayesian, random forest

Electronic Theses and Dissertation

Detail Abstract

SKRIPSI

SYAMSUL KAMAL, KLASIFIKASI DATA BESAR ROAD WEATHER INFORMATION STATIONS MENGGUNAKAN NAÏVE BAYESIAN DAN RANDOM FOREST PADA SISTEM TERDISTRIBUSI HADOOP. Banda Aceh FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA,2017

Abstract