Di dunia yang sangat terhubung, besarnya variasi data tumbuh dan berkembang. sejumlah besar data dihasilkan dari sensor, satelit, media sosial dan lainnya. salah satu cara untuk menangani data besar adalah menggunakan hadoop. platform hadoop digunakan untuk menyimpan, mengelola, dan mendistribusi data besar di beberapa node server. dalam penelitian ini digunakan metode naïve bayesian dan random forest. data sensor yangdigunakan berjumlah 10 juta baris. ada 4 langkah utama dalam pendekatan yang akan dilakukan, yaitu menginstal dan mengkonfigurasi hadoop, preprocessing data, mengubah format data ke bentuk file berurutan dan melakukan klasifikasi. akurasi klasifikasi diukur dengan menggunakan f-measure. hasil penelitian menunjukkan bahwa metode random forest lebih baik daripada metode naïve bayesian dengan nilai akurasi tertinggi fmeasure dari random forest adalah 1 dan nilai akurasi tertinggi f-measure dari naïve bayesian adalah 0,66. dalam hal waktu klasifikasi naïve bayesian lebih baik dari pada random forest. pada cluster hadoop, penambahan slave node dapat mempengaruhi kecepatan hadoop. kata kunci : apache hadoop, apache mahout, klasifikasi, naïve bayesian, random forest
Electronic Theses and Dissertation
Universitas Syiah Kuala
SKRIPSI
KLASIFIKASI DATA BESAR ROAD WEATHER INFORMATION STATIONS MENGGUNAKAN NAÏVE BAYESIAN DAN RANDOM FOREST PADA SISTEM TERDISTRIBUSI HADOOP. Banda Aceh FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA,2017
Baca Juga : ANALISIS SENTIMEN PADA REVIEW HOTEL DENGAN TEKS BAHASA INDONESIA MENGGUNAKAN MACHINE LEARNING (NURHAFNITA, 2023)
Abstract
Baca Juga : PERANGCANGAN DAN PEMBUATAN SISTEM INFORMASI BERBASIS WEBSITE REGISTERASI SECARA DARING CALON PENERIMA BEASISWA (SAID ALFIYATUSY SYUKRA, 2018)