Electronic Theses and Dissertation

Universitas Syiah Kuala

SKRIPSI

KLASIFIKASI DATA TWITTER BERBAHASA INDONESIA MENGGUNAKAN METODE K-NEAREST NEIGHBORS DAN NAÏVE BAYESIAN

Pengarang

Mauliana - Personal Name;

Dosen Pembimbing

Nomor Pokok Mahasiswa

1208107010001

Fakultas & Prodi

Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201

Subject

COMPUTER SCIENCE

Kata Kunci

NAÏVE BAYESIAN
DATA TWITTER
BERBAHASA INDONESIA
METODE K-NEAREST NEIGHBORS
KLASIFIKASI DATA TWITTER

Penerbit

Banda Aceh : FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA., 2016

Bahasa

Indonesia

No Classification

6.312

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Twitter merupakan salah satu microbloging populer di mana pengguna dapat membaca dan mengirim pesan teks dengan maksimal 140 karakter. Indonesia merupakan negara kelima terbesar di dunia sebagai pengguna Twitter paling aktif berdasarkan penelitian Semiocast pada tahun 2012. Banyaknya pengguna Twitter di Indonesia membuat tweet berbahasa Indonesia berjumlah sangat besar. Hal ini dapat dijadikan sebagai sumber data untuk memperoleh informasi. Salah satu metode dalam teks mining yang dapat digunakan untuk mengolah data Twitter adalah klasifikasi. Metode klasifikasi yang digunakan dalam penelitian ini adalah k-Nearest Neighbors (k-NN) dan Naïve Bayesian. Klasifikasi dilakukan dengan mengategorikan tweet menjadi 4 kelas yaitu bencana, kriminal, olahraga, dan lainnya. Tweet yang diklasifikasikan hanyalah tweet yang terdapat hashtag aceh (#aceh) di dalamnya. Data yang digunakan pada penelitian ini berjumlah 16.440 data Twitter dan 10.000 data berita online. Tahapan penelitian ini terdiri dari pengumpulan data, pembersihan data, pembuatan kamus n-gram, pembangkitan fitur, dan klasifikasi. Kamus dibangun dari data Twitter dan data berita. Pengujian dilakukan menggunakan data Twitter berlabel dan tidak berlabel. Pada data tidak berlabel dilakukan proses prediksi sebelum dilakukan klasifikasi. Hasil klasifikasi menunjukkan algoritma k-NN memiliki akurasi lebih baik dibandingkan algoritma Naïve Bayesian. Nilai f-measure tertinggi yaitu 0,812 diperoleh pada pengujian dengan k = 7, sedangkan nilai ROC tertinggi diperoleh pada k = 9 yaitu 0,736. Dari segi waktu klasifikasi, algoritma Naïve Bayesian lebih unggul dibandingkan k-NN.
Kata kunci : Twitter, klasifikasi, k-NN, Naïve Bayesian

Abstrak Inggris

Tidak Tersedia Deskripsi

Tulisan Relevan

ANALISIS SENTIMEN TERHADAP PARIWISATA DAN KEBUDAYAAN ACEH DARI DATA TWITTER MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM), NAIVE BAYESIAN DAN K-NEAREST NEIGHBOUR (Reza Irwanda, 2022)

KLASIFIKASI DATA BESAR ROAD WEATHER INFORMATION STATIONS MENGGUNAKAN NAÏVE BAYESIAN DAN RANDOM FOREST PADA SISTEM TERDISTRIBUSI HADOOP (SYAMSUL KAMAL, 2017)

IMPLEMENTASI MACHINE LEARNING DALAM ANALISIS SENTIMEN UJARAN KEBENCIAN DAN KEKERASAN VERBAL RNDI TWITTER (MEILIA ILDHA ANSHILA SITORUS, 2024)

ANALISIS SENTIMEN MASYARAKAT DI TWITTER TERHADAP UNIVERSITAS SYIAH KUALA MENGGUNAKAN METODE KLASIFIKASI SUPPORT VECTOR MACHINES (SVM) (FIKA RASITA SARI, 2017)

PENGUJIAN DAN PEMBAHARUAN ALGORITMA INDOACRO UNTUK PENENTUAN PASANGAN AKRONIM DAN KEPANJANGANNYA DARI DATA TEKS DALAM BAHASA INGGRIS (ARIQ NAUFAL KAMIL, 2020)

APA Citation Style

auliana, M.(2016). KLASIFIKASI DATA TWITTER BERBAHASA INDONESIA MENGGUNAKAN METODE K-NEAREST NEIGHBORS DAN NAÏVE BAYESIAN. Banda Aceh: FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA.

Chicago/Turabian Citation Style

auliana, M. KLASIFIKASI DATA TWITTER BERBAHASA INDONESIA MENGGUNAKAN METODE K-NEAREST NEIGHBORS DAN NAÏVE BAYESIAN. Banda Aceh: FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA, 2016.

MLA Citation Style