Universitas Syiah Kuala | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI
Munzir Umran, PENGELOMPOKAN DOKUMEN (DOCUMENT CLUSTERING) DENGAN MENGGUNAKAN K-MEANS DAN SINGULAR VALUE DECOMPOSITION (SVD) PADA DATA BLOG. Banda Aceh Fakultas Matematika dan Ilmu Pengetahuan Alam,2010

Peningkatan jumlah dokumen dalam format teks yang cukup signifikan belakangan ini, seperti blogs dan website, membuat proses pengelompokan dokumen (document clustering) menjadi semakin penting. pengelompokan dokumen bertujuan membagi dokumen dalam beberapa kelompok (cluster) sedemikian hingga dokumen-dokumen dalam kelompok yang sarna (intra-cluster) memiliki derajat kesamaan yang tinggi, sementara dokumen-dokumen dalam kelompok yang berbeda (inter-cluster) memiliki derajat kesamaan yang rendah. tulisan ini mendiskusikan dan memperlihatkan metode pengelompokan dokurnen yang dimulai dengan membangun matriks terms- documents a dan kemudian memecahnya menjadi tiga matriks tsd menggunakan singular value decomposition (svd). t adalah matriks kata (terms) berukuran t x r, s adalah matriks diagonal berisi nilai skalar (eigen values) berdimensi r x r, dan r ditentukan sebelumnya, d adalah matriks dokumen berukuran r x d. dekomposisi nilai singular dari matriks a dinyatakan sebagai a = tsdt.penelitian dilakukan menggunakan data blog dan dekomposisi matrik menggunakan program general text parser (gtp) yang memuat implementasi svd didalamnya. selanjutnya,pengelompokan dokumen dilakukan menggunakan k-means dengan k=3,s, dan 7. hasil menunjukkan babwa dekomposisi matrik terms-documents a dengan singular value decomposion dapat mempercepat proses pengelompokan dokumen karena dimensi dari setiap vektor telah diperkecil tanpa mengurangi arti sebenamya. namun, karena metode pengelompokan yang digunakan adalab k-means maka hasil pengelompokan sangat sensitif terhadap dokumen yang diduga sebagai outlier. hasil penelitian, dimensi yang tepat untuk k=3 adalab dimensi 300 dengan persentase optimalnya 100% dan di k=s adalah dimensi 400 dengan persentase optimalnya berada dibatas bawab dari penetapan threshold yaitu 80%. sedangkan untuk k=7 tidak ada dimensi yang menunjukkan hasil yang bagus karena dari semua dimensi data yang digunakan tidak ada satu pun yang mencukupi batas minimal threshold. keywords : pengelompokan dokumen; singular value decomposition, k-means



Abstract



    SERVICES DESK