PENERAPAN MODEL INFORMATION EXTRACTION MENGGUNAKAN YOLOV8 DAN OCR TESSERACT UNTUK OTOMATISASI PENGOLAHAN DOKUMEN INVOICE PERUSAHAAN | ELECTRONIC THESES AND DISSERTATION

Electronic Theses and Dissertation

Universitas Syiah Kuala

    SKRIPSI

PENERAPAN MODEL INFORMATION EXTRACTION MENGGUNAKAN YOLOV8 DAN OCR TESSERACT UNTUK OTOMATISASI PENGOLAHAN DOKUMEN INVOICE PERUSAHAAN


Pengarang

Nuri Masyithah - Personal Name;

Dosen Pembimbing

Zulfan - 198606022015041003 - Dosen Pembimbing I
Kikye Martiwi Sukiakhy - 198605202019032009 - Dosen Pembimbing II



Nomor Pokok Mahasiswa

2208107010006

Fakultas & Prodi

Fakultas MIPA / Informatika (S1) / PDDIKTI : 55201

Subject
-
Kata Kunci
-
Penerbit

Banda Aceh : Fakultas mipa., 2026

Bahasa

No Classification

-

Literature Searching Service

Hard copy atau foto copy dari buku ini dapat diberikan dengan syarat ketentuan berlaku, jika berminat, silahkan hubungi via telegram (Chat Services LSS)

Pengolahan dokumen invoice secara manual dalam operasional bisnis memiliki risiko kesalahan manusia yang tinggi dan memakan waktu yang lama. Penelitian ini bertujuan untuk mengotomatisasi ekstraksi informasi dari dokumen invoice dengan tata letak yang beragam menggunakan integrasi model deep learning YOLOv8 dan Optical Character Recognition (OCR) Tesseract. YOLOv8 digunakan untuk mendeteksi dan melokalisasi lima kelas informasi utama, yaitu: Date, Invoice Number, Total, Seller Name, dan Payment Details. Hasil deteksi kemudian diproses menggunakan Tesseract OCR untuk ekstraksi teks, diikuti dengan tahap post-processing menggunakan Regular Expression (Regex) untuk meningkatkan akurasi karakter. Hasil penelitian menunjukkan bahwa model YOLOv8 mencapai performa yang sangat tinggi dengan mAP50 sebesar 0,995 dan mAP50-95 sebesar 0,992. Implementasi sistem dalam bentuk purwarupa berbasis Streamlit memungkinkan pengguna untuk mengunggah citra invoice, melakukan koreksi data secara real-time, serta memantau tren pengeluaran melalui dashboard statistik. Integrasi Regex terbukti efektif memperbaiki kesalahan pembacaan karakter pada teks numerik dan tanggal. Sistem ini diharapkan dapat meningkatkan efisiensi dan akurasi dalam manajemen data keuangan perusahaan.

Manual processing of invoice documents in business operations carries a high risk of human error and is time-consuming. This study aims to automate information extraction from various invoice layouts using the integration of YOLOv8 deep learning model and Tesseract Optical Character Recognition (OCR). YOLOv8 is employed to detect and localize five primary information classes: Date, Invoice Number, Total, Seller Name, and Payment Details. The detection results are subsequently processed using Tesseract OCR for text extraction, followed by a post-processing stage using Regular Expressions (Regex) to enhance character accuracy. The results indicate that the YOLOv8 model achieved high performance with a mAP50 of 0.995 and a mAP50-95 of 0.992. The system implementation in the form of a Streamlit-based prototype allows users to upload invoice images, perform real-time data correction, and monitor expenditure trends through a statistical dashboard. Regex integration proved effective in correcting character recognition errors in numerical and date strings. This system is expected to improve efficiency and accuracy in corporate financial data management.

Citation



    SERVICES DESK