<?xml version="1.0" encoding="UTF-8" ?>
<modsCollection xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://www.loc.gov/mods/v3" xmlns:slims="http://slims.web.id" xsi:schemaLocation="http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-3.xsd">
<mods version="3.3" id="115909">
 <titleInfo>
  <title>OPTIMISASI SISTEM PENGENALAN SUARA BAHASA INDONESIA MENGGUNAKAN FINE-TUNED MODEL OPENAI WHISPER</title>
 </titleInfo>
 <name type="Personal Name" authority="">
  <namePart>Muhammad Syah Zichrullah Habibie</namePart>
  <role>
   <roleTerm type="text">Primary Author</roleTerm>
  </role>
 </name>
 <typeOfResource manuscript="no" collection="yes">mixed material</typeOfResource>
 <genre authority="marcgt">bibliography</genre>
 <originInfo>
  <place>
   <placeTerm type="text">Banda Aceh</placeTerm>
   <publisher>Fakultas mipa</publisher>
   <dateIssued>2023</dateIssued>
  </place>
 </originInfo>
 <language>
  <languageTerm type="code"></languageTerm>
  <languageTerm type="text"></languageTerm>
 </language>
 <physicalDescription>
  <form authority="gmd">Skripsi</form>
  <extent></extent>
 </physicalDescription>
 <note>Teknologi informasi memberi manfaat besar pada kehidupan manusia seperti akses informasi, komunikasi, dan pekerjaan. Salah satu inovasi teknologi informasi adalah sistem pengenalan suara seperti Whisper dari OpenAI, yang mampu melakukan transkripsi dan penerjemahan audio multibahasa serta mengatasi suara bising. Meskipun whisper lebih cenderung dikembangkan pada bahasa Inggris, Whisper memiliki potensi untuk lebih dikembangkan lagi pada bahasa lain seperti bahasa Indonesia. Penelitian ini berfokus pada meningkatkan performa model pre-trained small OpenAI Whisper pada pengenalan suara dalam bahasa Indonesia. Dataset yang digunakan termasuk dataset YouTube pada penelitian sebelumnya yang berjudul &quot;Acoustic Model with Multiple Lexicon Types for Indonesian Speech Recognition&quot; dan Common Voice 9 dari Mozilla Foundation Hugging Face, dengan total 12.243 data pada Common Voice 9 dan 49.022 data pada YouTube. Data tersebut melalui tahapan pre-processing termasuk ekstraksi fitur, tokenisasi dan data collator sebelum digunakan pada model Whisper. Penelitian ini melibatkan fine-tune pre-trained model Whisper small dengan kombinasi hyperparameter batch size dan learning rate pada dataset YouTube dan Common Voice 9. Hasil terbaik dievaluasi dengan mempertimbangkan nilai Word Error Rate. Hasil fine-tune terbaik pada Common Voice 9 diperoleh dengan kombinasi hyperparameter train batch size 8, eval batch size 4, dan learning rate 1E-05, dengan nilai Word Error Rate 12,47. Sedangkan pada dataset YouTube, hasil terbaik dicapai dengan kombinasi hyperparameter train batch size 12, eval batch size 6, dan learning rate 1E-04, dengan nilai Word Error Rate 38,03. Performa dataset YouTube lebih rendah dari Common Voice disebabkan oleh data yang dimiliki dataset YouTube masih belum sepenuhnya bersih, sehingga mempengaruhi hasil dari fine-tuning yang dilakukan.&#13;
&#13;
Kata Kunci:	OpenAI, Whisper, Fine-Tune, Transformer, Pytorch, Pre-Trained model, Encoder-Decoder, Pengenalan Suara, Word Error Rate (WER), Hyperparameter</note>
 <note type="statement of responsibility"></note>
 <classification>0</classification>
 <identifier type="isbn"></identifier>
 <location>
  <physicalLocation>ELECTRONIC THESES AND DISSERTATION Universitas Syiah Kuala</physicalLocation>
  <shelfLocator></shelfLocator>
 </location>
 <slims:digitals/>
</mods>
<recordInfo>
 <recordIdentifier>115909</recordIdentifier>
 <recordCreationDate encoding="w3cdtf">2023-09-22 12:10:09</recordCreationDate>
 <recordChangeDate encoding="w3cdtf">2023-09-22 16:42:48</recordChangeDate>
 <recordOrigin>machine generated</recordOrigin>
</recordInfo>
</modsCollection>