Perancangan Sistem Pengenalan Ucapan Multibahasa (Arab & Indonesia) Berbasis OpenAI Whisper & Voiced-Unvoiced Classification - Submit Jurnal Teknologi Terpadu

Saputra, Richo Dwi (2023) Perancangan Sistem Pengenalan Ucapan Multibahasa (Arab & Indonesia) Berbasis OpenAI Whisper & Voiced-Unvoiced Classification - Submit Jurnal Teknologi Terpadu. Bachelor thesis, Institut Teknologi Kalimantan.

[img] Text
04191072_cover.pdf

Download (85kB)
[img] Text
04191072_statement_of_authenticity.pdf

Download (968kB)
[img] Text
04191072_publishing_agreement.pdf

Download (1MB)
[img] Text
04191072_approval_sheet.pdf

Download (981kB)
[img] Text
04191072_preface.pdf

Download (305kB)
[img] Text
04191072_abstract_id.pdf

Download (246kB)
[img] Text
04191072_abstract_en.pdf
Restricted to Repository staff only until 7 October 2025.

Download (248kB) | Request a copy
[img] Text
04191072_table_of_content.pdf
Restricted to Repository staff only until 7 October 2025.

Download (248kB) | Request a copy
[img] Text
04191072_illustrations.pdf
Restricted to Repository staff only until 7 October 2025.

Download (244kB) | Request a copy
[img] Text
04191072_tables.pdf
Restricted to Repository staff only until 7 October 2025.

Download (242kB) | Request a copy
[img] Text
04191072_notations.pdf
Restricted to Repository staff only until 7 October 2025.

Download (195kB) | Request a copy
[img] Text
04191072_chapter_1.pdf
Restricted to Repository staff only until 7 October 2025.

Download (330kB) | Request a copy
[img] Text
04191072_chapter_2.pdf
Restricted to Repository staff only until 7 October 2025.

Download (764kB) | Request a copy
[img] Text
04191072_chapter_3.pdf
Restricted to Repository staff only until 7 October 2025.

Download (448kB) | Request a copy
[img] Text
04191072_chapter_4.pdf
Restricted to Repository staff only until 7 October 2025.

Download (750kB) | Request a copy
[img] Text
04191072_chapter_5.pdf
Restricted to Repository staff only until 7 October 2025.

Download (202kB) | Request a copy
[img] Text
04191072_bibliography.pdf

Download (298kB)
[img] Text
04191072_enclosure.pdf
Restricted to Repository staff only until 7 October 2025.

Download (1MB) | Request a copy
[img] Text
04191072_presentation.pdf
Restricted to Repository staff only until 7 October 2025.

Download (3MB) | Request a copy
[img] Text
04191072_Form. TA-020.pdf
Restricted to Repository staff only until 7 October 2025.

Download (397kB) | Request a copy

Abstract

Speech to Text merupakan perkembangan teknologi ASR yang memungkinkan komputer dapat menerima masukan berupa kata yang diucapkan (suara) dan mengubahnya menjadi teks yang dapat dibaca. Dalam perkembangannya, Speech to Text belum bisa menghasilkan teks bahasa secara simultan. Oleh karena itu, pada penelitian ini dilakukan perancangan sistem pengenalan ucapan multibahasa dengan menggunakan OpenAI Whisper dengan penambahan initial prompt dan Voiced-Unvoiced Classification yaitu VAD. Sehingga sistem dapat mentranskripsikan ucapan menghasilkan teks bahasa secara simultan yaitu bahasa Arab dan bahasa Indonesia. Selain itu juga, dilakukan pengukuran dan analisis terkait tingkat akurasi yang dihasilkan sistem yaitu Word Error Rate (WER) yang merupakan variabel terikat pada penelitian ini dan dengan dilakukan perubahan pada variabel bebasnya yaitu Playback Speed, Signal to Noise Ratio (SNR) dan Whisper Model. Setelah dilakukan simulasi, diperoleh hasil pengambilan data dari Dataset berisi 18 tabel yang memuat teks asli pada file audio dan teks hasil transkripsi yang digunakan sebagai data untuk uji akurasi dari sistem transkripsi. Adapun tingkat akurasi rata-rata pada sistem ini yaitu pada perubahan playback speed secara urut 75%, 100% dan 125% didapatkan nilai WER 67.29 %, 52.87 %, 54.95 % dengan model Small, 50.65 %, 26.81 %, 38.94 % dengan model Medium, 50.98 %, 39.93 %, 32.62 % dengan model Large-V1. Pada perubahan SNR secara urut yaitu default, 3 dB, 0 dB dan -3 dB didapatkan nilai WER 52.87 %, 72.14 %, 72.06 %, 79.37 % dengan model Small, 26.81 %, 64.29 %, 67.70 %, 71.35 % dengan model Medium, 39.93%, 69.30 %, 60.01 %, 67.93 dengan model Large-V1. Secara keseluruhan didapatkan nilai WER terendah yang berarti memiliki tingkat akurasi lebih akurat yaitu pada model Medium dengan perubahan playback speed 100% dan SNR default sebesar 26.81 %.

Item Type: Thesis (Bachelor)
Subjects: A General Works > AI Indexes (General)
A General Works > AM Museums (General). Collectors and collecting (General)
A General Works > AS Academies and learned societies (General)
T Technology > T Technology (General)
T Technology > TK Electrical engineering. Electronics Nuclear engineering
Divisions: Jurusan Teknologi Industri dan Proses > Teknik Elektro
Depositing User: Richo Dwi Saputra
Date Deposited: 13 Jul 2023 06:25
Last Modified: 13 Jul 2023 06:25
URI: http://repository.itk.ac.id/id/eprint/19692

Actions (login required)

View Item View Item