Wiguna, Yoga Tiara (2025) Implementasi Model Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech (VITS) untuk Bahasa Indonesia - Submit Seminar. Bachelor thesis, Institut Teknologi Kalimantan.
![]() |
Text
11211086_cover.pdf Download (261kB) |
![]() |
Text
11211086_statement_of_authenticity.pdf Download (356kB) |
![]() |
Text
11211086_publishing_agreement.pdf Download (395kB) |
![]() |
Text
11211086_approval_sheet.pdf Download (350kB) |
![]() |
Text
11211086_preface.pdf Download (741kB) |
![]() |
Text
11211086_abstract_id.pdf Download (305kB) |
![]() |
Text
11211086_abstract_en.pdf Restricted to Repository staff only until 4 October 2027. Download (305kB) | Request a copy |
![]() |
Text
11211086_table_of_content.pdf Restricted to Repository staff only until 4 October 2027. Download (391kB) | Request a copy |
![]() |
Text
11211086_illustrations.pdf Restricted to Repository staff only until 4 October 2027. Download (294kB) | Request a copy |
![]() |
Text
11211086_tables.pdf Restricted to Repository staff only until 4 October 2027. Download (288kB) | Request a copy |
![]() |
Text
11211086_chapter_1.pdf Restricted to Repository staff only until 4 October 2027. Download (387kB) | Request a copy |
![]() |
Text
11211086_chapter_2.pdf Restricted to Repository staff only until 4 October 2027. Download (1MB) | Request a copy |
![]() |
Text
11211086_chapter_3.pdf Restricted to Repository staff only until 4 October 2027. Download (569kB) | Request a copy |
![]() |
Text
11211086_chapter_4.pdf Restricted to Repository staff only until 4 October 2027. Download (1MB) | Request a copy |
![]() |
Text
11211086_conclusions.pdf Restricted to Repository staff only until 4 October 2027. Download (305kB) | Request a copy |
![]() |
Text
11211086_bibliography.pdf Download (275kB) |
![]() |
Text
11211086_enclosure.pdf Restricted to Repository staff only until 4 October 2027. Download (1MB) | Request a copy |
![]() |
Text
11211086_paper.pdf Restricted to Repository staff only until 4 October 2027. Download (2MB) | Request a copy |
![]() |
Text
11211086_presentation.pdf Restricted to Repository staff only until 4 October 2027. Download (8MB) | Request a copy |
![]() |
Text
11211086_Form. TA-020.pdf Restricted to Repository staff only until 4 October 2027. Download (323kB) | Request a copy |
Abstract
Penelitian ini bertujuan untuk mengimplementasikan dan mengevaluasi model Variational Autoencoder With Adversarial Learning For End-To-End Text-to-Speech (VITS) dengan menggunakakan audio Bahasa Indonesia. Penelitian pada model VITS sebelumnya menggunakan dataset Bahasa Inggris dan audio yang dihasilkan sudah cukup baik. Maka dari itu dilakukan penelitian ini dengan menggunakan Bahasa Indonesia, dikarenakan di Indonesia pengembangan teknologi masih menghadapi kendala, seperti keterbatasan dataset berkualitas dan minimnya penelitian terkait. Peneliti menggunakan transkip dari dataset TITML-IDN, ASR-SindoDuSC, ASR-IndoCSC, dan audiobook novel novel The Art of War sebagai bahan untuk membuat dataset yang baru, lalu membandingkan nilai evaluasi model VITS yang menggunakan Stochastic Duration Predictor (SDP) dengan VITS yang menggunakan Deterministic Duration Predictor (DDP). Peneliti juga melakukan penerapan pelatihan adversarial pada duration predictor untuk memprediksi durasi pengucapan. Evaluasi dilakukan tidak hanya dengan pendekatan subjektif menggunakan Mean Opinion Score (MOS) tetapi juga dengan pendekatan objektif menggunakan Resemblyzer cosine similarity. Dataset yang digunakan sebanyak 343 dengan audio cenderung formal, namum pada 1250 data audio yang digunakan lebih berfariasi baik formal maupun informal. Dari kedua dataset, 1250 dataset menunjukan performa lebih baik dalam menghasilkan audio karena dapat menghasilkan nilai rata-rata cosine similarity sebesar 0,91124, Mean Opinion Score (MOS) didapatkan sebesar 4,54 pada salah satu jenis transkripnya. Selanjutnya dilakukannya perbandingan SDP dan DDP, dari hasil penelitian ditemukan bahwa SDP lebih natural daripada DDP dari segi durasi audio. Pada penelitian ini juga melakukan penambahan adversarial learning pada kedua jenis duration predictor dan hasilnya juga dapat lebih meningkatkan lagi kualitas audio dari keragaman durasi pengucapannya.
Item Type: | Thesis (Bachelor) |
---|---|
Subjects: | Q Science > QA Mathematics > QA75 Electronic computers. Computer science T Technology > T Technology (General) |
Divisions: | Jurusan Matematika dan Teknologi Informasi > Informatika |
Depositing User: | Yoga Tiara Wiguna |
Date Deposited: | 09 Jul 2025 03:07 |
Last Modified: | 09 Jul 2025 03:07 |
URI: | http://repository.itk.ac.id/id/eprint/23373 |
Actions (login required)
![]() |
View Item |