Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding
Penyemat pembicara adalah vektor yang terbukti efektif dalam merepresentasikan karakteristik pembicara sehingga menghasilkan akurasi yang tinggi dalam ranah pengenalan pembicara. Penelitian ini berfokus pada penerapan x-vectors sebagai penyemat pembicara pada sistem identifikasi pembicara berbahasa...
Saved in:
Main Authors: | , , , , , |
---|---|
Format: | Article |
Language: | Indonesian |
Published: |
University of Brawijaya
2024-08-01
|
Series: | Jurnal Teknologi Informasi dan Ilmu Komputer |
Subjects: | |
Online Access: | https://jtiik.ub.ac.id/index.php/jtiik/article/view/7866 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | Penyemat pembicara adalah vektor yang terbukti efektif dalam merepresentasikan karakteristik pembicara sehingga menghasilkan akurasi yang tinggi dalam ranah pengenalan pembicara. Penelitian ini berfokus pada penerapan x-vectors sebagai penyemat pembicara pada sistem identifikasi pembicara berbahasa Indonesia yang menggunakan model speaker identification. Model dibangun dengan menggunakan dataset VoxCeleb sebagai data latih dan dataset INF19 sebagai data uji yang dikumpulkan dari suara mahasiswa dan mahasiswi Informatika Universitas Syiah Kuala angkatan 2019. Fitur-fitur yang digunakan diekstrak dari dataset audio dengan menggunakan dua jenis konfigurasi mel frequency cepstral coefficients (MFCC). Untuk membangun model, fitur-fitur diekstrak dengan menggunakan MFCC, dihitung voice activity detection (VAD), dilakukan augmentasi dan normalisasi fitur menggunakan cepstral mean and variance normalization (CMVN) serta dilakukan filtering. Sedangkan proses pengujian model hanya membutuhkan fitur-fitur yang diekstrak dengan menggunakan MFCC dan dihitung VAD. Selanjutnya, dibangun empat model dengan cara mengombinasikan dua jenis konfigurasi MFCC dan dua jenis arsitektur Deep Neural Network (DNN) yang memanfaatkan Time Delay Neural Network (TDNN). Model terbaik dipilih berdasarkan akurasi tertinggi yang dihitung menggunakan metrik equal error rate (EER) dan durasi ekstraksi x-vectors tersingkat dari keempat model. Nilai EER dari model yang terbaik untuk dataset VoxCeleb1 bagian test sebesar 3,51%, inf19_test_td sebesar 1,3%, dan inf19_test_tid sebesar 1,4%. Durasi ekstraksi x-vectors menggunakan model terbaik untuk dataset data train berdurasi 6 jam 42 menit 39 detik, VoxCeleb1 bagian test berdurasi 2 menit 24 detik, inf19_enroll berdurasi 18 detik, inf19_test_td berdurasi 25 detik, dan inf19_test_tid berdurasi 9 detik. Arsitektur DNN kedua dan konfigurasi MFCC kedua yang telah dirancang menghasilkan model yang lebih kecil, akurasi yang lebih baik terutama untuk dataset pembicara berbahasa Indonesia, dan durasi ekstraksi x-vectors yang lebih singkat.
|
---|---|
ISSN: | 2355-7699 2528-6579 |