Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding

Penyemat pembicara adalah vektor yang terbukti efektif dalam merepresentasikan karakteristik pembicara sehingga menghasilkan akurasi yang tinggi dalam ranah pengenalan pembicara. Penelitian ini berfokus pada penerapan x-vectors sebagai penyemat pembicara pada sistem identifikasi pembicara berbahasa...

Full description

Saved in:
Bibliographic Details
Main Authors: Alim Misbullah, Muhammad Saifullah Sani, Husaini, Laina Farsiah, Zahnur, Kikye Martiwi Sukiakhy
Format: Article
Language:Indonesian
Published: University of Brawijaya 2024-08-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Subjects:
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/7866
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1823858640512090112
author Alim Misbullah
Muhammad Saifullah Sani
Husaini
Laina Farsiah
Zahnur
Kikye Martiwi Sukiakhy
author_facet Alim Misbullah
Muhammad Saifullah Sani
Husaini
Laina Farsiah
Zahnur
Kikye Martiwi Sukiakhy
author_sort Alim Misbullah
collection DOAJ
description Penyemat pembicara adalah vektor yang terbukti efektif dalam merepresentasikan karakteristik pembicara sehingga menghasilkan akurasi yang tinggi dalam ranah pengenalan pembicara. Penelitian ini berfokus pada penerapan x-vectors sebagai penyemat pembicara pada sistem identifikasi pembicara berbahasa Indonesia yang menggunakan model speaker identification. Model dibangun dengan menggunakan dataset VoxCeleb sebagai data latih dan dataset INF19 sebagai data uji yang dikumpulkan dari suara mahasiswa dan mahasiswi Informatika Universitas Syiah Kuala angkatan 2019. Fitur-fitur yang digunakan diekstrak dari dataset audio dengan menggunakan dua jenis konfigurasi mel frequency cepstral coefficients (MFCC). Untuk membangun model, fitur-fitur diekstrak dengan menggunakan MFCC, dihitung voice activity detection (VAD), dilakukan augmentasi dan normalisasi fitur menggunakan cepstral mean and variance normalization (CMVN) serta dilakukan filtering. Sedangkan proses pengujian model hanya membutuhkan fitur-fitur yang diekstrak dengan menggunakan MFCC dan dihitung VAD. Selanjutnya, dibangun empat model dengan cara mengombinasikan dua jenis konfigurasi MFCC dan dua jenis arsitektur Deep Neural Network (DNN) yang memanfaatkan Time Delay Neural Network (TDNN). Model terbaik dipilih berdasarkan akurasi tertinggi yang dihitung menggunakan metrik equal error rate (EER) dan durasi ekstraksi x-vectors tersingkat dari keempat model. Nilai EER dari model yang terbaik untuk dataset VoxCeleb1 bagian test sebesar 3,51%, inf19_test_td sebesar 1,3%, dan inf19_test_tid sebesar 1,4%. Durasi ekstraksi x-vectors menggunakan model terbaik untuk dataset data train berdurasi 6 jam 42 menit 39 detik, VoxCeleb1 bagian test berdurasi 2 menit 24 detik, inf19_enroll berdurasi 18 detik, inf19_test_td berdurasi 25 detik, dan inf19_test_tid berdurasi 9 detik. Arsitektur DNN kedua dan konfigurasi MFCC kedua yang telah dirancang menghasilkan model yang lebih kecil, akurasi yang lebih baik terutama untuk dataset pembicara berbahasa Indonesia, dan durasi ekstraksi x-vectors yang lebih singkat.
format Article
id doaj-art-a820dc7610ac45fe90063311a923b2b0
institution Kabale University
issn 2355-7699
2528-6579
language Indonesian
publishDate 2024-08-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj-art-a820dc7610ac45fe90063311a923b2b02025-02-11T10:37:37ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792024-08-0111210.25126/jtiik.20241127866Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector EmbeddingAlim Misbullah0Muhammad Saifullah Sani1Husaini2Laina Farsiah3Zahnur4Kikye Martiwi Sukiakhy5Universitas Syiah Kuala, Banda AcehUniversitas Syiah Kuala, Banda AcehUniversitas Syiah Kuala, Banda AcehUniversitas Syiah Kuala, Banda AcehUniversitas Syiah Kuala, Banda AcehUniversitas Syiah Kuala, Banda Aceh Penyemat pembicara adalah vektor yang terbukti efektif dalam merepresentasikan karakteristik pembicara sehingga menghasilkan akurasi yang tinggi dalam ranah pengenalan pembicara. Penelitian ini berfokus pada penerapan x-vectors sebagai penyemat pembicara pada sistem identifikasi pembicara berbahasa Indonesia yang menggunakan model speaker identification. Model dibangun dengan menggunakan dataset VoxCeleb sebagai data latih dan dataset INF19 sebagai data uji yang dikumpulkan dari suara mahasiswa dan mahasiswi Informatika Universitas Syiah Kuala angkatan 2019. Fitur-fitur yang digunakan diekstrak dari dataset audio dengan menggunakan dua jenis konfigurasi mel frequency cepstral coefficients (MFCC). Untuk membangun model, fitur-fitur diekstrak dengan menggunakan MFCC, dihitung voice activity detection (VAD), dilakukan augmentasi dan normalisasi fitur menggunakan cepstral mean and variance normalization (CMVN) serta dilakukan filtering. Sedangkan proses pengujian model hanya membutuhkan fitur-fitur yang diekstrak dengan menggunakan MFCC dan dihitung VAD. Selanjutnya, dibangun empat model dengan cara mengombinasikan dua jenis konfigurasi MFCC dan dua jenis arsitektur Deep Neural Network (DNN) yang memanfaatkan Time Delay Neural Network (TDNN). Model terbaik dipilih berdasarkan akurasi tertinggi yang dihitung menggunakan metrik equal error rate (EER) dan durasi ekstraksi x-vectors tersingkat dari keempat model. Nilai EER dari model yang terbaik untuk dataset VoxCeleb1 bagian test sebesar 3,51%, inf19_test_td sebesar 1,3%, dan inf19_test_tid sebesar 1,4%. Durasi ekstraksi x-vectors menggunakan model terbaik untuk dataset data train berdurasi 6 jam 42 menit 39 detik, VoxCeleb1 bagian test berdurasi 2 menit 24 detik, inf19_enroll berdurasi 18 detik, inf19_test_td berdurasi 25 detik, dan inf19_test_tid berdurasi 9 detik. Arsitektur DNN kedua dan konfigurasi MFCC kedua yang telah dirancang menghasilkan model yang lebih kecil, akurasi yang lebih baik terutama untuk dataset pembicara berbahasa Indonesia, dan durasi ekstraksi x-vectors yang lebih singkat. https://jtiik.ub.ac.id/index.php/jtiik/article/view/7866identifikasi pembicaratime delay neural networkx-vectorsmel frequency cepstral coefficientequal error rate
spellingShingle Alim Misbullah
Muhammad Saifullah Sani
Husaini
Laina Farsiah
Zahnur
Kikye Martiwi Sukiakhy
Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding
Jurnal Teknologi Informasi dan Ilmu Komputer
identifikasi pembicara
time delay neural network
x-vectors
mel frequency cepstral coefficient
equal error rate
title Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding
title_full Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding
title_fullStr Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding
title_full_unstemmed Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding
title_short Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding
title_sort sistem identifikasi pembicara berbahasa indonesia menggunakan x vector embedding
topic identifikasi pembicara
time delay neural network
x-vectors
mel frequency cepstral coefficient
equal error rate
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/7866
work_keys_str_mv AT alimmisbullah sistemidentifikasipembicaraberbahasaindonesiamenggunakanxvectorembedding
AT muhammadsaifullahsani sistemidentifikasipembicaraberbahasaindonesiamenggunakanxvectorembedding
AT husaini sistemidentifikasipembicaraberbahasaindonesiamenggunakanxvectorembedding
AT lainafarsiah sistemidentifikasipembicaraberbahasaindonesiamenggunakanxvectorembedding
AT zahnur sistemidentifikasipembicaraberbahasaindonesiamenggunakanxvectorembedding
AT kikyemartiwisukiakhy sistemidentifikasipembicaraberbahasaindonesiamenggunakanxvectorembedding