Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring

Pendekatan augmentasi teks sering digunakan untuk menangani imbalance data pada kasus klasifikasi teks, seperti teks Konsultasi Kesehatan Daring (KKD), yaitu alodokter.com. Teknik oversampling dapat mengatasi kondisi skewed terhadap kelas mayoritas. Namun, augmentasi teks dapat mengubah konten dan...

Full description

Saved in:
Bibliographic Details
Main Authors: Anisa Nur Azizah, Misbachul Falach Asy'ari, Ifnu Wisma Dwi Prastya, Diana Purwitasari
Format: Article
Language:Indonesian
Published: University of Brawijaya 2023-10-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/7082
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1823858616201904128
author Anisa Nur Azizah
Misbachul Falach Asy'ari
Ifnu Wisma Dwi Prastya
Diana Purwitasari
author_facet Anisa Nur Azizah
Misbachul Falach Asy'ari
Ifnu Wisma Dwi Prastya
Diana Purwitasari
author_sort Anisa Nur Azizah
collection DOAJ
description Pendekatan augmentasi teks sering digunakan untuk menangani imbalance data pada kasus klasifikasi teks, seperti teks Konsultasi Kesehatan Daring (KKD), yaitu alodokter.com. Teknik oversampling dapat mengatasi kondisi skewed terhadap kelas mayoritas. Namun, augmentasi teks dapat mengubah konten dan konteks teks karena kata-kata teks tambahan yang berlebihan. Penelitian kami menyelidiki algoritma Easy Data Augmentation (EDA), yang berbasis parafrase kalimat dalam teks KKD dengan menggunakan teknik Synonym Replacement (SR), Random Insertion (RI), Random Swap (RS), dan Random Deletion (RD). Kami menggunakan Tesaurus Bahasa Indonesia untuk mengubah sinonim di EDA dan melakukan percobaan pada parameter yang dibutuhkan oleh algoritma untuk mendapatkan hasil augmentasi teks yang optimal. Kemudian, percobaan menyelidiki proses augmentasi kami menggunakan pengklasifikasi Random Forest, Naïve Bayes, dan metode berbasis peningkatan seperti XGBoost dan ADABoost, yang menghasilkan peningkatan akurasi rata-rata sebesar 0,63. Hasil parameter EDA terbaik diperoleh dengan menambahkan nilai 0,1 pada semua teknik EDA mendapatkan 88,86% dan 88,44% untuk akurasi dan nilai F1-score. Kami juga memverifikasi hasil EDA dengan mengukur koherensi teks sebelum dan sesudah augmentasi menggunakan pemodelan topik Latent Dirichlet Allocation (LDA) untuk memastikan konsistensi topik. Proses EDA dengan RI memberikan koherensi yang lebih baik sebesar 0,55 dan dapat mendukung implementasi EDA untuk menangani imbalance data, yang pada akhirnya dapat meningkatkan kinerja klasifikasi.   Abstract   The text augmentation approach is often utilized for handling imbalanced data of classifying text corpus, such as online health consultation (OHC) texts, i.e., alodokter.com. The oversampling technique can overcome the skewed condition towards majority classes. However, text augmentation could change text content and context because of excessive words of additional texts. Our work investigates the Easy Data Augmentation (EDA) algorithm, which is sentence paraphrase-based in the OHC texts that often in non-formal sentences by using techniques of synonym replacement (SR), random insertion (RI), random swap (RS), and random deletion (RD). We employ the Indonesian thesaurus for changing synonyms in the EDA and do empirical experiments on parameters required by the algorithm to obtain optimal results of text augmentation. Then, the experiments investigate our augmentation process using classifiers of Random Forest, Naïve Bayes, and boosting-based methods like XGBoost and ADABoost, which resulted in an average accuracy increase of 0.63. The best EDA parameter results were acquired by adding a value of 0.1 in all EDA techniques to get 88.86% and 88.44% for accuracy and F1-score values. We also verified the EDA results by measuring coherences of texts before and after augmentation using a topic modeling of Latent Dirichlet Allocation (LDA) to ensure topic consistency. The EDA process with RI gave better coherences of 0.55, and it could support the EDA application to handle imbalanced data, eventually improving the classification performance.
format Article
id doaj-art-43673bdcdebd489cb8151e026b0826da
institution Kabale University
issn 2355-7699
2528-6579
language Indonesian
publishDate 2023-10-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj-art-43673bdcdebd489cb8151e026b0826da2025-02-11T10:38:45ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792023-10-0110510.25126/jtiik.20231057082Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan DaringAnisa Nur Azizah0Misbachul Falach Asy'ari1Ifnu Wisma Dwi Prastya2Diana Purwitasari3Institut Teknologi Sepuluh Nopember, SurabayaInstitut Teknologi Sepuluh Nopember, SurabayaInstitut Teknologi Sepuluh Nopember, SurabayaInstitut Teknologi Sepuluh Nopember, Surabaya Pendekatan augmentasi teks sering digunakan untuk menangani imbalance data pada kasus klasifikasi teks, seperti teks Konsultasi Kesehatan Daring (KKD), yaitu alodokter.com. Teknik oversampling dapat mengatasi kondisi skewed terhadap kelas mayoritas. Namun, augmentasi teks dapat mengubah konten dan konteks teks karena kata-kata teks tambahan yang berlebihan. Penelitian kami menyelidiki algoritma Easy Data Augmentation (EDA), yang berbasis parafrase kalimat dalam teks KKD dengan menggunakan teknik Synonym Replacement (SR), Random Insertion (RI), Random Swap (RS), dan Random Deletion (RD). Kami menggunakan Tesaurus Bahasa Indonesia untuk mengubah sinonim di EDA dan melakukan percobaan pada parameter yang dibutuhkan oleh algoritma untuk mendapatkan hasil augmentasi teks yang optimal. Kemudian, percobaan menyelidiki proses augmentasi kami menggunakan pengklasifikasi Random Forest, Naïve Bayes, dan metode berbasis peningkatan seperti XGBoost dan ADABoost, yang menghasilkan peningkatan akurasi rata-rata sebesar 0,63. Hasil parameter EDA terbaik diperoleh dengan menambahkan nilai 0,1 pada semua teknik EDA mendapatkan 88,86% dan 88,44% untuk akurasi dan nilai F1-score. Kami juga memverifikasi hasil EDA dengan mengukur koherensi teks sebelum dan sesudah augmentasi menggunakan pemodelan topik Latent Dirichlet Allocation (LDA) untuk memastikan konsistensi topik. Proses EDA dengan RI memberikan koherensi yang lebih baik sebesar 0,55 dan dapat mendukung implementasi EDA untuk menangani imbalance data, yang pada akhirnya dapat meningkatkan kinerja klasifikasi.   Abstract   The text augmentation approach is often utilized for handling imbalanced data of classifying text corpus, such as online health consultation (OHC) texts, i.e., alodokter.com. The oversampling technique can overcome the skewed condition towards majority classes. However, text augmentation could change text content and context because of excessive words of additional texts. Our work investigates the Easy Data Augmentation (EDA) algorithm, which is sentence paraphrase-based in the OHC texts that often in non-formal sentences by using techniques of synonym replacement (SR), random insertion (RI), random swap (RS), and random deletion (RD). We employ the Indonesian thesaurus for changing synonyms in the EDA and do empirical experiments on parameters required by the algorithm to obtain optimal results of text augmentation. Then, the experiments investigate our augmentation process using classifiers of Random Forest, Naïve Bayes, and boosting-based methods like XGBoost and ADABoost, which resulted in an average accuracy increase of 0.63. The best EDA parameter results were acquired by adding a value of 0.1 in all EDA techniques to get 88.86% and 88.44% for accuracy and F1-score values. We also verified the EDA results by measuring coherences of texts before and after augmentation using a topic modeling of Latent Dirichlet Allocation (LDA) to ensure topic consistency. The EDA process with RI gave better coherences of 0.55, and it could support the EDA application to handle imbalanced data, eventually improving the classification performance. https://jtiik.ub.ac.id/index.php/jtiik/article/view/7082
spellingShingle Anisa Nur Azizah
Misbachul Falach Asy'ari
Ifnu Wisma Dwi Prastya
Diana Purwitasari
Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring
Jurnal Teknologi Informasi dan Ilmu Komputer
title Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring
title_full Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring
title_fullStr Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring
title_full_unstemmed Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring
title_short Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring
title_sort easy data augmentation untuk data yang imbalance pada konsultasi kesehatan daring
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/7082
work_keys_str_mv AT anisanurazizah easydataaugmentationuntukdatayangimbalancepadakonsultasikesehatandaring
AT misbachulfalachasyari easydataaugmentationuntukdatayangimbalancepadakonsultasikesehatandaring
AT ifnuwismadwiprastya easydataaugmentationuntukdatayangimbalancepadakonsultasikesehatandaring
AT dianapurwitasari easydataaugmentationuntukdatayangimbalancepadakonsultasikesehatandaring