Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak Seimbang

Logistic Regression merupakan metode pengklasifikasi yang sangat populer dan digunakan secara luas pada berbagai penelitian. Logistic Regression dapat memberikan hasil yang baik pada masalah klasifikasi maupun prediksi. Fitur dataset yang besar mengakibatkan beban komputasi,  dan  menurunkan kinerj...

Full description

Saved in:
Bibliographic Details
Main Authors: Sutarman, Rimbun Siringoringo, Dedy Arisandi, Edi Kurniawan, Erna Budhiarti Nababan
Format: Article
Language:Indonesian
Published: University of Brawijaya 2024-08-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/8198
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1823858642186665984
author Sutarman
Rimbun Siringoringo
Dedy Arisandi
Edi Kurniawan
Erna Budhiarti Nababan
author_facet Sutarman
Rimbun Siringoringo
Dedy Arisandi
Edi Kurniawan
Erna Budhiarti Nababan
author_sort Sutarman
collection DOAJ
description Logistic Regression merupakan metode pengklasifikasi yang sangat populer dan digunakan secara luas pada berbagai penelitian. Logistic Regression dapat memberikan hasil yang baik pada masalah klasifikasi maupun prediksi. Fitur dataset yang besar mengakibatkan beban komputasi,  dan  menurunkan kinerja klasifikasi. Terdapat tiga dataset yang digunakan pada penelitian ini yaitu Bank marketing, Glass, dan Musk II. Dataset tersebut bersumber dari  UCI Repository dan memiliki karakteristik yang berbeda. Ada dua tantangan penggunaan dataset tersebut, yaitu ketidakseimbangan kelas, dan jumlah fitur yang besar. Ada dua tahapan utama pada penelitian ini, yaitu pemrosesan awal dan klasifikasi.  Tahapan pemrosesan awal menerapkan seleksi  fitur melalui recursive feature elimination, dan penyeimbangan data menggunakan teknik  SMOTE. Tahapan klasifikasi menerapkan Logistic Regression. Teknik ridge regression (L2-regularization) diterapkan untuk menghindari overfitting pada tahap validasi model LR.  Evaluasi kinerja model didasarkan pada matrik konfusi dan grafik ROC. Hasil penelitian menunjukkan bahwa seleksi fitur dan peyeimbangan kelas memiliki dampak yang baik. Melalui ROC, model LR+RFE+SMOTE memiliki luas sebesar 93%. Hasil ini lebih baik dibanding dengan empat model klasifikasi lainnya, yaitu  Naïve Bayes, Decision Tree, K-NN, dan Random Forest.   Abstract   Logistic regression is a widely popular classification method extensively used in various studies. Logistic regression can yield good results in classification and prediction problems. The extensive features of the dataset can lead to computational burdens and reduced classification performance. Three datasets were utilized in this research: Bank Marketing, Glass, and Musk II. The dataset is sourced from the UCI Repository and contains various characteristics. There are two challenges associated with using this dataset: class imbalance and a large number of features. There are two main stages in this research: initial processing and classification. At the initial processing stage, feature selection is conducted through recursive feature elimination, and data balancing is achieved using the SMOTE technique. The classification stage applies logistic regression. The ridge regression technique (L2-regularization) is applied to prevent overfitting during the validation stage of the linear regression model. The model performance evaluation is based on confusion matrices and ROC graphs. The research results show that feature selection and class balancing have a positive impact. Through the Receiver Operating Characteristics (ROC) analysis, the LR+RFE+SMOTE model achieved an area under the curve of 93%. These results are better than those of four other classification models, namely Naïve Bayes, Decision Tree, K-NN, and Random Forest.
format Article
id doaj-art-b2eddc7320b440d985a94a3e35a1fdc6
institution Kabale University
issn 2355-7699
2528-6579
language Indonesian
publishDate 2024-08-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj-art-b2eddc7320b440d985a94a3e35a1fdc62025-02-11T10:37:28ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792024-08-0111410.25126/jtiik.1148198Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak SeimbangSutarman0Rimbun Siringoringo1Dedy Arisandi2Edi Kurniawan3Erna Budhiarti Nababan4Universitas Sumatera Utara, MedanUniversitas Sumatera Utara, MedanUniversitas Sumatera Utara, MedanUniversitas Sumatera Utara, MedanUniversitas Sumatera Utara, Medan Logistic Regression merupakan metode pengklasifikasi yang sangat populer dan digunakan secara luas pada berbagai penelitian. Logistic Regression dapat memberikan hasil yang baik pada masalah klasifikasi maupun prediksi. Fitur dataset yang besar mengakibatkan beban komputasi,  dan  menurunkan kinerja klasifikasi. Terdapat tiga dataset yang digunakan pada penelitian ini yaitu Bank marketing, Glass, dan Musk II. Dataset tersebut bersumber dari  UCI Repository dan memiliki karakteristik yang berbeda. Ada dua tantangan penggunaan dataset tersebut, yaitu ketidakseimbangan kelas, dan jumlah fitur yang besar. Ada dua tahapan utama pada penelitian ini, yaitu pemrosesan awal dan klasifikasi.  Tahapan pemrosesan awal menerapkan seleksi  fitur melalui recursive feature elimination, dan penyeimbangan data menggunakan teknik  SMOTE. Tahapan klasifikasi menerapkan Logistic Regression. Teknik ridge regression (L2-regularization) diterapkan untuk menghindari overfitting pada tahap validasi model LR.  Evaluasi kinerja model didasarkan pada matrik konfusi dan grafik ROC. Hasil penelitian menunjukkan bahwa seleksi fitur dan peyeimbangan kelas memiliki dampak yang baik. Melalui ROC, model LR+RFE+SMOTE memiliki luas sebesar 93%. Hasil ini lebih baik dibanding dengan empat model klasifikasi lainnya, yaitu  Naïve Bayes, Decision Tree, K-NN, dan Random Forest.   Abstract   Logistic regression is a widely popular classification method extensively used in various studies. Logistic regression can yield good results in classification and prediction problems. The extensive features of the dataset can lead to computational burdens and reduced classification performance. Three datasets were utilized in this research: Bank Marketing, Glass, and Musk II. The dataset is sourced from the UCI Repository and contains various characteristics. There are two challenges associated with using this dataset: class imbalance and a large number of features. There are two main stages in this research: initial processing and classification. At the initial processing stage, feature selection is conducted through recursive feature elimination, and data balancing is achieved using the SMOTE technique. The classification stage applies logistic regression. The ridge regression technique (L2-regularization) is applied to prevent overfitting during the validation stage of the linear regression model. The model performance evaluation is based on confusion matrices and ROC graphs. The research results show that feature selection and class balancing have a positive impact. Through the Receiver Operating Characteristics (ROC) analysis, the LR+RFE+SMOTE model achieved an area under the curve of 93%. These results are better than those of four other classification models, namely Naïve Bayes, Decision Tree, K-NN, and Random Forest. https://jtiik.ub.ac.id/index.php/jtiik/article/view/8198
spellingShingle Sutarman
Rimbun Siringoringo
Dedy Arisandi
Edi Kurniawan
Erna Budhiarti Nababan
Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak Seimbang
Jurnal Teknologi Informasi dan Ilmu Komputer
title Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak Seimbang
title_full Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak Seimbang
title_fullStr Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak Seimbang
title_full_unstemmed Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak Seimbang
title_short Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak Seimbang
title_sort model klasifikasi dengan logistic regression dan recursive feature elimination pada data tidak seimbang
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/8198
work_keys_str_mv AT sutarman modelklasifikasidenganlogisticregressiondanrecursivefeatureeliminationpadadatatidakseimbang
AT rimbunsiringoringo modelklasifikasidenganlogisticregressiondanrecursivefeatureeliminationpadadatatidakseimbang
AT dedyarisandi modelklasifikasidenganlogisticregressiondanrecursivefeatureeliminationpadadatatidakseimbang
AT edikurniawan modelklasifikasidenganlogisticregressiondanrecursivefeatureeliminationpadadatatidakseimbang
AT ernabudhiartinababan modelklasifikasidenganlogisticregressiondanrecursivefeatureeliminationpadadatatidakseimbang