BIJAKAWEB: Platform Berbasis Web Untuk Deteksi Hate Speech Pada Komentar Berita Bahasa Indonesia

Jumlah pengguna internet di Indonesia telah mencapai lebih dari 221 juta jiwa, mayoritas penduduk Indonesia menggunakan internet dengan tujuan agar tetap update dengan berita terbaru. Detik, Kompas, dan CNNIndonesia merupakan portal berita daring favorit sebagian besar penduduk Indonesia. Fitur kom...

Full description

Saved in:
Bibliographic Details
Main Authors: Moh. Firdaus, Permata Nur Miftahur Rizki
Format: Article
Language:Indonesian
Published: University of Brawijaya 2024-08-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Subjects:
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/8719
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1823858600699756544
author Moh. Firdaus
Permata Nur Miftahur Rizki
author_facet Moh. Firdaus
Permata Nur Miftahur Rizki
author_sort Moh. Firdaus
collection DOAJ
description Jumlah pengguna internet di Indonesia telah mencapai lebih dari 221 juta jiwa, mayoritas penduduk Indonesia menggunakan internet dengan tujuan agar tetap update dengan berita terbaru. Detik, Kompas, dan CNNIndonesia merupakan portal berita daring favorit sebagian besar penduduk Indonesia. Fitur komentar pada portal berita yang ada saat ini memungkinkan pembaca berita dapat memberikan umpan-balik terhadap berita, namun sering kali tidak terkontrol, memicu munculnya ujaran kebencian. Meskipun tersedia fitur moderasi seperti "Laporkan", pendekatan manual ini sering kali lambat dan kurang efektif. Penelitian ini bertujuan untuk mengembangkan sistem deteksi otomatis terhadap ujaran kebencian pada komentar berita daring. Proses penelitian dimulai dengan scraping lebih dari 15 ribu data komentar dari portal berita menggunakan library Python, dilanjutkan dengan pelabelan manual ke dalam dua kategori: “Hate” dan “Non-Hate,” dengan jumlah data yang berhasil dilabeli sebanyak 11.478, yang dibagi ke dalam dua kelas seimbang. Dataset yang telah berlabel kemudian digunakan untuk fine-tuning model IndoBERT selama 14 epoch, dengan akurasi terbaik sebesar 95,91% yang dicapai pada epoch ke-14. Model dengan akurasi terbaik diimplementasikan pada platform web yang diberi nama BijakaWeb (Web Bijak Dalam Berkomentar) dengan menggunakan framework Django. Penelitian ini menghasilkan beberapa kontribusi penting, termasuk tersedianya dataset baru untuk penelitian relevan, model fine-tuned IndoBERT baru yang dapat diakses publik di HuggingFace, serta pengembangan platform Website Bijaka dengan menggunakan framework fullstack Django yang mampu melakukan scraping dan prediksi ujaran kebencian secara real-time. Harapannya, penelitian ini dapat membantu portal berita dalam moderasi komentar berita daring dalam melawan komentar yang mengandung ujaran dan menyediakan model yang dapat digunakan serta diadaptasi oleh platform berita daring lainnya untuk mencegah penyebaran ujaran kebencian di internet.   Abstract   The number of internet users in Indonesia has surpassed 221 million, with the majority of the population using the internet to stay updated with the latest news. Detik, Kompas, and CNNIndonesia are among the most popular online news portals for many Indonesians. The comment features on these news portals allow readers to provide feedback on news articles; however, this is often unregulated, leading to the spread of hate speech. Although moderation features like "Report" are available, these manual approaches are often slow and ineffective. This study aims to develop an automatic detection system for hate speech in online news comments. The research process began by scraping over 15,000 comment data from news portals using Python libraries, followed by manually labeling the comments into two categories: "Hate" and "Non-Hate." A total of 11,478 labeled data points were obtained, which were divided into two balanced classes. The labeled dataset was then used to fine-tune the IndoBERT model over 14 epochs, with the best accuracy of 95.91% achieved on the 14th epoch. The model with the best accuracy was implemented on a web platform named BijakaWeb (Web Bijak Dalam Berkomentar) using Django fullstack framework. This research has produced several significant contributions, including the availability of a new dataset for relevant research, a fine-tuned IndoBERT model accessible to the public on HuggingFace, and the development of the BijakaWeb platform using the full-stack Django framework, capable of real-time scraping and hate speech prediction. It is hoped that this research can assist news portals in moderating online news comments to combat hate speech and provide a model that can be used and adapted by other online news platforms to prevent the spread of hate speech on the internet.  
format Article
id doaj-art-0c84456936db487e9ccce4fbe78bf3fd
institution Kabale University
issn 2355-7699
2528-6579
language Indonesian
publishDate 2024-08-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj-art-0c84456936db487e9ccce4fbe78bf3fd2025-02-11T10:37:15ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792024-08-0111410.25126/jtiik.1148719BIJAKAWEB: Platform Berbasis Web Untuk Deteksi Hate Speech Pada Komentar Berita Bahasa IndonesiaMoh. Firdaus0Permata Nur Miftahur Rizki1Universitas Prasetya Mulya, Kabupaten TangerangUniversitas Prasetya Mulya, Kabupaten Tangerang Jumlah pengguna internet di Indonesia telah mencapai lebih dari 221 juta jiwa, mayoritas penduduk Indonesia menggunakan internet dengan tujuan agar tetap update dengan berita terbaru. Detik, Kompas, dan CNNIndonesia merupakan portal berita daring favorit sebagian besar penduduk Indonesia. Fitur komentar pada portal berita yang ada saat ini memungkinkan pembaca berita dapat memberikan umpan-balik terhadap berita, namun sering kali tidak terkontrol, memicu munculnya ujaran kebencian. Meskipun tersedia fitur moderasi seperti "Laporkan", pendekatan manual ini sering kali lambat dan kurang efektif. Penelitian ini bertujuan untuk mengembangkan sistem deteksi otomatis terhadap ujaran kebencian pada komentar berita daring. Proses penelitian dimulai dengan scraping lebih dari 15 ribu data komentar dari portal berita menggunakan library Python, dilanjutkan dengan pelabelan manual ke dalam dua kategori: “Hate” dan “Non-Hate,” dengan jumlah data yang berhasil dilabeli sebanyak 11.478, yang dibagi ke dalam dua kelas seimbang. Dataset yang telah berlabel kemudian digunakan untuk fine-tuning model IndoBERT selama 14 epoch, dengan akurasi terbaik sebesar 95,91% yang dicapai pada epoch ke-14. Model dengan akurasi terbaik diimplementasikan pada platform web yang diberi nama BijakaWeb (Web Bijak Dalam Berkomentar) dengan menggunakan framework Django. Penelitian ini menghasilkan beberapa kontribusi penting, termasuk tersedianya dataset baru untuk penelitian relevan, model fine-tuned IndoBERT baru yang dapat diakses publik di HuggingFace, serta pengembangan platform Website Bijaka dengan menggunakan framework fullstack Django yang mampu melakukan scraping dan prediksi ujaran kebencian secara real-time. Harapannya, penelitian ini dapat membantu portal berita dalam moderasi komentar berita daring dalam melawan komentar yang mengandung ujaran dan menyediakan model yang dapat digunakan serta diadaptasi oleh platform berita daring lainnya untuk mencegah penyebaran ujaran kebencian di internet.   Abstract   The number of internet users in Indonesia has surpassed 221 million, with the majority of the population using the internet to stay updated with the latest news. Detik, Kompas, and CNNIndonesia are among the most popular online news portals for many Indonesians. The comment features on these news portals allow readers to provide feedback on news articles; however, this is often unregulated, leading to the spread of hate speech. Although moderation features like "Report" are available, these manual approaches are often slow and ineffective. This study aims to develop an automatic detection system for hate speech in online news comments. The research process began by scraping over 15,000 comment data from news portals using Python libraries, followed by manually labeling the comments into two categories: "Hate" and "Non-Hate." A total of 11,478 labeled data points were obtained, which were divided into two balanced classes. The labeled dataset was then used to fine-tune the IndoBERT model over 14 epochs, with the best accuracy of 95.91% achieved on the 14th epoch. The model with the best accuracy was implemented on a web platform named BijakaWeb (Web Bijak Dalam Berkomentar) using Django fullstack framework. This research has produced several significant contributions, including the availability of a new dataset for relevant research, a fine-tuned IndoBERT model accessible to the public on HuggingFace, and the development of the BijakaWeb platform using the full-stack Django framework, capable of real-time scraping and hate speech prediction. It is hoped that this research can assist news portals in moderating online news comments to combat hate speech and provide a model that can be used and adapted by other online news platforms to prevent the spread of hate speech on the internet.   https://jtiik.ub.ac.id/index.php/jtiik/article/view/8719IndoBERTUjaran KebencianDjangoWeb ScrappingPortal Berita
spellingShingle Moh. Firdaus
Permata Nur Miftahur Rizki
BIJAKAWEB: Platform Berbasis Web Untuk Deteksi Hate Speech Pada Komentar Berita Bahasa Indonesia
Jurnal Teknologi Informasi dan Ilmu Komputer
IndoBERT
Ujaran Kebencian
Django
Web Scrapping
Portal Berita
title BIJAKAWEB: Platform Berbasis Web Untuk Deteksi Hate Speech Pada Komentar Berita Bahasa Indonesia
title_full BIJAKAWEB: Platform Berbasis Web Untuk Deteksi Hate Speech Pada Komentar Berita Bahasa Indonesia
title_fullStr BIJAKAWEB: Platform Berbasis Web Untuk Deteksi Hate Speech Pada Komentar Berita Bahasa Indonesia
title_full_unstemmed BIJAKAWEB: Platform Berbasis Web Untuk Deteksi Hate Speech Pada Komentar Berita Bahasa Indonesia
title_short BIJAKAWEB: Platform Berbasis Web Untuk Deteksi Hate Speech Pada Komentar Berita Bahasa Indonesia
title_sort bijakaweb platform berbasis web untuk deteksi hate speech pada komentar berita bahasa indonesia
topic IndoBERT
Ujaran Kebencian
Django
Web Scrapping
Portal Berita
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/8719
work_keys_str_mv AT mohfirdaus bijakawebplatformberbasiswebuntukdeteksihatespeechpadakomentarberitabahasaindonesia
AT permatanurmiftahurrizki bijakawebplatformberbasiswebuntukdeteksihatespeechpadakomentarberitabahasaindonesia