Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi

Proses integrasi data dari heterogeneous data sources memerlukan kualitas data yang baik. Salah satu ciri kualitas data yang baik adalah terhindar dari terjadinya duplikasi data. Untuk melakukan deteksi duplikasi, langkah yang dapat dilakukan adalah membandingkan setiap record dalam sebuah dataset...

Full description

Saved in:
Bibliographic Details
Main Authors: M. Miftakul Amin, Yevi Dwitayanti
Format: Article
Language:Indonesian
Published: University of Brawijaya 2024-08-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/8080
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1823858600929394688
author M. Miftakul Amin
Yevi Dwitayanti
author_facet M. Miftakul Amin
Yevi Dwitayanti
author_sort M. Miftakul Amin
collection DOAJ
description Proses integrasi data dari heterogeneous data sources memerlukan kualitas data yang baik. Salah satu ciri kualitas data yang baik adalah terhindar dari terjadinya duplikasi data. Untuk melakukan deteksi duplikasi, langkah yang dapat dilakukan adalah membandingkan setiap record dalam sebuah dataset sehingga membentuk candidate record pair. Teknik blocking digunakan untuk proses indexing yang dapat mengurangi jumlah pasangan record dalam proses deteksi duplikasi. Penelitian ini bertujuan untuk melakukan perbandingan beberapa algoritma blocking sehingga diperoleh rekomendasi algoritma mana yang paling optimal digunakan. Penelitian ini melakukan investigasi terhadap 6 buah algoritma blocking, yaitu Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, dan Cosine Similarity. Dataset yang digunakan dalam penelitian ini adalah dataset restaurant yang berisi 112 record, yang di dalamnya terdapat beberapa record yang terindikasi duplikat. Hasil penelitian menunjukkan bahwa algoritma NYSIIS memberikan hasil record blocking paling optimal, yaitu sebesar 97 record. Sedangkan algoritma Soundex dan Cosine Similarity memberikan hasil yang paling optimal, yaitu sebesar 8 buah candidate record pair. Sedangkan dari sisi waktu eksekusi algoritma Soundex dan NYSIIS memberikan proses yang paling cepat dengan durasi 0,04 detik.   Abstract   The process of integrating data from heterogeneous data sources requires good data quality. One of the characteristics of good data quality is avoiding data duplication. To perform duplication detection, a step that can be done is to compare each record in a dataset to form a candidate record pair. The blocking algorithm is used for the indexing process which can reduce the number of record pairs in the duplication detection process. This research aims to compare several blocking algorithms so as to obtain recommendations on which algorithm is most optimally used. This research investigates 6 blocking algorithms, namely Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, and Cosine Similarity. The dataset used in this research is a restaurant dataset containing 112 records, in which there are several records that indicate duplicates. The results showed that the NYSIIS algorithm provided the most optimal record blocking results, which amounted to 97 records. While the Soundex and Cosine Similarity algorithms provide the most optimal results, which are 8 candidate record pairs. In terms of execution time, the Soundex and NYSIIS algorithms provide the fastest process with a duration of 0.04 seconds.
format Article
id doaj-art-0d1fcab6e2ab4069a7b9ccd83f1e0c68
institution Kabale University
issn 2355-7699
2528-6579
language Indonesian
publishDate 2024-08-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj-art-0d1fcab6e2ab4069a7b9ccd83f1e0c682025-02-11T10:37:33ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792024-08-0111410.25126/jtiik.1148080Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi DuplikasiM. Miftakul Amin0Yevi Dwitayanti1Politeknik Negeri Sriwijaya, PalembangPoliteknik Negeri Sriwijaya, Palembang Proses integrasi data dari heterogeneous data sources memerlukan kualitas data yang baik. Salah satu ciri kualitas data yang baik adalah terhindar dari terjadinya duplikasi data. Untuk melakukan deteksi duplikasi, langkah yang dapat dilakukan adalah membandingkan setiap record dalam sebuah dataset sehingga membentuk candidate record pair. Teknik blocking digunakan untuk proses indexing yang dapat mengurangi jumlah pasangan record dalam proses deteksi duplikasi. Penelitian ini bertujuan untuk melakukan perbandingan beberapa algoritma blocking sehingga diperoleh rekomendasi algoritma mana yang paling optimal digunakan. Penelitian ini melakukan investigasi terhadap 6 buah algoritma blocking, yaitu Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, dan Cosine Similarity. Dataset yang digunakan dalam penelitian ini adalah dataset restaurant yang berisi 112 record, yang di dalamnya terdapat beberapa record yang terindikasi duplikat. Hasil penelitian menunjukkan bahwa algoritma NYSIIS memberikan hasil record blocking paling optimal, yaitu sebesar 97 record. Sedangkan algoritma Soundex dan Cosine Similarity memberikan hasil yang paling optimal, yaitu sebesar 8 buah candidate record pair. Sedangkan dari sisi waktu eksekusi algoritma Soundex dan NYSIIS memberikan proses yang paling cepat dengan durasi 0,04 detik.   Abstract   The process of integrating data from heterogeneous data sources requires good data quality. One of the characteristics of good data quality is avoiding data duplication. To perform duplication detection, a step that can be done is to compare each record in a dataset to form a candidate record pair. The blocking algorithm is used for the indexing process which can reduce the number of record pairs in the duplication detection process. This research aims to compare several blocking algorithms so as to obtain recommendations on which algorithm is most optimally used. This research investigates 6 blocking algorithms, namely Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, and Cosine Similarity. The dataset used in this research is a restaurant dataset containing 112 records, in which there are several records that indicate duplicates. The results showed that the NYSIIS algorithm provided the most optimal record blocking results, which amounted to 97 records. While the Soundex and Cosine Similarity algorithms provide the most optimal results, which are 8 candidate record pairs. In terms of execution time, the Soundex and NYSIIS algorithms provide the fastest process with a duration of 0.04 seconds. https://jtiik.ub.ac.id/index.php/jtiik/article/view/8080
spellingShingle M. Miftakul Amin
Yevi Dwitayanti
Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi
Jurnal Teknologi Informasi dan Ilmu Komputer
title Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi
title_full Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi
title_fullStr Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi
title_full_unstemmed Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi
title_short Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi
title_sort komparasi kinerja algoritma blocking pada proses indexing untuk deteksi duplikasi
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/8080
work_keys_str_mv AT mmiftakulamin komparasikinerjaalgoritmablockingpadaprosesindexinguntukdeteksiduplikasi
AT yevidwitayanti komparasikinerjaalgoritmablockingpadaprosesindexinguntukdeteksiduplikasi