Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi
Proses integrasi data dari heterogeneous data sources memerlukan kualitas data yang baik. Salah satu ciri kualitas data yang baik adalah terhindar dari terjadinya duplikasi data. Untuk melakukan deteksi duplikasi, langkah yang dapat dilakukan adalah membandingkan setiap record dalam sebuah dataset...
Saved in:
Main Authors: | , |
---|---|
Format: | Article |
Language: | Indonesian |
Published: |
University of Brawijaya
2024-08-01
|
Series: | Jurnal Teknologi Informasi dan Ilmu Komputer |
Online Access: | https://jtiik.ub.ac.id/index.php/jtiik/article/view/8080 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
_version_ | 1823858600929394688 |
---|---|
author | M. Miftakul Amin Yevi Dwitayanti |
author_facet | M. Miftakul Amin Yevi Dwitayanti |
author_sort | M. Miftakul Amin |
collection | DOAJ |
description |
Proses integrasi data dari heterogeneous data sources memerlukan kualitas data yang baik. Salah satu ciri kualitas data yang baik adalah terhindar dari terjadinya duplikasi data. Untuk melakukan deteksi duplikasi, langkah yang dapat dilakukan adalah membandingkan setiap record dalam sebuah dataset sehingga membentuk candidate record pair. Teknik blocking digunakan untuk proses indexing yang dapat mengurangi jumlah pasangan record dalam proses deteksi duplikasi. Penelitian ini bertujuan untuk melakukan perbandingan beberapa algoritma blocking sehingga diperoleh rekomendasi algoritma mana yang paling optimal digunakan. Penelitian ini melakukan investigasi terhadap 6 buah algoritma blocking, yaitu Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, dan Cosine Similarity. Dataset yang digunakan dalam penelitian ini adalah dataset restaurant yang berisi 112 record, yang di dalamnya terdapat beberapa record yang terindikasi duplikat. Hasil penelitian menunjukkan bahwa algoritma NYSIIS memberikan hasil record blocking paling optimal, yaitu sebesar 97 record. Sedangkan algoritma Soundex dan Cosine Similarity memberikan hasil yang paling optimal, yaitu sebesar 8 buah candidate record pair. Sedangkan dari sisi waktu eksekusi algoritma Soundex dan NYSIIS memberikan proses yang paling cepat dengan durasi 0,04 detik.
Abstract
The process of integrating data from heterogeneous data sources requires good data quality. One of the characteristics of good data quality is avoiding data duplication. To perform duplication detection, a step that can be done is to compare each record in a dataset to form a candidate record pair. The blocking algorithm is used for the indexing process which can reduce the number of record pairs in the duplication detection process. This research aims to compare several blocking algorithms so as to obtain recommendations on which algorithm is most optimally used. This research investigates 6 blocking algorithms, namely Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, and Cosine Similarity. The dataset used in this research is a restaurant dataset containing 112 records, in which there are several records that indicate duplicates. The results showed that the NYSIIS algorithm provided the most optimal record blocking results, which amounted to 97 records. While the Soundex and Cosine Similarity algorithms provide the most optimal results, which are 8 candidate record pairs. In terms of execution time, the Soundex and NYSIIS algorithms provide the fastest process with a duration of 0.04 seconds.
|
format | Article |
id | doaj-art-0d1fcab6e2ab4069a7b9ccd83f1e0c68 |
institution | Kabale University |
issn | 2355-7699 2528-6579 |
language | Indonesian |
publishDate | 2024-08-01 |
publisher | University of Brawijaya |
record_format | Article |
series | Jurnal Teknologi Informasi dan Ilmu Komputer |
spelling | doaj-art-0d1fcab6e2ab4069a7b9ccd83f1e0c682025-02-11T10:37:33ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792024-08-0111410.25126/jtiik.1148080Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi DuplikasiM. Miftakul Amin0Yevi Dwitayanti1Politeknik Negeri Sriwijaya, PalembangPoliteknik Negeri Sriwijaya, Palembang Proses integrasi data dari heterogeneous data sources memerlukan kualitas data yang baik. Salah satu ciri kualitas data yang baik adalah terhindar dari terjadinya duplikasi data. Untuk melakukan deteksi duplikasi, langkah yang dapat dilakukan adalah membandingkan setiap record dalam sebuah dataset sehingga membentuk candidate record pair. Teknik blocking digunakan untuk proses indexing yang dapat mengurangi jumlah pasangan record dalam proses deteksi duplikasi. Penelitian ini bertujuan untuk melakukan perbandingan beberapa algoritma blocking sehingga diperoleh rekomendasi algoritma mana yang paling optimal digunakan. Penelitian ini melakukan investigasi terhadap 6 buah algoritma blocking, yaitu Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, dan Cosine Similarity. Dataset yang digunakan dalam penelitian ini adalah dataset restaurant yang berisi 112 record, yang di dalamnya terdapat beberapa record yang terindikasi duplikat. Hasil penelitian menunjukkan bahwa algoritma NYSIIS memberikan hasil record blocking paling optimal, yaitu sebesar 97 record. Sedangkan algoritma Soundex dan Cosine Similarity memberikan hasil yang paling optimal, yaitu sebesar 8 buah candidate record pair. Sedangkan dari sisi waktu eksekusi algoritma Soundex dan NYSIIS memberikan proses yang paling cepat dengan durasi 0,04 detik. Abstract The process of integrating data from heterogeneous data sources requires good data quality. One of the characteristics of good data quality is avoiding data duplication. To perform duplication detection, a step that can be done is to compare each record in a dataset to form a candidate record pair. The blocking algorithm is used for the indexing process which can reduce the number of record pairs in the duplication detection process. This research aims to compare several blocking algorithms so as to obtain recommendations on which algorithm is most optimally used. This research investigates 6 blocking algorithms, namely Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, and Cosine Similarity. The dataset used in this research is a restaurant dataset containing 112 records, in which there are several records that indicate duplicates. The results showed that the NYSIIS algorithm provided the most optimal record blocking results, which amounted to 97 records. While the Soundex and Cosine Similarity algorithms provide the most optimal results, which are 8 candidate record pairs. In terms of execution time, the Soundex and NYSIIS algorithms provide the fastest process with a duration of 0.04 seconds. https://jtiik.ub.ac.id/index.php/jtiik/article/view/8080 |
spellingShingle | M. Miftakul Amin Yevi Dwitayanti Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi Jurnal Teknologi Informasi dan Ilmu Komputer |
title | Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi |
title_full | Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi |
title_fullStr | Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi |
title_full_unstemmed | Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi |
title_short | Komparasi Kinerja Algoritma Blocking Pada Proses Indexing Untuk Deteksi Duplikasi |
title_sort | komparasi kinerja algoritma blocking pada proses indexing untuk deteksi duplikasi |
url | https://jtiik.ub.ac.id/index.php/jtiik/article/view/8080 |
work_keys_str_mv | AT mmiftakulamin komparasikinerjaalgoritmablockingpadaprosesindexinguntukdeteksiduplikasi AT yevidwitayanti komparasikinerjaalgoritmablockingpadaprosesindexinguntukdeteksiduplikasi |