Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer

Hadis adalah sumber ajaran Islam kedua setelah al-Qur’an. Kedudukannya yakni setelah Al-Qur’an, sebelum Ijma’ dan Qiyas. Saat ini hadis sudah dapat diakses melalui berbagai platform digital, tetapi fitur pencarian yang disediakan masih sebatas data retrieval di mana hasil pencarian hanya didasarkan...

Full description

Saved in:
Bibliographic Details
Main Author: Novi Prisma Yunita
Format: Article
Language:Indonesian
Published: University of Brawijaya 2023-07-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/6736
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1823858661695422464
author Novi Prisma Yunita
author_facet Novi Prisma Yunita
author_sort Novi Prisma Yunita
collection DOAJ
description Hadis adalah sumber ajaran Islam kedua setelah al-Qur’an. Kedudukannya yakni setelah Al-Qur’an, sebelum Ijma’ dan Qiyas. Saat ini hadis sudah dapat diakses melalui berbagai platform digital, tetapi fitur pencarian yang disediakan masih sebatas data retrieval di mana hasil pencarian hanya didasarkan pada keyword pencarian tanpa memperhitungkan relevansi antara keyword dengan dokumen hasil pencarian. Penelitian ini bertujuan membangun aplikasi pencarian hadis yang dapat digunakan untuk menemukan hasil pencarian yang relevan dengan keyword pencarian. Aplikasi pencarian dibangun menggunakan metode Information Retrieval antara lain Vector Space Model (VSM) dan Term Frequency – Invers Document Frequency (TF-IDF) untuk membangun ruang vektor dan pembobotan term, dan stemming menggunakan algoritma Confix-Stripping Stemmer (CS Stemmer). Selain itu, teknik pre-processing diterapkan menggunakan stopwords removal, dan pengukuran similarity menggunakan Inner Product Similarity Measurement. Penelitian ini menggunakan 162 dokumen hadis dari kitab Bulughul Marom. Dari sejumlah 6006 kata dalam dokumen, stopwords removal berhasil menghapus total 92 stopwords. Pengujian CS Stemmer terhadap 673 kosakata unik dalam dokumen, berhasil dilakukan dengan benar kepada 579 kata unik. Tingkat keberhasilan CS Stemmer adalah sebesar 78.6%. Matrix of words yang terbentuk dari VSM dan TF-IDF adalah matrik dengan ordo 673x 162. Pengujian aplikasi pencarian hadis dilakukan dengan memasukkan keyword yang berbeda ke dalam form pencarian. Hasil pengujian menunjukkan adanya relevansi antara keyword dengan dokumen hasil pencarian.  Yakni dokumen dengan nilai inner product tertinggi adalah dokumen paling relevan dengan keyword pencarian. Semakin banyak kata yang muncul dalam dokumen, dan sesuai dengan keyword pencarian maka nilai relevansinya semakin tinggi.   Abstract Hadith is the second source of Islamic teachings after the Al-Qur'an. Its position is after the Qur'an, before Ijma 'and Qiyas. At present, the hadiths can be accessed through various digital platforms. But the search features are still limited to data retrieval, where search results are only based on search keywords without considering the relevance between the keywords and the search results document. This study aims to build a hadith search application that can be used to find search results relevant to the search keywords. The search application was created using the Information Retrieval method. Including Vector Space Model (VSM) and Term Frequency – Inverse Document Frequency (TF-IDF) to create vector space and term weighting and stemming using the Confix-Stripping Stemmer (CS Stemmer) algorithm. In addition, pre-processing techniques use stopwords removal, and similarity measurements use Inner Product Similarity Measurement. This study used 162 hadith documents from the Bulughul Marom book. Of the 6006 words in the document, stopword removal succeeded in removing 92 stopwords. The CS Stemmer test for 673 unique vocabularies in the document was successfully carried out correctly for 579 unique words. The CS Stemmer success rate is 78.6%. The matrix of words formed from VSM and TF-IDF is a matrix of the order 673x 162. The hadith search application is tested by entering different keywords in the search form. The test results show relevance between keywords and search results documents. That is, the document with the highest inner product value is the document most relevant to the search keyword—the more words that appear in the document and keyword, the higher the relevance value.
format Article
id doaj-art-ec2f3accca0f43159d37b6810909d0b6
institution Kabale University
issn 2355-7699
2528-6579
language Indonesian
publishDate 2023-07-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj-art-ec2f3accca0f43159d37b6810909d0b62025-02-11T10:39:10ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792023-07-0110310.25126/jtiik.202310367361116Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping StemmerNovi Prisma Yunita0Universitas AMIKOM Yogyakarta, Yogyakarta Hadis adalah sumber ajaran Islam kedua setelah al-Qur’an. Kedudukannya yakni setelah Al-Qur’an, sebelum Ijma’ dan Qiyas. Saat ini hadis sudah dapat diakses melalui berbagai platform digital, tetapi fitur pencarian yang disediakan masih sebatas data retrieval di mana hasil pencarian hanya didasarkan pada keyword pencarian tanpa memperhitungkan relevansi antara keyword dengan dokumen hasil pencarian. Penelitian ini bertujuan membangun aplikasi pencarian hadis yang dapat digunakan untuk menemukan hasil pencarian yang relevan dengan keyword pencarian. Aplikasi pencarian dibangun menggunakan metode Information Retrieval antara lain Vector Space Model (VSM) dan Term Frequency – Invers Document Frequency (TF-IDF) untuk membangun ruang vektor dan pembobotan term, dan stemming menggunakan algoritma Confix-Stripping Stemmer (CS Stemmer). Selain itu, teknik pre-processing diterapkan menggunakan stopwords removal, dan pengukuran similarity menggunakan Inner Product Similarity Measurement. Penelitian ini menggunakan 162 dokumen hadis dari kitab Bulughul Marom. Dari sejumlah 6006 kata dalam dokumen, stopwords removal berhasil menghapus total 92 stopwords. Pengujian CS Stemmer terhadap 673 kosakata unik dalam dokumen, berhasil dilakukan dengan benar kepada 579 kata unik. Tingkat keberhasilan CS Stemmer adalah sebesar 78.6%. Matrix of words yang terbentuk dari VSM dan TF-IDF adalah matrik dengan ordo 673x 162. Pengujian aplikasi pencarian hadis dilakukan dengan memasukkan keyword yang berbeda ke dalam form pencarian. Hasil pengujian menunjukkan adanya relevansi antara keyword dengan dokumen hasil pencarian.  Yakni dokumen dengan nilai inner product tertinggi adalah dokumen paling relevan dengan keyword pencarian. Semakin banyak kata yang muncul dalam dokumen, dan sesuai dengan keyword pencarian maka nilai relevansinya semakin tinggi.   Abstract Hadith is the second source of Islamic teachings after the Al-Qur'an. Its position is after the Qur'an, before Ijma 'and Qiyas. At present, the hadiths can be accessed through various digital platforms. But the search features are still limited to data retrieval, where search results are only based on search keywords without considering the relevance between the keywords and the search results document. This study aims to build a hadith search application that can be used to find search results relevant to the search keywords. The search application was created using the Information Retrieval method. Including Vector Space Model (VSM) and Term Frequency – Inverse Document Frequency (TF-IDF) to create vector space and term weighting and stemming using the Confix-Stripping Stemmer (CS Stemmer) algorithm. In addition, pre-processing techniques use stopwords removal, and similarity measurements use Inner Product Similarity Measurement. This study used 162 hadith documents from the Bulughul Marom book. Of the 6006 words in the document, stopword removal succeeded in removing 92 stopwords. The CS Stemmer test for 673 unique vocabularies in the document was successfully carried out correctly for 579 unique words. The CS Stemmer success rate is 78.6%. The matrix of words formed from VSM and TF-IDF is a matrix of the order 673x 162. The hadith search application is tested by entering different keywords in the search form. The test results show relevance between keywords and search results documents. That is, the document with the highest inner product value is the document most relevant to the search keyword—the more words that appear in the document and keyword, the higher the relevance value. https://jtiik.ub.ac.id/index.php/jtiik/article/view/6736
spellingShingle Novi Prisma Yunita
Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer
Jurnal Teknologi Informasi dan Ilmu Komputer
title Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer
title_full Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer
title_fullStr Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer
title_full_unstemmed Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer
title_short Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer
title_sort aplikasi pencarian hadis menggunakan vector space model dengan pembobotan tf idf dan confix stripping stemmer
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/6736
work_keys_str_mv AT noviprismayunita aplikasipencarianhadismenggunakanvectorspacemodeldenganpembobotantfidfdanconfixstrippingstemmer