Sistem Rekognisi Citra Digital Bahasa Isyarat Menggunakan Convolutional Neural Network dan Spatial Transformer

Bahasa isyarat merupakan hal yang sangat penting bagi suatu kelompok masyarakat, yaitu masyarakat bisu atau tuli. Untuk dapat berkomunikasi dengan masyarakat bisu atau tuli, orang yang tidak bisu atau tuli memerlukan bahasa isyarat tersebut untuk dapat mengerti maksud atau pikiran mereka yang bisu...

Full description

Saved in:
Bibliographic Details
Main Authors: Mohammad Alfiano Rizky Mahardika, Novanto Yudistira, Achmad Ridok
Format: Article
Language:Indonesian
Published: University of Brawijaya 2024-12-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Subjects:
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/8098
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Bahasa isyarat merupakan hal yang sangat penting bagi suatu kelompok masyarakat, yaitu masyarakat bisu atau tuli. Untuk dapat berkomunikasi dengan masyarakat bisu atau tuli, orang yang tidak bisu atau tuli memerlukan bahasa isyarat tersebut untuk dapat mengerti maksud atau pikiran mereka yang bisu atau tuli. Sebagian besar percakapan pada bahasa isyarat dilakukan dengan menggunakan tangan, dimana tangan beserta jari-jarinya digunakan untuk membentuk pose atau bentuk yang unik, sehingga dapat dikenali sebagai maksud tertentu. Penulis mengusulkan dikembangkan sistem rekognisi citra digital untuk dapat mengenali bahasa isyarat tersebut. Dengan menggunakan metode Convolutional Neural Network (CNN) yang merupakan bagian dari Deep Learning atau Machine Learning, sistem akan mengenali pose atau bentuk dari citra bahasa isyarat yang dimasukkan, dan memberikan luaran yang sesuai dengan maksud dari pose atau bentuk dari citra bahasa isyarat tersebut. Penelitian ini dimulai dengan pengumpulan data, baik data sekunder dari internet maupun data pribadi yang diambil secara manual. Data kemudian melalui pemrosesan awal dan diklasifikasikan dengan CNN, lalu didapatkan hasil untuk dianalisis. Apabila hasil memuaskan, model akan diekspor untuk dimasukkan ke dalam aplikasi berbasis web untuk digunakan secara real-time. Berdasarkan hasil pengujian, model yang terbaik untuk arsitektur adalah model EfficientNet B4 dengan menggunakan Hyperparameter optimizer Adam dan learning rate 0.001 beserta scheduler. Digunakan pretrained weights untuk meningkatkan akurasi tersebut, dan ditambahkan Spatial transformer untuk mencoba membuat model menjadi lebih kokoh. Ditambah dengan pretrained weights, model diekspor untuk digunakan secara real-time. Hasil pengujian real-time menunjukkan bahwa model mampu mendeteksi setidaknya 23 dari 26 alfabet pada latar belakang yang abstrak. Apabila diuji pada latar belakang polos seperti hitam atau putih, model mampu mendeteksi seluruh 26 alfabet dengan probabilitas yang hampir sempurna. Hal ini menunjukkan bahwa metode yang digunakan sudah mampu mengatasi masalah yang disampaikan.   Abstract Sign language is very important for a group of people, namely the deaf or dumb. To be able to communicate with people who are mute or deaf, people who are not mute or deaf require sign language to be able to understand the intentions or thoughts of those who are mute or deaf. Most conversations in sign language are carried out using the hands, where the hands and their fingers are used to form unique poses or shapes, so that they can be recognized as having certain meanings. The author proposes to develop a digital image recognition system to be able to recognize sign language. By using the Convolutional Neural Network (CNN) method which is part of Deep Learning or Machine Learning, the system will recognize the pose or shape of the entered sign language image, and provide output that matches the meaning of the pose or shape of the sign language image. This research began with data collection, both secondary data from the internet and personal data taken manually. The data then goes through initial processing and is classified with CNN, then results are obtained for analysis. If the results are satisfactory, the model will be exported to be included in a web-based application for use in real-time. Based on the test results, the best model for the architecture is the EfficientNet B4 model with the Hyperparameter consisting of optimizer Adam and learning rate 0.001 along with the scheduler. Pretrained weights were used to improve accuracy, and Spatial transformers were added to try to make the model more robust. Coupled with pretrained weights, the model is exported for use in real-time. Real-time test results show that the model is able to detect at least 23 of the 26 alphabets on an abstract background. When tested on a plain background such as black or white, the model was able to detect all 26 alphabets with almost perfect probability. This shows that the method used is able to overcome the problem presented.
ISSN:2355-7699
2528-6579