Pengaruh Teknik Representasi Teks Bag-of-Words dan TF-IDF terhadap Akurasi Klasifikasi Sentimen Teks Multi-Domain

Authors : Angelica Davina Meisya Putri; Ria Rismayati; Neny Sulistianingsih
article cite 0 Year 2025
source: JTIM Jurnal Teknologi Informasi dan Multimedia
Abstract

Representasi teks merupakan komponen esensial dalam sistem analisis sentimen, karena menentukan bagaimana data teks diubah menjadi fitur numerik yang dapat dimanfaatkan oleh algoritma klasifikasi. Penelitian ini bertujuan untuk menganalisis pengaruh dua teknik representasi teks populer, yaitu Bag-of-Words (BoW) dan Term Frequency–Inverse Document Frequency (TF-IDF), terhadap performa klasifikasi sentimen teks pendek dalam konteks multi-domain. Dataset yang digunakan merupakan hasil kombinasi antara data asli dan data augmentasi berbasis sinonim, dengan total 418 entri teks. Dua algoritma pembelajaran mesin yang digunakan dalam evaluasi adalah Ridge Classifier dan Complement Naïve Bayes. Penilaian dilakukan menggunakan teknik validasi silang Stratified K-Fold serta empat metrik evaluasi utama: akurasi, presisi, recall, dan F1-score. Hasil eksperimen menunjukkan bahwa representasi TF-IDF secara konsisten memberikan performa lebih baik dibandingkan BoW pada kedua model. Konfigurasi terbaik dicapai oleh Ridge Classifier dengan TF-IDF, yang memperoleh akurasi sebesar 0,911 dan F1-score sebesar 0,908. Temuan ini menggarisbawahi pentingnya pemilihan teknik representasi fitur yang tepat dalam meningkatkan efektivitas sistem klasifikasi sentimen berbasis teks.


Concepts :
Data Mining and Machine Learning Applications
Edcuational Technology Systems
Multimedia Learning Systems
article cite 0 Year 2025 source JTIM Jurnal Teknologi Informasi dan Multimedia
Citations by Year
YearCount
2025 0