Perbandingan Performa Model Data Mining untuk Prediksi Dropout Mahasiwa
DOI:
https://doi.org/10.52330/jtm.v19i2.34Keywords:
klasifikasi, machine learning, perbandingan performa data mining, pycaretAbstract
Penentuan teknik/model data mining yang tepat pada sebuah kasus sangat penting untuk mendapatkan model yang baik (tingkat akurat tinggi dan kesesuaiannya dengan masalah yang dipecahkan). Penelitian ini bertujuan untuk membandingkan performa teknik data mining untuk diterapkan pada kasus prediksi dropout mahasiswa. Perbandingan performa dilakukan menggunakan library PyCaret pada Python untuk melakukan pemodelan menggunakan 14 model / teknik data mining yaitu: Extreme Gradient Boosting, Ada Boost Classifier, Light Gradient Boosting Machine, Random Forest Classifier, Gradient Boosting Classifier, Extra Trees Classifier, Decision Tree Classifier, K Neighbors Classifier, Naive Bayes, Ridge Classifier, Linear Discriminant Analysis, Logistic Regression, SVM - Linear Kernel, dan Quadratic Discriminant Analysis. Metrik evaluasi performa model yang digunakan yaitu Accuracy, AUC, Recall, Precision, F1, Kappa, dan MCC (Matthews correlation coefficient). Hasil eksperimen menunjukkan bahwa kasus prediksi dropout mahasiswa lebih tepat jika dimodelkan dengan model berbasis ensemble learner dan pohon keputusan dengan akurasi mencapai 99%. Pohon keputusan memiliki keunggulan dibandingkan model lain seperti SVM - Linear Kernel dan Quadratic Discriminant Analysis karena ia dapat dengan lebih detil dalam memisahkan data ke dalam kedua kelas target. Setelah dilakukan penyesuaian atribut, pembuangan data dengan missing values, dan parameter tuning, didapatkan hasil akurasi yang mirip dari berbagai model yaitu sebesar 87%. Perbedaan akurasi antar model menjadi sangat kecil di saat atribut data yang digunakan sedikit.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2021 Jurnal Teknologi dan Manajemen
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.