Parallel Processing Pada Pemodelan Machine Learning Menggunakan Random Forest
Abstract
Algoritma Random Forest dalam melakukan pengklasifikasian dengan membuat beberapa decision tree pada setiap sampel yang dipilih kemudian membuat hasil prediksi dari setiap decision tree dan memilih hasil prediksi akhir berdasarkan vote terbanyak. Penelitian ini akan membandingkan execution time yang diproses menggunakan teknik serial processing dengan parallel processing pada saat melakukan training data dengan menggunakan dataset flight delay dengan jumlah baris data sebanyak 563.737 baris. Hasilnya menunjukkan bahwa secara rata rata parallel processing mampu memproses training data lebih cepat berdasarkan tiap jumlah n buah decision tree yang telah ditentukan. Namun, jika membandingkan core pada parallel processing itu sendiri, seperti percobaan dengan jumlah 10 dan 20 buah decision tree, execution time dihasilkan lebih cepat dengan menggunakan 6 dan 7 core daripada menggunakan 8 core. Hasil akurasi terbesar didapatkan dengan penentuan jumlah buah decision tree sebanyak 40 dan 50 buah dengan akurasi yang sama sebesar 78.14%.