Documente Academic
Documente Profesional
Documente Cultură
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
ii
ABSTRACT
NINON NURUL FAIZA. Predicting Successful of First year Students at IPB using k-Nearest
Neighbor. Under the direction of IMAS SUKAESIH SITANGGANG and ENDANG PURNAMA
GIRI.
Analysis of academic data and personal data of first-year students in IPB is necessary to predict
the successful of their study in the end of the first year. One of techniques in classification that can be
used for completing that task is k-nearest neighbor that will build a classifier. This research aimed to
develop classifier to predict the successful of first year students at IPB. The attributes used in this
research are selected based on target class-influenced statistic hipotesis test. Chi-square test is
implemented for nominal attributes whereas Spearman Rank Correlation Coeficient test is used for
selecting the numerical attribute. The result of this research is a classifier with accuracy 52.97%.
Keywords: classification, k-nearest neighbor
iii
Judul : Prediksi Tingkat Keberhasilan Mahasiswa Tingkat I IPB Dengan Metode k-Nearest
Neighbor
Nama : Ninon Nurul Faiza
NIM : G64052959
Menyetujui:
Pembimbing I Pembimbing II
Imas Sukaesih Sitanggang, S.Si., M.Kom. Endang Purnama Giri, S.Kom., M.Kom.
NIP 197501301998022001 NIP 198210102006041027
Mengetahui
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Tanggal Lulus:
iv
PRAKATA
Alhamdulillahi Rabbil alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas
limpahan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul
Prediksi Tingkat Keberhasilan Mahasiswa Tingkat I IPB dengan metode k-Nearest Neighbor.
Penelitian ini dilaksanakan mulai Februari 2009 sampai dengan Juni 2009, bertempat di Departemen
Ilmu Komputer IPB.
Banyak pihak yang memberikan bantuan, dukungan, saran, kritik, serta koreksi dalam
menyelesaikan tugas akhir ini. Ucapan terima kasih penulis sampaikan kepada:
1 Bapak, Mamah, Mbak Luthfa, Mbak Tia, Hanip, dan Jijah yang merupakan penyulut semangat
bagi penulis. Terima kasih atas kasih sayang yang tulus dan lantunan doa yang tak pernah putus.
2 Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I dan Bapak Endang Purnama Giri,
S.Kom., M.Kom. selaku pembimbing II atas kesediaannya meluangkan waktu untuk memberikan
arahan selama pengerjaan tugas akhir.
3 Bapak Sony Hartono Wijaya, S.Kom., M.Kom selaku moderator dan dosen penguji.
4 Seluruh staf pengajar yang telah mendidik, membina, dan mengembangkan wawasan penulis
selama menuntut ilmu di Departemen Ilmu Komputer.
5 Anindra Ageng Jihado dan Dimas CKP atas fasilitas yang diberikan saat seminar dan sidang.
6 Yuni Arti, sahabat terbaik yang senantiasa menjadi satu tim mulai dari perkuliahan, PKL, hingga
menyelesaikan tugas akhir.
7 Sri Danuriati, sahabat terbaik yang selama 2 tahun setia menemani penulis dari pagi hingga pagi
lagi, senantiasa memberikan semangat dan dukungan kepada penulis, dan bersedia menjadi tim
sukses konsumsi selama penulis seminar dan sidang.
8 Zissalwa Hafsari, sahabat terbaik penulis selama 4 tahun yang senantiasa memberikan semangat
dan dukungan kepada penulis.
9 Sahabat terbaik lainnya (Vera Yunita, Karina Gusriani, Tsamrul Fuad) yang telah mengisi hari-
hari penulis dengan kegembiraan dan kebersamaan.
10 Teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara
langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.
Semoga karya ilmiah ini bermanfaat.
v
RIWAYAT HIDUP
Penulis dilahirkan di Cirebon pada tanggal 14 Maret 1987 sebagai anak ketiga dari lima
bersaudara dari pasangan Bapak Nashrudin dan Ibu Komariyah. Penulis menyelesaikan pendidikan
menengah atas di SMU Negeri I Cirebon dan lulus pada tahun 2005.
Pada tahun yang sama penulis diterima sebagai mahasiswa Institut Pertanian Bogor melalui jalur
Undangan Seleksi Masuk IPB (USMI). Setelah menyelesaikan Tingkat Persiapan Bersama (TPB)
pada Tingkat I, tahun 2006 penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Tahun 2008, penulis
melaksanakan kegiatan praktik kerja lapangan di Badan Pengkajian dan Penerapan Teknologi (BPPT)
selama dua bulan. Selain itu, penulis pernah menjadi asisten praktikum pada mata kuliah Sistem Pakar
Mayor Ilmu Komputer IPB mulai bulan Februari 2009 sampai dengan bulan Juni 2009.
vi
DAFTAR ISI
Halaman
PENDAHULUAN
Latar Belakang................................................................................................................. 1
Tujuan .............................................................................................................................. 1
Ruang Lingkup ................................................................................................................. 1
Manfaat ............................................................................................................................. 1
TINJAUAN PUSTAKA
Klasifikasi dan Prediksi .................................................................................................... 1
k-Nearest Neighbor .......................................................................................................... 1
Normalisasi ....................................................................................................................... 2
k-Fold Cross Validation ................................................................................................... 2
Confusion Matrix .............................................................................................................. 2
Koefisien Korelasi Peringkat Spearman ........................................................................... 2
Uji Kebebasan Chi-Square ............................................................................................... 3
METODE PENELITIAN
Pengadaan Data ................................................................................................................ 4
Praproses Data .................................................................................................................. 4
Penentuan Data Latih dan Data Uji .................................................................................. 5
Aplikasi Teknik Klasifikasi .............................................................................................. 5
Jenis Percobaan dan Evaluasi Keluaran ............................................................................ 5
Lingkungan Pengembangan ............................................................................................. 5
LAMPIRAN ................................................................................................................................. 13
iv
DAFTAR TABEL
Halaman
DAFTAR GAMBAR
Halaman
DAFTAR LAMPIRAN
Halaman
v
PENDAHULUAN TINJAUAN PUSTAKA
Latar Belakang Klasifikasi dan Prediksi
Institut Pertanian Bogor (IPB) setiap Klasifikasi dan prediksi merupakan bentuk
tahunnya menerima mahasiswa baru dengan analisis data yang dapat digunakan untuk
berbagai jalur masuk. Pada tingkat I, mahasiswa membangun model berdasarkan kelas data yang
baru tersebut menjalani Tingkat Persiapan tersedia atau untuk memprediksi trend data
Bersama (TPB) yang merupakan tingkat awal selanjutnya (Han & Kamber 2006).
bagi mahasiswa dalam memasuki dunia
Klasifikasi terdiri atas dua proses yaitu
perkuliahan.
tahap induktif yang merupakan tahap
IPB menentukan kelulusan mahasiswa membangun model klasifikasi dari data latih
tingkat I berdasarkan hasil akademik mahasiswa dan tahap deduktif yang merupakan tahap
pada akhir tingkat I. Mahasiswa yang berhasil menerapkan model untuk data uji. Klasifikasi
lulus tingkat I dapat melanjutkan ke tingkat mempunyai dua teknik pembelajaran yaitu
berikutnya. Analisis data akademik dan data diri eager learners yang membuat model
mahasiswa IPB tingkat I perlu dilakukan untuk berdasarkan atribut input yang dipetakan
mengetahui tingkat keberhasilan mahasiswa terhadap kelas label setelah data latih tersedia
IPB dalam menyelesaikan studi di tingkat I. dan lazy learners yang melakukan proses
pemodelan dari data latih ketika ada data uji
Salah satu metode data mining yang dapat
yang akan diklasifikasikan (Tan et al.2006).
digunakan untuk membangun model klasifikasi
(classifier) untuk menunjukkan tingkat k-Nearest Neighbor
keberhasilan mahasiswa tingkat I IPB adalah k-
Kelemahan dari teknik lazy learners adalah
Nearest Neighbor.
hanya mampu mengklasifikasikan data uji jika
Tujuan dan hanya jika atributnya sesuai dengan salah
satu data latih. Jika atribut data uji tidak sesuai
Tujuan dari penelitian ini adalah:
dengan data latih maka tidak akan
1 Menerapkan metode k-Nearest Neighbor diklasifikasikan. k-Nearest Neighbor
untuk membangun model klasifikasi dari merupakan teknik yang lebih fleksibel karena
data akademik (IPK) dan data penerimaan mampu mengklasifikasikan data uji ke dalam
mahasiswa baru (PPMB) IPB. kelas label dengan cara mencari data latih yang
2 Memprediksi tingkat keberhasilan relatif sama dengan data uji (Tan et al.2006).
mahasiswa tingkat I IPB pada tahun
k-Nearest Neighbor merepresentasikan
selanjutnya dengan model terbaik yang
setiap data sebagai titik dalam k-ruang dimensi.
diperoleh.
Jika ada sebuah data uji maka akan dihitung
Ruang Lingkup kedekatan titik data tersebut dengan titik data
lainnya pada data latih untuk diklasifikasikan
Ruang lingkup penelitian ini difokuskan
berdasarkan kedekatannya yang didefinisikan
pada: dengan ukuran jarak (Han & Kamber 2006).
1 Penggunaan data mahasiswa IPB tahun Analis data mendefinisikan ukuran
ajaran 2007 yang berasal dari PPMB dan
kedekatan atau ukuran kesamaan menggunakan
Direktorat TPB.
fungsi jarak. Fungsi jarak yang umumnya
2 Pemilihan atribut yang diperkirakan
digunakan adalah jarak Euclidean (Larose
merupakan faktor penentu keberhasilan
2005).
mahasiswa tingkat I menggunakan uji
hipotesis statistika. ...(1)
3 Penerapan teknik data mining klasifikasi
menggunakan metode k-Nearest Neighbor. dengan
Manfaat x=
1
neighbor dengan menggunakan rumus berikut al.2006). Informasi mengenai klasifikasi
ini: sebenarnya (aktual) dengan klasifikasi hasil
prediksi disajikan dalam bentuk tabel yang
(2) disebut confusion matrix seperti diperlihatkan
dengan v adalah label kelas, yi adalah label pada Tabel 1.
kelas untuk satu nearest neighbor dan I adalah Tabel 1 Confusion matrix dua kelas
fungsi indikator yang mengembalikan nilai 1
jika pernyataan benar dan nilai 0 jika salah (Tan Kelas hasil prediksi
et al. 2006). Kelas aktual Kelas1 Kelas2
Kelas1 a b
Normalisasi Kelas2 c d
Pada perhitungan jarak Euclidean, atribut
berskala panjang dapat mempunyai pengaruh Jumlah baris dan kolom pada tabel
lebih besar daripada atribut berskala pendek. bergantung pada banyaknya kelas target.
Untuk mencegah hal tersebut perlu dilakukan Akurasi merupakan proporsi jumlah prediksi
normalisasi terhadap nilai atribut (Larose 2005). yang tepat. Contoh perhitungan akurasi untuk
Salah satu metode normalisasi adalah min- tabel tersebut adalah:
max normalization yang diterapkan untuk
atribut kontinu. Formula untuk normalisasi
atribut X adalah:
(5)
(3) Koefisien Korelasi Peringkat Spearman
dengan X* adalah nilai setelah dinormalisasi, X Korelasi peringkat merupakan ukuran yang
adalah nilai sebelum dinormalisasi, min(X) menunjukkan derajat keeratan hubungan
adalah nilai minimum dari atribut, dan max(X) diantara dua peubah. Salah satu ukuran asosiasi
adalah nilai maksimum dari suatu atribut. yang dikenal yaitu Koefisien Korelasi Peringkat
Spearman. Asumsi atau syarat yang harus
Untuk atribut kategori digunakan rumus dipenuhi pada korelasi ini antara lain (Daniel
berikut: 1990):
(4) Data terdiri atas contoh acak n berpasangan
pengamatan numerik atau bukan numerik.
k-Fold Cross Validation
Tiap pasang pengamatan menunjukkan dua
k-fold cross validation dilakukan untuk ukuran yang diperoleh dari objek atau
membagi data latih dan data uji. k-fold cross individu yang sama.
validation mengulang k-kali untuk membagi
Langkah perhitungan koefisien korelasi
sebuah himpunan contoh secara acak menjadi k
peringkat Spearman (Daniel 1990):
subset yang saling bebas, setiap ulangan
disisakan satu subset untuk pengujian dan Jika data terdiri atas pengamatan dari suatu
subset lainnya untuk pelatihan (Fu 1994). Pada populasi bivariabel, ditunjukkan n pasang
metode tersebut, data awal dibagi menjadi k pengamatan yang diperoleh yaitu (X1,Y1),
subset atau fold yang saling bebas secara (X2,Y2), , (Xn,Yn).
acak, yaitu S1, S2, , Sk, dengan ukuran setiap
subset kira-kira sama. Pada iterasi ke-i, subset Tiap X diperingkatkan terhadap seluruh
Si diperlukan sebagai data pengujian dan subset pengamatan X lainnya dari nilai terkecil
lainnya diperlukan sebagai data pelatihan. hingga terbesar. Peringkat nilai ke-i dari X
Prosedur ini diulang sebanyak k-kali ditunjukkan dengan R(Xi) dan R(Xi) = 1 jika
sedemikian sehingga setiap subset digunakan Xi nilai pengamatan terkecil dari X.
untuk pengujian tepat satu kali. Total akurasi Tiap Y diperingkatkan terhadap seluruh
ditentukan dengan menjumlahkan akurasi untuk pengamatan Y lainnya dari nilai terkecil
semua k proses tersebut. hingga terbesar. Peringkat nilai ke-i dari Y
Confusion Matrix ditunjukkan dengan R(Yi) dan R(Yi) = 1
jika Yi nilai pengamatan terkecil dari Y.
Evaluasi model klasifikasi berdasar pada
proporsi antara data uji yang diprediksi secara Jika ada nilai yang sama (ties) diantara X
tepat dengan total seluruh prediksi (Tan et dan Y, digunakan peringkat rata-rata.
2
Jika data bukan numerik, maka harus Benar atau salahnya suatu hipotesis tidak
mampu diperingkatkan. akan pernah diketahui dengan pasti kecuali bila
memeriksa seluruh populasi. Namun dalam
Hipotesis statistik adalah dugaan mengenai kebanyakan situasi, hal itu tidak mungkin
suatu populasi. Hipotesis yang dirumuskan dilakukan. Oleh karena itu, dapat mengambil
dengan harapan akan ditolak disebut hipotesis contoh acak dari populasi untuk memutuskan
nol (H0) sedangkan hipotesis alternatif apakah hipotesis tersebut kemungkinan besar
dilambangkan dengan H1 (Walpole 1992). benar atau salah. Bukti dari contoh yang tidak
Hipotesis koefisien korelasi peringkat konsisten dengan hipotesis yang dinyatakan
Spearman (Daniel 1990): tentu saja membawa pada penolakan hipotesis
H0: X dan Y saling bebas tersebut sedangkan bukti yang mendukung
hipotesis membawa pada penerimaan hipotesis
H1: X dan Y berhubungan langsung atau tersebut. Penerimaan suatu hipotesis statistik
kebalikan adalah karena tidak cukup bukti untuk
Statistik uji yang digunakan adalah menolaknya. Penolakan suatu hipotesis berarti
(Daniel 1990): menyimpulkan bahwa hipotesis itu salah
(Walpole 1992). Kaidah keputusan hipotesis
(6) koefisien korelasi peringkat Spearman (Daniel
1990):
(7) Jika rs > nilai Tabel koefisien korelasi
peringkat Spearman untuk n dan (2) atau rs <
dengan:
nilai tabel ini, maka tolak H0 dengan adalah
di: jumlah kuadrat beda antara peringkat record besarnya taraf nyata (tingkat error) dan dapat
X ke-i dengan peringkat record Y ke-i disimpulkan bahwa antara peubah satu dengan
R(Xi): peringkat record ke-i pada atribut X peubah lainnya tidak saling bebas
(berpengaruh).
R(Yi): peringkat record ke-i pada atribut Y
Uji Kebebasan Chi-Square
n: banyaknya record
Hubungan diantara peubah kategorik dapat
rs: koefisien korelasi, dimana -1 rs 1 dilakukan melalui penggunaan uji kebebasan
chi-square. Data dalam pengujian hubungan
Jika ada nilai pengamatan yang sama (ties),
disajikan dalam bentuk tabel kontingensi.
nilai menggunakan rumus:
Bentuk umum tabel kontingensi, yaitu
berukuran i baris j kolom.
(8)
Hipotesis untuk menguji pengaruh antara
dengan peubah satu dengan peubah lainnya, yaitu
(Freeman 1987):
(9)
H0: Pij = Pi.Pj (tidak ada hubungan)
(10) H1: Pij Pi.Pj (terdapat hubungan)
dengan
(11)
Pi: peluang total atribut ke-i terhadap total
(12) data
Pj: peluang total kelas ke-j terhadap total
dimana
data
tx=banyaknya pengamatan X yang sama untuk
Statistik uji yang digunakan adalah statistik
nilai tertentu (untuk suatu peringkat) 2
yang dirumuskan dengan (Freeman 1987)
ty=banyaknya pengamatan Y yang sama untuk
nilai tertentu (untuk suatu peringkat) Eij = n (Pi) (Pj)
3
dengan sedangkan IPK masuk ke dalam faktor
keterlibatan mahasiswa terhadap pendidikan.
n: total data (banyaknya pengamatan)
Pengadaan
Oij: frekuensi pengamatan Data
4
Transformasi data, mengubah data ke klasifikasi yang dihasilkan metode k-Nearest
bentuk yang dapat di-mine sesuai dengan Neighbor.
perangkat lunak yang digunakan pada
Lingkungan Pengembangan
penelitian.
Spesifikasi perangkat keras dan perangkat
Penentuan Data Latih dan Data Uji lunak yang digunakan untuk penelitian ini
Dalam penelitian ini data terdapat dua adalah sebagai berikut:
metode uji yang digunakan yaitu pembagian
a Perangkat keras berupa komputer personal
data latih dan data uji dengan proporsi 70% data
dengan spesifikasi:
latih dan 30% data uji dan metode uji 10-fold
cross validation. Prosesor Intel(R) Pentium(R) D CPU
2.80 GHz (2 CPUs)
Aplikasi Teknik Klasifikasi
Memori DDR2 512 MB
Tahapan ini merupakan tahap yang penting Harddisk 80 GB
karena pada tahap ini teknik klasifikasi Keyboard dan mouse
diaplikasikan terhadap data. Teknik klasifikasi Monitor
yang digunakan adalah k-Nearest Neighbor.
Langkah-langkah pada metode tersebut yaitu: b Perangkat Lunak
5
atribut baru yaitu atribut jurusan dengan dapat dilihat pada Tabel 2, sedangkan tabel
ketentuan berdasarkan tabel kode jurusan mayor kontingensi atribut lainnya dapat dilihat pada
IPB tahun akademik 2007/2008 (Lampiran 1), Lampiran 4.
penambahan atribut asal daerah berdasarkan
Tabel 2 Tabel kontingensi antara jenis kelamin
asal SMA. Penentuan asal daerah sesuai dengan
dan kelas target
ketentuan pada Lampiran 2. Selain itu
ditambahkan juga kolom kelas target yang Jenis Kelas target Total
ditentukan berdasarkan IPK dengan ketentuan: kelamin Resiko Resiko Resiko
resiko rendah (IPK2.76), resiko sedang rendah sedang tinggi
(2IPK<2.76), dan resiko tinggi (IPK<2). Perempuan 978 569 139 1686
Laki-laki 517 418 164 1099
Selanjutnya dilakukan pemilihan atribut. Total 1495 987 303 2785
Atribut yang tidak relevan dan atribut yang
banyak mengandung missing value akan
dihilangkan. Semua atribut terpilih yang bertipe Selanjutnya, dihitung nilai frekuensi harapan
nominal dan kelas target dikategorikan sesuai (Eij) dan nilai chi-square ( 2) dari setiap tabel
dengan ketentuan pada pada Lampiran 3. kontingensi. Hasil perhitungan Eij dan 2hitung
Record yang mengandung nilai kosong dan atau untuk atribut jenis kelamin diperlihatkan pada
duplikat dihapus. Hasil akhir dari proses Tabel 3.
penggabungan data IPK dan Biodata terdiri dari Tabel 3 Nilai frekuensi harapan dan chi-square
2785 record serta 9 atribut (jurusan, asal atribut jenis kelamin
daerah, jalur masuk, jenis kelamin, pendapatan
2 2 2
orang tua, pendidikan orang tua, nilai uan SMA, Ei1 Ei2 Ei3 i1 i2 i3
905.052 597.516 183.432 5.879 1.360 10.762
hobi, dan riwayat kesehatan) serta kolom kelas 589.947 389.484 119.568 9.020 2.087 16.511
target. 45.622
2
hitung
Pemilihan Data 2
(db, ) = 2
(2, 0.05)
5.99
Dari 9 atribut yang ada akan dilakukan
pemilihan atribut lagi menggunakan uji
hipotesis statistika yaitu uji kebebasan chi- Jenis kelamin memiliki 2 level (perempuan
square dan uji korelasi peringkat Spearman. Uji dan laki-laki) dan kelas target memiliki 3 level
kebebasan diterapkan untuk atribut yang bertipe (resiko rendah, resiko sedang, resiko tinggi)
nominal (jurusan, asal daerah, jalur masuk, jenis maka besarnya derajat bebas=(2-1) (3-1)=2.
kelamin, pendapatan orang tua, pendidikan Nilai yang digunakan yaitu sebesar 0.05.
orang tua, hobi, dan riwayat kesehatan)
Berdasarkan Tabel 3, nilai 2hitung> 2(2, ).
sedangkan uji Spearman diterapkan untuk
Oleh karena itu, dapat disimpulkan bahwa pada
atribut yang bertipe numerik (nilai uan SMA).
taraf nyata = 0.05, peubah jenis kelamin
Uji kebebasan dan uji Spearman dilakukan berpengaruh terhadap atribut kelas target. Untuk
untuk melihat hubungan antara setiap atribut nilai frekuensi harapan dan chi-square atribut
dengan kelas target, apakah berpengaruh atau lainnya dapat dilihat pada Lampiran 5.
tidak. Jika berdasarkan uji yang dilakukan suatu
Berdasarkan uji hipotesis yang telah
atribut dinyatakan tidak berpengaruh, maka
dilakukan terhadap seluruh atribut, diperoleh
atribut tersebut dihilangkan, dan sebaliknya.
hasil yang diperlihatkan pada Tabel 4.
Dalam hal ini, kelas target menunjukkan tingkat
keberhasilan mahasiswa. Tabel 4 Hasil uji hipotesis
Berikut merupakan salah satu contoh Atribut Keterangan terhadap
penerapan uji kebebasan pada atribut jenis kelas target
kelamin. Penentuan hipotesis: Jurusan Berpengaruh
Asal daerah Berpengaruh
H0 : jenis kelamin tidak berhubungan dengan Jalur masuk Berpengaruh
kelas target Jenis kelamin Berpengaruh
Pendapatan Tidak Berpengaruh
H1 : jenis kelamin berhubungan dengan kelas
Pendidikan orang tua Tidak Berpengaruh
target
Hobi Berpengaruh
Sebelum dilakukan uji kebebasan, dibuat Riwayat kesehatan Tidak Berpengaruh
tabel kontingensi terlebih dahulu antara setiap Nilai uan sma Berpengaruh
atribut dengan kelas target. Tabel kontingensi
antara atribut jenis kelamin dan kelas target
6
Data akhir yang dihasilkan terdiri dari 2785 tanpa label kelas yang akan diterapkan pada
record dan 6 atribut yang berdasarkan uji classifier terbaik. Jadi dataset untuk pembagian
hipotesis berpengaruh, yaitu: jurusan, asal data latih dan data uji sebanyak 2747 record.
daerah, jalur masuk, jenis kelamin, hobi, dan
Pada percobaan pertama, menggunakan
nilai uan SMA serta satu kolom kelas target.
seluruh dataset sebanyak 2747 record yang
Dari 6 atribut yang digunakan pada penelitian
proporsi record pada setiap kelas target tidak
ini 5 diantaranya merupakan data nominal yaitu:
sama dan metode uji yang digunakan 70%
jurusan, asal daerah, jalur masuk, jenis kelamin,
sebagai data latih sedangkan sisanya sebanyak
dan hobi. Sedangkan atribut nilai uan SMA
30% sebagai data uji. Jumlah record untuk data
merupakan data numerik. Pada atribut nilai uan
latih dan data uji dari setiap kelas diperlihatkan
SMA terdapat 10 record yang tidak relevan
Tabel 5.
sehingga data yang digunakan dalam proses
data mining terdiri dari 2775 record dan 6 Tabel 5 Jumlah record data latih dan data uji
atribut. percobaan 1
Transformasi Data Data latih Data uji
Kelas 1 1033 record 443 record
Karena adanya perbedaan range antar Kelas 2 682 record 292 record
atribut maka perlu dilakukan normalisasi. Kelas 3 208 record 89 record
Normalisasi yang dilakukan bergantung jenis Total 1923 record 824 record
datanya.
Untuk atribut nilai uan SMA yang bertipe Data tersebut kemudian diterapkan dalam
numerik, normalisasi menggunakan min-max metode k-Nearest Neighbor melalui tahap-tahap
normalization. Nilai maksimum atribut nilai uan berikut ini:
SMA sebesar 29,67 sedangkan nilai minimum
sebesar 17.13. Contoh normalisasi untuk record 1 Setiap record data uji dihitung jaraknya ke
pertama berdasarkan rumus normalisasi setiap record data latih untuk mengetahui
(persamaan 3) adalah: ukuran kedekatan antara data uji dengan
data latih. Untuk data bertipe nominal,
selisih antara data uji dengan data latih
dilihat dari kesamaan nilai kedua data. Jika
Meskipun atribut nilai uan SMA bertipe nilai data uji sama dengan nilai data latih
numerik tetapi bisa dinormalisasi dengan rumus maka selisihnya 0, tetapi jika nilai data uji
tersebut karena atribut numerik termasuk dalam berbeda dengan nilai data latih maka
atribut kontinu. selisihnya adalah 1. Untuk data bertipe
Pada penelitian ini perangkat lunak yang numerik, selisih antara data uji dengan data
digunakan adalah QtOctave sehingga data yang latih adalah pengurangan nilai data uji
digunakan disimpan dalam format yang dapat dengan nilai data latih.
diolah dalam QtOctave yaitu format txt atau .m. 2 Penentuan nilai k tetangga terdekat pada
Octave merupakan suatu perangkat lunak tiruan percobaan 1 dilakukan dengan mencoba
dari Matlab untuk komputasi numerik dan nilai k mulai dari 5 sampai 70 dengan selang
visualisasi data sedangkan QtOctave merupakan 5 angka dalam metode k-Nearest Neighbor.
sebuah antar muka grafis yang dikembangkan Pada setiap percobaan dengan suatu nilai k
untuk program Octave. Antar muka grafis ini dihitung akurasi classifier dan sebaran kelas
dikembangkan untuk menambahkan beberapa target ditampilkan dalam histogram.
fasilitas yang tidak terdapat pada program Berdasarkan percobaan sampai nilai k=65,
Octave yang langsung dijalankan dari shell diperoleh bahwa sebaran kelas target
command sehingga program Octave lebih mencakup ketiga kelas yaitu resiko rendah,
mudah digunakan. Pada QtOctave, perintah- sedang, dan tinggi. Jika nilai k dinaikkan
perintah yang diberikan tidak dimasukkan menjadi 70, maka sebaran kelas target untuk
secara langsung pada baris perintah, melainkan kelas 3 (resiko tinggi) tidak tercakup seperti
pada kotak teks masukkan yang terdapat pada diperlihatkan Gambar 2 dan Gambar 3
bagian bawah dari jendela QtOctave.
Aplikasi Teknik Klasifikasi
Dari total data sebanyak 2775 record,
diambil 1% data dari setiap kelas target yang
akan dihilangkan kelas targetnya sebagai data
7
3 Setiap record data uji dapat ditentukan kelas
targetnya berdasarkan kelas utama pada 65
tetangga terdekat.
Untuk mengetahui record yang salah
diklasifikasikan digunakan matrix confusion
yang diperlihatkan Tabel 7.
Tabel 7 Matrix confusion untuk percobaan 1
Kelas hasil prediksi
Kelas Kelas 1 Kelas 2 Kelas 3
aktual
Kelas 1 351 92 0
Kelas 2 250 41 1
Gambar 2 Histogram kelas target dengan Kelas 3 57 32 0
k=65.
8
proses uji ke- akurasi percobaan 1 dengan cara mencoba menerapkan
9 0.5292 nilai k mulai dari 5 sampai 65 dengan selang 5
10 0.4708 angka kedalam metode k-Nearest neighbor.
Setiap menerapkan suatu nilai k dihitung
Berdasarkan Tabel 8 akurasi terbaik akurasi klasifikasi tetapi tidak menampilkan
diperoleh pada proses uji ke-8 yaitu sebesar histogram sebaran kelas target karena setiap
0.5730. Matrix confusion untuk proses uji ke-8 kelas jumlahnya seragam. Akurasi klasifikasi
pada percobaan 2 adalah: untuk nilai k=5 sampai k=65 diperlihatkan pada
Tabel 11.
Tabel 9 Matrix confusion proses uji ke-8
percobaan 2 Tabel 11 Akurasi klasifikasi percobaan 3
k akurasi k akurasi
Kelas hasil prediksi
Kelas Kelas 1 Kelas 2 Kelas 3 5 0.4195 40 0.4382
aktual 10 0.4607 45 0.4457
Kelas 1 130 17 0 15 0.4270 50 0.4644
Kelas 2 71 27 0 20 0.4607 55 0.4232
Kelas 3 17 12 0 25 0.4457 60 0.4419
30 0.4569 65 0.4494
35 0.4532
Berdasarkan tabel tersebut (Tabel 9) kelas 1
yang tepat diklasifikasi sebagai kelas 1
Berdasarkan tabel tersebut (Tabel 11)
sebanyak 130 record, kelas 1 yang salah
akurasi yang paling tinggi diperoleh untuk k=50
diklasifikasi sebagai kelas 2 sebanyak 17
sehingga pada percobaan ini jumlah tetangga
record, dan tidak ada kelas 1 yang salah
terdekat adalah 50.
diklasifikasi sebagai kelas 3. Kelas 2 yang tepat
diklasifikasi sebagai kelas 2 sebanyak 27 Untuk mengetahui record yang salah
record, kelas 2 yang salah diklasifikasi sebagai diklasifikasikan digunakan matrix confusion
kelas 1 sebanyak 71 record, dan tidak ada kelas yang diperlihatkan Tabel 12.
2 yang salah diklasifikasi sebagai kelas 3. Kelas
3 tidak ada yang tepat diklasifikasikan sebagai Tabel 12 Matrix confusion untuk percobaan 3
kelas 3, kelas 3 yang salah diklasifikasi sebagai Kelas hasil prediksi
kelas 1 sebanyak 17 record, dan kelas 3 yang Kelas Kelas 1 Kelas 2 Kelas 3
salah diklasifikasi sebagai kelas 2 sebanyak 12 aktual
record. Berdasarkan persamaan 5, besarnya Kelas 1 56 22 11
akurasi adalah: Kelas 2 25 42 22
Kelas 3 28 35 26
akurasi = = 0.5730
Akurasi rata-rata dari seluruh proses uji Berdasarkan tabel tersebut (Tabel 12) kelas
dengan 10 data uji yang berbeda pada 1 yang tepat diklasifikasi sebagai kelas 1
percobaan kedua diperoleh sebesar 0.5013. sebanyak 56 record, kelas 1 yang salah
Percobaan 3 menggunakan dataset yang diklasifikasi sebagai kelas 2 sebanyak 22
proporsi record pada setiap kelas target record, dan kelas 1 yang salah diklasifikasi
seimbang dengan pembagian data 70% data sebagai kelas 3 sebanyak 11 record. Kelas 2
latih dan 30% data uji. Jumlah record untuk yang tepat diklasifikasi sebagai kelas 2
data latih dan data uji dari setiap kelas sebanyak 42 record, kelas 2 yang salah
diperlihatkan Tabel 10. diklasifikasi sebagai kelas 1 sebanyak 25
record, dan kelas 2 yang salah diklasifikasi
Tabel 10 Jumlah record data latih dan data uji sebagai kelas 3 sebanyak 22 record. Kelas 3
percobaan 3 yang tepat diklasifikasi sebagai kelas 3
Data latih Data uji sebanyak 26 record, kelas 3 yang salah
Kelas 1 208 record 89 record diklasifikasi sebagai kelas 1 sebanyak 28
Kelas 2 208 record 89 record record, dan kelas 3 yang salah diklasifikasi
Kelas 3 208 record 89 record sebagai kelas 2 sebanyak 35 record.
Total 624 record 267 record Berdasarkan persamaan 5, besarnya akurasi
adalah:
Pada percobaan 3 nilai k atau tetangga akurasi = = 0.4644
terdekat ditentukan lagi seperti halnya pada
9
Percobaan 4 dilakukan menggunakan akurasi = = 0.6404
dataset yang proporsi record pada setiap kelas
target seimbang dengan metode 10-fold cross Akurasi rata-rata dari seluruh proses uji
validation. Data dibagi menjadi 10 subset yang dengan 10 data uji yang berbeda pada
berbeda dengan jumlah yang hampir sama. percobaan 4 diperoleh sebesar 0.5297.
Setiap kali sebuah subset digunakan sebagai
Setiap percobaan yang dilakukan
data uji maka 9 subset lainnya menjadi data
menghasilkan sebuah classifier, sehingga dari
latih. Percobaan ini tetap menggunakan jumlah
empat percobaan diperoleh empat buah
tetangga terdekat sebanyak 65 karena dataset
classifier. Akurasi setiap classifier diperlihatkan
percobaan 4 sama dengan dataset percobaan 3.
pada Tabel 15.
Besarnya akurasi pada setiap proses uji
diperlihatkan pada Tabel 13. Tabel 15 Akurasi empat classifier
Tabel 13 Akurasi setiap proses uji pada 10-fold Percobaan Model yang akurasi
cross validation percobaan 4 dihasilkan
1 classifier 1 0.4757
proses uji ke- akurasi 2 classifier 2 0.5013
1 0.5843 3 classifier 3 0.4644
2 0.4382 4 classifier 4 0.5297
3 0.6067
4 0.5333
5 0.5393 Akurasi paling tinggi diperoleh pada
6 0.6404 classifier 4 yang dihasilkan dari percobaan 4
7 0.5169 yaitu menggunakan dataset 891 record yang
8 0.4944 proporsi record pada setiap kelas target
9 0.4494 seimbang dengan metode uji 10-fold cross
10 0.4944 validation. Dengan demikian classifier 4
merupakan classifier terbaik yang dihasilkan
Berdasarkan Tabel 13 akurasi terbaik dengan metode kNearest Neighbor.
diperoleh pada proses uji ke-6 yaitu sebesar Penggunaan Classifier pada Data Baru
0.6404. Matrix confusion untuk proses uji ke-6
pada percobaan 4 adalah Classifier terbaik yang diperoleh digunakan
untuk memprediksi label kelas pada data yang
Tabel 14 Matrix confusion proses uji ke-6 baru. Pada Tabel 16 diberikan contoh data baru
percobaan 4 tanpa label kelas yang akan diterapkan pada
Kelas hadil prediksi classifier.
Kelas Kelas 1 Kelas 2 Kelas 3 Tabel 16 Data tanpa label kelas
actual
Kelas 1 24 5 1 jur jalur jenis asal hobi NEM
Kelas 2 6 14 9 kel
Kelas 3 2 9 19 19 1 1 5 1 0.8030
19 1 1 1 1 0.8565
19 1 0 5 1 0.7018
Berdasarkan tabel tersebut (Tabel 14) kelas 19 1 0 1 1 0.8349
1 yang tepat diklasifikasi sebagai kelas 1 19 1 0 1 1 0.7927
sebanyak 24 record, kelas 1 yang salah 19 1 1 1 2 0.8724
diklasifikasi sebagai kelas 2 sebanyak 5 record, 19 1 0 4 1 0.7129
dan kelas 1 yang salah diklasifikasi sebagai 19 1 0 1 1 0.8134
kelas 3 sebanyak 1 record. Kelas 2 yang tepat 19 1 0 1 4 0.8772
diklasifikasi sebagai kelas 2 sebanyak 14 19 1 1 1 2 0.6651
record, kelas 2 yang salah diklasifikasi sebagai 19 1 0 1 1 0.7974
kelas 1 sebanyak 6 record, dan kelas 2 yang 19 1 0 1 1 0.6116
salah diklasifikasi sebagai kelas 3 sebanyak 9 19 1 1 1 1 0.8724
record. Kelas 3 yang tepat diklasifikasi sebagai 6 2 1 1 1 0.6276
kelas 3 sebanyak 19 record, kelas 3 yang salah 19 1 1 1 1 0.8349
10 1 0 1 1 0.5742
diklasifikasi sebagai kelas 1 sebanyak 2 record,
2 1 1 5 1 0.3987
dan kelas 3 yang salah diklasifikasi sebagai
5 1 0 6 1 0.4625
kelas 2 sebanyak 9 record. Berdasarkan 10 1 1 1 1 0.3724
persamaan 5, besarnya akurasi adalah: 10 2 1 5 2 0.5159
10
jenis data akademik dan biodata mahasiswa
jur jalur kel asal hobi NEM tingkat I IPB.
10 1 0 1 1 0.5000
10 2 1 1 2 0.8246 2 Classifier terbaik dihasilkan dari percobaan
2 1 1 1 1 0.6970 4 yaitu menggunakan dataset 891 record
10 1 1 1 1 0.5638 yang proporsi record pada setiap kelas
2 1 1 1 4 0.6435 target seimbang dengan metode uji 10-fold
33 1 0 1 1 0.7767 cross validation.
33 1 0 5 1 0.6061
30 1 1 1 1 0.5478 3 Akurasi yang diperoleh pada classifier
terbaik hanya sebesar 52.97%.
Hasil prediksi data baru tanpa label kelas 4 Classifier terbaik yang dihasilkan dapat
diperlihatkan pada Tabel 17 digunakan untuk memprediksi keberhasilan
mahasiswa baru IPB.
Tabel 17 Hasil prediksi data baru tanpa label
kelas 5 Atribut yang mempengaruhi tingkat
keberhasilan mahasiswa tingkat I IPB
record kelas prediksi berdasarkan uji hipotesis adalah jurusan,
1 2 jalur masuk, jenis kelamin, asal daerah,
2 1 hobi, dan nilai uan (NEM).
3 2
Saran
4 1
5 1 Pada penelitian ini masih terdapat beberapa
6 1 kekurangan yang dapat diperbaiki pada
7 1 penelitian selanjutnya. Beberapa saran yang
8 1 dapat dilakukan antara lain:
9 1 1. Penggunaan metode lain untuk
10 1 memperoleh classifier yang lebih baik,
11 1 karena akurasi classifier dari k-Nearest
12 1 Neighbor hanya sebesar 52.97% .
13 1 2. Dibangun aplikasi sederhana yang dapat
14 3 memprediksi keberhasilan mahasiswa baru
15 1 dengan menerapkan model terbaik.
16 1
17 2
18 2
19 2
20 3
21 2
22 1
23 1
24 2
25 2
26 1
27 2
28 1
11
DAFTAR PUSTAKA
12
LAMPIRAN
13
Lampiran 1 Tabel kode jurusan mayor IPB tahun akademik 2007/2008
Kode NRP Jurusan
A1 Manajemen Sumberdaya Lahan
A2 Agronomi dan Hortikultura
A3 Proteksi Tanaman
A4 Arsitektur Lanskap
B Kedokteran Hewan
C1 Teknologi dan Manajemen Perikanan Budidaya
C2 Manajemen Sumberdaya Perairan
C3 Teknologi Hasil Perairan
C4 Teknologi dan Manajemen Perikanan Tangkap
C5 Ilmu dan Teknologi Kelautan
D Peternakan
E1 Manajemen Hutan
E2 Teknologi Hasil Hutan
E3 Konservasi Sumberdaya Hutan dan Ekowisata
E4 Silvikultur
F1 Teknik Pertanian
F2 Teknologi Pangan
F3 Teknologi Industeri Pertanian
G1 Statistika
G2 Meteorologi Terapan
G3 Biologi
G4 Kimia
G5 Matematika
G6 Ilmu Komputer
G7 Fisika
G8 Biokimia
H1 Ekonomi dan Studi Pembangunan
H2 Manajemen
H3 Agribisnis
H4 Ekonomi Sumberdaya dan Lingkungan
I1 Ilmu Gizi
I2 Ilmu Keluarga dan Konsumen
I3 Komunikasi dan Pengembangan Masyarakat
14
Lampiran 2 Tabel penentuan asal daerah
Pulau Propinsi
JAWA DKI Jakarta, Banten, Jawa Barat, Jawa Tengah, Jawa Timur, DIY
KALIMANTAN Kalbar, Kalteng, Kaltim, Kalsel
MALUKU Maluku, Maluku utara
NUSA TENGGARA Bali, NTB, NTT
SUMATERA NAD, Sumut, Sumbar, Riau, Jambi, Sumsel, Bengkulu, Lampung, Kep.
Riau, Kep. Bangka belitung
SULAWESI Sulut, Sulsel, Sulteng, Gorontalo
PAPUA Papua, Papua barat
15
Lampiran 3 Tabel kategorisasi atribut nominal dan kelas target
Kelas Target kategori
Resiko rendah 1
Resiko sedang 2
Resiko tinggi 3
Jurusan kategori
Manajemen Sumberdaya Lahan 1
Agronomi dan Hortikultura 2
Proteksi Tanaman 3
Arsitektur Lanskap 4
Kedokteran Hewan 5
Teknologi dan Manajemen Perikanan Budidaya 6
Manajemen Sumberdaya Perairan 7
Teknologi Hasil Perairan 8
Teknologi dan Manajemen Perikanan Tangkap 9
Ilmu dan Teknologi Kelautan 10
Peternakan 11
Manajemen Hutan 12
Teknologi Hasil Hutan 13
Konservasi Sumberdaya Hutan dan Ekowisata 14
Silvikultur 15
Teknik Pertanian 16
Teknologi Pangan 17
Teknologi Industeri Pertanian 18
Statistika 19
Meteorologi Terapan 20
Biologi 21
Kimia 22
Matematika 23
Ilmu Komputer 24
Fisika 25
Biokimia 26
Ekonomi dan Studi Pembangunan 27
Manajemen 28
Agribisnis 29
Ekonomi Sumberdaya dan Lingkungan 30
Ilmu Gizi 31
Ilmu Keluarga dan Konsumen 32
Komunikasi dan Pengembangan Masyarakat 33
16
Lampiran 3 Lanjutan
Pendapatan orang tua kategori
(< 500) 1
(500<=P<1000) 2
(1000<=P<2500) 3
(2500<=P<5000) 4
(5000<=P<7500) 5
(>=7500) 6
Minat/Hobi kategori
Bidang khusus 1
OR 2
Keagamaan 3
Kesenian 4
Bela diri 5
17
Lampiran 4 Tabel kontingensi
a Atribut riwayat pendidikan
Kelas Target
Riwayat pendidikan
Resiko Resiko Resiko Total
rendah sedang tinggi
0 9 4 0 13
1 Tidak tamat SD 38 20 6 64
2 SD 102 63 17 182
3 SLTP 89 65 18 172
4 SLTA 550 358 102 1010
5 Diploma 95 62 20 177
6 Sarjana muda 88 56 20 164
7 Sarjana 392 260 89 741
8 S2/Master 100 73 25 198
9 S3/Doktor 32 26 6 64
Total 1495 987 303 2785
18
Lampiran 4 Lanjutan
d Atribut asal daerah
Asal Daerah Kelas Target Total
Resiko Resiko Resiko
rendah sedang tinggi
1 JAWA 1172 725 208 2105
2 KALIMANTAN 19 7 3 29
3 MALUKU 2 1 1 4
4 NUSA TENGGARA 14 15 3 32
5 SUMATERA 264 213 77 554
6 SULAWESI 14 18 11 43
7 PAPUA 10 5 0 15
8 LUAR INDONESIA 0 3 0 3
Total 1495 987 303 2785
e Atribut pendapatan
Pendapatan Kelas Target Total
Resiko Resiko Resiko
rendah sedang tinggi
1 (< 500) 4 6 1 11
2 (500<=P<1000) 119 68 12 199
3 (1000<=P<2500) 242 143 51 436
4 (2500<=P<5000) 514 385 110 1009
5 (5000<=P<7500) 487 311 101 899
6 (>=7500) 129 74 28 231
Total 1495 987 303 2785
f Atribut hobi
Hobi Kelas Target Total
Resiko Resiko Resiko
rendah sedang tinggi
1 Bidang khusus 1272 755 217 2244
2 OR 150 182 66 398
3 Keagamaan 41 25 10 76
4 Kesenian 24 17 7 48
5 Bela diri 8 8 3 19
Total 1495 987 303 2785
19
Lampiran 4 Lanjutan
g Atribut jurusan
Jurusan Kelas Target Total
Resiko Resiko Resiko
rendah sedang tinggi
MSL 34 21 16 71
AGH 90 58 18 166
Proteksi 24 30 14 68
Lanskap 31 27 3 61
FKH 73 44 22 139
BDP 33 31 11 75
MSP 16 35 9 60
THP 37 29 8 74
PSP 15 20 13 48
ITK 30 23 7 60
Fapet 72 82 29 183
Menehe 49 40 13 102
THH 30 22 12 64
KSH 39 43 12 94
Silvi 14 18 13 45
TEP 55 39 5 99
TPG 100 9 1 110
TIN 78 24 4 106
STAT 49 10 0 59
GFM 26 17 7 50
BIO 49 36 4 89
KIM 53 15 2 70
MAT 44 19 5 68
KOM 61 20 6 87
FIS 20 23 5 48
BIOKIM 37 20 5 62
IE 40 40 8 88
MENE 43 45 9 97
AGB 74 24 9 107
ESL 41 35 9 85
GIZI 77 28 3 108
IKK 22 17 4 43
KPM 39 43 17 99
Total 1495 987 303 2785
20
Lampiran 5 Nilai frekuensi harapan dan chi-square
a Atribut riwayat pendidikan
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3
21
Lampiran 5 Lanjutan
d Atribut asal daerah
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3
1129.973 746.009 229.018 1.5631017 0.591651192 1.928907125
15.56732 10.27756 3.155117 0.7569225 1.045227705 0.007626085
2.147217 1.417594 0.435189 0.0100935 0.123014721 0.733043295
17.17774 11.34075 3.481508 0.5878549 1.180704647 0.066594713
297.3896 196.3368 60.27361 3.7488351 1.414213151 4.641702647
23.08259 15.23914 4.678276 3.5738352 0.500182985 8.542502439
8.052065 5.315978 1.631957 0.4712397 0.018781563 1.631956912
1.610413 746.009 0.326391 1.6104129 740.0210409 0.326391382
2
hitung 775.0958369
2
(db,)= 2(14, 0.05) 23.69
e Atribut pendapatan
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3
f Atribut hobi
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3
22
Lampiran 5 Lanjutan
g Atribut jurusan
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3
23