Sunteți pe pagina 1din 31

PREDIKSI TINGKAT KEBERHASILAN MAHASISWA

TINGKAT I IPB DENGAN METODE k-NEAREST NEIGHBOR

NINON NURUL FAIZA

DEPARTEMEN ILMU KOMPUTER


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2009
i
PREDIKSI TINGKAT KEBERHASILAN MAHASISWA
TINGKAT I IPB DENGAN METODE k-NEAREST NEIGHBOR

NINON NURUL FAIZA

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2009

ii
ABSTRACT

NINON NURUL FAIZA. Predicting Successful of First year Students at IPB using k-Nearest
Neighbor. Under the direction of IMAS SUKAESIH SITANGGANG and ENDANG PURNAMA
GIRI.
Analysis of academic data and personal data of first-year students in IPB is necessary to predict
the successful of their study in the end of the first year. One of techniques in classification that can be
used for completing that task is k-nearest neighbor that will build a classifier. This research aimed to
develop classifier to predict the successful of first year students at IPB. The attributes used in this
research are selected based on target class-influenced statistic hipotesis test. Chi-square test is
implemented for nominal attributes whereas Spearman Rank Correlation Coeficient test is used for
selecting the numerical attribute. The result of this research is a classifier with accuracy 52.97%.
Keywords: classification, k-nearest neighbor

iii
Judul : Prediksi Tingkat Keberhasilan Mahasiswa Tingkat I IPB Dengan Metode k-Nearest
Neighbor
Nama : Ninon Nurul Faiza
NIM : G64052959

Menyetujui:

Pembimbing I Pembimbing II

Imas Sukaesih Sitanggang, S.Si., M.Kom. Endang Purnama Giri, S.Kom., M.Kom.
NIP 197501301998022001 NIP 198210102006041027

Mengetahui
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Dr. Drh. Hasim, DEA


NIP 196103281986011002

Tanggal Lulus:

iv
PRAKATA
Alhamdulillahi Rabbil alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas
limpahan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul
Prediksi Tingkat Keberhasilan Mahasiswa Tingkat I IPB dengan metode k-Nearest Neighbor.
Penelitian ini dilaksanakan mulai Februari 2009 sampai dengan Juni 2009, bertempat di Departemen
Ilmu Komputer IPB.
Banyak pihak yang memberikan bantuan, dukungan, saran, kritik, serta koreksi dalam
menyelesaikan tugas akhir ini. Ucapan terima kasih penulis sampaikan kepada:
1 Bapak, Mamah, Mbak Luthfa, Mbak Tia, Hanip, dan Jijah yang merupakan penyulut semangat
bagi penulis. Terima kasih atas kasih sayang yang tulus dan lantunan doa yang tak pernah putus.
2 Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I dan Bapak Endang Purnama Giri,
S.Kom., M.Kom. selaku pembimbing II atas kesediaannya meluangkan waktu untuk memberikan
arahan selama pengerjaan tugas akhir.
3 Bapak Sony Hartono Wijaya, S.Kom., M.Kom selaku moderator dan dosen penguji.
4 Seluruh staf pengajar yang telah mendidik, membina, dan mengembangkan wawasan penulis
selama menuntut ilmu di Departemen Ilmu Komputer.
5 Anindra Ageng Jihado dan Dimas CKP atas fasilitas yang diberikan saat seminar dan sidang.
6 Yuni Arti, sahabat terbaik yang senantiasa menjadi satu tim mulai dari perkuliahan, PKL, hingga
menyelesaikan tugas akhir.
7 Sri Danuriati, sahabat terbaik yang selama 2 tahun setia menemani penulis dari pagi hingga pagi
lagi, senantiasa memberikan semangat dan dukungan kepada penulis, dan bersedia menjadi tim
sukses konsumsi selama penulis seminar dan sidang.
8 Zissalwa Hafsari, sahabat terbaik penulis selama 4 tahun yang senantiasa memberikan semangat
dan dukungan kepada penulis.
9 Sahabat terbaik lainnya (Vera Yunita, Karina Gusriani, Tsamrul Fuad) yang telah mengisi hari-
hari penulis dengan kegembiraan dan kebersamaan.
10 Teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara
langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.
Semoga karya ilmiah ini bermanfaat.

Bogor, Juni 2009

Ninon Nurul Faiza

v
RIWAYAT HIDUP

Penulis dilahirkan di Cirebon pada tanggal 14 Maret 1987 sebagai anak ketiga dari lima
bersaudara dari pasangan Bapak Nashrudin dan Ibu Komariyah. Penulis menyelesaikan pendidikan
menengah atas di SMU Negeri I Cirebon dan lulus pada tahun 2005.
Pada tahun yang sama penulis diterima sebagai mahasiswa Institut Pertanian Bogor melalui jalur
Undangan Seleksi Masuk IPB (USMI). Setelah menyelesaikan Tingkat Persiapan Bersama (TPB)
pada Tingkat I, tahun 2006 penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Tahun 2008, penulis
melaksanakan kegiatan praktik kerja lapangan di Badan Pengkajian dan Penerapan Teknologi (BPPT)
selama dua bulan. Selain itu, penulis pernah menjadi asisten praktikum pada mata kuliah Sistem Pakar
Mayor Ilmu Komputer IPB mulai bulan Februari 2009 sampai dengan bulan Juni 2009.

vi
DAFTAR ISI
Halaman

DAFTAR TABEL ........................................................................................................................v

DAFTAR GAMBAR .................................................................................................................... v

DAFTAR LAMPIRAN ................................................................................................................. v

PENDAHULUAN
Latar Belakang................................................................................................................. 1
Tujuan .............................................................................................................................. 1
Ruang Lingkup ................................................................................................................. 1
Manfaat ............................................................................................................................. 1

TINJAUAN PUSTAKA
Klasifikasi dan Prediksi .................................................................................................... 1
k-Nearest Neighbor .......................................................................................................... 1
Normalisasi ....................................................................................................................... 2
k-Fold Cross Validation ................................................................................................... 2
Confusion Matrix .............................................................................................................. 2
Koefisien Korelasi Peringkat Spearman ........................................................................... 2
Uji Kebebasan Chi-Square ............................................................................................... 3

METODE PENELITIAN
Pengadaan Data ................................................................................................................ 4
Praproses Data .................................................................................................................. 4
Penentuan Data Latih dan Data Uji .................................................................................. 5
Aplikasi Teknik Klasifikasi .............................................................................................. 5
Jenis Percobaan dan Evaluasi Keluaran ............................................................................ 5
Lingkungan Pengembangan ............................................................................................. 5

HASIL DAN PEMBAHASAN


Data..... ............................................................................................................................. 5
Penggabungan dan Pembersihan Data .............................................................................. 5
Pemilihan Data ................................................................................................................. 6
Transformasi Data ............................................................................................................ 7
Aplikasi Teknik Klasifikasi .............................................................................................. 7
Penggunaan Classifier pada Data Baru ............................................................................ 11

KESIMPULAN DAN SARAN


Kesimpulan ...................................................................................................................... 11
Saran... .............................................................................................................................. 11

DAFTAR PUSTAKA ................................................................................................................... 12

LAMPIRAN ................................................................................................................................. 13

iv
DAFTAR TABEL

Halaman

1 Confusion matrix dua kelas ..................................................................................................... 4


2 Tabel kontingensi antara jenis kelamin dan kelas target ......................................................... 6
3 Nilai frekuensi harapan dan chi-square atribut jenis kelamin ................................................. 6
4 Hasil uji hipotesis .................................................................................................................... 6
5 Jumlah record data latih dan data uji percobaan 1 ......................................................... ..........7
6 Akurasi klasifikasi percobaan 1 ............................................................................................... 8
7 Matrix confusion untuk percobaan 1 ....................................................................................... 8
8 Akurasi setiap proses uji pada 10-fold cross validation percobaan 2 ...................................... 8
9 Matrix confusion proses uji ke-8 percobaan 2 ......................................................................... 9
10 Jumlah record data latih dan data uji percobaan 3......................................................... ......... 9
11 Akurasi klasifikasi percobaan 3.. ................................................................................... ......... 9
12 Matrix confusion untuk percobaan 3.. ........................................................................... ......... 9
13 Akurasi setiap proses uji pada 10-fold cross validation percobaan 4 .................................... 10
14 Matrix confusion proses uji ke-6 percobaan 4 ....................................................................... 10
15 Akurasi empat classifier ........................................................................................................ 10
16 Data tanpa label kelas ........................................................................................................... 10
17 Hasil prediksi data baru tanpa label kelas ............................................................................. 11

DAFTAR GAMBAR

Halaman

1 Tahapan penelitian .................................................................................................................... 4


2 Histogram dengan k=65 ............................................................................................................ 8
3 Histogram dengan k=70 ............................................................................................................ 8

DAFTAR LAMPIRAN

Halaman

1 Tabel kode jurusan mayor IPB tahun akademik 2007/2008 ...................................................... 14


2 Tabel penentuan asal daerah...................................................................................................... 15
3 Tabel kategorisasi atribut nominal dan kelas target .................................................................. 16
4 Tabel kontingensi ..................................................................................................................... 18
5 Nilai frekuensi harapan dan chi-square ..................................................................................... 21

v
PENDAHULUAN TINJAUAN PUSTAKA
Latar Belakang Klasifikasi dan Prediksi
Institut Pertanian Bogor (IPB) setiap Klasifikasi dan prediksi merupakan bentuk
tahunnya menerima mahasiswa baru dengan analisis data yang dapat digunakan untuk
berbagai jalur masuk. Pada tingkat I, mahasiswa membangun model berdasarkan kelas data yang
baru tersebut menjalani Tingkat Persiapan tersedia atau untuk memprediksi trend data
Bersama (TPB) yang merupakan tingkat awal selanjutnya (Han & Kamber 2006).
bagi mahasiswa dalam memasuki dunia
Klasifikasi terdiri atas dua proses yaitu
perkuliahan.
tahap induktif yang merupakan tahap
IPB menentukan kelulusan mahasiswa membangun model klasifikasi dari data latih
tingkat I berdasarkan hasil akademik mahasiswa dan tahap deduktif yang merupakan tahap
pada akhir tingkat I. Mahasiswa yang berhasil menerapkan model untuk data uji. Klasifikasi
lulus tingkat I dapat melanjutkan ke tingkat mempunyai dua teknik pembelajaran yaitu
berikutnya. Analisis data akademik dan data diri eager learners yang membuat model
mahasiswa IPB tingkat I perlu dilakukan untuk berdasarkan atribut input yang dipetakan
mengetahui tingkat keberhasilan mahasiswa terhadap kelas label setelah data latih tersedia
IPB dalam menyelesaikan studi di tingkat I. dan lazy learners yang melakukan proses
pemodelan dari data latih ketika ada data uji
Salah satu metode data mining yang dapat
yang akan diklasifikasikan (Tan et al.2006).
digunakan untuk membangun model klasifikasi
(classifier) untuk menunjukkan tingkat k-Nearest Neighbor
keberhasilan mahasiswa tingkat I IPB adalah k-
Kelemahan dari teknik lazy learners adalah
Nearest Neighbor.
hanya mampu mengklasifikasikan data uji jika
Tujuan dan hanya jika atributnya sesuai dengan salah
satu data latih. Jika atribut data uji tidak sesuai
Tujuan dari penelitian ini adalah:
dengan data latih maka tidak akan
1 Menerapkan metode k-Nearest Neighbor diklasifikasikan. k-Nearest Neighbor
untuk membangun model klasifikasi dari merupakan teknik yang lebih fleksibel karena
data akademik (IPK) dan data penerimaan mampu mengklasifikasikan data uji ke dalam
mahasiswa baru (PPMB) IPB. kelas label dengan cara mencari data latih yang
2 Memprediksi tingkat keberhasilan relatif sama dengan data uji (Tan et al.2006).
mahasiswa tingkat I IPB pada tahun
k-Nearest Neighbor merepresentasikan
selanjutnya dengan model terbaik yang
setiap data sebagai titik dalam k-ruang dimensi.
diperoleh.
Jika ada sebuah data uji maka akan dihitung
Ruang Lingkup kedekatan titik data tersebut dengan titik data
lainnya pada data latih untuk diklasifikasikan
Ruang lingkup penelitian ini difokuskan
berdasarkan kedekatannya yang didefinisikan
pada: dengan ukuran jarak (Han & Kamber 2006).
1 Penggunaan data mahasiswa IPB tahun Analis data mendefinisikan ukuran
ajaran 2007 yang berasal dari PPMB dan
kedekatan atau ukuran kesamaan menggunakan
Direktorat TPB.
fungsi jarak. Fungsi jarak yang umumnya
2 Pemilihan atribut yang diperkirakan
digunakan adalah jarak Euclidean (Larose
merupakan faktor penentu keberhasilan
2005).
mahasiswa tingkat I menggunakan uji
hipotesis statistika. ...(1)
3 Penerapan teknik data mining klasifikasi
menggunakan metode k-Nearest Neighbor. dengan

Manfaat x=

Model terbaik yang diperoleh diharapkan y=


dapat digunakan untuk memprediksi tingkat = selisih data uji dengan data latih
keberhasilan mahasiswa-mahasiswa tingkat I
IPB pada tahun selanjutnya, lebih lanjut IPB m = jumlah atribut
dapat memberikan treatment terhadap Penentuan klasifikasi data uji berdasar pada
mahasiswa yang diprediksi drop out (memiliki kelas utama (majority voting) pada nearest
tingkat keberhasilan rendah).

1
neighbor dengan menggunakan rumus berikut al.2006). Informasi mengenai klasifikasi
ini: sebenarnya (aktual) dengan klasifikasi hasil
prediksi disajikan dalam bentuk tabel yang
(2) disebut confusion matrix seperti diperlihatkan
dengan v adalah label kelas, yi adalah label pada Tabel 1.
kelas untuk satu nearest neighbor dan I adalah Tabel 1 Confusion matrix dua kelas
fungsi indikator yang mengembalikan nilai 1
jika pernyataan benar dan nilai 0 jika salah (Tan Kelas hasil prediksi
et al. 2006). Kelas aktual Kelas1 Kelas2
Kelas1 a b
Normalisasi Kelas2 c d
Pada perhitungan jarak Euclidean, atribut
berskala panjang dapat mempunyai pengaruh Jumlah baris dan kolom pada tabel
lebih besar daripada atribut berskala pendek. bergantung pada banyaknya kelas target.
Untuk mencegah hal tersebut perlu dilakukan Akurasi merupakan proporsi jumlah prediksi
normalisasi terhadap nilai atribut (Larose 2005). yang tepat. Contoh perhitungan akurasi untuk
Salah satu metode normalisasi adalah min- tabel tersebut adalah:
max normalization yang diterapkan untuk
atribut kontinu. Formula untuk normalisasi
atribut X adalah:
(5)
(3) Koefisien Korelasi Peringkat Spearman
dengan X* adalah nilai setelah dinormalisasi, X Korelasi peringkat merupakan ukuran yang
adalah nilai sebelum dinormalisasi, min(X) menunjukkan derajat keeratan hubungan
adalah nilai minimum dari atribut, dan max(X) diantara dua peubah. Salah satu ukuran asosiasi
adalah nilai maksimum dari suatu atribut. yang dikenal yaitu Koefisien Korelasi Peringkat
Spearman. Asumsi atau syarat yang harus
Untuk atribut kategori digunakan rumus dipenuhi pada korelasi ini antara lain (Daniel
berikut: 1990):
(4) Data terdiri atas contoh acak n berpasangan
pengamatan numerik atau bukan numerik.
k-Fold Cross Validation
Tiap pasang pengamatan menunjukkan dua
k-fold cross validation dilakukan untuk ukuran yang diperoleh dari objek atau
membagi data latih dan data uji. k-fold cross individu yang sama.
validation mengulang k-kali untuk membagi
Langkah perhitungan koefisien korelasi
sebuah himpunan contoh secara acak menjadi k
peringkat Spearman (Daniel 1990):
subset yang saling bebas, setiap ulangan
disisakan satu subset untuk pengujian dan Jika data terdiri atas pengamatan dari suatu
subset lainnya untuk pelatihan (Fu 1994). Pada populasi bivariabel, ditunjukkan n pasang
metode tersebut, data awal dibagi menjadi k pengamatan yang diperoleh yaitu (X1,Y1),
subset atau fold yang saling bebas secara (X2,Y2), , (Xn,Yn).
acak, yaitu S1, S2, , Sk, dengan ukuran setiap
subset kira-kira sama. Pada iterasi ke-i, subset Tiap X diperingkatkan terhadap seluruh
Si diperlukan sebagai data pengujian dan subset pengamatan X lainnya dari nilai terkecil
lainnya diperlukan sebagai data pelatihan. hingga terbesar. Peringkat nilai ke-i dari X
Prosedur ini diulang sebanyak k-kali ditunjukkan dengan R(Xi) dan R(Xi) = 1 jika
sedemikian sehingga setiap subset digunakan Xi nilai pengamatan terkecil dari X.
untuk pengujian tepat satu kali. Total akurasi Tiap Y diperingkatkan terhadap seluruh
ditentukan dengan menjumlahkan akurasi untuk pengamatan Y lainnya dari nilai terkecil
semua k proses tersebut. hingga terbesar. Peringkat nilai ke-i dari Y
Confusion Matrix ditunjukkan dengan R(Yi) dan R(Yi) = 1
jika Yi nilai pengamatan terkecil dari Y.
Evaluasi model klasifikasi berdasar pada
proporsi antara data uji yang diprediksi secara Jika ada nilai yang sama (ties) diantara X
tepat dengan total seluruh prediksi (Tan et dan Y, digunakan peringkat rata-rata.

2
Jika data bukan numerik, maka harus Benar atau salahnya suatu hipotesis tidak
mampu diperingkatkan. akan pernah diketahui dengan pasti kecuali bila
memeriksa seluruh populasi. Namun dalam
Hipotesis statistik adalah dugaan mengenai kebanyakan situasi, hal itu tidak mungkin
suatu populasi. Hipotesis yang dirumuskan dilakukan. Oleh karena itu, dapat mengambil
dengan harapan akan ditolak disebut hipotesis contoh acak dari populasi untuk memutuskan
nol (H0) sedangkan hipotesis alternatif apakah hipotesis tersebut kemungkinan besar
dilambangkan dengan H1 (Walpole 1992). benar atau salah. Bukti dari contoh yang tidak
Hipotesis koefisien korelasi peringkat konsisten dengan hipotesis yang dinyatakan
Spearman (Daniel 1990): tentu saja membawa pada penolakan hipotesis
H0: X dan Y saling bebas tersebut sedangkan bukti yang mendukung
hipotesis membawa pada penerimaan hipotesis
H1: X dan Y berhubungan langsung atau tersebut. Penerimaan suatu hipotesis statistik
kebalikan adalah karena tidak cukup bukti untuk
Statistik uji yang digunakan adalah menolaknya. Penolakan suatu hipotesis berarti
(Daniel 1990): menyimpulkan bahwa hipotesis itu salah
(Walpole 1992). Kaidah keputusan hipotesis
(6) koefisien korelasi peringkat Spearman (Daniel
1990):
(7) Jika rs > nilai Tabel koefisien korelasi
peringkat Spearman untuk n dan (2) atau rs <
dengan:
nilai tabel ini, maka tolak H0 dengan adalah
di: jumlah kuadrat beda antara peringkat record besarnya taraf nyata (tingkat error) dan dapat
X ke-i dengan peringkat record Y ke-i disimpulkan bahwa antara peubah satu dengan
R(Xi): peringkat record ke-i pada atribut X peubah lainnya tidak saling bebas
(berpengaruh).
R(Yi): peringkat record ke-i pada atribut Y
Uji Kebebasan Chi-Square
n: banyaknya record
Hubungan diantara peubah kategorik dapat
rs: koefisien korelasi, dimana -1 rs 1 dilakukan melalui penggunaan uji kebebasan
chi-square. Data dalam pengujian hubungan
Jika ada nilai pengamatan yang sama (ties),
disajikan dalam bentuk tabel kontingensi.
nilai menggunakan rumus:
Bentuk umum tabel kontingensi, yaitu
berukuran i baris j kolom.
(8)
Hipotesis untuk menguji pengaruh antara
dengan peubah satu dengan peubah lainnya, yaitu
(Freeman 1987):
(9)
H0: Pij = Pi.Pj (tidak ada hubungan)
(10) H1: Pij Pi.Pj (terdapat hubungan)
dengan
(11)
Pi: peluang total atribut ke-i terhadap total
(12) data
Pj: peluang total kelas ke-j terhadap total
dimana
data
tx=banyaknya pengamatan X yang sama untuk
Statistik uji yang digunakan adalah statistik
nilai tertentu (untuk suatu peringkat) 2
yang dirumuskan dengan (Freeman 1987)
ty=banyaknya pengamatan Y yang sama untuk
nilai tertentu (untuk suatu peringkat) Eij = n (Pi) (Pj)

Jika n>100, maka gunakan tabel normal (z) = n (ni/n) (nj/n)


dengan: = [(ni) (nj)]/n
(13) (14)

3
dengan sedangkan IPK masuk ke dalam faktor
keterlibatan mahasiswa terhadap pendidikan.
n: total data (banyaknya pengamatan)
Pengadaan
Oij: frekuensi pengamatan Data

Eij: frekuensi harapan


Praproses
ni: total data atribut ke-i Data

nj: total data kelas ke-j Penentuan


data latih dan
Kaidah keputusan data uji

Jika 2hitung > 2 (db, ) tabel chi-


square maka tolak H0 dan dapat disimpulkan Data Latih Data Uji
bahwa antara peubah satu dengan lainnya
tidak saling bebas (berpengaruh).
Pembentukan classifier
Derajat bebas (db) menunjukkan menggunakan k-Nearest
banyaknya parameter (informasi) minimum Neihgbor

yang digunakan. Formula derajat bebas: db


= (i 1) (j 1) dengan i=jumlah level atribut classifier
dan j=jumlah level kelas target.
Penentuan
METODE PENELITIAN akurasi

Penelitian ini dilakukan dalam beberapa Data mahasiswa


Prediksi
tahap seperti diilustrasikan pada Gambar 1. mahasiswa baru baru tanpa label
kelas
Pengadaan Data
Data mahasiswa
Banyak studi yang telah lakukan untuk baru dengan
menjelaskan prestasi akademik atau label kelas
memprediksi kesuksesan akademik dalam dunia
pendidikan, salah satunya adalah studi yang Gambar 1 Tahap penelitian.
dilakukan Parmentier pada tahun 1994. Pengelompokan mahasiswa untuk
Parmentier menunjukkan bahwa prestasi menganalisis tingkat keberhasilan mahasiswa
akademik mahasiswa dipengaruhi oleh tiga tingkat I dibagi menjadi tiga kategori, yaitu low
kumpulan faktor, yaitu berbagai hal yang risk (memiliki kemungkinan/resiko rendah tidak
berhubungan dengan latar belakang pribadi lulus), medium risk (dibolehkan lulus
mahasiswa (identitas, pendidikan, keluarga, dan berdasarkan ukuran yang diambil perguruan
lain-lain), keterlibatan atau tingkah laku tinggi), dan high risk (memiliki
mahasiswa terhadap pendidikan (partisipasi kemungkinan/resiko besar tidak lulus atau drop
pada kegiatan pilihan, bertemu dengan profesor out) (Superby et al. 2005).
untuk bertanya atau memperoleh feedback pada
Praproses Data
ujian berkala, dan lain-lain), dan persepsi dari
mahasiswa (persepsi mahasiswa terhadap Tahapan yang dilakukan dalam praproses
konteks akademik, profesornya, kuliah, dan diantaranya :
lain-lain) (Superby et al. 2005).
Penggabungan data, menggabungkan dua
Penelitian ini hanya menggunakan dua kelompok data yaitu Indeks Prestasi
faktor Parmentier, yaitu faktor data pribadi Mahasiswa (IPK) dan Biodata Mahasiswa.
mahasiswa dan faktor keterlibatan mahasiswa
terhadap pendidikan. Data yang digunakan Pembersihan data, membuang data yang
adalah data mahasiswa TPB IPB tahun ajaran missing value.
2007 yang berasal dari Panitia Penerimaan Pemilihan data, mengambil data yang
Mahasiswa Baru (PPMB) dan Direktorat relevan digunakan untuk proses analisis.
Tingkat Persiapan Bersama (Direktorat TPB). Pada penelitian ini pemilihan data
Data tersebut terdiri dari dua kelompok data menggunakan uji hipotesis statistika yaitu
yaitu IPK dan Biodata. Biodata mahasiswa Uji Kebebasan dan Uji Spearman.
masuk ke dalam faktor data pribadi mahasiswa,

4
Transformasi data, mengubah data ke klasifikasi yang dihasilkan metode k-Nearest
bentuk yang dapat di-mine sesuai dengan Neighbor.
perangkat lunak yang digunakan pada
Lingkungan Pengembangan
penelitian.
Spesifikasi perangkat keras dan perangkat
Penentuan Data Latih dan Data Uji lunak yang digunakan untuk penelitian ini
Dalam penelitian ini data terdapat dua adalah sebagai berikut:
metode uji yang digunakan yaitu pembagian
a Perangkat keras berupa komputer personal
data latih dan data uji dengan proporsi 70% data
dengan spesifikasi:
latih dan 30% data uji dan metode uji 10-fold
cross validation. Prosesor Intel(R) Pentium(R) D CPU
2.80 GHz (2 CPUs)
Aplikasi Teknik Klasifikasi
Memori DDR2 512 MB
Tahapan ini merupakan tahap yang penting Harddisk 80 GB
karena pada tahap ini teknik klasifikasi Keyboard dan mouse
diaplikasikan terhadap data. Teknik klasifikasi Monitor
yang digunakan adalah k-Nearest Neighbor.
Langkah-langkah pada metode tersebut yaitu: b Perangkat Lunak

Hitung jarak Euclidean: Pada tahap ini Sistem operasi Windows XP


setiap data uji akan dihitung jaraknya ke Professional
setiap data latih untuk mengetahui ukuran Microsoft Excel 2007 sebagai media
kedekatan atau ukuran kesamaan antara data merapihkan data
uji dengan data latih. Microsoft Access 2007 sebagai media
Penentuan nilai k: Hal terpenting pada k- penggabungan data, pembersihan data,
Nearest Neighbor adalah menentukan nilai transformasi data
yang tepat untuk k yang menunjukan jumlah QtOctave 0.7.2 untuk menjalankan
tetangga terdekat. metode k-Nearest neighbor
Majority voting: Penentuan kelas target
untuk data uji berdasarkan kelas yang utama
pada tetangga terdekat. HASIL DAN PEMBAHASAN
Jenis Percobaan dan Evaluasi Keluaran Data
Dalam penelitian ini dilakukan beberapa Data IPK dengan format spreadsheet Excel
bentuk percobaan yang dibedakan berdasarkan terdiri dari 2989 record dan 4 atribut (Nama,
jenis dataset dan metode pembagian data latih NRP, IPK, dan Status Studi). Sedangkan data
dan data uji. Jenis-jenis percobaan tersebut Biodata dengan format spreadsheet Excel terdiri
adalah: dari 3010 record dan 41 atribut (NRP, jalur
masuk, jenis kelamin, tempat lahir, tanggal
Percobaan menggunakan dataset yang lahir, status kawin, warganegara, agama, nama
proporsi record pada setiap kelas target ayah, tahun lahir ayah, pendidikan ayah,
tidak sama dengan metode uji 70% data latih pekerjaan ayah, pendapatan orang tua, nama
dan 30% data uji. ibu, tahun lahir ibu, pendidikan ibu, pendidikan
Percobaan menggunakan dataset yang orang tua, pekerjaan ibu, alamat orang tua, kode
proporsi record pada setiap kelas target pos, wilayah telp orang tua, nomor telp orang
tidak sama dengan metode uji 10-fold cross tua, nama wali, alamat wali, nama darurat,
validation. alamat darurat, nomor telp darurat, nomor
Percobaan menggunakan dataset yang SMA, nama SMA, nomor induk, status SMA,
proporsi record pada setiap kelas target tahun ijazah, jumlah mata pelajaran UAN, nilai
sama dengan metode uji 70% data latih dan UAN, prestasi, minat/hobi, listrik, golongan
30% data uji. darah, tinggi badan, berat badan, dan riwayat
Percobaan menggunakan dataset yang kesehatan).
proporsi record pada setiap kelas target
sama dengan metode uji 10-fold cross Penggabungan dan Pembersihan Data
validation. Data IPK dan Biodata digabung
Selanjutnya akan dibentuk tabel confusion menggunakan Microsoft Access berdasarkan
matrix dari setiap classifier untuk mengevaluasi kesamaan NRP pada kedua data. Pada data hasil
gabungan data IPK dan Biodata ditambahkan

5
atribut baru yaitu atribut jurusan dengan dapat dilihat pada Tabel 2, sedangkan tabel
ketentuan berdasarkan tabel kode jurusan mayor kontingensi atribut lainnya dapat dilihat pada
IPB tahun akademik 2007/2008 (Lampiran 1), Lampiran 4.
penambahan atribut asal daerah berdasarkan
Tabel 2 Tabel kontingensi antara jenis kelamin
asal SMA. Penentuan asal daerah sesuai dengan
dan kelas target
ketentuan pada Lampiran 2. Selain itu
ditambahkan juga kolom kelas target yang Jenis Kelas target Total
ditentukan berdasarkan IPK dengan ketentuan: kelamin Resiko Resiko Resiko
resiko rendah (IPK2.76), resiko sedang rendah sedang tinggi
(2IPK<2.76), dan resiko tinggi (IPK<2). Perempuan 978 569 139 1686
Laki-laki 517 418 164 1099
Selanjutnya dilakukan pemilihan atribut. Total 1495 987 303 2785
Atribut yang tidak relevan dan atribut yang
banyak mengandung missing value akan
dihilangkan. Semua atribut terpilih yang bertipe Selanjutnya, dihitung nilai frekuensi harapan
nominal dan kelas target dikategorikan sesuai (Eij) dan nilai chi-square ( 2) dari setiap tabel
dengan ketentuan pada pada Lampiran 3. kontingensi. Hasil perhitungan Eij dan 2hitung
Record yang mengandung nilai kosong dan atau untuk atribut jenis kelamin diperlihatkan pada
duplikat dihapus. Hasil akhir dari proses Tabel 3.
penggabungan data IPK dan Biodata terdiri dari Tabel 3 Nilai frekuensi harapan dan chi-square
2785 record serta 9 atribut (jurusan, asal atribut jenis kelamin
daerah, jalur masuk, jenis kelamin, pendapatan
2 2 2
orang tua, pendidikan orang tua, nilai uan SMA, Ei1 Ei2 Ei3 i1 i2 i3
905.052 597.516 183.432 5.879 1.360 10.762
hobi, dan riwayat kesehatan) serta kolom kelas 589.947 389.484 119.568 9.020 2.087 16.511
target. 45.622
2
hitung
Pemilihan Data 2
(db, ) = 2
(2, 0.05)
5.99
Dari 9 atribut yang ada akan dilakukan
pemilihan atribut lagi menggunakan uji
hipotesis statistika yaitu uji kebebasan chi- Jenis kelamin memiliki 2 level (perempuan
square dan uji korelasi peringkat Spearman. Uji dan laki-laki) dan kelas target memiliki 3 level
kebebasan diterapkan untuk atribut yang bertipe (resiko rendah, resiko sedang, resiko tinggi)
nominal (jurusan, asal daerah, jalur masuk, jenis maka besarnya derajat bebas=(2-1) (3-1)=2.
kelamin, pendapatan orang tua, pendidikan Nilai yang digunakan yaitu sebesar 0.05.
orang tua, hobi, dan riwayat kesehatan)
Berdasarkan Tabel 3, nilai 2hitung> 2(2, ).
sedangkan uji Spearman diterapkan untuk
Oleh karena itu, dapat disimpulkan bahwa pada
atribut yang bertipe numerik (nilai uan SMA).
taraf nyata = 0.05, peubah jenis kelamin
Uji kebebasan dan uji Spearman dilakukan berpengaruh terhadap atribut kelas target. Untuk
untuk melihat hubungan antara setiap atribut nilai frekuensi harapan dan chi-square atribut
dengan kelas target, apakah berpengaruh atau lainnya dapat dilihat pada Lampiran 5.
tidak. Jika berdasarkan uji yang dilakukan suatu
Berdasarkan uji hipotesis yang telah
atribut dinyatakan tidak berpengaruh, maka
dilakukan terhadap seluruh atribut, diperoleh
atribut tersebut dihilangkan, dan sebaliknya.
hasil yang diperlihatkan pada Tabel 4.
Dalam hal ini, kelas target menunjukkan tingkat
keberhasilan mahasiswa. Tabel 4 Hasil uji hipotesis
Berikut merupakan salah satu contoh Atribut Keterangan terhadap
penerapan uji kebebasan pada atribut jenis kelas target
kelamin. Penentuan hipotesis: Jurusan Berpengaruh
Asal daerah Berpengaruh
H0 : jenis kelamin tidak berhubungan dengan Jalur masuk Berpengaruh
kelas target Jenis kelamin Berpengaruh
Pendapatan Tidak Berpengaruh
H1 : jenis kelamin berhubungan dengan kelas
Pendidikan orang tua Tidak Berpengaruh
target
Hobi Berpengaruh
Sebelum dilakukan uji kebebasan, dibuat Riwayat kesehatan Tidak Berpengaruh
tabel kontingensi terlebih dahulu antara setiap Nilai uan sma Berpengaruh
atribut dengan kelas target. Tabel kontingensi
antara atribut jenis kelamin dan kelas target

6
Data akhir yang dihasilkan terdiri dari 2785 tanpa label kelas yang akan diterapkan pada
record dan 6 atribut yang berdasarkan uji classifier terbaik. Jadi dataset untuk pembagian
hipotesis berpengaruh, yaitu: jurusan, asal data latih dan data uji sebanyak 2747 record.
daerah, jalur masuk, jenis kelamin, hobi, dan
Pada percobaan pertama, menggunakan
nilai uan SMA serta satu kolom kelas target.
seluruh dataset sebanyak 2747 record yang
Dari 6 atribut yang digunakan pada penelitian
proporsi record pada setiap kelas target tidak
ini 5 diantaranya merupakan data nominal yaitu:
sama dan metode uji yang digunakan 70%
jurusan, asal daerah, jalur masuk, jenis kelamin,
sebagai data latih sedangkan sisanya sebanyak
dan hobi. Sedangkan atribut nilai uan SMA
30% sebagai data uji. Jumlah record untuk data
merupakan data numerik. Pada atribut nilai uan
latih dan data uji dari setiap kelas diperlihatkan
SMA terdapat 10 record yang tidak relevan
Tabel 5.
sehingga data yang digunakan dalam proses
data mining terdiri dari 2775 record dan 6 Tabel 5 Jumlah record data latih dan data uji
atribut. percobaan 1
Transformasi Data Data latih Data uji
Kelas 1 1033 record 443 record
Karena adanya perbedaan range antar Kelas 2 682 record 292 record
atribut maka perlu dilakukan normalisasi. Kelas 3 208 record 89 record
Normalisasi yang dilakukan bergantung jenis Total 1923 record 824 record
datanya.
Untuk atribut nilai uan SMA yang bertipe Data tersebut kemudian diterapkan dalam
numerik, normalisasi menggunakan min-max metode k-Nearest Neighbor melalui tahap-tahap
normalization. Nilai maksimum atribut nilai uan berikut ini:
SMA sebesar 29,67 sedangkan nilai minimum
sebesar 17.13. Contoh normalisasi untuk record 1 Setiap record data uji dihitung jaraknya ke
pertama berdasarkan rumus normalisasi setiap record data latih untuk mengetahui
(persamaan 3) adalah: ukuran kedekatan antara data uji dengan
data latih. Untuk data bertipe nominal,
selisih antara data uji dengan data latih
dilihat dari kesamaan nilai kedua data. Jika
Meskipun atribut nilai uan SMA bertipe nilai data uji sama dengan nilai data latih
numerik tetapi bisa dinormalisasi dengan rumus maka selisihnya 0, tetapi jika nilai data uji
tersebut karena atribut numerik termasuk dalam berbeda dengan nilai data latih maka
atribut kontinu. selisihnya adalah 1. Untuk data bertipe
Pada penelitian ini perangkat lunak yang numerik, selisih antara data uji dengan data
digunakan adalah QtOctave sehingga data yang latih adalah pengurangan nilai data uji
digunakan disimpan dalam format yang dapat dengan nilai data latih.
diolah dalam QtOctave yaitu format txt atau .m. 2 Penentuan nilai k tetangga terdekat pada
Octave merupakan suatu perangkat lunak tiruan percobaan 1 dilakukan dengan mencoba
dari Matlab untuk komputasi numerik dan nilai k mulai dari 5 sampai 70 dengan selang
visualisasi data sedangkan QtOctave merupakan 5 angka dalam metode k-Nearest Neighbor.
sebuah antar muka grafis yang dikembangkan Pada setiap percobaan dengan suatu nilai k
untuk program Octave. Antar muka grafis ini dihitung akurasi classifier dan sebaran kelas
dikembangkan untuk menambahkan beberapa target ditampilkan dalam histogram.
fasilitas yang tidak terdapat pada program Berdasarkan percobaan sampai nilai k=65,
Octave yang langsung dijalankan dari shell diperoleh bahwa sebaran kelas target
command sehingga program Octave lebih mencakup ketiga kelas yaitu resiko rendah,
mudah digunakan. Pada QtOctave, perintah- sedang, dan tinggi. Jika nilai k dinaikkan
perintah yang diberikan tidak dimasukkan menjadi 70, maka sebaran kelas target untuk
secara langsung pada baris perintah, melainkan kelas 3 (resiko tinggi) tidak tercakup seperti
pada kotak teks masukkan yang terdapat pada diperlihatkan Gambar 2 dan Gambar 3
bagian bawah dari jendela QtOctave.
Aplikasi Teknik Klasifikasi
Dari total data sebanyak 2775 record,
diambil 1% data dari setiap kelas target yang
akan dihilangkan kelas targetnya sebagai data

7
3 Setiap record data uji dapat ditentukan kelas
targetnya berdasarkan kelas utama pada 65
tetangga terdekat.
Untuk mengetahui record yang salah
diklasifikasikan digunakan matrix confusion
yang diperlihatkan Tabel 7.
Tabel 7 Matrix confusion untuk percobaan 1
Kelas hasil prediksi
Kelas Kelas 1 Kelas 2 Kelas 3
aktual
Kelas 1 351 92 0
Kelas 2 250 41 1
Gambar 2 Histogram kelas target dengan Kelas 3 57 32 0
k=65.

Berdasarkan tabel tersebut (Tabel 7) kelas 1


yang tepat diklasifikasi sebagai kelas 1
sebanyak 351 record, kelas 1 yang salah
diklasifikasi sebagai kelas 2 sebanyak 92
record, dan tidak ada kelas 1 yang salah
diklasifikasi sebagai kelas 3. Kelas 2 yang tepat
diklasifikasi sebagai kelas 2 sebanyak 41
record, kelas 2 yang salah diklasifikasi sebagai
kelas 1 sebanyak 250 record, dan kelas 2 yang
salah diklasifikasi sebagai kelas 3 sebanyak 1
record. Tidak ada kelas 3 yang tepat
diklasifikasi sebagai kelas 3, kelas 3 yang salah
diklasifikasi sebagai kelas 1 sebanyak 57
record, dan kelas 3 yang salah diklasifikasi
Gambar 3 Histogram kelas target dengan sebagai kelas 2 sebanyak 32 record.
k=70. Berdasarkan persamaan 5, besarnya akurasi
adalah:
Melihat kondisi tersebut, nilai k akan dipilih
antara 5 sampai 65. Akurasi klasifikasi akurasi = = 0.4757
untuk nilai k=5 sampai k=70 diperlihatkan
pada Tabel 6. Percobaan 2 menggunakan seluruh dataset
Tabel 6 Akurasi klasifikasi percobaan 1 sebanyak 2747 record yang proporsi record
pada setiap kelas target tidak sama,
k akurasi k akurasi
menggunakan tetangga terdekat sebanyak 65
5 0.2609 40 0.4211
tetapi dengan metode uji 10-fold cross
10 0.3095 45 0.4345
15 0.3325 50 0.4454
validation. Data dibagi menjadi 10 subset yang
20 0.3701 55 0.4636 berbeda dengan jumlah yang hampir sama.
25 0.3908 60 0.4636 Setiap kali sebuah subset digunakan sebagai
30 0.4078 65 0.4757 data uji maka 9 subset lainnya menjadi data
35 0.4333 latih. Besarnya akurasi pada setiap proses uji
diperlihatkan pada Tabel 8.
Berdasarkan tabel tersebut (Tabel 6) Tabel 8 Akurasi setiap proses uji pada 10-fold
akurasi yang diperoleh selisihnya tidak cross validation percobaan 2
terlalu jauh berbeda. Hal inilah yang
menyebabkan percobaan nilai k proses uji ke- akurasi
menggunakan selang 5 angka. Akurasi 1 0.4436
paling tinggi diperoleh untuk k=65 sehingga 2 0.5273
pada percobaan ini classifier terbaik 3 0.5273
4 0.4073
diperoleh pada jumlah tetangga terdekat
5 0.5309
sebanyak 65.
6 0.5164
7 0.4873
8 0.5730

8
proses uji ke- akurasi percobaan 1 dengan cara mencoba menerapkan
9 0.5292 nilai k mulai dari 5 sampai 65 dengan selang 5
10 0.4708 angka kedalam metode k-Nearest neighbor.
Setiap menerapkan suatu nilai k dihitung
Berdasarkan Tabel 8 akurasi terbaik akurasi klasifikasi tetapi tidak menampilkan
diperoleh pada proses uji ke-8 yaitu sebesar histogram sebaran kelas target karena setiap
0.5730. Matrix confusion untuk proses uji ke-8 kelas jumlahnya seragam. Akurasi klasifikasi
pada percobaan 2 adalah: untuk nilai k=5 sampai k=65 diperlihatkan pada
Tabel 11.
Tabel 9 Matrix confusion proses uji ke-8
percobaan 2 Tabel 11 Akurasi klasifikasi percobaan 3
k akurasi k akurasi
Kelas hasil prediksi
Kelas Kelas 1 Kelas 2 Kelas 3 5 0.4195 40 0.4382
aktual 10 0.4607 45 0.4457
Kelas 1 130 17 0 15 0.4270 50 0.4644
Kelas 2 71 27 0 20 0.4607 55 0.4232
Kelas 3 17 12 0 25 0.4457 60 0.4419
30 0.4569 65 0.4494
35 0.4532
Berdasarkan tabel tersebut (Tabel 9) kelas 1
yang tepat diklasifikasi sebagai kelas 1
Berdasarkan tabel tersebut (Tabel 11)
sebanyak 130 record, kelas 1 yang salah
akurasi yang paling tinggi diperoleh untuk k=50
diklasifikasi sebagai kelas 2 sebanyak 17
sehingga pada percobaan ini jumlah tetangga
record, dan tidak ada kelas 1 yang salah
terdekat adalah 50.
diklasifikasi sebagai kelas 3. Kelas 2 yang tepat
diklasifikasi sebagai kelas 2 sebanyak 27 Untuk mengetahui record yang salah
record, kelas 2 yang salah diklasifikasi sebagai diklasifikasikan digunakan matrix confusion
kelas 1 sebanyak 71 record, dan tidak ada kelas yang diperlihatkan Tabel 12.
2 yang salah diklasifikasi sebagai kelas 3. Kelas
3 tidak ada yang tepat diklasifikasikan sebagai Tabel 12 Matrix confusion untuk percobaan 3
kelas 3, kelas 3 yang salah diklasifikasi sebagai Kelas hasil prediksi
kelas 1 sebanyak 17 record, dan kelas 3 yang Kelas Kelas 1 Kelas 2 Kelas 3
salah diklasifikasi sebagai kelas 2 sebanyak 12 aktual
record. Berdasarkan persamaan 5, besarnya Kelas 1 56 22 11
akurasi adalah: Kelas 2 25 42 22
Kelas 3 28 35 26
akurasi = = 0.5730

Akurasi rata-rata dari seluruh proses uji Berdasarkan tabel tersebut (Tabel 12) kelas
dengan 10 data uji yang berbeda pada 1 yang tepat diklasifikasi sebagai kelas 1
percobaan kedua diperoleh sebesar 0.5013. sebanyak 56 record, kelas 1 yang salah
Percobaan 3 menggunakan dataset yang diklasifikasi sebagai kelas 2 sebanyak 22
proporsi record pada setiap kelas target record, dan kelas 1 yang salah diklasifikasi
seimbang dengan pembagian data 70% data sebagai kelas 3 sebanyak 11 record. Kelas 2
latih dan 30% data uji. Jumlah record untuk yang tepat diklasifikasi sebagai kelas 2
data latih dan data uji dari setiap kelas sebanyak 42 record, kelas 2 yang salah
diperlihatkan Tabel 10. diklasifikasi sebagai kelas 1 sebanyak 25
record, dan kelas 2 yang salah diklasifikasi
Tabel 10 Jumlah record data latih dan data uji sebagai kelas 3 sebanyak 22 record. Kelas 3
percobaan 3 yang tepat diklasifikasi sebagai kelas 3
Data latih Data uji sebanyak 26 record, kelas 3 yang salah
Kelas 1 208 record 89 record diklasifikasi sebagai kelas 1 sebanyak 28
Kelas 2 208 record 89 record record, dan kelas 3 yang salah diklasifikasi
Kelas 3 208 record 89 record sebagai kelas 2 sebanyak 35 record.
Total 624 record 267 record Berdasarkan persamaan 5, besarnya akurasi
adalah:
Pada percobaan 3 nilai k atau tetangga akurasi = = 0.4644
terdekat ditentukan lagi seperti halnya pada

9
Percobaan 4 dilakukan menggunakan akurasi = = 0.6404
dataset yang proporsi record pada setiap kelas
target seimbang dengan metode 10-fold cross Akurasi rata-rata dari seluruh proses uji
validation. Data dibagi menjadi 10 subset yang dengan 10 data uji yang berbeda pada
berbeda dengan jumlah yang hampir sama. percobaan 4 diperoleh sebesar 0.5297.
Setiap kali sebuah subset digunakan sebagai
Setiap percobaan yang dilakukan
data uji maka 9 subset lainnya menjadi data
menghasilkan sebuah classifier, sehingga dari
latih. Percobaan ini tetap menggunakan jumlah
empat percobaan diperoleh empat buah
tetangga terdekat sebanyak 65 karena dataset
classifier. Akurasi setiap classifier diperlihatkan
percobaan 4 sama dengan dataset percobaan 3.
pada Tabel 15.
Besarnya akurasi pada setiap proses uji
diperlihatkan pada Tabel 13. Tabel 15 Akurasi empat classifier
Tabel 13 Akurasi setiap proses uji pada 10-fold Percobaan Model yang akurasi
cross validation percobaan 4 dihasilkan
1 classifier 1 0.4757
proses uji ke- akurasi 2 classifier 2 0.5013
1 0.5843 3 classifier 3 0.4644
2 0.4382 4 classifier 4 0.5297
3 0.6067
4 0.5333
5 0.5393 Akurasi paling tinggi diperoleh pada
6 0.6404 classifier 4 yang dihasilkan dari percobaan 4
7 0.5169 yaitu menggunakan dataset 891 record yang
8 0.4944 proporsi record pada setiap kelas target
9 0.4494 seimbang dengan metode uji 10-fold cross
10 0.4944 validation. Dengan demikian classifier 4
merupakan classifier terbaik yang dihasilkan
Berdasarkan Tabel 13 akurasi terbaik dengan metode kNearest Neighbor.
diperoleh pada proses uji ke-6 yaitu sebesar Penggunaan Classifier pada Data Baru
0.6404. Matrix confusion untuk proses uji ke-6
pada percobaan 4 adalah Classifier terbaik yang diperoleh digunakan
untuk memprediksi label kelas pada data yang
Tabel 14 Matrix confusion proses uji ke-6 baru. Pada Tabel 16 diberikan contoh data baru
percobaan 4 tanpa label kelas yang akan diterapkan pada
Kelas hadil prediksi classifier.
Kelas Kelas 1 Kelas 2 Kelas 3 Tabel 16 Data tanpa label kelas
actual
Kelas 1 24 5 1 jur jalur jenis asal hobi NEM
Kelas 2 6 14 9 kel
Kelas 3 2 9 19 19 1 1 5 1 0.8030
19 1 1 1 1 0.8565
19 1 0 5 1 0.7018
Berdasarkan tabel tersebut (Tabel 14) kelas 19 1 0 1 1 0.8349
1 yang tepat diklasifikasi sebagai kelas 1 19 1 0 1 1 0.7927
sebanyak 24 record, kelas 1 yang salah 19 1 1 1 2 0.8724
diklasifikasi sebagai kelas 2 sebanyak 5 record, 19 1 0 4 1 0.7129
dan kelas 1 yang salah diklasifikasi sebagai 19 1 0 1 1 0.8134
kelas 3 sebanyak 1 record. Kelas 2 yang tepat 19 1 0 1 4 0.8772
diklasifikasi sebagai kelas 2 sebanyak 14 19 1 1 1 2 0.6651
record, kelas 2 yang salah diklasifikasi sebagai 19 1 0 1 1 0.7974
kelas 1 sebanyak 6 record, dan kelas 2 yang 19 1 0 1 1 0.6116
salah diklasifikasi sebagai kelas 3 sebanyak 9 19 1 1 1 1 0.8724
record. Kelas 3 yang tepat diklasifikasi sebagai 6 2 1 1 1 0.6276
kelas 3 sebanyak 19 record, kelas 3 yang salah 19 1 1 1 1 0.8349
10 1 0 1 1 0.5742
diklasifikasi sebagai kelas 1 sebanyak 2 record,
2 1 1 5 1 0.3987
dan kelas 3 yang salah diklasifikasi sebagai
5 1 0 6 1 0.4625
kelas 2 sebanyak 9 record. Berdasarkan 10 1 1 1 1 0.3724
persamaan 5, besarnya akurasi adalah: 10 2 1 5 2 0.5159

10
jenis data akademik dan biodata mahasiswa
jur jalur kel asal hobi NEM tingkat I IPB.
10 1 0 1 1 0.5000
10 2 1 1 2 0.8246 2 Classifier terbaik dihasilkan dari percobaan
2 1 1 1 1 0.6970 4 yaitu menggunakan dataset 891 record
10 1 1 1 1 0.5638 yang proporsi record pada setiap kelas
2 1 1 1 4 0.6435 target seimbang dengan metode uji 10-fold
33 1 0 1 1 0.7767 cross validation.
33 1 0 5 1 0.6061
30 1 1 1 1 0.5478 3 Akurasi yang diperoleh pada classifier
terbaik hanya sebesar 52.97%.

Hasil prediksi data baru tanpa label kelas 4 Classifier terbaik yang dihasilkan dapat
diperlihatkan pada Tabel 17 digunakan untuk memprediksi keberhasilan
mahasiswa baru IPB.
Tabel 17 Hasil prediksi data baru tanpa label
kelas 5 Atribut yang mempengaruhi tingkat
keberhasilan mahasiswa tingkat I IPB
record kelas prediksi berdasarkan uji hipotesis adalah jurusan,
1 2 jalur masuk, jenis kelamin, asal daerah,
2 1 hobi, dan nilai uan (NEM).
3 2
Saran
4 1
5 1 Pada penelitian ini masih terdapat beberapa
6 1 kekurangan yang dapat diperbaiki pada
7 1 penelitian selanjutnya. Beberapa saran yang
8 1 dapat dilakukan antara lain:
9 1 1. Penggunaan metode lain untuk
10 1 memperoleh classifier yang lebih baik,
11 1 karena akurasi classifier dari k-Nearest
12 1 Neighbor hanya sebesar 52.97% .
13 1 2. Dibangun aplikasi sederhana yang dapat
14 3 memprediksi keberhasilan mahasiswa baru
15 1 dengan menerapkan model terbaik.
16 1
17 2
18 2
19 2
20 3
21 2
22 1
23 1
24 2
25 2
26 1
27 2
28 1

KESIMPULAN DAN SARAN


Kesimpulan
Dari beberapa percobaan yang dilakukan
terhadap data IPK dan Biodata dengan metode
k-Nearest Neighbor, diperoleh kesimpulan
sebagai berikut:
1 Metode k-Nearest Neighbor dapat
digunakan untuk membuat classifier pada

11
DAFTAR PUSTAKA

Daniel, Wayne W. 1990. Applied Non


Parametric Statistics Second Edition.
Boston : PWS-Kend Publ.co.
Freeman, Daniel H. 1987. Applied Categorical
Data Analysis. New York: Marcel Dekker,
Inc.
Fu L. 1994. Neural Network In Computer
Intelligence. Singapura: McGraw Hill.
Han J, Kamber M. 2006. Data Mining Concepts
and Techniques. Morgan Kaufmann
Publishers.
Larose, Daniel T. 2005. Discovering Knowledge
in Data: An Introduction to Data Mining.
John Wiley&Sons, Inc.
Superby, J. F, et al. 2005. Determination of
factors influencing the achievement of the
first-year university students using data
mining methods. Belgia: Production and
Operations Management Department,
Catholic University of Mons.
Tan, Pang-Ning,et al. 2006. Introduction to
Data Mining. Boston: Pearson Education,
Inc.
Walpole, Ronald E. 2005. Pengantar Statistika.
Ed ke-3. Jakarta: PT Gramedia Pustaka
Utama.

12
LAMPIRAN

13
Lampiran 1 Tabel kode jurusan mayor IPB tahun akademik 2007/2008
Kode NRP Jurusan
A1 Manajemen Sumberdaya Lahan
A2 Agronomi dan Hortikultura
A3 Proteksi Tanaman
A4 Arsitektur Lanskap
B Kedokteran Hewan
C1 Teknologi dan Manajemen Perikanan Budidaya
C2 Manajemen Sumberdaya Perairan
C3 Teknologi Hasil Perairan
C4 Teknologi dan Manajemen Perikanan Tangkap
C5 Ilmu dan Teknologi Kelautan
D Peternakan
E1 Manajemen Hutan
E2 Teknologi Hasil Hutan
E3 Konservasi Sumberdaya Hutan dan Ekowisata
E4 Silvikultur
F1 Teknik Pertanian
F2 Teknologi Pangan
F3 Teknologi Industeri Pertanian
G1 Statistika
G2 Meteorologi Terapan
G3 Biologi
G4 Kimia
G5 Matematika
G6 Ilmu Komputer
G7 Fisika
G8 Biokimia
H1 Ekonomi dan Studi Pembangunan
H2 Manajemen
H3 Agribisnis
H4 Ekonomi Sumberdaya dan Lingkungan
I1 Ilmu Gizi
I2 Ilmu Keluarga dan Konsumen
I3 Komunikasi dan Pengembangan Masyarakat

14
Lampiran 2 Tabel penentuan asal daerah
Pulau Propinsi
JAWA DKI Jakarta, Banten, Jawa Barat, Jawa Tengah, Jawa Timur, DIY
KALIMANTAN Kalbar, Kalteng, Kaltim, Kalsel
MALUKU Maluku, Maluku utara
NUSA TENGGARA Bali, NTB, NTT
SUMATERA NAD, Sumut, Sumbar, Riau, Jambi, Sumsel, Bengkulu, Lampung, Kep.
Riau, Kep. Bangka belitung
SULAWESI Sulut, Sulsel, Sulteng, Gorontalo
PAPUA Papua, Papua barat

15
Lampiran 3 Tabel kategorisasi atribut nominal dan kelas target
Kelas Target kategori
Resiko rendah 1
Resiko sedang 2
Resiko tinggi 3

Jurusan kategori
Manajemen Sumberdaya Lahan 1
Agronomi dan Hortikultura 2
Proteksi Tanaman 3
Arsitektur Lanskap 4
Kedokteran Hewan 5
Teknologi dan Manajemen Perikanan Budidaya 6
Manajemen Sumberdaya Perairan 7
Teknologi Hasil Perairan 8
Teknologi dan Manajemen Perikanan Tangkap 9
Ilmu dan Teknologi Kelautan 10
Peternakan 11
Manajemen Hutan 12
Teknologi Hasil Hutan 13
Konservasi Sumberdaya Hutan dan Ekowisata 14
Silvikultur 15
Teknik Pertanian 16
Teknologi Pangan 17
Teknologi Industeri Pertanian 18
Statistika 19
Meteorologi Terapan 20
Biologi 21
Kimia 22
Matematika 23
Ilmu Komputer 24
Fisika 25
Biokimia 26
Ekonomi dan Studi Pembangunan 27
Manajemen 28
Agribisnis 29
Ekonomi Sumberdaya dan Lingkungan 30
Ilmu Gizi 31
Ilmu Keluarga dan Konsumen 32
Komunikasi dan Pengembangan Masyarakat 33

Jenis kelamin kategori


Perempuan 0
Laki-laki 1

Jalur masuk kategori


USMI 1
SPMB 2
PIN 3
BUD 6

16
Lampiran 3 Lanjutan
Pendapatan orang tua kategori
(< 500) 1
(500<=P<1000) 2
(1000<=P<2500) 3
(2500<=P<5000) 4
(5000<=P<7500) 5
(>=7500) 6

Pendidikan orang tua Kategori


Tidak sekolah 0
Tidak tamat SD 1
SD 2
SLTP 3
SLTA 4
Diploma 5
Sarjana muda 6
Sarjana 7
S2/Master 8
S3/Doktor 9

Riwayat kesehatan kategori


Sehat 0
Hepatitis 1
Diabetes 3
Paru-paru 4
Tipus 5
Lain-lain 7

Minat/Hobi kategori
Bidang khusus 1
OR 2
Keagamaan 3
Kesenian 4
Bela diri 5

Asal daerah kategori


JAWA 1
KALIMANTAN 2
MALUKU 3
NUSA TENGGARA 4
SUMATERA 5
SULAWESI 6
PAPUA 7
LUAR INDONESIA 8

17
Lampiran 4 Tabel kontingensi
a Atribut riwayat pendidikan
Kelas Target
Riwayat pendidikan
Resiko Resiko Resiko Total
rendah sedang tinggi
0 9 4 0 13
1 Tidak tamat SD 38 20 6 64
2 SD 102 63 17 182
3 SLTP 89 65 18 172
4 SLTA 550 358 102 1010
5 Diploma 95 62 20 177
6 Sarjana muda 88 56 20 164
7 Sarjana 392 260 89 741
8 S2/Master 100 73 25 198
9 S3/Doktor 32 26 6 64
Total 1495 987 303 2785

b Atribut jalur masuk


Kelas Target
Jalur Masuk Resiko Resiko Resiko Total
rendah sedang tinggi
1 USMI 1153 652 159 1964
2 SPMB 267 282 114 663
3 PIN 1 1 1 3
6 BUD 74 52 29 155
Total 1495 987 303 2785

c Atribut riwayat kesehatan


Kelas Target
Riwayat Kesehatan Resiko Resiko Resiko Total
rendah sedang tinggi
0 Sehat 1362 913 285 2560
1 Hepatitis 6 1 0 7
2 Jantung 0 1 1 2
3 Diabetes 1 0 0 1
4 Paru-paru 11 3 2 16
5 Tipus 81 49 11 141
6 Hipertensi 1 0 0 1
7 dll 33 20 4 57
Total 1495 987 303 2785

18
Lampiran 4 Lanjutan
d Atribut asal daerah
Asal Daerah Kelas Target Total
Resiko Resiko Resiko
rendah sedang tinggi
1 JAWA 1172 725 208 2105
2 KALIMANTAN 19 7 3 29
3 MALUKU 2 1 1 4
4 NUSA TENGGARA 14 15 3 32
5 SUMATERA 264 213 77 554
6 SULAWESI 14 18 11 43
7 PAPUA 10 5 0 15
8 LUAR INDONESIA 0 3 0 3
Total 1495 987 303 2785

e Atribut pendapatan
Pendapatan Kelas Target Total
Resiko Resiko Resiko
rendah sedang tinggi
1 (< 500) 4 6 1 11
2 (500<=P<1000) 119 68 12 199
3 (1000<=P<2500) 242 143 51 436
4 (2500<=P<5000) 514 385 110 1009
5 (5000<=P<7500) 487 311 101 899
6 (>=7500) 129 74 28 231
Total 1495 987 303 2785

f Atribut hobi
Hobi Kelas Target Total
Resiko Resiko Resiko
rendah sedang tinggi
1 Bidang khusus 1272 755 217 2244
2 OR 150 182 66 398
3 Keagamaan 41 25 10 76
4 Kesenian 24 17 7 48
5 Bela diri 8 8 3 19
Total 1495 987 303 2785

19
Lampiran 4 Lanjutan
g Atribut jurusan
Jurusan Kelas Target Total
Resiko Resiko Resiko
rendah sedang tinggi
MSL 34 21 16 71
AGH 90 58 18 166
Proteksi 24 30 14 68
Lanskap 31 27 3 61
FKH 73 44 22 139
BDP 33 31 11 75
MSP 16 35 9 60
THP 37 29 8 74
PSP 15 20 13 48
ITK 30 23 7 60
Fapet 72 82 29 183
Menehe 49 40 13 102
THH 30 22 12 64
KSH 39 43 12 94
Silvi 14 18 13 45
TEP 55 39 5 99
TPG 100 9 1 110
TIN 78 24 4 106
STAT 49 10 0 59
GFM 26 17 7 50
BIO 49 36 4 89
KIM 53 15 2 70
MAT 44 19 5 68
KOM 61 20 6 87
FIS 20 23 5 48
BIOKIM 37 20 5 62
IE 40 40 8 88
MENE 43 45 9 97
AGB 74 24 9 107
ESL 41 35 9 85
GIZI 77 28 3 108
IKK 22 17 4 43
KPM 39 43 17 99
Total 1495 987 303 2785

20
Lampiran 5 Nilai frekuensi harapan dan chi-square
a Atribut riwayat pendidikan

2 2 2
Ei1 Ei2 Ei3 i1 i2 i3

6.978456 4.607181 1.414363 0.5856081 0.080020546 1.414362657


34.35548 22.68151 6.963016 0.3866212 0.31701973 0.133189425
97.69838 64.50054 19.80108 0.1893982 0.034908485 0.39624276
92.33034 60.95655 18.71311 0.1201249 0.268215034 0.027174541
542.1724 357.9425 109.8851 0.1130122 9.22096E-06 0.56581632
95.01436 62.72855 19.25709 2.171E-06 0.008461522 0.028660244
88.03591 58.12136 17.84273 1.465E-05 0.077427417 0.260824373
397.772 262.6093 80.61867 0.0837563 0.02592685 0.8713449
106.2873 70.17092 21.54183 0.3719124 0.114060339 0.555149237
34.35548 22.68151 6.963016 0.1614958 0.48552277 0.133189425
2
hitung 5.729480473
2 2 28.869
(db,)= (18,0.05)

b Atribut jalur masuk

2 2 2
Ei1 Ei2 Ei3 i1 i2 i3

1054.284 696.0388 213.6776 9.2431626 2.786359222 13.99134008


355.9013 234.9662 72.1325 22.206815 9.414857969 24.30094675
1.610413 1.063196 0.326391 0.2313717 0.003756313 1.390197763
29.13 16.75 4.13 1.74 0.00 11.46
2
hitung 93.47797937
2
(db,)= 2 (6,0.05) 12.59

c Atribut riwayat kesehatan

2 2 2
Ei1 Ei2 Ei3 i1 i2 i3

1374.219 907.2603 278.5206 0.108647 0.036311397 0.15073218


3.75763 2.48079 0.76158 1.3381366 0.883887355 0.761579892
1.073609 0.708797 0.217594 1.0736086 0.11963806 2.813303826
0.536804 0.354399 0.108797 0.3996806 0.354398564 0.108797127
8.588869 5.670377 1.740754 0.6768706 1.257573068 0.038608825
75.68941 49.9702 15.34039 0.3726069 0.018836891 1.228066719
2 13.57622516
hitung
2
(db,)= 2 (14,0.05) 23.685

21
Lampiran 5 Lanjutan
d Atribut asal daerah
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3
1129.973 746.009 229.018 1.5631017 0.591651192 1.928907125
15.56732 10.27756 3.155117 0.7569225 1.045227705 0.007626085
2.147217 1.417594 0.435189 0.0100935 0.123014721 0.733043295
17.17774 11.34075 3.481508 0.5878549 1.180704647 0.066594713
297.3896 196.3368 60.27361 3.7488351 1.414213151 4.641702647
23.08259 15.23914 4.678276 3.5738352 0.500182985 8.542502439
8.052065 5.315978 1.631957 0.4712397 0.018781563 1.631956912
1.610413 746.009 0.326391 1.6104129 740.0210409 0.326391382
2
hitung 775.0958369
2
(db,)= 2(14, 0.05) 23.69

e Atribut pendapatan

2 2 2
Ei1 Ei2 Ei3 i1 i2 i3

5.904847 3.898384 1.196768 0.6144856 1.132979393 0.032351961


106.8241 70.52531 21.65063 1.3878295 0.090424436 4.301705534
234.0467 154.5178 47.43555 0.270268 0.858536269 0.267843879
541.6355 357.5882 109.7763 1.4100321 2.101326552 0.000455845
482.5871 318.6043 97.80862 0.0403532 0.181496328 0.104131128
124.0018 81.86607 25.13214 0.2014652 0.755808 0.327255957
2
hitung 14.07874879
2
(db,)= 2 (10,0.05) 18.31

f Atribut hobi
2 2 2
Ei1 Ei2 Ei3 i1 i2 i3

1204.589 795.2704 244.1408 3.7724577 2.039184801 3.017196095


213.6481 141.0506 43.30126 18.961471 11.88829186 11.8987989
40.79713 26.93429 8.268582 0.0010088 0.138911438 0.362554243
25.76661 17.01113 5.222262 0.1211219 7.28349E-06 0.605169159
10.19928 6.733573 2.067145 0.4742335 0.238185306 0.420975542
53.9395675
2
hitung
2 2
(db,)= (8,0.05) 15.51

22
Lampiran 5 Lanjutan
g Atribut jurusan

2 2 2
Ei1 Ei2 Ei3 i1 i2 i3

38.11311 25.1623 7.724596 0.4438799 0.688519182 8.865487604


89.10952 58.83016 18.06032 0.0088987 0.011714539 0.000201485
36.50269 24.0991 7.398205 4.2823507 1.444891714 5.891118665
32.74506 21.61831 6.636625 0.0929986 1.339723519 1.992735797
74.6158 49.2614 15.1228 0.03499 0.561947763 3.127454421
40.26032 26.57989 8.159785 1.3092864 0.735042567 0.988607442
32.20826 21.26391 6.527828 8.1565305 8.873251886 0.93624349
39.72352 26.22549 8.050987 0.1867296 0.293526795 0.000322907
25.76661 17.01113 5.222262 4.4988393 0.525146595 11.58371701
32.20826 21.26391 6.527828 0.1514023 0.14174226 0.034153281
98.23519 64.85494 19.90987 7.0065027 4.532471891 4.150221312
54.75404 36.14865 11.09731 0.6046854 0.410329803 0.326226953
34.35548 22.68151 6.963016 0.5521731 0.020477177 3.643709227
50.45961 33.31346 10.22693 2.6025282 2.816547618 0.307401859
24.15619 15.94794 4.895871 4.2700549 0.264044791 13.41475596
53.14363 35.08546 10.77092 0.0648454 0.436751906 3.091981059
59.04847 38.98384 11.96768 28.400861 23.06162593 10.05124238
56.90126 37.56625 11.5325 7.823324 4.899160528 4.919879533
31.67145 20.90952 6.419031 9.4810455 5.692026895 6.419030521
26.84022 17.71993 5.439856 0.0263024 0.029249362 0.447447133
47.77558 31.54147 9.682944 0.03138 0.630232802 3.335334303
37.5763 24.8079 7.615799 6.3308644 3.877591168 4.141022874
36.50269 24.0991 7.398205 1.5398758 1.078913407 0.777402882
46.70197 30.83268 9.46535 4.3774064 3.805924995 1.268695942
25.76661 17.01113 5.222262 1.2905756 2.108416605 0.009459588
33.28187 21.97271 6.745422 0.4153767 0.177110076 0.451639299
47.23878 31.18707 9.574147 1.1092565 2.490380231 0.258815684
52.07002 34.37666 10.55332 1.5798962 3.282905786 0.228630132
57.43806 37.92065 11.64129 4.7755411 5.110260841 0.599282831
45.62837 30.12388 9.247756 0.4694837 0.78929302 0.006637605
57.97487 38.27504 11.75009 6.2433219 2.758365083 6.516041362
23.08259 15.23914 4.678276 0.0507738 0.203465189 0.098339418
53.14363 35.08546 10.77092 3.7641799 1.785354446 3.602432104
2 298.338239
hitung
2 2
(db,)= (64,0.05) 79.08

23

S-ar putea să vă placă și