Documente Academic
Documente Profesional
Documente Cultură
K - Vecinos ms cercanos
Knn-Method
Ingresos
Anuales Fraude
Soltero
125K
No
No
Casado
100K
No
No
Soltero
70K
No
Casado
120K
No
No
Divorcia
95K
do
No
Casado
No
60K
Algoritmo
de
Aprendizaje
Generar
el
Modelo
Modelo
10
Tabla de Aprendizaje
Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
No
Soltero
80K
No
Si
Casado
100K
No
No
Soltero
70K
No
10
Tabla de Testing
Evaluar
Aplicar
el
Modelo
Nuevos
Individuos
Clasificacin: Definicin
Definicin de Clasificacin
Dada una base de datos = {1 , 2 , , } de tuplas o registros
(individuos) y un conjunto de clases = {1 , 2 , , }, el
problema de la clasificacin es encontrar una funcin :
tal que cada es asignada una clase .
: podra ser una Red Neuronal, un rbol de Decisin, un
modelo basado en Anlisis Discriminante, o una Red Beyesiana.
v1
v5
v3
v2
v8
v4
v6
Algoritmo
Cmo escoger K?
Cmo escoger K?
Escogiendo el valor de K:
Cmo escoger K?
Escogiendo el valor de K:
Matriz de confusin
Negativo
Positivo
Buen Pagador
800
200
500
1500
Matriz de confusin
Prediccin
Valor Negativo
Real Positivo
Negativo
Positivo
Valor
Real
Fraude
No
Fraude
Fraude
No
Fraude
989
Matriz de confusin
Prediccin
Negativo
Positivo
Valor Negativ
Real o
Positivo
Matriz de confusin
Prediccin
Negativo Positivo
Valor Negativo
Real Positivo
Matriz de confusin
Prediccin
Valor Negativo
Real Positivo
Negativo
Positivo
Matriz de confusin
Prediccin
Negativo Positivo
Valor Negativo
Real Positivo
Alajuelense
Herediano
Limonense
alajuelense
Valo Herediano
r
Real Limonense
11
K - Vecinos ms cercano en R
prediccion=predict(modelo,ttesting[,-5])
## Matriz de Confusion
table(ttesting[,5],prediccion)
# Procentaje de error y de buena clasificacion
error = sum(prediccion != ttesting$tipo) / nrow(ttesting)
error
acierto=(1-error)*100
acierto
Ejemplo 2:
Credit-Scoring
MuestraAprendizajeCredito2500.csv
MuestraTestCredito2500.csv
Descripcin de Variables
MontoCredito
1= Muy Bajo
2= Bajo
3= Medio
4= Alto
MontoCuota
1 =Muy Bajo
2 =Bajo
3 =Medio
4 =Alto
IngresoNeto
1= Muy Bajo
2= Bajo
3= Medio
4= Alto
GradoAcademico
1 =Bachiller
2 =Licenciatura
3 =Maestra
4 =Doctorado
CoeficienteCreditoAvaluo
1= Muy Bajo
2= Bajo
3= Medio
4= Alto
BuenPagador
1 =NO
2 =Si
K - Vecinos ms cercano en R
rm(list=ls(all=TRUE))
taprendizaje<read.csv("MuestraAprendizajeCredito2500.csv",sep =
";",header=T)
## Usamos una nueva tabla de testing para validar
ttesting<-read.csv("MuestraTestCredito2500.csv",sep
= ";",header=T)
modelo=train.kknn(taprendizaje$BuenPagador~.,data=ta
prendizaje,K=6)
prediccion=predict(modelo,ttesting[,-6])
## Matriz de Confusion
table(ttesting[,6],prediccion)
# Procentaje de error y de buena clasificacion
error = sum(prediccion != ttesting$BuenPagador) /
nrow(ttesting)
acierto=(1-error)*100
Calidad de la Prediccin
Matriz de Confusin:
No Si
No 232 113
Si 33 2122
Precisin Global
Laboratorio
Gracias.