7 Cluster

Expert Systems with Applications 36 (2009) 57185727
Yuridiana Alemn Muoz Maestra en Ciencias de la Computacin
1. Introduccin 2. Trabajos relacionados 3. Enfoques 1. Muestreo basado en la agrupacin 2. Muestreo basado en la agrupacin y distancias entre muestras 4. Resultados 1. Generacin de conjuntos de datos sintticos 2. Criterios de evaluacin 3. Resultados experimentales sobre datos sintticos 4. Resultados experimentales sobre datos reales 5. Conclusiones
Clasificacin 1. Recoger muestras 2. Seleccin de muestras y atributos 3. Entrenar a un sistema de clases con la prediccin de las muestras de entrenamiento 4. Utilice el sistema de prediccin para pronosticar la clase de muestras de entrada.
Tcnicas de clasificacin Supone que las muestras de entrenamiento se distribuyen uniformemente En la vida real, se tienen clases desequilibradas
EJEMPLO: Anlisis prstamos fiduciarios de
Nivel Algortmico
Sensibles a los costes de aprendizaje: Supone que los costos de la clasificacin errnea son conocidos y establece un costo alto para la clasificacin errnea de una minora de la clase de muestra Reconocimiento basados en aprendizaje
Nivel de datos
Multi-classifier committee: La clase mayoritaria es dividida en subconjuntos respecto al nmero de elementos de la clase minoritaria. Se utilizan clasificadores para predecir una muestra y decidir la clase final (Voting) Re-sampling: Reduccin de la clase mayoritaria (Submuestreo) o incremento de la clase minoritaria (SobreMuestreo)
2. Trabajos relacionados
Selecciona un nmero adecuado de muestras de clase mayoritaria de cada grupo, considerando la relacin del nmero de muestras de clase mayoritaria con el nmero de muestras de clase minoritaria en la agrupacin.
N es el nmero de muestras en el conjunto de datos de clase desequilibrada es N, que incluye: Muestras de la clase mayoritaria (MA) Muestras de la clase minoritaria (MI). Para el mtodo de submuestreo SBC (sub-muestreo basados en la agrupacin), lo primero que se agrupan todas las muestras en el conjunto de datos en grupos K. Suponiendo que la relacin de SizeMA a SizeMI en la formacin de datos es m=1. El nmero de muestras seleccionadas de la clase mayoritaria en el grupo i-simo se calcula como:
3.1 Muestreo basado en la agrupacin
Determinar la proporcin de SizeMA / SizeMI en el conjunto de datos de entrenamiento Agrupar todas las muestras en el conjunto de datos en clusters Determinar el nmero de muestras seleccionadas de MA en cada grupo con la expresin SSizeiMA Seleccionar aleatoriamente la muestra MA en cada grupo Mezclar las muestras seleccionadas de MA con todas las muestras de MI (conjunto de datos de entrenamiento)
9 3.1 Muestreo basado en la agrupacin
10
3.1 Muestreo basado en la agrupacin
Se proponen 5 mtodos under-sampling basados en SBC Para un atributo continuo: Los valores necesitan ser normalizados Para un atributo categricos o discretos, la distancia entre dos valores de los atributos: Distance( X1, X2) = 1 Si X1<> X2 0 Si X1= X2
Suponiendo que hay N atributos en un conjunto de datos y VXi representa el valor de Ai atributo X de la muestra, de 1 i N. La distancia eucldea entre dos muestras X e Y se muestra en la expresin :
11
3.2 Muestreo basado en la agrupacin y distancia entre muestras
El nmero de muestras de MA se calcula con SSizeiMA, pero son seleccionados de diferentes maneras.
SBCNM-1
SBCNM-2 Agrupacin con mas distancia
SBCNM--3
Agrupacin por mas lejanos

12 3.2 Muestreo basado en la agrupacin y distancia entre muestras
13
Se generan en un entorno visual, estableciendo nmero de muestras, el nmero de atributos y el nmero de grupos. Se introduce ruido en las muestras de tipo Muestras desordenadas Muestras excepcionales
Datos sin ruido
Muestras desordenadas
Muestras excepcionales
14
4.1 Generacin de conjuntos de datos sintticos
Se busca evaluar: Tasa de precisin para la MI: Porcentaje de respuestas correctas clasificadas que se predicen en MI por el clasificador Tasa de recuperacin para MI: Porcentaje de respuestas clasificadas correctamente de todas las muestras de MI. Para un clasificador, si la tasa de precisin es alta, la tasa de recuperacin ser baja. F-medida: Combinacin de la tasa de recuperacin y precisin.
15
4.2 Criterios de evaluacin
AT
Utiliza todas las muestras para capacitar a los clasificadores (no selecciona). Mtodo de muestreo comn, selecciona al azar las muestras de MA. Selecciona las muestras de MA, mientras que sus distancias medias a las muestras ms lejanas de MI son los ms pequeos
RT
NearMiss-2
En los experimentos siguientes, los clasificadores se construyen mediante el uso de una red neuronal artificial y el algoritmo k-means clustering se utiliza para los mtodos.
16
4.2 Criterios de evaluacin
17
Para cada conjunto de datos sinttico generado: Muestras= 10,000 Atributos (numricos y categricos)= 5 j% = muestras excepcionales y k%= muestras desordenadas.
18
4.3 Resultados experimentales sobre datos sintticos
Para cada relacin especfica, se generan varios conjuntos de datos sintticos donde I es de 2 a 16.
Se aumenta el porcentaje de muestras excepcionales y muestras desordenadas al 50% y 60%, respectivamente
19
El tiempo de ejecucin incluye el tiempo de la ejecucin del mtodo de sub-muestreo y el tiempo para la formacin de los clasificadores
20
21
Archivo de base de datos de UCI Datos de las encuestas de poblacin de 1994 y 1995 Se busca determinar el nivel de ingresos de cada persona representada por el expediente. 30,162 muestras, incluyendo 22,654 muestras de MA, donde el nivel de ingresos es menor a 50 mil dlares y 7.508 muestras de M, donde el nivel de ingresos son mayores o iguales a 50 mil dlares. Se uso el 80% de las muestras para capacitar a los clasificadores y el 20% para evaluar su rendimiento
22
4.4 Resultados experimentales sobre datos reales
Tiempo de ejecucin (min)
23
4.4 Resultados experimentales sobre datos reales
24
Se propone un enfoque basado en los enfoques de toma de muestras, para resolver el problema de clase desequilibrada mediante el uso de la distribucin de la red neuronal de retropropagacin.
El enfoque SBC tiene los mejores resultados en la prediccin de las muestras de MI. Tiene menos tiempo para la seleccin de las muestras de entrenamiento que los otros enfoques
25
5. Conclusiones
Yuridiana Alemn Muoz

7 Cluster

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

7 Cluster

Încărcat de

Drepturi de autor:

Formate disponibile

Expert Systems with Applications 36 (2009) 57185727

Yuridiana Alemn Muoz Maestra en Ciencias de la Computacin

3.1 Muestreo basado en la agrupacin

3.1 Muestreo basado en la agrupacin

3.2 Muestreo basado en la agrupacin y distancia entre muestras

SBCNM-2 Agrupacin con mas distancia

Agrupacin por mas lejanos

Datos sin ruido

4.1 Generacin de conjuntos de datos sintticos

4.2 Criterios de evaluacin

4.2 Criterios de evaluacin

4.3 Resultados experimentales sobre datos sintticos

Se aumenta el porcentaje de muestras excepcionales y muestras desordenadas al 50% y 60%, respectivamente

4.3 Resultados experimentales sobre datos sintticos

4.3 Resultados experimentales sobre datos sintticos

4.4 Resultados experimentales sobre datos reales

Tiempo de ejecucin (min)

4.4 Resultados experimentales sobre datos reales

Yuridiana Alemn Muoz

S-ar putea să vă placă și