Sunteți pe pagina 1din 26

Expert Systems with Applications 36 (2009) 57185727

Yuridiana Alemn Muoz Maestra en Ciencias de la Computacin

1. Introduccin 2. Trabajos relacionados 3. Enfoques 1. Muestreo basado en la agrupacin 2. Muestreo basado en la agrupacin y distancias entre muestras 4. Resultados 1. Generacin de conjuntos de datos sintticos 2. Criterios de evaluacin 3. Resultados experimentales sobre datos sintticos 4. Resultados experimentales sobre datos reales 5. Conclusiones

Clasificacin 1. Recoger muestras 2. Seleccin de muestras y atributos 3. Entrenar a un sistema de clases con la prediccin de las muestras de entrenamiento 4. Utilice el sistema de prediccin para pronosticar la clase de muestras de entrada.

Tcnicas de clasificacin Supone que las muestras de entrenamiento se distribuyen uniformemente En la vida real, se tienen clases desequilibradas
EJEMPLO: Anlisis prstamos fiduciarios de

Nivel Algortmico

Sensibles a los costes de aprendizaje: Supone que los costos de la clasificacin errnea son conocidos y establece un costo alto para la clasificacin errnea de una minora de la clase de muestra Reconocimiento basados en aprendizaje

Nivel de datos

Multi-classifier committee: La clase mayoritaria es dividida en subconjuntos respecto al nmero de elementos de la clase minoritaria. Se utilizan clasificadores para predecir una muestra y decidir la clase final (Voting) Re-sampling: Reduccin de la clase mayoritaria (Submuestreo) o incremento de la clase minoritaria (SobreMuestreo)

2. Trabajos relacionados

Selecciona un nmero adecuado de muestras de clase mayoritaria de cada grupo, considerando la relacin del nmero de muestras de clase mayoritaria con el nmero de muestras de clase minoritaria en la agrupacin.

N es el nmero de muestras en el conjunto de datos de clase desequilibrada es N, que incluye: Muestras de la clase mayoritaria (MA) Muestras de la clase minoritaria (MI). Para el mtodo de submuestreo SBC (sub-muestreo basados en la agrupacin), lo primero que se agrupan todas las muestras en el conjunto de datos en grupos K. Suponiendo que la relacin de SizeMA a SizeMI en la formacin de datos es m=1. El nmero de muestras seleccionadas de la clase mayoritaria en el grupo i-simo se calcula como:

3.1 Muestreo basado en la agrupacin

Determinar la proporcin de SizeMA / SizeMI en el conjunto de datos de entrenamiento Agrupar todas las muestras en el conjunto de datos en clusters Determinar el nmero de muestras seleccionadas de MA en cada grupo con la expresin SSizeiMA Seleccionar aleatoriamente la muestra MA en cada grupo Mezclar las muestras seleccionadas de MA con todas las muestras de MI (conjunto de datos de entrenamiento)
9 3.1 Muestreo basado en la agrupacin

10

3.1 Muestreo basado en la agrupacin

Se proponen 5 mtodos under-sampling basados en SBC Para un atributo continuo: Los valores necesitan ser normalizados Para un atributo categricos o discretos, la distancia entre dos valores de los atributos: Distance( X1, X2) = 1 Si X1<> X2 0 Si X1= X2

Suponiendo que hay N atributos en un conjunto de datos y VXi representa el valor de Ai atributo X de la muestra, de 1 i N. La distancia eucldea entre dos muestras X e Y se muestra en la expresin :

11

3.2 Muestreo basado en la agrupacin y distancia entre muestras

El nmero de muestras de MA se calcula con SSizeiMA, pero son seleccionados de diferentes maneras.

SBCNM-1

SBCNM-2 Agrupacin con mas distancia

SBCNM--3

Agrupacin por mas lejanos


12 3.2 Muestreo basado en la agrupacin y distancia entre muestras

13

Se generan en un entorno visual, estableciendo nmero de muestras, el nmero de atributos y el nmero de grupos. Se introduce ruido en las muestras de tipo Muestras desordenadas Muestras excepcionales

Datos sin ruido

Muestras desordenadas

Muestras excepcionales

14

4.1 Generacin de conjuntos de datos sintticos

Se busca evaluar: Tasa de precisin para la MI: Porcentaje de respuestas correctas clasificadas que se predicen en MI por el clasificador Tasa de recuperacin para MI: Porcentaje de respuestas clasificadas correctamente de todas las muestras de MI. Para un clasificador, si la tasa de precisin es alta, la tasa de recuperacin ser baja. F-medida: Combinacin de la tasa de recuperacin y precisin.

15

4.2 Criterios de evaluacin

AT

Utiliza todas las muestras para capacitar a los clasificadores (no selecciona). Mtodo de muestreo comn, selecciona al azar las muestras de MA. Selecciona las muestras de MA, mientras que sus distancias medias a las muestras ms lejanas de MI son los ms pequeos

RT

NearMiss-2

En los experimentos siguientes, los clasificadores se construyen mediante el uso de una red neuronal artificial y el algoritmo k-means clustering se utiliza para los mtodos.
16

4.2 Criterios de evaluacin

17

Para cada conjunto de datos sinttico generado: Muestras= 10,000 Atributos (numricos y categricos)= 5 j% = muestras excepcionales y k%= muestras desordenadas.

18

4.3 Resultados experimentales sobre datos sintticos

Para cada relacin especfica, se generan varios conjuntos de datos sintticos donde I es de 2 a 16.

Se aumenta el porcentaje de muestras excepcionales y muestras desordenadas al 50% y 60%, respectivamente

19

4.3 Resultados experimentales sobre datos sintticos

El tiempo de ejecucin incluye el tiempo de la ejecucin del mtodo de sub-muestreo y el tiempo para la formacin de los clasificadores

20

4.3 Resultados experimentales sobre datos sintticos

21

Archivo de base de datos de UCI Datos de las encuestas de poblacin de 1994 y 1995 Se busca determinar el nivel de ingresos de cada persona representada por el expediente. 30,162 muestras, incluyendo 22,654 muestras de MA, donde el nivel de ingresos es menor a 50 mil dlares y 7.508 muestras de M, donde el nivel de ingresos son mayores o iguales a 50 mil dlares. Se uso el 80% de las muestras para capacitar a los clasificadores y el 20% para evaluar su rendimiento

22

4.4 Resultados experimentales sobre datos reales

Tiempo de ejecucin (min)

23

4.4 Resultados experimentales sobre datos reales

24

Se propone un enfoque basado en los enfoques de toma de muestras, para resolver el problema de clase desequilibrada mediante el uso de la distribucin de la red neuronal de retropropagacin.

El enfoque SBC tiene los mejores resultados en la prediccin de las muestras de MI. Tiene menos tiempo para la seleccin de las muestras de entrenamiento que los otros enfoques

25

5. Conclusiones

Yuridiana Alemn Muoz

S-ar putea să vă placă și