Documente Academic
Documente Profesional
Documente Cultură
Santiago de Chile
Abril, 2001
Resumen del Informe Final para optar al Ttulo de
Ingeniero Civil Industrial.
Por: Fernando A. Crespo Romero
Fecha: 16 de Abril de 2001
Prof. Gua: Sr. Richard Weber.
Dedicatoria y Agradecimientos
A todos los que han formado un grupo de personas maravillosas en la U, mis amigos
del MCU y mis amigos del taller de tango de IDIEM.
A Miguel Fuentes y Mara Rosa, por ser ambos una pareja maravillosa conmigo y
Brbara.
INDICE
1.
INTRODUCCIN __________________________________________________ 7
1.1.
1.2.
1.3.
1.4.
1.5.
2.
OBJETIVOS______________________________________________________ 16
2.1.
Objetivos Generales_____________________________________________________ 16
2.2.
3.
METODOLOGIA __________________________________________________ 17
4.
PLAN DE TRABAJO_______________________________________________ 19
4.1.
4.2.
5.
DEFINICION DE LA ESTRATEGIA GLOBAL PARA ENFRENTAR CAMBIOS
EN OBJETOS SIN IDENTIFICADOR _____________________________________ 21
5.1.
5.2.
6.
DESARROLLO DE LA ESTRATEGIA GLOBAL PARA EL CASO SIN
IDENTIFICADOR Y EL AGRUPAMIENTO REALIZADO MEDIANTE EL
ALGORITMO FUZZY C-MEANS _________________________________________ 28
6.1.
6.1.1.
6.2.
6.3. Etapa III: Decisin sobre las opciones a considerar frente al reconocimiento del
estado de posible cambio ______________________________________________________ 31
6.3.1.
6.3.2.
6.3.3.
6.4.
6.5.
7.
APLICACIONES DE LA ESTRATEGIA GLOBAL PARA EL CASO SIN
IDENTIFICADOR SOBRE EL ALGORITMO FUZZY C-MEANS _______________ 38
7.1.
7.2.
7.2.1
7.2.2
8.
9.
CONCLUSIONES _________________________________________________ 47
8.1.
8.2.
Futuros trabajos________________________________________________________ 48
BIBLIOGRAFA __________________________________________________ 49
ANEXO A
ANEXO B
ANEXO C
ANEXO D
: GLOSARIO DE TRMINOS_________________________________ 67
INDICE DE FIGURAS
Figura 1: Ejemplo de la evolucin en el tiempo de las trayectorias identificadas para el caso de objetos sin
identificador (cada color representa en hiptesis las verdaderas clases y la lnea negra las trayectorias
identificadas). __________________________________________________________________________ 13
Figura 2: Ejemplo de desarrollo en el tiempo del caso de objetos con identificador (cada color representa las
verdaderas clases). ______________________________________________________________________ 14
Figura 3: Escenarios de cambio que se pueden producir por efecto de los objetos agregados. __________ 23
Figura 4: Ejemplo de rbol de decisin para una etapa particular de la estrategia. __________________ 24
Figura 5: Flujo de la estrategia global, incluyendo todas las etapas. ______________________________ 27
Figura 6: Resultado primera iteracin con datos simulados. _____________________________________ 40
Figura 7: Resultado segunda iteracin con datos simulados. _____________________________________ 40
Figura 8: Resultado tercera iteracin con datos simulados.______________________________________ 41
Figura 9: Grficos de evolucin del coeficiente de particin de Bezdek y los centros para las distintas
iteraciones. ____________________________________________________________________________ 42
Figura 10: Evolucin del coeficiente de particin de Bezdek. ____________________________________ 46
1. INTRODUCCIN
1.1.
mbito de desarrollo
conocimiento [6]. Es aqu donde las tareas y algoritmos de Data Mining (DM) encuentran
su utilidad ([5], [6], y [31]). Se adopta por convencin que Data Mining se refiere al acto
de extraer patrones o modelos a partir de los datos (automatizado o asistido por
personas) [6].
La representacin frecuente de un proceso tpico de KDD, contempla los
siguientes nueve pasos bsicos [31]:
1) Desarrollar una compresin del dominio de aplicacin
2) Crear un conjunto de datos objetivo
3) Limpieza y preprocesamiento de datos
4) Reduccin y transformacin de los datos
5) Elegir la tarea de Data Mining
6) Elegir los algoritmos de Data Mining
7) Data Mining
8) Evaluar el resultado de Data Mining
9) Consolidar el conocimiento descubierto
En el paso 2 hay que seleccionar un subconjunto de los datos disponibles que
normalmente estn almacenados en una base de datos o en un Data Warehouse (bodega de
datos) [31].
En muchas aplicaciones reales los datos en una base de datos o tambin Data
Warehouse contienen varia formas de errores, como por ejemplo valores faltantes, valores
fuera del rango del atributo considerado o valores no plausibles. Esta razn hace necesario
el paso 3 de limpieza y preprocesamiento de los datos [31].
En el paso 5 se elige la tarea de Data Mining especfica para un anlisis ms
detallado. Aqu se debe decidir si el propsito es, por ejemplo, la agrupacin de objetos
(como en el presente caso de investigacin), la regresin o el modelaje de dependencia.
Sobre la base de esta decisin, los ms importantes algoritmos de Data Mining deben ser
seleccionados (paso 6), para luego usarse en la bsqueda real de patrones en los datos (paso
7).
i {1,K , c}, y se calcula para el caso de agrupamiento con lgica difusa el grado de
Entre los mtodos para agrupar se encuentra los mtodos clsicos de la estadstica,
como el mtodo k-means o jerarquizados [22], y otros desarrollados en las reas de
inteligencia artificial, como las redes neuronales, el aprendizaje de mquina, y los mtodos
de agrupamiento difuso [9].
Una de las aplicaciones de agrupamiento es el reconocimiento de patrones, que
identifica caractersticas concretas o abstractas de un conjunto de individuos u objetos [14].
Para ser clasificados, los individuos u objetos necesitan que existan clases y que estas sean
identificadas. Cuando no se conoce a priori las clases, se pueden obtener mediante la
ejecucin de un algoritmo de agrupamiento (consultar [22], [28]). El nmero de patrones es
10
clasificacin, como
tcnicas de
11
registro como el identificador. Entonces, el problema puede dividirse en dos grandes reas:
cuando los objetos tienen un identificador, o cuando los objetos no lo poseen. Ambas reas
tienen subproblemas particulares, que requieren tratamientos distintos [4].
Se denominar a los objetos que se ingresan a la base de datos como objetos
agregados. Los objetos ya existentes los denominaremos por objetos conocidos, ya que en
algn momento fueron sometidos a agrupamiento, y por lo tanto, sabemos a que clase
pertenece.
Los dos casos que consideraremos, desde el punto de vista de existencia de
identificador, son:
1.
particular, de esta forma no se puede hablar de actualizacin. Del punto de vista conceptual
hay que generar una interpretacin del cambio bajo estas circunstancias, y lograr introducir
un efecto sobre el conocimiento adquirido. Naturalmente, sobre el agrupamiento realizado
slo se agregan objetos. Esto conduce a sesgos de interpretacin asociados a esta forma de
enfrentar el problema, por ejemplo, entre dos distintas etapas secuenciales se reconocer
como dos clases idnticas aquellas que se mueven poco entre s (ver ejemplo grfico en la
Figura 1). Por lo tanto, el mayor impacto de la falencia anteriormente mencionada, est
dado por el hecho que las trayectorias de las clases son slo trayectorias identificadas, es
decir, identificamos para cada clase una trayectoria de acuerdo a su movilidad respecto a
las clases conocidas desde la etapa anterior a la llegada de los objetos agregados. Un
ejemplo de este tipo de datos con objetos sin identificador corresponde a los clientes de un
supermercado, porque para la mayora de ellos no se guarda el nombre del cliente que
compra, por lo tanto, una persona cada vez que ingresa al supermercado a comprar es un
individuo nuevo, que puede comportarse de una nueva manera, y eventualmente puede ser
asociado a otras clases segn su patrn de consumo diario.
Figura 1: Ejemplo de la evolucin en el tiempo de las trayectorias identificadas para el caso de objetos sin
identificador (cada color representa en hiptesis las verdaderas clases y la lnea negra las trayectorias
identificadas).
13
2.
cada objeto. Entonces los valores de cada objeto se pueden actualizar razn por la que
habra trayectorias reales para observar los movimientos de cada objeto. Entonces,
teniendo identificador se hace imperiosa la tarea de analizar los cambios de los objetos
aprovechando las trayectorias de cada uno de ellos. Adems de la actualizacin de los
objetos conocidos, se tiene la situacin de que se agregan nuevos objetos, y para stos
objetos agregados tambin su influencia debe ser analizada para ver los cambios que
introducen sobre la estructura de clases. Para este caso hay que definir el orden con que se
introducen los objetos agregados respectos de las actualizaciones al conjunto de objetos, ya
que el orden de ingreso va afectar de manera distinta a la estructura conocida de clases. Por
ejemplo, un criterio que se puede adoptar consiste en ingresar primero aquellos valores que
provienen de actualizaciones y despus los objetos agregados, bajo el supuesto que las
actualizaciones lleven en s cambios que deberan ser premonitorios al comportamiento de
los objetos agregados, y que stos, a su vez, deberan estar incluidos en la estructura de
clases que resulte de las actualizaciones. Un ejemplo de este tipo de datos corresponde a los
clientes de un banco, que tienen un nmero de identificacin nico, en el caso de Chile es
el RUT, y donde cada uno de ellos tienen variables que se actualizan, como ingreso y edad.
Figura 2: Ejemplo de desarrollo en el tiempo del caso de objetos con identificador (cada color representa las
verdaderas clases).
14
1.5.
lo
tanto,
el
agrupamiento
dinmico,
como
aplicacin,
permite
extender
15
2. OBJETIVOS
2.1.
Objetivos Generales
Objetivos Especficos
Programar los mtodos y criterios para detectar cambios en los valores de los
objetos y en la composicin de las clases, que definirn las distintas
estrategias, para analizar su factibilidad de implementacin.
Revisar la literatura y presentar el estado actual del arte en el rea que est
circunscrita este proyecto de tesis.
16
3. METODOLOGIA
El objeto de la metodologa consta de entregar los medios mediante el cual se
apoya el desarrollo de los mtodos a desarrollar para que sean capaces de actualizar de
forma automtica la estructura de las clases de los objetos en distintos momentos de
tiempo. La estructura de clases es obtenida mediante el agrupamiento de los datos,
previamente a la prxima actualizacin o agregacin de objetos. La importancia de lograr
estos mtodos automticos a partir de la actualizacin o agregacin de objetos esta dado
porque dichos sucesos suponen cambios sobre la estructura de clases (patrones de los
objetos), ya que pueden ser objetos que tienen un comportamiento diferente a la estructura
conocida (patrones conocidos). Por ello, constituye una tarea relevante detectar
comportamientos dismiles y lograr su actualizacin sobre los patrones conocidos, todo ello
mediante un proceso automtico.
Una de las primeras elecciones para construir los mtodos utilizados en la
estrategia general la constituye la eleccin del algoritmo de agrupamiento que se aplica
sobre los objetos. Enfatizando lo mostrado en la seccin 1.2 hay que recordar que para
escoger el mtodo adecuado de agrupamiento es necesario realizar muchas pruebas de
acuerdo a la naturaleza de los datos. En cambio, para los mtodos desarrollados en este
trabajo, el algoritmo de agrupamiento fue escogido a priori, transformndose en una
restriccin particular del problema. Se escogi el algoritmo de agrupamiento difuso fuzzy c-
17
estadsticos clsicos que requieren que las clases estn separadas por un hiperplano para
tener una buena identificacin [27].
Teniendo conocido el algoritmo de agrupamiento, lo denominaremos por su efecto
como restriccin ncleo o algoritmo ncleo, ya que la programacin de los mtodos
desarrollados en este trabajo queda restringida al algoritmo de agrupamiento.
En la fase de programacin se utiliz Matlab, para el caso del algoritmo de fuzzy
18
4. PLAN DE TRABAJO
El plan de trabajo consta de dos partes, una parte que incluy la revisin
bibliogrfica permanente de publicaciones, y la otra el plan de avance del trabajo en el
tiempo.
4.1.
Estas revistas son las que presentan mayoritariamente los avances en investigacin
terica y aplicada en reas relacionadas con los conceptos y algoritmos que posteriormente
son aplicados en el Data Mining, incluyen conceptos y desarrollos estadsticos, difusos, de
computacin evolucionara, neuronales y otros que se aplican en el reconocimiento de
patrones e inteligencia artificial.
4.2.
Definir lo que se entiende por cambios en los valores de los datos, y las
19
Definir criterios, mtodos y modelos que permitan ajustar los cambios en los
individuos u objetos a cambios en la estructura de clases.
Definir una estrategia global utilizando los mtodos anteriores que permitan
lograr la actualizacin de la estructura de las clases.
20
22
Figura 3: Escenarios de cambio que se pueden producir por efecto de los objetos agregados.
5.2.
23
Los elementos que se consideran para aplicar la estrategia de anlisis global para
enfrentar cambios en objetos son planteamos a travs de etapas sucesivas, stos permiten
agregar conocimiento de la situacin y permiten enfrentar en una secuencia los posibles
escenarios de cambio. Esta manera sucesiva de integrar los escenarios de cambios obedece
en gran medida a una mezcla entre el procesamiento de informacin para tomar de
decisiones y la intuicin extrada del comportamiento de los sistemas biolgicos, de forma
que cada etapa haga uso de criterios claros, que sean fcilmente modificables y que
permitan a su vez introducir las modificaciones a la estructura actual, y por lo tanto,
conocida de las clases.
Antes de describir las distintas etapas, se hace hincapi en que esta es una
descripcin del objetivo que contempla cada etapa, por lo tanto, la implementacin cada
una de ellas sobre algoritmos difusos ser expuesta con todo detalle en la seccin 6.
24
agregados. Estos criterios permiten decidir para cada objeto agregado si est
cambiando respecto a la estructura de clases vigente, es decir, si se est alejando de
las clases conocidas. Los criterios tienen como entradas los valores de pertenencia,
en caso de que el algoritmo de agrupamiento lo permita, y la clase a la que cada
objeto es asignado. Luego, esta informacin se procesa para identificar los datos que
presentan cambios con respecto a la estructura de clases, o lo que es abstractamente
equivalente, respecto a los patrones conocidos. Se define que un objeto presenta
cambio cuando tiene informacin que cumple los criterios que determinan un
cambio respecto de la estructura.
II
Etapa: Reconocimiento del estado de posible cambio. Las entradas son los
cambio existen respecto del total de objetos agregados, o con respecto al nmero
total de objetos, o variantes de estos casos. Una forma de fundamentar lo anterior es
pensar que se puede considerar irrelevante el cambio cuando son muy pocos los
25
que tomar la decisin de elegir la mejor opcin para representar los cambios
detectados en los objetos agregados con respecto a la estructura de clases del
perodo anterior a la actualizacin. Las opciones posibles a considerar cuando se
reconoce el estado de posible cambio son: mantener el nmero de clases slo
clasificando los objetos agregados sin hacer modificaciones especiales y
actualizando slo a travs del procedimiento provisto por el algoritmo de
agrupamiento utilizado, lo que podra denominarse una actualizacin mecnica;
otra alternativa es actualizar aprovechando la informacin precedente ms la que
aportan los objetos agregados mediante alguna heurstica exclusiva y particular para
el caso en tratamiento, lo que podra denominarse una actualizacin inteligente,
ambas actualizaciones sern englobadas dentro de la opcin de movimiento de
clases, haciendo alusin al efecto que producen sobre las clases; y tambin la
opcin para crear nuevas clases, que corresponde a la opcin de generar nuevas
clases, procediendo simultneamente a aumentar el nmero de clases y encontrar el
nuevo agrupamiento. Para cada una de las opciones a considerar, su diseo est
restringido a los mtodos que utiliza el algoritmo de agrupamiento, por ejemplo,
para la opcin de crear clases nuevas usando algoritmos de agrupamiento difuso es
necesario tener una versin de ste o un algoritmo que elija automticamente, a
partir de los datos, el nmero de clases y logre encontrar simultneamente las
pertenencias ptimas. Siguiendo el esquema de rbol de decisin, a cada opcin se
debe asignar una funcin de utilidad que nos permita elegir la mejor o ms
conveniente opcin con respecto a las otras, por ejemplo, esta utilidad puede ser el
tiempo de proceso o la calidad del agrupamiento. Por ejemplo, para la aplicacin
implementada en ste trabajo con algoritmos de agrupamiento difuso, se utiliza
como funcin de utilidad la medida de calidad del agrupamiento conocida como el
26
identificadas, se utiliza como criterio para eliminar clases, eliminar aquellas que no
han sido actualizadas despus de cierta cantidad de agregaciones de datos, es decir,
una clase es candidata a eliminarse si no le ha sido clasificado ningn objeto
27
t
t
cada fila contiene los valores de los objetos x1 , K , x n1
28
es exacto, en el sentido que para cada objeto tiene un alto grado de pertenencia asociado a
una clase y bajo con respecto a las otras. Por Y se entiende la matriz de objetos agregados,
donde cada fila contiene los valores de los objetos
t
n2
son agregados al conjunto de datos y adems son los que eventualmente pueden representar
cambios respecto a la estructura existente de clases.
Se calcula d (vi , v j ) i j , i, j {1, K , c} , que es la distancia entre los centros
de las clases i y j de los objetos conocidos, y por lo tanto, son los centros generados con
X.
Denotaremos por ik al grado de pertenencia del objeto agregado y k a la clase i .
Hay que recordar que la estructura conocida de clases es generada con los valores de la
matriz X .
La distancia entre el objeto agregado y k y el centro vi de los objetos conocidos,
lo denotamos dik = d ( y k , vi ) .
Se define la funcin indicatriz
1
1NPC ( y i ) =
0
y i no presenta cambio
y i presenta cambio
(1)
y j es asignada a la clase i
(2)
y j si no es asignada a la clase i
29
Condicin 1 :
k {1, K, n 2 }
1 ik 2
i {1,K , c}
1
< 2 . Un valor umbral es mayor al valor de pertenencia que se obtiene cuando
c
30
respecto de otro conjunto total presenta un nmero mayor que un umbral de cambio. Esto
es semejante al nivel de significacin utilizado en estadstica. Una forma matemtica de
expresar esta definicin es mediante la eleccin de uno de los siguientes criterios:
n2
1 ( y )
Condicin 1 :
i =1
NPC
n2
n2
1 ( y )
Condicin 2 :
i =1
NPC
n1 + n2
Esta es la decisin que consiste en elegir la mejor opcin dada la funcin utilidad
que uno asigna a cada opcin.
6.3.1. OPCIN DE MOVIMIENTO DE CLASES
Dentro de esta opcin se puede optar por una actualizacin mecnica, por
ejemplo, debido a que la estructura de clases no se altera, ya que la cantidad de objetos
agregados es insignificante respecto del total de objetos. Es decir, esta opcin consiste en
asignar cada objeto agregado a la clase que para la cual obtenga mayor pertenencia y al
reclculo del centro de acuerdo al algoritmo de fuzzy c-means sin introducir ninguna
31
construir clases nuevas porque el nmero de objetos agregados es pequeo pero suficiente
como para influir en la estructura conocida de clases, de manera que los objetos agregados
estn en condiciones de introducir cambios en las clases. Estos cambios pueden ser
aprovechados con inteligencia, de manera que simultneamente aprovechen las estructuras
de clases conocidas y la informacin que aportan y poseen los objetos agregados en esta
etapa. Esto es lo que entendemos por actualizacin inteligente.
Un supuesto del algoritmos de agrupamiento utilizado es que el centro de la clase
representa la homogeneidad de sta, por lo tanto, surge de manera natural que teniendo
objetos agregados con cambios identificados hay que actualizar los centros de las clases.
La actualizacin inteligente de los centros de las clases, para el caso de fuzzy cmeans, se realiza mediante una combinacin convexa entre el centro formado por los
objetos agregados para cada clase y el centro de los objetos conocidos de la clase.
v =
*
i
1 ( y )( )
k =1
n2
NPC
ik
1 ( y )( )
k =1
NPC
yk
1 i c (3),
ik
32
1 (y )
n2
Ci
j =1
i =
(5),
n1 + n 2
1 ( y )
n2
i =
j =1
Ci
ij
(6),
n1 + n2
(1 (y )1 (y ) )
n2
y i =
j =1
Ci
NPC
ij
(1 (x ) ) + (1 (y )1 (y ) )
n2
n1
j =1
Ci
ij
j =1
Ci
NPC
(7).
ij
33
v PE (U ) =
1 n c
ik log e ( ik ) (8)
n k =1 i =1
que corresponde a la entropa de la particin (8) entregada por los valores de pertenencia
([23], [24]) y el coeficiente de particin de Bezdek (9) [24]:
v PC (U ) =
1 n c 2
ik (9).
n k =1 i =1
34
v PC (U ) = 1 v PE (U ) = 0 U M hcn 2,
es decir, el coeficiente de particin es 1 (mximo) y la entropa es 0 (mnima), cuando la
particin es estricta, y tambin,
v PC (U ) =
1
1
v PE (U ) = log e (c ) U = ,
c
c
de Bezdek siendo entonces una utilidad que mide la calidad de la particin generada.
6.4.
( (
))
cumple que vi( t +1) = arg min d (vi( t ) , v (jt +1) ) d (vi( t ) , v (jt +1) ) , j {1,K , c(t + 1)} . Donde se
tiene vi(t ) es el centro de la clase i en la etapa t , v (jt +1) es el centro de la clase j en la etapa
35
cumple que
min
{d (v
k , g{1,K,c ( t )}
(t )
k
la misma clase.
4. Es la posibilidad de ofrecer un conocimiento semi-supervisado donde el punto
de inicializacin del algoritmo fuzzy c-means este dado por los valores de pertenencia de la
estructura conocida en vez de partir con un valor aleatorio, as se puede saber en que orden
vienen las clases y se supera lo expuesto en el segundo prrafo.
6.5.
Siempre hay informacin que deja de ser relevante despus de cierto tiempo, u otra
forma de ver esto es que los patrones de comportamiento cambian y dejan de existir los
patrones anteriores. El equivale en el caso de agrupamiento dinmico es eliminar las clases
que no han sido actualizadas cuando hay objetos agregados, despus de sucesivas
agregaciones dentro de un cierto tiempo o perodo.
Este es un caso general, que tiene sentido tanto para los objetos que no tienen
identificador, como los que tienen. El problema que se puede producir en el caso de datos
con identificador es que hay objetos que dejan de existir en la prxima actualizacin, por
obsolescencia o muerte, por ejemplo, en clientes de un banco. El problema que hacer con
estos objetos faltantes hay que pensar como resolverlo, es un tema que queda pendiente
para el desarrollo de investigacin de casos con identificador.
Cundo eliminar una clase? Esta pregunta la podemos contestar a partir de la
observacin de la naturaleza, fuente primaria de la intuicin para abordar conocimientos
derivados de la adaptacin, en que, por ejemplo, algunos animales dejan de observar los
objetos que se mantienen quietos, es decir, no se desplazan del sistema de referencia
despus de cierto perodo de tiempo.
36
37
38
oportunidad es la de crear nuevas clases, de manera que se ocupa algoritmo del Mtodo de
Inferencia de Mxima Entropa (DSR) del ANEXO B, y por ello, se muestra el grfico de
la funcin de cohesin de la estructura. En esta iteracin se eligi una clase ms, justamente
como se haba simulado.
Al final se presenta un grfico de evolucin que permite ver la variacin de la
calidad del agrupamiento y la trayectoria identificada de las clases.
39
40
41
Figura 9: Grficos de evolucin del coeficiente de particin de Bezdek y los centros para las distintas iteraciones.
42
7.2.
Edad
1
2
3
4
5
6
44.4295
53.4150
45.7154
31.2693
51.7890
59.2990
Cantidad
Ingreso
Activos
Lnea de Crdito
de
$/Mes
$/Ao
Elementos
4032.2000 11863.9692
5836.7000 105417.4536
3195.9000
7896.6771
1262.7000
2394.8604
2310.7000 15761.1307
2686.9000 39460.6852
-110258.6453
-155.9011
-39778.0494
-897.4339
-486.2405
-813.8296
407.0869
387.7411
183.1676
-6.0931
133.4328
179.4918
Total:
11
6
16
162
71
34
300
las tres primeras iteraciones hay una clase que no es actualizada con objeto de ver si el
algoritmo de la estrategia global es capaz de eliminar dicha clase dado que no ha sido
actualizada.
Los parmetros permanentes para cada una de las cuatro iteraciones son :
-
44
Clase
Edad
1 43.3570
2 43.0810
3 51.9969
Clase
Edad
1 43.3570
2 40.5168
3 51.7857
Clase
Edad
1 43.3570
2 35.9059
3 51.5365
Ingreso
$/Mes
4169.8225
1752.5091
2610.2571
Situacin: Inicio
Atributos
Activos
Lnea de Crdito
$
$
13756.0348
-109340.1343
3588.7077
-616.0241
18864.1567
-299.7805
Objetos
conocidos
Margen de Contribucin Anual
$/Ao
351.7979
11
-3.2833
21
167.1194
19
Total:
51
Clase
Edad
1
2 34.0378
3 51.1274
Tabla 2: Datos obtenidos al aplicar la estrategia global sobre las clases y tipo de simulacin seleccionada.
En est aplicacin puede observarse que no se reconoce una nueva clase y esto se
debe a dos motivos, a que el nmero de objetos de la clase nueva es muy pequeo y los
centros de las clases estn lo suficientemente cercanos como para no reconocer una nueva
clase.
45
46
8. CONCLUSIONES
8.1.
Respecto al trabajo
Como conclusin del trabajo, primero hay que resaltar que se logr el objetivo
general, ya que se construy una estrategia global para enfrentar cambios en los objetos.
Esta estrategia tiene las suficientes caractersticas de generalidad que le permite ser
utilizada bajo otros algoritmos de agrupamiento, sean stos difusos o no difusos.
Se introdujeron conceptos que se explicaron en detalle, como la importancia del
identificador.
Se desarroll un mtodo que permiten detectar la identificacin de objetos que
presentan cambios mediante el uso de criterios que utilizan los resultados del fuzzy cmeans.
Se introdujo una funcin de utilidad que permite comparar entre las distintas
opciones despus del reconocimiento del estado de posible cambio, est comparacin se
realiza sobre la calidad del agrupamiento de clases.
La estrategia diseada y probada constituye un buen primer intento, pero lo que
resulta un problema difcil an es tener una Etapa I de identificacin de objetos que
presentan cambios sea ms segura de manera que identifique mejor la mayor cantidad de
objetos posibles.
Se prob la estrategia sobre objetos simulados y reales. En los datos simulados
como los objetos estn bien separados y lejanos de 0 se obtuvo un buen resultado dada la
complejidad del problema. En los resultados utilizando valores reales el resultado no fue
del todo malo, slo falto que construyera la nueva clase pero esto no resulto debido a que la
cantidad de datos respecto del total era muy pequeo como para mejorar la calidad de la
particin aumentando el nmero de clases.
Dados los valores obtenidos en ambas aplicaciones, hace falta analizar la
influencia del nmero de dimensiones, y ver de que manera minimizar el efecto cuando los
datos y los valores de pertenencia son cercanos a 0, porque esto conduce a un problema que
influye numricamente e ingresa problemas adicionales a resolver, en gran parte, debido a
evaluaciones de funciones y divisiones usando nmeros cercanos a 0.
47
8.2.
Futuros trabajos
Dada la forma que se resolvi cada una de las etapas no resulta de ms aadir que
stas fueron resueltas con la metodologa ms simple para resolver el problema. Pero dada
la naturaleza del trabajo en cada una de las etapas deben surgir nuevas formas de
resolverlas.
Para la Etapa I de identificacin de objetos que presentan cambios, se propone en
el criterio 1 de la Definicin 1 en vez de usar pertenencias entre umbrales fijos es utilizar
conjuntos difusos para caracterizar las pertenencias del fuzzy c-means con respecto a
estados de alejamiento. Otra forma para resolver el problema es entrenar una red neuronal
que clasifique en dos estados, con o sin cambio, y el conjunto de entrenamiento sea
actualizado por etapa, tenindose por objetos sin cambio aquellos que existen antes de la
agregacin de objetos, y entrenar los objetos con cambio sobre objetos simulados a partir
de datos alejados de las clases existentes, stas son formas posibles de resolver el problema.
Implementar en la Etapa III: Decisin sobre las opciones a considerar frente al
reconocimiento del estado de posibles cambio, en la opcin de crear clases, aumentar el
nmero de clases de uno en uno e ir comparando el coeficiente de particin de manera de
escoger el agrupamiento con el mejor ndice de particin de clases.
Otra tarea futura corresponde a desarrollar la estrategia global sobre el algoritmo
de agrupamiento possibilistic c-means.
48
9. BIBLIOGRAFA
[1] Rodolfo Bautista, Harrison Sanclemente, Descubrimiento de Conocimiento en Bases
de Datos Mdicas, XXIV Conferencia Latinoamericana de Informtica, Quito
Ecuador: Volumen 2, 19 al 24 de Octubre de 1998, 1037 - 1048.
[2] M. Barni, V Cappellini, A. Mecocci, Comments on A Possibilistic Approach to
Clustering, IEEE Transactions on Fuzzy Systems, Vol. 4, N 3, Agosto 1996, 393
396.
[3] Control Borroso I. Cuadernos de informtica y automtica, Subprograma VII:
Electrnica e Informtica Aplicadas. Programa Iberoamericano de Ciencia y Tecnologa
para el Desarrollo (CYTED). San Jos de Costa Rica, 19-30 de Septiembre de 1994.
[4] Frdric Dazy, Jean-Franois Le Barzic, L Analyse des Donnes volutives, Pars:
ditions Technip, 1996.
[5] Torgeir Dingsyr, Endre M. Lidal, An Evaluation of Data Mining Methods and
Tools, http://www.idi.ntnu.no/~dingsoyr/proyect/report.html.
[6] Usama M. Fayyad, Data Mining and Knowledge Discovery: Making Sense Out of
Data, IEEE Expert, Intelligent Systems & Their Applications, Octubre 1996, 20 - 25.
[7] King Sun Fu (Ed.), Digital Pattern Recognition, Second Corrected and Updated
Edition, Communication and Cybernetics Vol. 10, Berln: 1980.
[8] S. Geman, D. Geman, Stochastic relaxation, Gibbs distributions, and the Bayesian
restoration of image, IEEE trans. Pattern Anal. Machine Intell., vol. PAMI 6, pp.
721-741, 1984.
[9] Anil K. Jain, Robert P. W. Duin, Jianchao Mao, Statistical Pattern Recognition: A
Review, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, N
1, Enero 2000, 4 37.
[10]
Arno Joentgen, Lara Mikenina, Richard Weber, H.-J. Zimmermann, Dynamic Data
Arno Joentgen, Lara Mikenina, Richard Weber, H.-J. Zimmermann, Dynamic Data
49
[12]
Arno Joentgen, Lara Mikenina, Richard Weber, H.-J. Zimmermann, Dynamic fuzzy
data analysis based on similarity between functions, Fuzzy Sets and Systems, 105, 1,
1999, 81 - 90.
[13]
fault detection in gearboxes by dynamic fuzzy data analysis, Fuzzy Sets and Systems,
105, 1, 1999, 123 - 132.
[14]
George J. Klir, Ute H. St. Clair, Bo Yuan, Fuzzy Set Theory: Foundations and
50
[23]
Clustering, in Proc. Int. Join Conf. 4th IEEE Int. Conf. Fuzzy Syst./2nd Int. Fuzzy Eng.
Symp. (FUZZ/IEEE-IFES), Yokohama, Japan, Marzo 1995, 2227 2232.
[24]
Kikhil R. Pal, James C. Bezdek, On Cluster Validity for the Fuzzy c-Means
Model, IEEE Transactions on Fuzzy Systems, Vol. 3, N 3, Agosto 1995, 370 379.
[25]
and Fuzzy Prediction Models, in Proc. Int. Join Conf. 4th IEEE Int. Conf. Fuzzy
Syst./2nd Int. Fuzzy Eng. Symp. (FUZZ/IEEE-IFES), Yokohama, Japan, Marzo 1995,
2215 - 2220.
[27]
Technip, 1990.
[28]
Li-Xin Wang, A Course in Fuzzy Systems and Control, New Jersey: Prentice-
Hall, 1997.
[30]
51
{x1 ,x 2 ,K ,x n },
dura
de
es
la
familia
A
P
(
X
)
:
1
i
c
tal
que
Ai = X y Ai I A j = , para 1 i j c . Cada Ai es visto
i
U
i =1
ik =
(10)
ik {0,1}, 1 i c, 1 k n ;
c
i =1
ik
= 1, k {1, 2, K , n} ;
(11)
(12)
(13)
k =1
La ecuacin (2) y (3) en conjunto significan que cada x k X debe estar contenido
en uno y solo una clase. La ecuacin (4) indica que cada clase deber contener al menos
M hcn
ik {0,1}, 1 i c, 1 k n ;
= U Vcn
n
k =1
i =1
ik
= 1, k {1,2, K, n};
(14)
1 c c
c j n
( 1) j
c! j =1 j
(15)
M fcn
ik [0,1], 1 i c, 1 k n ;
= U Vcn
n
k =1
i =1
ik
= 1, k {1,2,K , n};
(16)
Cuando hay funcin objetivo sta mide la distancia de los candidatos para cada
clase obtenidos mediante el agrupamiento, y los mnimos locales de la funcin objetivo
entregan las clases ptimas (para este caso con c fijo). Actualmente hay lneas de
investigacin sobre estos algoritmos con el objeto de obtener ptimos globales [24]. Los
53
mtodos con funcin objetivo permiten una formulacin ms precisa de los criterios de
agrupamiento.
La funcin objetivo ms extensamente estudiada es la suma de errores cuadrticos
intra-grupos, definidos como
n
J W (U ,V ) =
k =1 i =1
ik
x k vi
(17)
vi =
k =1
n
ik
k =1
xk
(18)
ik
J W (U ,V ) =
x k vi
i =1 xk Ai
c
(19)
de su propia clase.
Encontrar el par ptimo (U ,V ) para J W no es una tarea fcil. La dificultad reside
en el tamao de M hcn , y en el hecho que los valores de V deben ser actualizados
simultneamente, de manera que el algoritmo de minimizacin es una heurstica. Uno de
los algoritmos ms populares para encontrar el mnimo aproximado de J W sobre M hcn , es
el siguiente algoritmo de hard c-means :
54
{x1 ,x 2 ,K ,x n }, con
xi p . Fijamos c,
2 c n , y inicializamos U ( 0 ) M hcn .
vi( l ) =
x
k =1
n
k =1
(l )
ik
(20)
(l )
ik
[ ]
ik(l +1)
1 i c, 1 k n.
(21)
( )
ik
k =1 i =1
x k vi
(22)
sea minimizado, donde m (1, ) es una constante de peso. Primero se presenta el Teorema
1 que establece la condicin necesaria para que el problema de minimizacin tenga un
ptimo, y luego se propone el algoritmo de fuzzy c-means basado en ste .
Teorema 1: Sea X
{x1 ,x 2 ,K ,x n },
55
ik =
x k vi
x v
j =1
j
k
c
, 1 i c, 1 k n,
2
m 1
(23)
y
n
( )
vi =
ik
k =1
n
( )
xk
, 1 i c.
(24)
ik
k =1
Demostracin: Para demostrar (14), suponemos que los vi estn fijos. Luego el
L(U , ) =
( )
k =1 i =1
ik
x k vi
n
c
k ik 1
k =1
i =1
(25)
[m(
L(U , )
=
ik
ik
L(U , )
=
k
)m1 xk vi
c
i =1
ik
k = 0 ,
1 = 0 .
(26)
(27)
De (17) obtenemos
k
=
m x v
k
i
ik
m 1
.
(28)
k m 1
=
m
x v
i =1
i
k
c
1
m 1
(29)
c
J m (U , V )
m
= 2( ik ) ( xi vi ) = 0
vi
i =1
(30)
{x1 ,x 2 ,K ,xn }
con xi p . Fijamos
( )
n
(l )
i
k =1
n
(l ) m
ik
xk
( )
k =1
(31)
(l ) m
ik
[ ]
ik(l +1) =
xk v
x v (l )
j =1
j
k
c
(l )
i
2
m 1
, 1 i c, 1 k n.
(32)
57
calculado va (14).
m(m 1)( ik )m 2 xt v s
(U )
=
ik ik
si s = i, t = k
si no
(33)
donde u st es calculado desde (14). As, H (U ) = [hst ,ik (U )] es una matriz diagonal. Dado
m > 1 y xt v s 0 1 t n y 1 s c , tenemos m(m 1)( ik )
m2
xt v s
> 0 . Por
es calculado va (15).
k =1
v j vi
58
si
j=i
si no
(34)
J m U (l +1) , V (l +1) J m U ( l ) , V ( l ) .
Teorema 2: Sea vi(l ) , ik(l ) , l = 0,1,2,K, sea la secuencia generada desde el
algoritmo fuzzy c-means por (11) y (12). Si m > 1 y x k(l ) vi( l ) 0 k = 1,2, K , n ,
J m U (l +1) , V (l +1) J m U ( l ) , V ( l )
(35)
para l = 0,1,2,K
Demostracin: Dado que V (l ) es calculado desde la (12) para U fijo, del Lema 2
tenemos que
(36)
Dado que U (l +1) es calculado desde (11) para V fijo, del Lema 1 se tiene que
J m U (l +1) ,V (l ) J m U ( l ) , V ( l ) .
(37)
(
(
)
)
(
(
)
)
J U * , V * J m U , V * , U M fcn ;
= U * , V * M fcn M pc () m * *
J m U ,V < J m U * ,V ,
V V *
(38).
Fue demostrado por Bezdek, Hathaway, Sabin y Tucker que el algoritmo fuzzy cmeans o termina en un punto en , o existe una subsucesin que converge a un punto en
59
max ik log( ik )
(39)
k =1 i =1
sujeto a:
g1
g2
M
gl
donde g1 , g 2 , L, g l son las l restricciones o la informacin dada.
Observamos que el agrupamiento difuso es solamente uno de los MEI. Primero,
definimos una funcin de prdida (la suma del error cuadrado intra-grupo (WGSS) ) como
sigue:
60
L = ik d ik2
(40)
k =1 i =1
Donde, d ik = x k i y
(41)
0 ik 1 i;
(42)
k =1
i =1
= 1 k .
ik
(43)
ik =
e
c
d ik2
2 2
i, k ;
d 2jk
(44)
2 2
j =1
61
i =
k =1
N
ik
k =1
xk
i.
(45)
ik
1. Si las pertenencias asignadas { ik } son fijas, luego los vectores de los centros
i =
k =1
N
ik
k =1
xk
i.
(46)
ik
ik =
e
c
d ik2
2 2
d 2jk
2
i, k .
(47)
j =1
62
conocimiento de una parte nos permite suponer fcilmente la estructura del resto. As, el
proceso de reconocimiento de la estructura produce un proceso de extraccin de
conocimiento. Por lo tanto la cohesin de la estructura de un sistema ser ms natural
expresarla por la siguiente frmula
=
Cohesin de la estructura
= (la efectividad de la clasificacin) + (la exactitud de la aproximacin).
(48)
E + (1 - )A
L (1)
n
.
= log + (1 - ) log
c
L (c )
(49)
Donde L(1) es la varianza de los datos entrantes, i. e., el valor de comienzo para la
funcin de prdida con c = 1 , y [0,1] presenta el peso de la efectividad de la
clasificacin. En el caso de estimacin insesgada, tomamos = 0.5 . El primer trmino (o
tambin llamado razn de compresin de la informacin) decrece con el nmero de clases
c , pero el segundo trmino se incrementa, porque L(c) decrece monotamente a cero con
c . Por otro lado, el agrupamiento, como una aproximacin del reconocimiento de la
estructura, su objetivo es encontrar la estructura que ms se ajusta. Para la validez de clases,
consideramos la maximizacin de S (c) como criterio de agrupamiento.
max {S (c)}.
c{1,K,C }
S
i =1
Si
L(M i 1 )
M
= log i 1 + (1 ) log
L(M i )
Mi
(50)
63
L(c) es estrictamente
64
Algoritmo DSR:
1. Calcule L(1) . Fije > 0 , > 0 , , C , T y S (1) = 0.0 .
2. Para c = 2, K , C . Inicializamos con ik [0,1] aleatorio para cada
i, k . Para t
= 1, 2, K , T .
65
z ij ~ N 0, 2j .
Ahora, los objetos agregados con cambios son generados de la forma:
~
x j = ) + z j
i
66
Palabra o sigla
Nombre en ingls
Significado
Agrupamiento
Clustering
Referirse a Pgina 7.
Cohesin de la estructura
Structure strength
Referirse a ANEXO B.
DM
Data Mining
Minera de Datos.
DW
Data Warehouse
Bodega de Datos.
DSR
Reconocimiento
de
la
Knowledge
Discovery
in Descubrimiento
de
conocimiento en bases de
Databases
datos.
MEI
Maximun-entropy
method
B).
Problema
de
validez
clases
67