Sunteți pe pagina 1din 26

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Minera de Datos (MD) estadstica

Por qu una aproximacin estadstica en la MD?


La utilizacin de caractersticas para representar una entidad provoca una
prdida de informacin. Esto implica que los valores de las caractersticas
tienen asociado un determinado nivel de certeza.
La MD Estadstica se basa en:
Considerar la entidad a estudiar como un conjunto de d caractersticas
numricas que se interpretan como un vector d dimensional
Asumir que la certeza de que el vector represente una determinada entidad
viene dada a travs de una distribucin de probabilidad asociada a las
caractersticas
Es la aproximacin ms extendida debido a:
La fundamentacin de la aproximacin en una teora matemtica slida
como la teora de la probabilidad.
Su mayor presencia temporal (trabajos desde finales de los aos 30).
Su mayor aplicabilidad:
Clasificacin con valores de las caractersticas perdidas
Toma de decisiones que minimizan la prdida esperada

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Clasificacin:Teora de la Decisin Bayesiana


(TDB)

La TDB proporciona un marco terico para tomar decisiones en


situaciones de incertidumbre.
En nuestro caso la decisin ser la clasificacin de una entidad
en una determinada clase
La TDB proporciona el clasificador ptimo (clasificador
bayesiano) para un conjunto de caractersticas dadas
En el marco de la TDB un clasificador es ptimo si produce la
mnima probabilidad de error (o el riesgo de la clasificacin).
La TDB necesita que todas las distribuciones de probabilidad de
las caractersticas p(x |wi) en cada clase sean conocidas.En la
prctica esto nunca ocurre, por lo que es necesario inferir (de las
muestras) la forma de las distribuciones de probabilidad. Tambin
es necesario inferir las probabilidades a priori P(wi)

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

TDB: Enfoque formal (1)

Informacin disponible:
Clases: wi, i=1...c
Caractersticas : X variable aleatoria multidimensional.
Probabilidades: P(wi), p(x | wi), i=1...c
Mediante la Regla de Bayes:
p( x | wi ) P( wi )
P( wi | x ) =
, i = 1...c
p( x )

con p( x ) = p( x | wi ) P( wi )
i =1

Ejemplo:

p(x | w2)

p(x | w1)

P(w2|x)

p(x | w3)
p(x | w4)

P(w3 |x)

P(w1| x)

P(w4 |x)
Distribucin de X en cada clase
Probabilidades a posteriori
Probabilidades a priori iguales

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

TDB: Enfoque formal (2)

Probabilidad de error Elegir wi


c

P(Error | x ) =

P( wk | x ) = 1 P( wi | x )
k =1,k i

Regla de decisin Bayesiana (ptima):


Elegir wi si P(wi | x) P(wj | x) ij
p(x | wi)P(wi) p(x | wj)P(wj) ij

P(w2|x)

P(w3 |x)

P(w1| x)

P(w4 |x)

Propiedad:
Hace mnima la probabilidad de error:
P(Error ) = P(Error | x )p( x ) dx

Facultad de Matemticas. Universidad de La Laguna

Elegir
w1

Elegir Elegir
w2
w4

Elegir
w3

Elegir
w4

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Clasificadores y su Representacin

Definicin formal de Clasificador


Mecanismo de eleccin entre las distintas clases de un problema
de clasificadores.
Representacin
Se suele representar por medio de un conjunto de funciones
discriminantes gi(x). De esta forma el clasificador asigna el vector
de caractersticas x a la clase wi si gi(x) gj(x) para todo ij.

x1

x
Vector de
Caractersticas

x2
.
.
.

xd
Entrada

g1

g1(x)

g2

g2(x)
.
.
.
gc(x)

.
.
.

max

(x)

gc
Clculo de las Funciones Discriminantes
Esquema de un clasificador genrico

Facultad de Matemticas. Universidad de La Laguna

Selector de Mximo

Decisin

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Funciones Discriminantes y Regiones de


Decisin

Ejemplos de funciones discriminantes:


Caso Bayesiano: gi(x)=P(wi|x) o alguna expresin equivalente
como: gi(x)=ln (p(x|wi) ) + ln (P(wi)) para el caso Bayesiano.

Regiones de decisin
Todo clasificador divide el espacio de caractersticas en regiones
de decisin Ri donde se elige la clase i. La frontera entre dos
regiones de decisin de llama frontera de decisin.
Utilizando las funciones discriminante las regiones de decisin se
escriben para cada clase wi como Ri={x/gi(x) gj(x) ij}
Si Ri son Rj contiguas entonces la frontera de decisin es la
interseccin de las dos regiones RiRj={x/gi(x)=gj(x)}.

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Recordatorio de Probabilidad

La normal multivariante es la distribucin conjunta de varias variables


normales.
Funcin de densidad N(,)

p( x ) =

1
(2 )

d /2

1/ 2

1
( x )T 1( x )
e 2

x, R d
matriz de dxd elementos,
simtrica y definida positiva (| |> 0)

Propiedades
Su valor medio es ahora un vector E(X)= = ( , ,..., )T con i =E(Xi)
La dispersin y relacin entre las variables se refleja en la matriz de
covarianzas =E( (X- ) (X- )T ) = (ij) con ij = E((Xi- i)(Xj- j))
1

En particular los elementos de la diagonal de la matriz , ii = E((Xi- i)2) son


iguales a la varianza de la variable Xi
Los elementos fuera de la diagonal ij miden la covarianza entre las variables Xi
y Xj
Una covarianza positiva indica que cuando crece Xi crece Xj
Una covarianza cero indica que Xi es independiente de Xj
Una covarianza negativa indica que cuando crece Xi decrece Xj

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Regiones de Decisin: El caso Normal (1)

Estudiaremos las funciones discriminantes y fronteras de


decisin que aparecen cuando la distribucin de las
caractersticas en cada clase es normal multidimensional, es
decir: p(x|wi)~N(i ,i )
Primer caso:
Las matrices de covarianzas de todas las clases son iguales,
diagonales y todos los elementos de la diagonal son iguales.
i =2I , donde I es la matriz identidad.
Esto significa que dentro de cada clase todas las variables son
independientes y tienen la misma varianza 2
aT ( x x0 ) = 0

g i ( x ) = aiT x + ai 0
ai =

ai 0 =

a = i j

i
1

T i
2 i

+ ln(P( wi ))

1
2 P( wi )
x 0 = ( i + j ) 2 ln
a

2
P(
w
)
a
j

Funcin discriminante

1
R1

R2

= a Ta
Superficie de decisin

Representacin Grfica

La frontera de decisin es lineal y perpendicular a la recta que une


las medias de las dos clases
Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Regiones de Decisin: El caso Normal (2)

Segundo caso:
Las matrices de covarianzas de todas las clases son iguales, esto
es: i = con una matriz comn.
g i ( x ) = aiT x + ai 0

aT ( x x0 ) = 0

ai = 1 i

a = 1d , d = i j

1
ai 0 = iT 1 i + ln(P( wi ))
2

x0 =

1
1
( i + j )
2
d T 1d

Funcin discriminante

R2

P( wi )
d
ln
P( w )
j

R1

Superficie de decisin

2
Representacin Grfica

La frontera de decisin es lineal pero en general no es


perpendicular a la recta que une las medias de las dos clases
Tercer caso:
Las matrices de covarianzas son distintas.
g i ( x ) = x T A i x + a iT x + ai 0
1
A i = i1 , a i = i1 i
2
1
1
ai 0 = i ' i1 i + ln | i1 | + ln(P( wi ))
2
2
Funcin discriminante

Las fronteras de decisin son cudricas


Facultad de Matemticas. Universidad de La Laguna

R2
R1

R1

R2

R2

R1

R1
R2

RR1 1

R2

R1

R2

R1

Representacin Grfica

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Aproximacin Generativa en Clasificacin

Objetivo:
Estimar p(x|wi) , P(wi), necesarios para aplicar el modelo de
Decisin Bayesiano.
Informacin disponible:
Un conjunto de muestras de entrenamiento H representativas de
las distintas clases, correctamente etiquetadas con su clase de
pertenencia.
Esto es, H= H1 H2 ... Hc, donde cada Hi tiene las muestras de
la clase wi
Asumiremos:
Que las muestras de cada clase no proporcionan informacin
acerca de la otra clase.
Las muestras en cada clase son independientes
Esto permite:
Estimar p(x|wi) , P(wi) nicamente a partir de las muestras en Hi.
Tenemos que resolver el problema de estimacin para cada clase
Problema:
La estimacin de P(wi) es simple, sin embargo la estimacin de
p(x|wi) es un problema complejo

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Estrategias de Estimacin

Estimacin Paramtrica
Se basa en suponer que la forma de p(x|wi) es conocida (gausiana,
beta, etc...) y depende de un conjunto de parmetros i .
Principal Ventaja: Los mtodos de estimacin son ms simples y
precisos
Principal Desventaja: Es necesario conocer la forma de la distribucin.
Los mtodos suelen ser sensibles a errores en dicha forma.

Mtodos ms importantes:
Estimacin por Mxima Verosimilitud.
Estimacin mximo a posteriori
Estimacin Bayesiana.

Estimacin no Paramtrica.
No se realiza ninguna asuncin acerca de la forma de p(x|wi)
Principal Ventaja: Mtodos robustos
Principal Desventaja: Mtodos complejos y que requieren un gran
nmero de muestras para una estimacin precisa.

Mtodos ms importantes
Ventanas de Parzen.
Vecinos ms prximos.
Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Estimacin Paramrica (1)

Mtodos paramtricos
Se asume que la forma de las funciones de densidad condicionales
son conocidas y dependen de un conjunto de parmetros i.
Escribiremos esta dependencia como p(x|wi ,i).
Por ejemplo para una normal multidimensional tendremos que
i={i,i}
Sin embargo, se desconoce el valor verdadero del conjunto de
parmetros que la determinan completamente. Este verdadero valor
se estima a partir de un conjunto de entrenamiento mediante un
estimador.
Es importante recordar que:
El valor del estimador (estimacin) depende del conjunto de
entrenamiento y distintos conjuntos de entrenamiento proporcionan
distintas estimaciones.
La estimacin no tiene por qu coincidir con el verdadero valor del
parmetro.

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Estimacin Paramtrica (2)

Simplificacion:
Las muestras de la clase wi slo dan informacin acerca del
parmetro de dicha clase i,.
Esto permite trabajar con cada clase por separado y obtener c
problemas de la forma:
Utilizar un conjunto de muestras Hi tomadas de forma
independiente de p(x | wi ,i ) para estimar i

Notacin:
Eliminaremos de la notacin la dependencia de la clase para
simplificar la escritura y escribiremos p(x | ) en vez de p(x | wi ,i )
y H en lugar de Hi.
No obstante debemos recordar siempre que estamos utilizando las
muestras de una nica clase y estimado los parmetros para esa
clase.
Por tanto para completar el clasificador debemos tener resuelto el
problema de estimacin para cada clase por separado.

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

EMV: Mtodo

Idea:
Encontrar los valores del conjunto de parmetros que hace mxima
la verosimilitud del conjunto de entrenamiento
Obtencin de la mxima verosimilitud
Si H={x1,x2,...,xn} son muestras generadas de forma independiente
de la funcin de densidad p(x| ) entonces
1.- Calcular la funcin de verosimilitud de todas las muestras:
n

L = p(H | ) = p( x k | )

p(H|)

k =1

2.- Obtener el valor EMV de que hace


mxima la funcin de verosimilitud L.
Para ello puede resolverse la ecuacin:
p(H | ) = 0 , o de forma equivalente:

EMV

ln( p(H | )) = 0

Ejemplo:
Estimar la media , y la matriz de una distribucin normal por
EMV, a partir de un conjunto H={x1,x2,...,xn}.
1 n
1 n

EMV = x k ,
EMV = ( x k EMV )( x k EMV )T
n k =1
n k =1

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Estimacin de las probabilidades a priori

La estimacin mediante EMV de las probabilidades a priori P(wi)


es simple
y se calcula mediante:
^
P(wi)=|Hi| / |H|, |.|=nmero de elementos
Esto es, el cociente entre el nmero de elementos de la clase wi
en el conjunto de entrenamiento y el nmero total de elementos
del conjunto de entrenamiento

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Clasificacin tras estimacin por EMV:


Ejemplo

Distribuciones verdaderas:

0 1 0
p(x | w1 ,1 )~ N ,

0 0 1


P(w1)=0.5, P(w2)=0.5
Clasificacin:
Conjunto de testeo:

1 1 0

, p(x | w2 ,2 )~ N ,
1 0 1

50 muestras por clase

Conjunto de entrenamiento:
50 muestras por clase

Estimacin:
0.45 0.02 0.09
,

p ( x | w1 ) ~ N
0
.
32

0
.
09
0
.
53

0.52 2.32 0.73


,

p ( x | w2 ) ~ N
0
.
16

0
.
73
0
.
23

Error de clasificacin estimado:


0.24

Error bayesiano:
0.23
Facultad de Matemticas. Universidad de La Laguna

-1

-2
-1.5

-1

-0.5

0.5

1.5

2.5

Ejemplo de clasificacin tras estimacin mediante EMV


Circulos: muestras de la clase 1
Aspas: muestras de la clase 2
Linea negra: Frontera de decisin a partir de la estimacin
Linea roja: Frontera de decisin bayesiana

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Mtodos no Paramtricos (M.n.P.)

Mtodos no Paramtricos:
Es un conjunto de mtodos que no necesita informacin acerca de la forma
de las funciones de densidad condicionales p(x | wi)
Simplificacin:
Se asume que los elementos de Hi solo dan informacin sobre dicha clase.
Esto permite resolver c problemas independientes
Notacin:
Eliminaremos de la notacin la dependencia de la clase para simplificar la
escritura y escribiremos p(x) en lugar de p(x | wi ) y H en lugar de Hi
No obstante debemos recordar siempre que estamos utilizando las
muestras de una nica clase y por tanto para completar el clasificador
debemos tener resuelto el problema de estimacin para cada clase por
separado.
Algunos Procedimientos:
Ventanas de Parzen
Se estima la funcin de densidad p(x) examinando el conjunto de entrenamiento
H en un entorno de x que cuya forma no depende de H

k- Vecinos ms prximos
Se estima la funcin de densidad p(x) examinando el conjunto de entrenamiento
H en un entorno de x cuya forma depende de H
Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

M.n.P.: Aspectos Generales

Objetivo: Estimar p(x) a partir de H


Metodologa:
Disear una regin R del espacio de caractersticas, que contiene
a x y lo suficientemente pequea para asumir que la funcin de
densidad p(x) es aproximadamente constante.
A partir de las n muestras independientes presentes en H,
generadas de acuerdo a la funcin de densidad p(x), y siendo k el
nmero de muestras que caen en R estimar:
p ( x ) =

k n
,
V

V =

dx
R
k=5
n=18
V=rea de R

x
R

Ejemplo de Estimacin de p(x)

Facultad de Matemticas. Universidad de La Laguna

p ( x ) =

5 / 18
V

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Ventanas de Parzen:Introduccin
Idea inicial:
Fijar un tamao de regin, construirla nicamente
alrededor del punto x para el que se desea
k n
estimar su probabilidad
p ( x ) = y aplicar la frmula de los
V
mtodos no paramtricos:
Vamos a formalizarlo:
Caso unidimensional
La regin es un intervalo
h /2 centrado en x de longitud h

Caso multidimensional
-h/2

h /2

La celda es un hipercubo
- h /2 centrado en x y la longitud de
Hipercubo en 2-D
cada lado es h

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Ventanas de Parzen: La eleccin de h

Problemas...
La estimacin depende de h. Si h es muy grande la estimacin es
muy suave. Si por el contrario h es muy pequeo la estimacin
suele tener variaciones bruscas inaceptables (se produce
sobreajuste).

Estimacin de Parzen de una funcin de distribucin gausiana para distintos valores de h y n

Una solucin:
Dividir el conjunto de entrenamiento en dos partes: uno para testeo
y otro para validacin. Utilizar el conjunto de entrenamiento para
definir distintas estimaciones en funcin de h. Posteriormente elegir
aquel valor de h para el que la probabilidad del conjunto de
validacin sea mxima.
Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Clasificacin por Ventanas de Parzen:


Ejemplo

Distribuciones verdaderas:
0 1 0
p(x | w1 ,1 )~ N ,

0
0
1

1 1 0

, p(x | w2 ,2 )~ N ,
1 0 1

P(w1)=0.5, P(w2)=0.5

Clasificacin:
Conjunto de testeo:
50 muestras por clase

Conjunto de entrenamiento:
50 muestras por clase

Valor ptimo calculado para h:

2.154

Error de clasificacin estimado:


0.32

Error bayesiano:
0.23

Facultad de Matemticas. Universidad de La Laguna

-1

-2
-1.5

-1

-0.5

0.5

1.5

2.5

Ejemplo de clasificacin tras estimacin mediante Parzen


Circulos: muestras de la clase 1
Aspas: muestras de la clase 2
Linea negra: Frontera de decisin a partir de la estimacin
Linea roja: Frontera de decisin bayesiana

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Estimacin por k- vecinos ms prximos

Idea:
Parece que en zonas con pocas muestras deberamos hacer la
regin grande mientras que en zonas con pocas muestras la
podemos hacer pequea. Una idea sera entonces fijar el nmero
de muestras que queremos en la regin alrededor del punto x para
el que se desea estimar su probabilidad y aplicar la frmula de los
mtodos no paramtricos:
k n
p ( x ) =
V

Estimacin mediante k-vecinos (k=3,5) y 8 muestras

Estimacin mediante k-vecinos en 2 dimensiones

Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Estimacin directa de p (wi |x)

Recordemos:
El clasificador ptimo bayesiano se puede construir hallando la
clase para la que es mxima la probabilidad a posteriori: p (wi |x)
Entonces:
Supongamos que el conjunto de datos H contiene ni muestras en la
clase wi y n muestras en total.
Supongamos que fijamos una regin R de volumen V para todas
las clases
Como sabemos, debemos resolver un problema de estimacin por
clase. Para la clase wi la estimacin ser:
k n
p ( x | wi ) = i i
V
ni
k
Entonces si utilizamos p (w i ) =
tendremos p (w i | x ) = i
n
k
La regla es simple: Seleccionar la clase con mayor nmero de
elementos en la regin R.
La regin R puede definirse mediante el esquema de las ventanas
de Parzen o los k-vecinos. Este ltimo esquema lleva a la
clasificacin por vecinos ms cercanos.

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Clasificacin por el vecino ms prximo

Clasificacin (1-vecino ms prximo)


Dado el conjunto H de muestras se clasifica x como perteneciente
a la clase de su vecino ms prximo en H.
Probabilidad de Error
Si P* es la probabilidad de error bayesiano (mnima), P la de la
regla 1-NN, c el nmero de clases y n el nmero de muestras en H:
c

P* P P*2
P * < 2P * , para n
c 1

Clasificacin mediante el vecino ms prximo en 1 y 2 dimensiones


Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Clasificacin por k-vecinos ms prximos

Clasificacin (k-vecinos ms prximos)


Dado el conjunto H de muestras se clasifica x como perteneciente
a la clase mayoritaria entre sus k vecinos ms prximos de H.
Probabilidad de Error
Se aproxima a la Probabilidad de Error Bayesiano, cuando tanto k,
como el nmero de muestras n, tienden a infinito.
La probabilidad de error se puede acotar:
P * PkNN P * +

1
ke

Qu valor elegir para k?


Se suele dividir el conjunto de entrenamiento en dos partes: uno
para testeo y otro para validacin. Utilizar el conjunto de
entrenamiento para construir el clasificador para distintos valores
de k. Posteriormente elegir aquel valor de k para el que la
probabilidad de error sea mnima sobre el conjunto de validacin

Facultad de Matemticas. Universidad de La Laguna

Minera de datos

Tema 3: Mtodos Bsicos: Algoritmos

Clasificacin por k-vecinos: Ejemplo

Distribuciones verdaderas:
0 1 0
p(x | w1 ,1 )~ N ,

0
0
1

1 1 0

, p(x | w2 ,2 )~ N ,
1 0 1

P(w1)=0.5, P(w2)=0.5

Clasificacin:
Conjunto de testeo:
50 muestras por clase

Conjunto de entrenamiento:

50 muestras por clase

Valor ptimo calculado para k:


8

-1

Error de clasificacin estimado:


0.28

Error bayesiano:
0.23

Facultad de Matemticas. Universidad de La Laguna

-2
-1.5

-1

-0.5

0.5

1.5

2.5

Ejemplo de clasificacin por k-vecinos


Circulos: muestras de la clase 1
Aspas: muestras de la clase 2
Linea negra: Frontera de decisin a partir de la estimacin
Linea roja: Frontera de decisin bayesiana

S-ar putea să vă placă și