Sunteți pe pagina 1din 4

Modelado Probabilstico Generativo Gaussiano de 2 Clases con Estimacin de Parmetros por ML (Marzo 2012)

Modelado Probabilstico Generativo Gaussiano de 2 Clases con Estimacin de Parmetros por Mxima Verosimilitud (Marzo 2012)
Ivn Lpez Espejo
Deduccin de la estimacin por mxima verosimilitud de los parmetros correspondientes a las distribuciones de probabilidad de un modelo probabilstico generativo de clasificacin gaussiano de 2 clases e iguales matrices de covarianza con el fin de calcular posteriormente el hiperplano de decisin para la clasificacin de muestras entrantes al sistema.

I. INTRODUCCIN
N ESTE trabajo se deduce la estimacin por mxima verosimilitud de los parmetros correspondientes a las distribuciones de probabilidad de un modelo probabilstico generativo de clasificacin gaussiano de = 2 clases e iguales matrices de covarianza. Una vez estimados estos, es posible calcular el hiperplano de decisin en base a la funcin logstica sigmoidal. Calculado este, es posible clasificar una nueva muestra de entrada al sistema en una de las dos clases posibles sin ms que estudiar la probabilidad de pertenencia a cada una de las clases a partir de la anterior funcin logstica. Para completar el trabajo, a partir de los resultados obtenidos, se realiza una implementacin en MatLab con la que llevar a cabo una experimentacin prctica.

|,

donde, como se puede observar, slo las probabilidades conjuntas de las muestras que pertenecen a su clase pesan en el anterior baremo. Los parmetros que deseamos estimar a continuacin por mxima verosimilitud son las probabilidades a priori de cada clase, las medias de cada una de ellas y su matriz de covarianza. Para simplificar el clculo, optimizamos sobre el logaritmo de la funcin de verosimilitud, pues su monotona no cambia tras este tipo de composicin: log |, , , = log | | , +

II. DESARROLLO Partimos de poseer un conjunto de muestras agrupables en dos clases segn sendas distribuciones gaussianas. Para cada muestra, adems, se tiene un valor de etiqueta, , que indica a priori la pertenencia de dicha muestra a una clase, es decir, , 0 1 , = 1,2, , , ,

log

1 ,

donde la distribucin normal multivariada de dos clases se expresa como | , = log 2 | | 1


/

toma el valor 0 si la muestra donde, como se ve, pertenece a la clase 0 ( ) o el valor 1 si pertenece a la clase 1 ( ). La probabilidad a priori de la primera clase es = , de tal forma que, como slo se poseen dos clases, la probabilidad a priori de la segunda es su complementario, es decir, = 1 . Dado que hemos dicho que la densidad de probabilidad condicional de las muestras dada la clase se modela como una distribucin gaussiana, las probabilidades conjuntas de las muestras y las clases se expresan, a partir de la Regla de Bayes, como , , = = | | = = | | , , 1 , .

exp

y, en trminos logartmicos como 1 2 | ,

1 2

= log 2 | |

Sustituyendo la anterior expansin en el desarrollo logartmico de la funcin de verosimilitud, esta resulta


log |, , , = 1 2 log + log 2 | |

Sea = , ,, una clase para las expresa como

1 2

log 2 | |

log 1

el vector de etiquetas de pertenencia a muestras, la funcin de verosimilitud se

Derivando con respecto a la anterior expresin e igualando a 0 optimizamos para calcular por mxima verosimilitud la probabilidad a priori de la primera clase y, por ende, la de la segunda:

Modelado Probabilstico Generativo Gaussiano de 2 Clases con Estimacin de Parmetros por ML (Marzo 2012) log |, , , 1 1 1

=0

Como vemos, slo un trmino de la sumatoria (el del exponente de la gaussiana correspondiente) depende de la media de la clase 1. Para mayor facilidad de clculo, expandimos su argumento: = = + .

La anterior derivada es trivial, pues slo depende de dos trminos logartmicos en la sumatoria de la funcin logverosimilitud. Vamos a continuacin a renombrar las sumatorias en ambos miembros de la anterior derivada. La suma de las etiquetas nos proporciona la cantidad de muestras pertenecientes a la primera clase, es decir: = .

A continuacin tenemos en cuenta las siguientes tres identidades de derivacin matricial para resolver el clculo: = ,

, nos De otro lado, la suma del complementario, 1 proporciona la cantidad de muestras pertenecientes a la clase 0, es decir: 1 = .

= , +

Aplicndolas, llegamos a que la anterior derivada finalmente puede ser expresada como + + = 0.

La suma de ambos trminos nos proporciona la cantidad total de muestras, , de la forma: = + .

Sustituyendo lo anterior en el resultado de la derivada parcial de la funcin log-verosimilitud con respecto a , llegamos a que la estimacin ML de es = 1 1 1 = = N N = = . N +N N +1

Puesto que la matriz de covarianza es una matriz simtrica ( = ), siendo su inversa tambin simtrica, + =2 . Adems, por la regla de trasposicin del producto matricial, tenemos que = . Aplicando adems de nuevo la propiedad de simetra, el primer par de monomios del corchete puede simplificarse a su = 2 . Teniendo esto vez como en cuenta, la estimacin ML de resulta finalmente 2 =0 = 1 =

Como era de esperar, la probabilidad a priori de es el nmero de muestras pertenecientes a dicha clase sobre el total, siendo la probabilidad a priori de la clase su complementario, es decir, = 1 =1 N NN N = = , N N N

o, en otras palabras, el nmero de muestras pertenecientes a sobre el total. A continuacin, llevamos a cabo un procedimiento anlogo al anterior para obtener la estimacin de la media de la clase 1. Comenzamos derivando la funcin log-verosimilitud con respecto a : log |, , , =0

Como era de esperar, resulta la media muestral del conjunto de muestras de la clase 1. Procedemos a continuacin de forma anloga con el fin de estimar la media de la clase 0: 1 2 log |, , , =0

= 0.

1 2

= 0.

Aplicando las mismas identidades de derivacin matricial que en el caso anterior, llegamos a

Modelado Probabilstico Generativo Gaussiano de 2 Clases con Estimacin de Parmetros por ML (Marzo 2012)
1 + + = 0.

3 = 0.

Simplificando a partir de las mismas consideraciones, llegamos a que la estimacin ML de la media de la clase 0 es
1 2 =0 = 1 1 1 , = 1

Multiplicando ambos trminos de la ecuacin por 2 y sacando factor comn la matriz de covarianza inversa,
+ 1 =

es decir, de nuevo, la media muestral del conjunto de muestras pertenecientes a . Finalmente, llevamos a cabo la estimacin de la matriz de covarianza de ambas clases. De nuevo, derivamos la funcin log-verosimilitud, en este caso, respecto de . Teniendo en cuenta nicamente los trminos dependientes de la matriz de covarianza, el problema se reduce a resolver la siguiente ecuacin:
1 2 1 log| | 2 1 2 1 2 log |, , , =0

Finalmente, la estimacin ML de la matriz de covarianza resulta


= 1 + 1 ,

1 1

log| |

que de nuevo se traduce, como era de esperar, en la covarianza muestral. La probabilidad de la primera clase dada la muestra se puede expresar en trminos de la funcin logstica como | = + , donde + = 1+ 1 .

= 0.

Adems, tenemos que

Para resolver la derivada del logaritmo del determinante de hacemos uso de la siguiente identidad de derivacin matricial: log| | = .

forma que en el lmite, cuando las dos clases son equiprobables, = 0 = + , lo que constituye nuestro hiperplano de decisin. Resolviendo la anterior ecuacin, llegamos a la forma explcita del hiperplano de decisin:
+ =0

= log

| |

, de tal

Anlogamente, aplicamos la siguiente identidad para resolver la derivada en los trminos del argumento de la exponencial de las gaussianas: = Sustituyendo, la derivada resulta finalmente:
1 2 + 1 2 1 2 1 +

donde

Finalmente se ha llevado a cabo una implementacin en MatLab que realiza todo el proceso: generacin de muestras de dos clases segn distribuciones gaussianas, estimacin de sus parmetros por mxima verosimilitud, clculo del hiperplano de decisin y clasificacin de una nueva muestra de entrada. La figura 1 muestra un ejemplo de resultado del funcionamiento de las rutinas programadas.

+ log

=0 +

=0

1 2

= 0.

Para simplificar, multiplicamos por la derecha por la matriz de covarianza, resultando en 2 + 2 2 +

Modelado Probabilstico Generativo Gaussiano de 2 Clases con Estimacin de Parmetros por ML (Marzo 2012)

0 Clase 0 Clase 1 Hiperplano Muestra clasificada -2 0 2 4 6 8

-2

-4 -4

8 7 6 5 4 3 2 1 0 -1 -2 -4 Clase 0 Clase 1 Hiperplano Muestra clasificada

-2

-2 Clase 0 Clase 1 Hiperplano Muestra clasificada -2 -1 0 1 2 3 4

-4

-6 -3

-2 Clase 0 Clase 1 Hiperplano Muestra clasificada -2 -1 0 1 2 3 4

-4

Fig. 1. De arriba a abajo: (a) dos clases con vectores de medias 0,0 y 5,5 y matriz de covarianzas diagonal con autovalores 0.8 y 0.6 donde se clasifica una muestra muy cercana al hiperplano de decisin, (b) igual caso que (a) pero donde se clasifica una muestra con claridad en la clase 0, (c) dos clases con vectores de medias 1,0 y 0,2 y matriz de covarianzas diagonal con autovalores 1 y 2 donde se clasifica una muestra muy cercana al hiperplano de decisin, (d) igual caso que (c) pero donde se clasifica una muestra ms probable en clase 0.

-6 -3

S-ar putea să vă placă și