Sunteți pe pagina 1din 17

Análisis Discriminante

Guía de estudio

1. Repaso

2. Clasificación entre dos poblaciones


• Clasificación según el costo esperado

3. Poblaciones normales
• Probabilidades del error
• Probabilidad a posteriori

4. Varias poblaciones normales

5. Poblaciones desconocidas
• Descomposición de la varianza univariante
• Descomposición de la varianza en el caso multivariante

6. Variables canónicas discriminantes


• Descomposición de la varianza univariante

Holger Benalcázar Paladines


holger.benalcazar@ epn.edu.ec
holgerben@hotmail.com
Junio-2017
1. Repaso

• Sea 𝑃1 y 𝑃2 una partición


• Ω = 𝑃1 ⊎ 𝑃2
• 𝑋 = (𝑋 ∩ 𝑃1 ) ⊎ (𝑋 ∩ 𝑃2 )

• 𝑃(𝑋) = 𝑃(𝑋, 𝑃1 ) + 𝑃 (𝑋, 𝑃2 )


= 𝑃 (𝑋 |𝑃1 )𝑃(𝑃1 ) + 𝑃(𝑋|𝑃2 )𝑃(𝑃2 ) (a)
𝑃(𝑃1 ,𝑋) 𝑃(𝑋 |𝑃1 )𝑃(𝑃1 )
• 𝑃(𝑃1 |𝑋) = =
𝑃(𝑋) 𝑃(𝑋 |𝑃2 )𝑃(𝑃2 )+𝑃(𝑋 |𝑃1)𝑃(𝑃1 ) (b)

𝑃(𝑃2 ,𝑋) (𝑃(𝑋 |𝑃2 )𝑃(𝑃2 ))


• 𝑃(𝑃2 |𝑋) = = 𝑃(𝑋|𝑃
𝑃(𝑋) 2 )𝑃(𝑃2 )+𝑃(𝑋 |𝑃1)𝑃(𝑃1 ) (c)

2. Clasificación entre dos poblaciones

• Similar a (a):
𝑓(𝑿) = 𝜋1 𝑓1 (𝑿) + 𝜋2 𝑓2 (𝑿) (0)

• Similar a (b) y (c), respectivamente:


𝑓1 (𝑿)𝜋1
𝑃(1|𝑿) = (1)
𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2

𝑓2 (𝑿)𝜋2
𝑃(2|𝑿) = (2)
𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2

• REGLA: Clasificar en 𝑃2 , si:


𝜋2 𝑓2 (𝑿) > 𝜋1 𝑓1(𝑿) (3)

Clasificación según el costo esperado

𝑑 : 𝐶𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑟 𝑒𝑛 𝑃1
Decisiones { 1 (4)
𝑑2 : 𝐶𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑟 𝑒𝑛 𝑃2

holger.benalcazar@epn.edu.ec análisis discriminante 2


Si 𝑿 ∈ 𝐴1 , tomar 𝑑1
{
Si 𝑿 ∈ 𝐴2 , tomar 𝑑2 (5)

• 𝑐(𝑖 |𝑗) = Costo de clasificar en 𝑃𝑖 cuando pertenece a 𝑃𝑗 (6)

• 𝐸 (𝑑2 ) = 𝑐(2|1)𝑃 (1|𝑿) + 0𝑃 (2|𝑿) = 𝑐(2|1)𝑃(1|𝑿) (7)

• 𝐸 (𝑑1 ) = 0𝑃(1|𝑿) + 𝑐(1|2)𝑃(2|𝑿) = 𝑐(1|2)𝑃(2|𝑿) (8)

REGLA: Asignar a 𝑃2 , si:

𝐸 (𝑑2 ) < 𝐸(𝑑1 ) (9)

𝑐(2|1)𝑃(1|𝑿) < 𝑐(1|2)𝑃(2|𝑿)

𝑓1(𝑿)𝜋1 𝑓2 (𝑿)𝜋2
𝑐(2|1) < 𝑐(1|2)
𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2 𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2

𝑓2 (𝑿)𝜋2 𝑓1 (𝑿)𝜋1
> (10)
𝑐(2|1) 𝑐(1|2)

holger.benalcazar@epn.edu.ec análisis discriminante 3


Clasificación de dos poblaciones normales

• Funciones de densidad

1 1
𝑓𝑖 (𝑿) = 𝑝 1 exp [− 2
(𝑿 − 𝑼𝑖 )′ 𝑽−1 (𝑿 − 𝑼𝑖 )]
(2𝜋)2 |𝑽|2 (11)

• Distancia de Mahalanobis de 𝑿 a 𝑼𝑖

𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′ 𝑽−1 (𝑿 − 𝑼𝑖 ) (12)


Reemplazando (11) en (10) se obtiene la REGLA de clasificar en 𝑃2 antes que en 𝑃1, si:

𝐷12 𝜋1 𝐷22 𝜋2
− ln > − ln
2 𝑐 (1|2) 2 𝑐 (2|1)
( 13 )
𝐷12 𝐷22 𝑐 (1|2)𝜋2
> − ln
2 2 𝑐 (2|1)𝜋1

Si se define el vector: 𝑾 = 𝑽−1 (𝑼2 − 𝑼1 ) = 𝑾21 (14)

desarrollando [13], la REGLA de clasificar en 𝑃2 antes que en 𝑃1, es:

𝑼2 + 𝑼1 𝑐 (1|2)𝜋2
𝑾′ 𝑿 > 𝑾′ − ln (15)
2 𝑐 (2|1)𝜋1

La variable:

𝑍 = 𝑊 ′ 𝑿 = 𝑤1 𝑋1 + ⋯ + 𝑤𝑝 𝑋𝑝 = 𝑊21 𝑿 (16)

se denomina variable indicadora discriminante y es una combinación lineal de las


variables 𝑋𝑗 . Luego:
E(Z) = 𝐖′ E(𝐗) = 𝐖′ 𝐔 (17)

Donde 𝐔 es la media total.

Cuando consideramos los 𝑿 de 𝑃𝑖 , se tiene:


𝐸 (𝑍|𝑿 ∈ 𝑃𝑖 ) = 𝑾′𝑼𝑖 = 𝑚𝑖 𝑖 = 1,2 (18)

Para facilitar una representación gráfica, supongamos que en la ecuación [15], se cumple el
supuesto:
c(1|2)π2 = c(2|1)π1 (19)

holger.benalcazar@epn.edu.ec análisis discriminante 4


entonces X se clasifica en 𝑃2 , si:

𝐔2 +𝐔1
𝐖′ 𝐗 > 𝐖′ (20)
2

El individuo 𝐗 3 es clasificado en P1
El individuo 𝐗 8 es clasificado en P2

Entonces la regla de clasificación (20) cuando se cumple el supuesto (19) es equivalente a


clasificar en 𝑃2 , si: X3

|𝑧 − 𝑚1 | > |𝑧 − 𝑚2 | (21)

Es claro ahora que la representación gráfica de (15) será similar a la realizada, con la
diferencia de que el límite de clasificación estará trasladado.

La varianza de la variable indicadora discriminante es:

Var(Z) = Var(W′ 𝐗) = 𝐖′ Var(𝐗)𝐖 = 𝐖′ 𝐕𝐖


= [𝐕 −1 (𝐔2 − 𝐔1 )]′𝐕[𝐕 −1 (𝐔2 − 𝐔1 )] (22)
= (𝐔2 − 𝐔1 )′𝐕 −1 (𝐔2 − 𝐔1 ) = D2

También se tiene que:


(𝑚2 − 𝑚1 )2 = [𝑊 ′ (𝑈2 − 𝑈1 )]2 = [(𝑈2 − 𝑈1 )′ 𝑉 −1 (𝑈2 − 𝑈1 )]2 = 𝐷 4 (23)
𝑚2 − 𝑚1 = 𝐷 2 (24)

holger.benalcazar@epn.edu.ec análisis discriminante 5


Probabilidades del error

La distribución de Z considerando (17), (18) y (22)

Para toda la población 𝑃 = 𝑃1 ∪ 𝑃2 Para la población 𝑃1

𝑍~𝑁(𝑊 ′ 𝑈, 𝐷 2 ) 𝑍~𝑁(𝑊 ′ 𝑈1 , 𝐷 2 )
𝑍~𝑁(𝑚1 , 𝐷 2 )

la probabilidad de clasificar en 𝑃2 cuando es de 𝑃1:

𝑚1 +𝑚2 𝑐(1|2)𝜋
𝑃 (2|1) = 𝑃 (𝑧 ≥ 2
− ln 𝑐(2|1)𝜋2 |𝑧~𝑁(𝑚1 , 𝐷 2 )) (25)
1

Suponiendo que se cumple el supuesto (19), 𝑐(1|2)𝜋2 = 𝑐 (2|1)𝜋1 , se tiene:

𝑚1 +𝑚2
𝑃(2|1) = 𝑃 (𝑧 ≥ |𝑧~𝑁(𝑚1 , 𝐷 2 ))
2

centrando y reduciendo Z y dado que 𝑚2 − 𝑚1 = 𝐷 2:

𝑚1 + 𝑚2
𝑍 − 𝑚1 − 𝑚1
𝑃 (2|1) = 𝑃 [ ≥ 2 ]
𝐷 𝐷
(26)
𝑍 − 𝑚1 𝐷 𝐷
= 𝑃( ≥ ) = 1−𝜙( )
𝐷 2 2
Análogamente:

𝐷 𝐷
𝑃(1|2) = 𝜙 (− ) = 1 − 𝜙 ( ) = 𝑃(2|1) (27)
2 2

Entonces, bajo el supuesto de que 𝑐 (1|2)𝜋2 = 𝑐(2|1)𝜋1 , los errores de mala clasificación
son iguales y solo dependen de la distancia de Mahalanobis entre las medias.

holger.benalcazar@epn.edu.ec análisis discriminante 6


Probabilidad a posteriori

Reemplazando las funciones de densidad 𝑓𝑖 (𝑿) en (1):

𝜋1 𝑓1(𝑋)
𝑃 (1|𝑿) =
𝜋1 𝑓1(𝑿) + 𝜋2 𝑓2 (𝑿)

1 (28)
=
𝜋 1
1 + 𝜋2 exp [− 2 (𝐷22 − 𝐷12)]
1

donde:
𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′𝑽−1 (𝑿 − 𝑼𝒊 ) 𝑖 = 1,2 (29)

De manera similar:

1
𝑃(2|𝑿) =
𝜋 1
1 + 𝜋1 exp [− 2 (𝐷12 − 𝐷22 ] (30)
2

Notar que 𝑃 (1|𝑿) + 𝑃(2|𝑿) = 1

Ejemplo 06.01.xlsx

Se desea clasificar un retrato entre dos posibles pintores. Para ello se miden dos variables:
la profundidad del trazo y la proporción que ocupa el retrato sobre la superficie del lienzo.
Las medias de estas variables para el primer pintor, A, son (2 y 0.8) y para el segundo, B,
(2.3 y 0.7) y las desviaciones típicas de estas variables son 0.5 y 0.1 y la correlación entre
estas medidas es 0.5. La obra a clasificar tiene medidas de estas variables (2.1 y 0.75).

Clasificar el retrato utilizando el criterio de la distancia de Mahalanobis (13) y el criterio de


las proyecciones sobre la variable indicadora discriminante (15). Además, calcular las
probabilidades a posteriori y las probabilidades del error de clasificación.

a) Suponga que c(A|B)πB = c(B|A)πA .


b) Suponga que πA = 0.3, c(A|B) = 3, c(B|A) = 1.

holger.benalcazar@epn.edu.ec análisis discriminante 7


3. Varias poblaciones normales

• 𝑃1 … 𝑃𝐺 poblaciones normales
• 𝐴1 … 𝐴𝐺 regiones de decisión

• Decisión di : si 𝐗 ∈ Ai , clasificar como Pi

Generalizando (10) a varias poblaciones, las observaciones que se clasifican en 𝑃𝑖 antes que
en 𝑃𝑗 son:
𝜋𝑖 𝑓𝑖 (𝑿) 𝜋𝑗 𝑓𝑗 (𝑿)
𝐴𝑖 = {𝑿: > , ∀ 𝑗 ≠ 𝑖}
𝑐 ( 𝑖 |𝑗 ) 𝑐 ( 𝑗 |𝑖 ) (31)

Como las poblaciones son normales, reemplazando las funciones de densidad (11), se
clasifica en 𝑃𝑖 antes que en 𝑃𝑗 , si:

D2j πj D2i πi
− ln > − ln ∀j≠i
2 c(j|i) 2 c(i|j)
(32)
𝐷𝑗2 𝐷𝑖2 𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
> − 𝑙𝑛 ∀𝑗 ≠𝑖
2 2 𝜋𝑗 𝑐(𝑖 |𝑗)
donde
𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′𝑽−1 (𝑿 − 𝑼𝑖 )
{ ′ (33)
𝐷𝑗2 = (𝑿 − 𝑼𝑗 ) 𝑽−1 (𝑿 − 𝑼𝑗 )

Reemplazando (33) en (32) y simplificando el término 𝑿′𝑽−1 𝑿, se clasifica en 𝑃𝑖 antes que


en Pj, si:

𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
−2𝑼𝑗′ 𝑽−1 𝑿 + 𝑼𝑗′ 𝑽−1 𝑼𝑗 > −2𝑼′𝑖 𝑽−1 𝑿 + 𝑼′𝑖 𝑽−1 𝑼𝑖 − 𝑙𝑛
𝜋𝑗 𝑐 (𝑖 |𝑗) (34)

Equivalentemente, se clasifica en 𝑃𝑖 antes que en Pj, si:


πi c(j|i)
Lj (𝐗) > Li (𝐗) −ln ∀𝑖 ≠𝑗 (35)
πj c(i|j)

donde la función Lg (𝐗), se denomina indicador lineal y es igual a:


Lg (𝐗) = −2𝐔g′ 𝐕 −1 𝐗 + 𝐔g′ 𝐕 −1 𝐔g (36)

holger.benalcazar@epn.edu.ec análisis discriminante 8


O también, se clasifica en 𝑃𝑖 antes que en Pj, si:

𝑼𝑖 + 𝑼𝑗 𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
𝑾′𝑖𝑗 𝑿 > 𝑾′𝑖𝑗 ( ) − 𝑙𝑛 ∀𝑗 ≠ 𝑖 (37)
2 𝜋𝑗 𝑐 (𝑖 |𝑗)
donde:

𝑾𝑖𝑗 = 𝑽−1 (𝑼𝑖 − 𝑼𝑗 ) = 𝑽−1 𝑼𝑖 − 𝑽−1 𝑼𝑗 = 𝑾𝑖 − 𝑾𝑗 (38)

𝐖ij determina la dirección de la variable indicadora discriminante entre las poblaciones


𝑃𝑖 y 𝑃𝑗 :
𝑍𝑖𝑗 = 𝑾′𝑖𝑗 𝑿 (39)

Nuevamente, para facilitar una representación gráfica, supongamos que en la ecuación (37)
se cumple el supuesto:

c(j|i)πi = c(i|j)πj (40)

entonces X se clasifica en 𝑃𝑖 , si:


𝑼𝑖 +𝑼𝑗
𝑾′𝑖𝑗 𝑿 > 𝑾′𝑖𝑗 ( ) (41)
2

Solo se necesitan 𝑟 = min(𝐺 − 1, 𝑝) direcciones de proyección para discriminar G grupos,


las cuales cumplen:
𝑾𝑖,𝑖+2 = 𝑾𝑖,𝑖+1 + 𝑾𝑖+1,𝑖+2
(42)

holger.benalcazar@epn.edu.ec análisis discriminante 9


En definitiva para clasificar 𝑿 se puede realizar cualquiera de los tres procedimientos.

a) Utilizando las distancias de Mahalanobis de 𝑿 a los promedios de las poblaciones. Se


asigna X a la población 𝑃𝑖 si la inecuación (32) se cumple para todo j distinto de i.

b) Utilizando los indicadores lineales. Se asigna X a la población 𝑃𝑖 si la inecuación (35) se


cumple para todo j distinto de i.

c) Utilizando las proyecciones sobre las variables indicadoras discriminantes. Se asigna X


a la población 𝑃𝑖 si la inecuación (37) se cumple para todo j distinto de i.

El valor esperado de 𝑍𝑖𝑗 sobre cada población es:

𝐸(𝑍𝑖𝑗 |𝑃𝑖 ) = 𝑾′𝑖𝑗 𝑼𝑖 = 𝑚𝑖


𝐸(𝑍𝑖𝑗 |𝑃𝑗 ) = 𝑾′𝑖𝑗 𝑼𝑗 = 𝑚𝑗 (43)

La varianza de 𝑍𝑖𝑗 :

𝑉(𝑍𝑖𝑗 ) = (𝑼𝑖 − 𝑼𝑗 ) 𝑽−1 (𝑼𝑖 − 𝑼𝑗 ) = 𝐷𝑖𝑗2 (44)

Además:
2
(𝑚𝑖 − 𝑚𝑗 ) = 𝐷𝑖𝑗4 (45)
(𝑚𝑖 − 𝑚𝑗 ) = 𝐷𝑖𝑗2

Entonces, la probabilidad del error de clasificar 𝑿 en 𝑃𝑖 cuando pertenece a 𝑃𝑗 , suponiendo


que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖), se encuentra así:

𝑚𝑖 + 𝑚𝑗
𝑃 (𝑖 |𝑗) = 𝑃 (𝑍𝑖𝑗 > |𝑍𝑖𝑗 ~𝑁(𝑚𝑗 , 𝐷𝑖𝑗2 ))
2
(46)
𝑍𝑖𝑗 − 𝑚𝑖 𝐷𝑖𝑗 𝐷𝑖𝑗
= 𝑃( > ) = 1−𝜙( )
2 2 2

𝐷𝑖𝑗 𝐷𝑗
𝑃 (𝑗|𝑖 ) = 𝜙 (− ) = 1−𝜙( ) (47)
2 2

Las probabilidades a posteriori se calculan por:

𝜋𝑘 𝑓𝑘 (𝑿)
𝑃(𝑘 |𝑿) = (48)
𝜋1 𝑓1 (𝑿) + ⋯ + 𝜋𝐺 𝑓𝐺 (𝑿)

𝐷2
𝜋𝑘 exp [− 2𝑘 ]
=
𝐷2 𝐷2
𝜋1 exp [− 1 ] + ⋯ + 𝜋𝐺 exp [− 𝐺 ]
2 2

holger.benalcazar@epn.edu.ec análisis discriminante 10


Ejemplo 06.02.xlsx

Una máquina que admite monedas realiza tres mediciones de cada moneda para determinar
su valor: peso (x1), espesor (x2) y la densidad de estrías en su canto (x3). Los instrumentos
de medición de estas variables no son muy precisos y se ha comprobado en una amplia
experimentación con tres tipos de monedas usadas M1,M2 y M3, que las medidas se
distribuyen normalmente con medias para cada tipo de moneda dadas por: µ1= (20, 8, 8)´,
µ2= (19.5, 7.8, 10)´, µ3= (20.5, 8.3, 5) y matriz de covarianzas V con términos V11=4,
V21=0.8, V22=0.25, V31=-5, V32=-0.9, V33=9.

Indicar cómo se clasificaría una moneda con medidas (22, 8.5 ,7)´ utilizando el criterio de la
distancia de Mahalanobis (32), el criterio de los indicadores lineales (35) y el criterio de las
proyecciones sobre las variables indicadoras discriminantes (37). Además, calcular las
probabilidades a posteriori y las probabilidades del error de clasificación.

a) Suponga que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖).


b) Suponga que π1 = 0.1, π2 = 0.2, c(1|2) = 1, c(1|3) = 1, c(2|1) = 4, c(2|3) =
1, c(3|1) = 10, c(3|2) = 5.

4. Varias poblaciones desconocidas

Descomposición de la varianza univariante

G grupos de tamaño 𝑛1 , … , 𝑛𝐺

𝐺 𝑛𝑔 𝐺 𝑛𝑔
2 2
∑ ∑[𝑋𝑖𝑔 − 𝑋̅] = ∑ ∑[(𝑋
̅̅̅ ̅ ̅̅̅
𝑔 − 𝑋 ) + (𝑋𝑖𝑔 − 𝑋𝑔 )]
𝑔=1 𝑖=1 𝑔=1 𝑖=1
𝐺 𝐺 𝑛𝑔
2 2
̅̅̅
= ∑ 𝑛𝑔 (𝑋 ̅ ̅̅̅
𝑔 − 𝑋) + ∑ ∑(𝑋𝑖𝑔 − 𝑋𝑔 )
𝑔=1 𝑔=1 𝑖=1
𝐺 𝐺 (49)
̅̅̅
= ∑ 𝑛𝑔 (𝑋 ̅ 2 2
𝑔 − 𝑋) + ∑(𝑛𝑔 − 1)𝑠𝑔
𝑔=1 𝑔=1

= 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜𝑠 + 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑑𝑒𝑛𝑡𝑟𝑜 𝑔𝑟𝑢𝑝𝑜𝑠


=𝐵+𝑊

Si la varianza es la misma para cada grupo, el mejor estimador de la varianza es:

̂2 = 1 𝑊 = ∑𝐺𝑔=1 𝑛𝑔−1 𝑠𝑔2 = 𝑆̂


𝜎 𝑤 (50)
𝑛−𝐺 𝑛−𝐺

holger.benalcazar@epn.edu.ec análisis discriminante 11


Descomposición de la varianza en el caso multivariante

𝑿𝑛𝑥𝑝 : Matriz de datos



𝑿𝑖𝑔 = (𝑋𝑖1 𝑔 𝑋𝑖2 𝑔 … 𝑋𝑖𝑝 𝑔 ) individuo i del grupo g

1 𝑛𝑔
̅̅̅̅
𝑿𝑔 = 𝑛 ∑𝑖=1 𝑿𝑖𝑔 promedio del grupo g
𝑔 (51)

̅ = 1 ∑𝐺𝑔=1 ∑𝑛𝑔 𝑿𝑖𝑔 promedio global


𝑿 𝑛−𝐺 𝑖=1
(52)

𝐺 𝑛𝑔 𝐺 𝐺 𝑛𝑔
′ ′
̅ )(𝑿𝑖𝑔 − 𝑿
∑ ∑(𝑿𝑖𝑔 − 𝑿 ̅ ) = ∑(𝑿
̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅ ′
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) + ∑ ∑(𝑿𝑖𝑔 − 𝑿𝑔 )(𝑿𝑖𝑔 − 𝑿𝑔 )
𝑔=1 𝑖=1 𝑔=1 𝑔=1 𝑖=1

(52)
̅̅̅̅
= ∑𝐺𝑔=1 𝑛𝑔 (𝑿 ̅ ̅̅̅̅ ̅ ′ 𝐺 ̂
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) + ∑𝑔=1(𝑛𝑔 − 1)𝑺𝑔

= 𝑩+𝑾

donde:
𝑛𝑔
1 ′
̂𝑔 =
𝑺 ∑(𝑿𝑖𝑔 − ̅̅̅̅
𝑿𝑔 )(𝑋𝑖𝑔 − ̅̅̅
𝑋𝑔 )
𝑛𝑔 − 1 (53)
𝑖=1

es la varianza dentro del grupo g.

Si la varianza es la misma en todos los grupos, la mejor estimación de la varianza es:

𝐺
𝑾 (𝑛𝑔 − 1)
𝑺̂
𝑤 = =∑ ̂
𝑺 (54)
𝑛−𝐺 (𝑛 − 𝐺) 𝑔
𝑔=1

La regla de clasificación (32) estimada con los datos muestrales es entonces: clasificar 𝑿 en
𝑃𝑖 antes que en Pj si:

𝐷̂𝑗2 𝐷̂𝑖2 𝜋 𝑐(𝑗 |𝑖 )


> − ln 𝜋𝑖 𝑐(𝑖 |𝑗) ∀𝑗 ≠ 𝑖 (55)
2 2 𝑗

donde:
−1
̂𝑖2 = (𝑿 − ̅̅̅
𝐷 𝑿𝑖 )′𝑺̂ ̅̅̅
𝑤 (𝑿 − 𝑿 𝑖 )
′ −1
̂
𝐷 2 ̅̅̅ ̂ ̅̅̅
𝑗 = (𝑿 − 𝑿𝑗 ) 𝑺𝑤 (𝑿 − 𝑿𝑗 )
(56)

Si ponemos:
−1
̂𝑖,𝑗 = 𝑺̂
𝑾 ̅̅̅ ̅̅̅̅
𝑤 (𝑿𝑖 − 𝑿𝑗 )
−1
= 𝑺̂ ̅̅̅ ̂ −1 ̅̅̅̅
𝑤 𝑿𝑖 − 𝑺𝑤 𝑿𝑗
(57)
= 𝑾̂𝑖 − 𝑾 ̂𝑗

holger.benalcazar@epn.edu.ec análisis discriminante 12


La variable indicadora discriminante entre 𝑃𝑖 y 𝑃𝑗 , es:

̂𝑖𝑗 𝑿
𝑍𝑖𝑗 = 𝑾 (58)

Entonces la regla de clasificación (37) estimada es: clasificar a 𝑿 en 𝑃𝑖 antes que en 𝑃𝑗 , si:
̅̅̅
𝑿 + ̅̅̅
𝑿𝑗 𝜋 𝑖 𝑐 (𝑗 |𝑖 )
𝑾̂𝑖𝑗 ′ 𝑿 > 𝑾̂𝑖𝑗′ ( 𝑖 ) − 𝑙𝑛 (59)
2 𝜋𝑗 𝑐 (𝑖 |𝑗)
𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
̂𝑖𝑗 ′𝑿 > 𝑚𝑖𝑗 − 𝑙𝑛
𝑾
𝜋𝑗 𝑐(𝑖 |𝑗)
con:

̂ij ′ 𝐗
mi= 𝐖 ̅i ̂ij′ 𝐗
mj = 𝐖 ̅j mij = (mi + mj) /2 (60)

También se puede estimar la regla de clasificación (35), se clasifica en 𝑃𝑖 antes que en Pj, si:
πi c(j|i)
L̂j (X) > L̂i (X) −ln ∀𝑖 ≠𝑗 (61)
πj c(i|j)

donde la estimación del indicador lineal (36) es:

-1
'
L̂g (X)=-2 X̅ g Ŝ ̅ ' ̂-1 ̅
w X+ Xg Sw Xg

(62)
̂ 'g X+ 𝐖
L̂g (X)=-2 𝐖 ̂ 'g X̅ g

De (55) también se obtiene que se clasifica en 𝑃𝑖 antes que en 𝑃𝑗 , si:

πi c(j|i)
L̃i (𝐗) > L̃j (𝐗) −ln (63)
πj c(i|j)

donde a los L̃g (𝐗), los denominaremos indicadores lineales transformados y son igual a:

L̃g (X)= 𝐖
̂ g' X - 0.5 𝐖 ̅g
̂ g' X (64)

Cálculo de probabilidades de error (Peña: 13.4.2, pág 414)

holger.benalcazar@epn.edu.ec análisis discriminante 13


Ejemplo 06.03: <ejemplo 03.Medifis.xlsx>

Se quiere clasificar personas por su género conocidas 7 medidas físicas (datos de Peña).
Como los datos para toda la población de hombres y mujeres son desconocidos, vamos a
trabajar con los datos muestrales. En la muestra hay 15 mujeres (variable sexo=1) y 12
hombres (sexo=2).

a) Suponga que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖). Clasificar a los individuos mediante las proyecciones
sobre la variable indicadora discriminante Z12.

b) Suponga que π1 = 0.7, π2 = 0.3, c(1|2) = 1, c(2|1) = 5. Clasificar a los individuos


utilizando las distancias de Mahalanobis (55).

c) Con los mismos supuestos de la parte b, clasificar a los individuos utilizando los
indicadores lineales transformados (63).

5. Variables canónicas discriminantes

• 𝐺 poblaciones
• 𝑟 = min(𝐺 − 1, 𝑝)

Se busca 𝑍1 , … , 𝑍𝑟 , variables canonicas, donde Zi = 𝐔𝐢′ 𝐗, tal que:



1. ̅̅
𝒁̅̅ ̅̅̅
𝑔 = ( 𝑍𝑔1 , 𝑍𝑔2 , … , 𝑍𝑔𝑟 ) es la proyección de 𝑋𝑔 sobre el espacio generado por 𝑍1 … 𝑍𝑟

2. 𝒁 es la proyección de 𝑿

3. Clasificar el punto 𝐗 en la población k si Z está más cerca a ̅̅̅̅


𝒁𝑘 .

En el espacio de las variables canónicas la distancia es la euclídea.

En el gráfico se clasifica X en P2.

holger.benalcazar@epn.edu.ec análisis discriminante 14


Para encontrar la primera variable canónica, tenemos:
𝑍 = 𝑼′ 𝑿 (65)
̅̅̅
𝑍𝑔 = 𝑼′̅̅̅̅
𝑿𝑔
(66)
𝑍̅ = 𝑼′ 𝑿
̅
(67)

La descomposición de la variabilidad de Z, es:

𝐺 𝑛𝑔 𝐺 𝐺 𝑛𝑔
2 2 2
∑ ∑(𝑍𝑗𝑔 − 𝑍̅) = ∑ 𝑛𝑔 (𝑍𝑗𝑔 − 𝑍̅) + ∑ ∑(𝑍𝑗𝑔 − 𝑍𝑔̅ )
𝑔=1 𝑗=1 𝑔=1 𝑔=1 𝑗=1
(68)
= 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜𝑠 + 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑔𝑟𝑢𝑝𝑜𝑠
= 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 (𝑉𝐸) + 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 (𝑉𝑁𝐸)

Se quiere que la variabilidad de 𝑍 sea máxima entre los grupos y la variabilidad dentro de
los grupos sea mínima. Esto es equivalente a:
𝑉𝐸
Maximizar 𝜙 = 𝑉𝑁𝐸 (69)
𝐺 𝑛𝑔
2
𝑉𝑁𝐸 = ∑ ∑(𝑍𝑗𝑔 − 𝑍̅)
𝑔=1 𝑗=1

𝐺 𝑛𝑔 (70)
2
= ∑ ∑ 𝑼′ (𝑿𝑗𝑔 − ̅̅̅̅
𝑿𝑔 )
𝑔=1 𝑗=1

holger.benalcazar@epn.edu.ec análisis discriminante 15


𝐺 𝑛𝑔

= ∑ ∑ 𝑼′ (𝑿𝑗𝑔 − ̅̅̅̅
𝑿𝑔 )(𝑿𝑗𝑔 − ̅̅̅̅
𝑿𝑔 ) 𝑼
𝑔=1 𝑗=1

= 𝐔′ 𝐖𝐔

𝑛𝑔

̅̅̅
𝑉𝐸 = ∑ 𝑛𝑔 (𝑍 ̅ 2
𝑔 − 𝑍)
𝑗=1 ( 71 )

= 𝐔′ 𝐁𝐔

donde:

̅̅̅̅
𝐁 = ∑𝐺𝑔=1 𝑛𝑔 (𝑿 ̅ ̅̅̅̅ ̅
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) (72)

Entonces la función a maximizar es:

𝐔′ 𝐁𝐔
ϕ(𝐔) = (73)
𝐔′ 𝐖𝐔

que por Lagrange resulta:


(𝐖−1 𝐁)𝐔 = ϕ𝐔 (74)

Entonces la primera variable canónica 𝑍1 esta relacionada con el valor propio mayor de
(𝐖−1 B) y definida por el respectivo vector propio.

En general, si 𝛼1 > 𝛼2 > ⋯ > 𝛼𝑟 > 0 son los valores propios de (𝐖 −1 𝐁), y 𝐔1 , … , 𝐔r
los respectivos vectores propios, las variables canonicas se obtienen por Zi = 𝐔i′ 𝐗

Ejemplo 06.04: <ejemplo 04.xlsx>

En este ejemplo suponga que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖).

1) S1, S2, S y su inversa


2) Clasificación utilizando la distancia de Mahalanobis a los promedios de grupo
3) W1, W2, W12, (m1, m2) para cada Wij
4) Clasificación de los individuos con distancias entre proyecciones de los individuos y
de los promedios
5) Cálculo de los indicadores lineales corregidos L1 , L2, L21 (f hb-s-1) y comparación
con los de SgPlus (salida: coeficientes de la función de clasificación). El corregido L21
coincide con L21* del Sgplus; Los Lk coinciden con Lk*, excepto por la constante
6) Clasificación utilizando (L1~, L2~) y también L21~. Proyección aproximada del
hiperplano L21~

holger.benalcazar@epn.edu.ec análisis discriminante 16


7) Clasificar los individuos según sgPlus
8) valores propios de W-1B (que coincide con SgPlus)
9) Variables canónicas discriminantes definidas por valores propios de W -1B y
clasificación con ellas

holger.benalcazar@epn.edu.ec análisis discriminante 17

S-ar putea să vă placă și