06 Análisis Discriminante

Análisis Discriminante
Guía de estudio
1. Repaso
2. Clasificación entre dos poblaciones

• Clasificación según el costo esperado
3. Poblaciones normales
• Probabilidades del error
• Probabilidad a posteriori
4. Varias poblaciones normales
5. Poblaciones desconocidas
• Descomposición de la varianza univariante
• Descomposición de la varianza en el caso multivariante
6. Variables canónicas discriminantes

• Descomposición de la varianza univariante
Holger Benalcázar Paladines

holger.benalcazar@ epn.edu.ec
holgerben@hotmail.com
Junio-2017
1. Repaso
• Sea 𝑃1 y 𝑃2 una partición

• Ω = 𝑃1 ⊎ 𝑃2
• 𝑋 = (𝑋 ∩ 𝑃1 ) ⊎ (𝑋 ∩ 𝑃2 )
• 𝑃(𝑋) = 𝑃(𝑋, 𝑃1 ) + 𝑃 (𝑋, 𝑃2 )

= 𝑃 (𝑋 |𝑃1 )𝑃(𝑃1 ) + 𝑃(𝑋|𝑃2 )𝑃(𝑃2 ) (a)
𝑃(𝑃1 ,𝑋) 𝑃(𝑋 |𝑃1 )𝑃(𝑃1 )
• 𝑃(𝑃1 |𝑋) = =
𝑃(𝑋) 𝑃(𝑋 |𝑃2 )𝑃(𝑃2 )+𝑃(𝑋 |𝑃1)𝑃(𝑃1 ) (b)
𝑃(𝑃2 ,𝑋) (𝑃(𝑋 |𝑃2 )𝑃(𝑃2 ))

• 𝑃(𝑃2 |𝑋) = = 𝑃(𝑋|𝑃
𝑃(𝑋) 2 )𝑃(𝑃2 )+𝑃(𝑋 |𝑃1)𝑃(𝑃1 ) (c)
2. Clasificación entre dos poblaciones
• Similar a (a):
𝑓(𝑿) = 𝜋1 𝑓1 (𝑿) + 𝜋2 𝑓2 (𝑿) (0)
• Similar a (b) y (c), respectivamente:

𝑓1 (𝑿)𝜋1
𝑃(1|𝑿) = (1)
𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2
𝑓2 (𝑿)𝜋2
𝑃(2|𝑿) = (2)
𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2
• REGLA: Clasificar en 𝑃2 , si:

𝜋2 𝑓2 (𝑿) > 𝜋1 𝑓1(𝑿) (3)
Clasificación según el costo esperado
𝑑 : 𝐶𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑟 𝑒𝑛 𝑃1
Decisiones { 1 (4)
𝑑2 : 𝐶𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑟 𝑒𝑛 𝑃2
holger.benalcazar@epn.edu.ec análisis discriminante 2

Si 𝑿 ∈ 𝐴1 , tomar 𝑑1
{
Si 𝑿 ∈ 𝐴2 , tomar 𝑑2 (5)
• 𝑐(𝑖 |𝑗) = Costo de clasificar en 𝑃𝑖 cuando pertenece a 𝑃𝑗 (6)
• 𝐸 (𝑑2 ) = 𝑐(2|1)𝑃 (1|𝑿) + 0𝑃 (2|𝑿) = 𝑐(2|1)𝑃(1|𝑿) (7)
• 𝐸 (𝑑1 ) = 0𝑃(1|𝑿) + 𝑐(1|2)𝑃(2|𝑿) = 𝑐(1|2)𝑃(2|𝑿) (8)
REGLA: Asignar a 𝑃2 , si:
𝐸 (𝑑2 ) < 𝐸(𝑑1 ) (9)
𝑐(2|1)𝑃(1|𝑿) < 𝑐(1|2)𝑃(2|𝑿)
𝑓1(𝑿)𝜋1 𝑓2 (𝑿)𝜋2
𝑐(2|1) < 𝑐(1|2)
𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2 𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2
𝑓2 (𝑿)𝜋2 𝑓1 (𝑿)𝜋1
> (10)
𝑐(2|1) 𝑐(1|2)

Clasificación de dos poblaciones normales
• Funciones de densidad
1 1
𝑓𝑖 (𝑿) = 𝑝 1 exp [− 2
(𝑿 − 𝑼𝑖 )′ 𝑽−1 (𝑿 − 𝑼𝑖 )]
(2𝜋)2 |𝑽|2 (11)
• Distancia de Mahalanobis de 𝑿 a 𝑼𝑖
𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′ 𝑽−1 (𝑿 − 𝑼𝑖 ) (12)

Reemplazando (11) en (10) se obtiene la REGLA de clasificar en 𝑃2 antes que en 𝑃1, si:
𝐷12 𝜋1 𝐷22 𝜋2
− ln > − ln
2 𝑐 (1|2) 2 𝑐 (2|1)
( 13 )
𝐷12 𝐷22 𝑐 (1|2)𝜋2
> − ln
2 2 𝑐 (2|1)𝜋1
Si se define el vector: 𝑾 = 𝑽−1 (𝑼2 − 𝑼1 ) = 𝑾21 (14)
desarrollando [13], la REGLA de clasificar en 𝑃2 antes que en 𝑃1, es:
𝑼2 + 𝑼1 𝑐 (1|2)𝜋2
𝑾′ 𝑿 > 𝑾′ − ln (15)
2 𝑐 (2|1)𝜋1
La variable:
′
𝑍 = 𝑊 ′ 𝑿 = 𝑤1 𝑋1 + ⋯ + 𝑤𝑝 𝑋𝑝 = 𝑊21 𝑿 (16)
se denomina variable indicadora discriminante y es una combinación lineal de las

variables 𝑋𝑗 . Luego:
E(Z) = 𝐖′ E(𝐗) = 𝐖′ 𝐔 (17)
Donde 𝐔 es la media total.
Cuando consideramos los 𝑿 de 𝑃𝑖 , se tiene:

𝐸 (𝑍|𝑿 ∈ 𝑃𝑖 ) = 𝑾′𝑼𝑖 = 𝑚𝑖 𝑖 = 1,2 (18)
Para facilitar una representación gráfica, supongamos que en la ecuación [15], se cumple el
supuesto:
c(1|2)π2 = c(2|1)π1 (19)

entonces X se clasifica en 𝑃2 , si:
𝐔2 +𝐔1
𝐖′ 𝐗 > 𝐖′ (20)
2
El individuo 𝐗 3 es clasificado en P1
El individuo 𝐗 8 es clasificado en P2
Entonces la regla de clasificación (20) cuando se cumple el supuesto (19) es equivalente a

clasificar en 𝑃2 , si: X3
|𝑧 − 𝑚1 | > |𝑧 − 𝑚2 | (21)
Es claro ahora que la representación gráfica de (15) será similar a la realizada, con la
diferencia de que el límite de clasificación estará trasladado.
La varianza de la variable indicadora discriminante es:
Var(Z) = Var(W′ 𝐗) = 𝐖′ Var(𝐗)𝐖 = 𝐖′ 𝐕𝐖

= [𝐕 −1 (𝐔2 − 𝐔1 )]′𝐕[𝐕 −1 (𝐔2 − 𝐔1 )] (22)
= (𝐔2 − 𝐔1 )′𝐕 −1 (𝐔2 − 𝐔1 ) = D2
También se tiene que:

(𝑚2 − 𝑚1 )2 = [𝑊 ′ (𝑈2 − 𝑈1 )]2 = [(𝑈2 − 𝑈1 )′ 𝑉 −1 (𝑈2 − 𝑈1 )]2 = 𝐷 4 (23)
𝑚2 − 𝑚1 = 𝐷 2 (24)

Probabilidades del error
La distribución de Z considerando (17), (18) y (22)
Para toda la población 𝑃 = 𝑃1 ∪ 𝑃2 Para la población 𝑃1
𝑍~𝑁(𝑊 ′ 𝑈, 𝐷 2 ) 𝑍~𝑁(𝑊 ′ 𝑈1 , 𝐷 2 )
𝑍~𝑁(𝑚1 , 𝐷 2 )
la probabilidad de clasificar en 𝑃2 cuando es de 𝑃1:
𝑚1 +𝑚2 𝑐(1|2)𝜋
𝑃 (2|1) = 𝑃 (𝑧 ≥ 2
− ln 𝑐(2|1)𝜋2 |𝑧~𝑁(𝑚1 , 𝐷 2 )) (25)
1
Suponiendo que se cumple el supuesto (19), 𝑐(1|2)𝜋2 = 𝑐 (2|1)𝜋1 , se tiene:
𝑚1 +𝑚2
𝑃(2|1) = 𝑃 (𝑧 ≥ |𝑧~𝑁(𝑚1 , 𝐷 2 ))
2
centrando y reduciendo Z y dado que 𝑚2 − 𝑚1 = 𝐷 2:
𝑚1 + 𝑚2
𝑍 − 𝑚1 − 𝑚1
𝑃 (2|1) = 𝑃 [ ≥ 2 ]
𝐷 𝐷
(26)
𝑍 − 𝑚1 𝐷 𝐷
= 𝑃( ≥ ) = 1−𝜙( )
𝐷 2 2
Análogamente:
𝐷 𝐷
𝑃(1|2) = 𝜙 (− ) = 1 − 𝜙 ( ) = 𝑃(2|1) (27)
2 2
Entonces, bajo el supuesto de que 𝑐 (1|2)𝜋2 = 𝑐(2|1)𝜋1 , los errores de mala clasificación
son iguales y solo dependen de la distancia de Mahalanobis entre las medias.

Probabilidad a posteriori
Reemplazando las funciones de densidad 𝑓𝑖 (𝑿) en (1):
𝜋1 𝑓1(𝑋)
𝑃 (1|𝑿) =
𝜋1 𝑓1(𝑿) + 𝜋2 𝑓2 (𝑿)
1 (28)
=
𝜋 1
1 + 𝜋2 exp [− 2 (𝐷22 − 𝐷12)]
1
donde:
𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′𝑽−1 (𝑿 − 𝑼𝒊 ) 𝑖 = 1,2 (29)
De manera similar:
1
𝑃(2|𝑿) =
𝜋 1
1 + 𝜋1 exp [− 2 (𝐷12 − 𝐷22 ] (30)
2
Notar que 𝑃 (1|𝑿) + 𝑃(2|𝑿) = 1
Ejemplo 06.01.xlsx
Se desea clasificar un retrato entre dos posibles pintores. Para ello se miden dos variables:
la profundidad del trazo y la proporción que ocupa el retrato sobre la superficie del lienzo.
Las medias de estas variables para el primer pintor, A, son (2 y 0.8) y para el segundo, B,
(2.3 y 0.7) y las desviaciones típicas de estas variables son 0.5 y 0.1 y la correlación entre
estas medidas es 0.5. La obra a clasificar tiene medidas de estas variables (2.1 y 0.75).
Clasificar el retrato utilizando el criterio de la distancia de Mahalanobis (13) y el criterio de

las proyecciones sobre la variable indicadora discriminante (15). Además, calcular las
probabilidades a posteriori y las probabilidades del error de clasificación.
a) Suponga que c(A|B)πB = c(B|A)πA .

b) Suponga que πA = 0.3, c(A|B) = 3, c(B|A) = 1.

3. Varias poblaciones normales
• 𝑃1 … 𝑃𝐺 poblaciones normales
• 𝐴1 … 𝐴𝐺 regiones de decisión
• Decisión di : si 𝐗 ∈ Ai , clasificar como Pi
Generalizando (10) a varias poblaciones, las observaciones que se clasifican en 𝑃𝑖 antes que
en 𝑃𝑗 son:
𝜋𝑖 𝑓𝑖 (𝑿) 𝜋𝑗 𝑓𝑗 (𝑿)
𝐴𝑖 = {𝑿: > , ∀ 𝑗 ≠ 𝑖}
𝑐 ( 𝑖 |𝑗 ) 𝑐 ( 𝑗 |𝑖 ) (31)
Como las poblaciones son normales, reemplazando las funciones de densidad (11), se
clasifica en 𝑃𝑖 antes que en 𝑃𝑗 , si:
D2j πj D2i πi
− ln > − ln ∀j≠i
2 c(j|i) 2 c(i|j)
(32)
𝐷𝑗2 𝐷𝑖2 𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
> − 𝑙𝑛 ∀𝑗 ≠𝑖
2 2 𝜋𝑗 𝑐(𝑖 |𝑗)
donde
𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′𝑽−1 (𝑿 − 𝑼𝑖 )
{ ′ (33)
𝐷𝑗2 = (𝑿 − 𝑼𝑗 ) 𝑽−1 (𝑿 − 𝑼𝑗 )
Reemplazando (33) en (32) y simplificando el término 𝑿′𝑽−1 𝑿, se clasifica en 𝑃𝑖 antes que

en Pj, si:
𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
−2𝑼𝑗′ 𝑽−1 𝑿 + 𝑼𝑗′ 𝑽−1 𝑼𝑗 > −2𝑼′𝑖 𝑽−1 𝑿 + 𝑼′𝑖 𝑽−1 𝑼𝑖 − 𝑙𝑛
𝜋𝑗 𝑐 (𝑖 |𝑗) (34)
Equivalentemente, se clasifica en 𝑃𝑖 antes que en Pj, si:

πi c(j|i)
Lj (𝐗) > Li (𝐗) −ln ∀𝑖 ≠𝑗 (35)
πj c(i|j)
donde la función Lg (𝐗), se denomina indicador lineal y es igual a:

Lg (𝐗) = −2𝐔g′ 𝐕 −1 𝐗 + 𝐔g′ 𝐕 −1 𝐔g (36)

O también, se clasifica en 𝑃𝑖 antes que en Pj, si:
𝑼𝑖 + 𝑼𝑗 𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
𝑾′𝑖𝑗 𝑿 > 𝑾′𝑖𝑗 ( ) − 𝑙𝑛 ∀𝑗 ≠ 𝑖 (37)
2 𝜋𝑗 𝑐 (𝑖 |𝑗)
donde:
𝑾𝑖𝑗 = 𝑽−1 (𝑼𝑖 − 𝑼𝑗 ) = 𝑽−1 𝑼𝑖 − 𝑽−1 𝑼𝑗 = 𝑾𝑖 − 𝑾𝑗 (38)
𝐖ij determina la dirección de la variable indicadora discriminante entre las poblaciones

𝑃𝑖 y 𝑃𝑗 :
𝑍𝑖𝑗 = 𝑾′𝑖𝑗 𝑿 (39)
Nuevamente, para facilitar una representación gráfica, supongamos que en la ecuación (37)
se cumple el supuesto:
c(j|i)πi = c(i|j)πj (40)
entonces X se clasifica en 𝑃𝑖 , si:

𝑼𝑖 +𝑼𝑗
𝑾′𝑖𝑗 𝑿 > 𝑾′𝑖𝑗 ( ) (41)
2
Solo se necesitan 𝑟 = min(𝐺 − 1, 𝑝) direcciones de proyección para discriminar G grupos,

las cuales cumplen:
𝑾𝑖,𝑖+2 = 𝑾𝑖,𝑖+1 + 𝑾𝑖+1,𝑖+2
(42)

En definitiva para clasificar 𝑿 se puede realizar cualquiera de los tres procedimientos.
a) Utilizando las distancias de Mahalanobis de 𝑿 a los promedios de las poblaciones. Se

asigna X a la población 𝑃𝑖 si la inecuación (32) se cumple para todo j distinto de i.
b) Utilizando los indicadores lineales. Se asigna X a la población 𝑃𝑖 si la inecuación (35) se

cumple para todo j distinto de i.
c) Utilizando las proyecciones sobre las variables indicadoras discriminantes. Se asigna X

a la población 𝑃𝑖 si la inecuación (37) se cumple para todo j distinto de i.
El valor esperado de 𝑍𝑖𝑗 sobre cada población es:
𝐸(𝑍𝑖𝑗 |𝑃𝑖 ) = 𝑾′𝑖𝑗 𝑼𝑖 = 𝑚𝑖

𝐸(𝑍𝑖𝑗 |𝑃𝑗 ) = 𝑾′𝑖𝑗 𝑼𝑗 = 𝑚𝑗 (43)
La varianza de 𝑍𝑖𝑗 :
′
𝑉(𝑍𝑖𝑗 ) = (𝑼𝑖 − 𝑼𝑗 ) 𝑽−1 (𝑼𝑖 − 𝑼𝑗 ) = 𝐷𝑖𝑗2 (44)
Además:
2
(𝑚𝑖 − 𝑚𝑗 ) = 𝐷𝑖𝑗4 (45)
(𝑚𝑖 − 𝑚𝑗 ) = 𝐷𝑖𝑗2
Entonces, la probabilidad del error de clasificar 𝑿 en 𝑃𝑖 cuando pertenece a 𝑃𝑗 , suponiendo

que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖), se encuentra así:
𝑚𝑖 + 𝑚𝑗
𝑃 (𝑖 |𝑗) = 𝑃 (𝑍𝑖𝑗 > |𝑍𝑖𝑗 ~𝑁(𝑚𝑗 , 𝐷𝑖𝑗2 ))
2
(46)
𝑍𝑖𝑗 − 𝑚𝑖 𝐷𝑖𝑗 𝐷𝑖𝑗
= 𝑃( > ) = 1−𝜙( )
2 2 2
𝐷𝑖𝑗 𝐷𝑗
𝑃 (𝑗|𝑖 ) = 𝜙 (− ) = 1−𝜙( ) (47)
2 2
Las probabilidades a posteriori se calculan por:
𝜋𝑘 𝑓𝑘 (𝑿)
𝑃(𝑘 |𝑿) = (48)
𝜋1 𝑓1 (𝑿) + ⋯ + 𝜋𝐺 𝑓𝐺 (𝑿)
𝐷2
𝜋𝑘 exp [− 2𝑘 ]
=
𝐷2 𝐷2
𝜋1 exp [− 1 ] + ⋯ + 𝜋𝐺 exp [− 𝐺 ]
2 2

Ejemplo 06.02.xlsx
Una máquina que admite monedas realiza tres mediciones de cada moneda para determinar
su valor: peso (x1), espesor (x2) y la densidad de estrías en su canto (x3). Los instrumentos
de medición de estas variables no son muy precisos y se ha comprobado en una amplia
experimentación con tres tipos de monedas usadas M1,M2 y M3, que las medidas se
distribuyen normalmente con medias para cada tipo de moneda dadas por: µ1= (20, 8, 8)´,
µ2= (19.5, 7.8, 10)´, µ3= (20.5, 8.3, 5) y matriz de covarianzas V con términos V11=4,
V21=0.8, V22=0.25, V31=-5, V32=-0.9, V33=9.
Indicar cómo se clasificaría una moneda con medidas (22, 8.5 ,7)´ utilizando el criterio de la
distancia de Mahalanobis (32), el criterio de los indicadores lineales (35) y el criterio de las
proyecciones sobre las variables indicadoras discriminantes (37). Además, calcular las
probabilidades a posteriori y las probabilidades del error de clasificación.
a) Suponga que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖).

b) Suponga que π1 = 0.1, π2 = 0.2, c(1|2) = 1, c(1|3) = 1, c(2|1) = 4, c(2|3) =
1, c(3|1) = 10, c(3|2) = 5.
4. Varias poblaciones desconocidas
Descomposición de la varianza univariante
G grupos de tamaño 𝑛1 , … , 𝑛𝐺
𝐺 𝑛𝑔 𝐺 𝑛𝑔
2 2
∑ ∑[𝑋𝑖𝑔 − 𝑋̅] = ∑ ∑[(𝑋
̅̅̅ ̅ ̅̅̅
𝑔 − 𝑋 ) + (𝑋𝑖𝑔 − 𝑋𝑔 )]
𝑔=1 𝑖=1 𝑔=1 𝑖=1
𝐺 𝐺 𝑛𝑔
2 2
̅̅̅
= ∑ 𝑛𝑔 (𝑋 ̅ ̅̅̅
𝑔 − 𝑋) + ∑ ∑(𝑋𝑖𝑔 − 𝑋𝑔 )
𝑔=1 𝑔=1 𝑖=1
𝐺 𝐺 (49)
̅̅̅
= ∑ 𝑛𝑔 (𝑋 ̅ 2 2
𝑔 − 𝑋) + ∑(𝑛𝑔 − 1)𝑠𝑔
𝑔=1 𝑔=1
= 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜𝑠 + 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑑𝑒𝑛𝑡𝑟𝑜 𝑔𝑟𝑢𝑝𝑜𝑠

=𝐵+𝑊
Si la varianza es la misma para cada grupo, el mejor estimador de la varianza es:
̂2 = 1 𝑊 = ∑𝐺𝑔=1 𝑛𝑔−1 𝑠𝑔2 = 𝑆̂

𝜎 𝑤 (50)
𝑛−𝐺 𝑛−𝐺

Descomposición de la varianza en el caso multivariante
𝑿𝑛𝑥𝑝 : Matriz de datos

′
𝑿𝑖𝑔 = (𝑋𝑖1 𝑔 𝑋𝑖2 𝑔 … 𝑋𝑖𝑝 𝑔 ) individuo i del grupo g
1 𝑛𝑔
̅̅̅̅
𝑿𝑔 = 𝑛 ∑𝑖=1 𝑿𝑖𝑔 promedio del grupo g
𝑔 (51)
̅ = 1 ∑𝐺𝑔=1 ∑𝑛𝑔 𝑿𝑖𝑔 promedio global

𝑿 𝑛−𝐺 𝑖=1
(52)
𝐺 𝑛𝑔 𝐺 𝐺 𝑛𝑔
′ ′
̅ )(𝑿𝑖𝑔 − 𝑿
∑ ∑(𝑿𝑖𝑔 − 𝑿 ̅ ) = ∑(𝑿
̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅ ′
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) + ∑ ∑(𝑿𝑖𝑔 − 𝑿𝑔 )(𝑿𝑖𝑔 − 𝑿𝑔 )
𝑔=1 𝑖=1 𝑔=1 𝑔=1 𝑖=1
(52)
̅̅̅̅
= ∑𝐺𝑔=1 𝑛𝑔 (𝑿 ̅ ̅̅̅̅ ̅ ′ 𝐺 ̂
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) + ∑𝑔=1(𝑛𝑔 − 1)𝑺𝑔
= 𝑩+𝑾
donde:
𝑛𝑔
1 ′
̂𝑔 =
𝑺 ∑(𝑿𝑖𝑔 − ̅̅̅̅
𝑿𝑔 )(𝑋𝑖𝑔 − ̅̅̅
𝑋𝑔 )
𝑛𝑔 − 1 (53)
𝑖=1
es la varianza dentro del grupo g.
Si la varianza es la misma en todos los grupos, la mejor estimación de la varianza es:
𝐺
𝑾 (𝑛𝑔 − 1)
𝑺̂
𝑤 = =∑ ̂
𝑺 (54)
𝑛−𝐺 (𝑛 − 𝐺) 𝑔
𝑔=1
La regla de clasificación (32) estimada con los datos muestrales es entonces: clasificar 𝑿 en
𝑃𝑖 antes que en Pj si:
𝐷̂𝑗2 𝐷̂𝑖2 𝜋 𝑐(𝑗 |𝑖 )

> − ln 𝜋𝑖 𝑐(𝑖 |𝑗) ∀𝑗 ≠ 𝑖 (55)
2 2 𝑗
donde:
−1
̂𝑖2 = (𝑿 − ̅̅̅
𝐷 𝑿𝑖 )′𝑺̂ ̅̅̅
𝑤 (𝑿 − 𝑿 𝑖 )
′ −1
̂
𝐷 2 ̅̅̅ ̂ ̅̅̅
𝑗 = (𝑿 − 𝑿𝑗 ) 𝑺𝑤 (𝑿 − 𝑿𝑗 )
(56)
Si ponemos:
−1
̂𝑖,𝑗 = 𝑺̂
𝑾 ̅̅̅ ̅̅̅̅
𝑤 (𝑿𝑖 − 𝑿𝑗 )
−1
= 𝑺̂ ̅̅̅ ̂ −1 ̅̅̅̅
𝑤 𝑿𝑖 − 𝑺𝑤 𝑿𝑗
(57)
= 𝑾̂𝑖 − 𝑾 ̂𝑗

La variable indicadora discriminante entre 𝑃𝑖 y 𝑃𝑗 , es:
̂𝑖𝑗 𝑿
𝑍𝑖𝑗 = 𝑾 (58)
Entonces la regla de clasificación (37) estimada es: clasificar a 𝑿 en 𝑃𝑖 antes que en 𝑃𝑗 , si:
̅̅̅
𝑿 + ̅̅̅
𝑿𝑗 𝜋 𝑖 𝑐 (𝑗 |𝑖 )
𝑾̂𝑖𝑗 ′ 𝑿 > 𝑾̂𝑖𝑗′ ( 𝑖 ) − 𝑙𝑛 (59)
2 𝜋𝑗 𝑐 (𝑖 |𝑗)
𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
̂𝑖𝑗 ′𝑿 > 𝑚𝑖𝑗 − 𝑙𝑛
𝑾
𝜋𝑗 𝑐(𝑖 |𝑗)
con:
̂ij ′ 𝐗
mi= 𝐖 ̅i ̂ij′ 𝐗
mj = 𝐖 ̅j mij = (mi + mj) /2 (60)
También se puede estimar la regla de clasificación (35), se clasifica en 𝑃𝑖 antes que en Pj, si:
πi c(j|i)
L̂j (X) > L̂i (X) −ln ∀𝑖 ≠𝑗 (61)
πj c(i|j)
donde la estimación del indicador lineal (36) es:
-1
'
L̂g (X)=-2 X̅ g Ŝ ̅ ' ̂-1 ̅
w X+ Xg Sw Xg
(62)
̂ 'g X+ 𝐖
L̂g (X)=-2 𝐖 ̂ 'g X̅ g
De (55) también se obtiene que se clasifica en 𝑃𝑖 antes que en 𝑃𝑗 , si:
πi c(j|i)
L̃i (𝐗) > L̃j (𝐗) −ln (63)
πj c(i|j)
donde a los L̃g (𝐗), los denominaremos indicadores lineales transformados y son igual a:
L̃g (X)= 𝐖
̂ g' X - 0.5 𝐖 ̅g
̂ g' X (64)
Cálculo de probabilidades de error (Peña: 13.4.2, pág 414)

Ejemplo 06.03: <ejemplo 03.Medifis.xlsx>
Se quiere clasificar personas por su género conocidas 7 medidas físicas (datos de Peña).
Como los datos para toda la población de hombres y mujeres son desconocidos, vamos a
trabajar con los datos muestrales. En la muestra hay 15 mujeres (variable sexo=1) y 12
hombres (sexo=2).
a) Suponga que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖). Clasificar a los individuos mediante las proyecciones
sobre la variable indicadora discriminante Z12.
b) Suponga que π1 = 0.7, π2 = 0.3, c(1|2) = 1, c(2|1) = 5. Clasificar a los individuos

utilizando las distancias de Mahalanobis (55).
c) Con los mismos supuestos de la parte b, clasificar a los individuos utilizando los
indicadores lineales transformados (63).
5. Variables canónicas discriminantes
• 𝐺 poblaciones
• 𝑟 = min(𝐺 − 1, 𝑝)
Se busca 𝑍1 , … , 𝑍𝑟 , variables canonicas, donde Zi = 𝐔𝐢′ 𝐗, tal que:

′
1. ̅̅
𝒁̅̅ ̅̅̅
𝑔 = ( 𝑍𝑔1 , 𝑍𝑔2 , … , 𝑍𝑔𝑟 ) es la proyección de 𝑋𝑔 sobre el espacio generado por 𝑍1 … 𝑍𝑟
2. 𝒁 es la proyección de 𝑿
3. Clasificar el punto 𝐗 en la población k si Z está más cerca a ̅̅̅̅

𝒁𝑘 .
En el espacio de las variables canónicas la distancia es la euclídea.
En el gráfico se clasifica X en P2.

Para encontrar la primera variable canónica, tenemos:
𝑍 = 𝑼′ 𝑿 (65)
̅̅̅
𝑍𝑔 = 𝑼′̅̅̅̅
𝑿𝑔
(66)
𝑍̅ = 𝑼′ 𝑿
̅
(67)
La descomposición de la variabilidad de Z, es:
𝐺 𝑛𝑔 𝐺 𝐺 𝑛𝑔
2 2 2
∑ ∑(𝑍𝑗𝑔 − 𝑍̅) = ∑ 𝑛𝑔 (𝑍𝑗𝑔 − 𝑍̅) + ∑ ∑(𝑍𝑗𝑔 − 𝑍𝑔̅ )
𝑔=1 𝑗=1 𝑔=1 𝑔=1 𝑗=1
(68)
= 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜𝑠 + 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑔𝑟𝑢𝑝𝑜𝑠
= 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 (𝑉𝐸) + 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 (𝑉𝑁𝐸)
Se quiere que la variabilidad de 𝑍 sea máxima entre los grupos y la variabilidad dentro de
los grupos sea mínima. Esto es equivalente a:
𝑉𝐸
Maximizar 𝜙 = 𝑉𝑁𝐸 (69)
𝐺 𝑛𝑔
2
𝑉𝑁𝐸 = ∑ ∑(𝑍𝑗𝑔 − 𝑍̅)
𝑔=1 𝑗=1
𝐺 𝑛𝑔 (70)
2
= ∑ ∑ 𝑼′ (𝑿𝑗𝑔 − ̅̅̅̅
𝑿𝑔 )
𝑔=1 𝑗=1

𝐺 𝑛𝑔
′
= ∑ ∑ 𝑼′ (𝑿𝑗𝑔 − ̅̅̅̅
𝑿𝑔 )(𝑿𝑗𝑔 − ̅̅̅̅
𝑿𝑔 ) 𝑼
𝑔=1 𝑗=1
= 𝐔′ 𝐖𝐔
𝑛𝑔
̅̅̅
𝑉𝐸 = ∑ 𝑛𝑔 (𝑍 ̅ 2
𝑔 − 𝑍)
𝑗=1 ( 71 )
= 𝐔′ 𝐁𝐔
donde:
′
̅̅̅̅
𝐁 = ∑𝐺𝑔=1 𝑛𝑔 (𝑿 ̅ ̅̅̅̅ ̅
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) (72)
Entonces la función a maximizar es:
𝐔′ 𝐁𝐔
ϕ(𝐔) = (73)
𝐔′ 𝐖𝐔
que por Lagrange resulta:

(𝐖−1 𝐁)𝐔 = ϕ𝐔 (74)
Entonces la primera variable canónica 𝑍1 esta relacionada con el valor propio mayor de
(𝐖−1 B) y definida por el respectivo vector propio.
En general, si 𝛼1 > 𝛼2 > ⋯ > 𝛼𝑟 > 0 son los valores propios de (𝐖 −1 𝐁), y 𝐔1 , … , 𝐔r
los respectivos vectores propios, las variables canonicas se obtienen por Zi = 𝐔i′ 𝐗
Ejemplo 06.04: <ejemplo 04.xlsx>
En este ejemplo suponga que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖).
1) S1, S2, S y su inversa

2) Clasificación utilizando la distancia de Mahalanobis a los promedios de grupo
3) W1, W2, W12, (m1, m2) para cada Wij
4) Clasificación de los individuos con distancias entre proyecciones de los individuos y
de los promedios
5) Cálculo de los indicadores lineales corregidos L1 , L2, L21 (f hb-s-1) y comparación
con los de SgPlus (salida: coeficientes de la función de clasificación). El corregido L21
coincide con L21* del Sgplus; Los Lk coinciden con Lk*, excepto por la constante
6) Clasificación utilizando (L1~, L2~) y también L21~. Proyección aproximada del
hiperplano L21~

7) Clasificar los individuos según sgPlus
8) valores propios de W-1B (que coincide con SgPlus)
9) Variables canónicas discriminantes definidas por valores propios de W -1B y
clasificación con ellas

06 Análisis Discriminante

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

06 Análisis Discriminante

Încărcat de

Drepturi de autor:

Formate disponibile

Análisis Discriminante

2. Clasificación entre dos poblaciones

4. Varias poblaciones normales

6. Variables canónicas discriminantes

Holger Benalcázar Paladines

• Sea 𝑃1 y 𝑃2 una partición

• 𝑃(𝑋) = 𝑃(𝑋, 𝑃1 ) + 𝑃 (𝑋, 𝑃2 )

𝑃(𝑃2 ,𝑋) (𝑃(𝑋 |𝑃2 )𝑃(𝑃2 ))

2. Clasificación entre dos poblaciones

• Similar a (b) y (c), respectivamente:

• REGLA: Clasificar en 𝑃2 , si:

Clasificación según el costo esperado

holger.benalcazar@epn.edu.ec análisis discriminante 2

• 𝑐(𝑖 |𝑗) = Costo de clasificar en 𝑃𝑖 cuando pertenece a 𝑃𝑗 (6)

• 𝐸 (𝑑2 ) = 𝑐(2|1)𝑃 (1|𝑿) + 0𝑃 (2|𝑿) = 𝑐(2|1)𝑃(1|𝑿) (7)

• 𝐸 (𝑑1 ) = 0𝑃(1|𝑿) + 𝑐(1|2)𝑃(2|𝑿) = 𝑐(1|2)𝑃(2|𝑿) (8)

REGLA: Asignar a 𝑃2 , si:

𝐸 (𝑑2 ) < 𝐸(𝑑1 ) (9)

𝑐(2|1)𝑃(1|𝑿) < 𝑐(1|2)𝑃(2|𝑿)

holger.benalcazar@epn.edu.ec análisis discriminante 3

𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′ 𝑽−1 (𝑿 − 𝑼𝑖 ) (12)

Si se define el vector: 𝑾 = 𝑽−1 (𝑼2 − 𝑼1 ) = 𝑾21 (14)

desarrollando [13], la REGLA de clasificar en 𝑃2 antes que en 𝑃1, es:

se denomina variable indicadora discriminante y es una combinación lineal de las

Donde 𝐔 es la media total.

Cuando consideramos los 𝑿 de 𝑃𝑖 , se tiene:

holger.benalcazar@epn.edu.ec análisis discriminante 4

Entonces la regla de clasificación (20) cuando se cumple el supuesto (19) es equivalente a

La varianza de la variable indicadora discriminante es:

Var(Z) = Var(W′ 𝐗) = 𝐖′ Var(𝐗)𝐖 = 𝐖′ 𝐕𝐖

También se tiene que:

holger.benalcazar@epn.edu.ec análisis discriminante 5

La distribución de Z considerando (17), (18) y (22)

Para toda la población 𝑃 = 𝑃1 ∪ 𝑃2 Para la población 𝑃1

la probabilidad de clasificar en 𝑃2 cuando es de 𝑃1:

Suponiendo que se cumple el supuesto (19), 𝑐(1|2)𝜋2 = 𝑐 (2|1)𝜋1 , se tiene:

centrando y reduciendo Z y dado que 𝑚2 − 𝑚1 = 𝐷 2:

holger.benalcazar@epn.edu.ec análisis discriminante 6

Reemplazando las funciones de densidad 𝑓𝑖 (𝑿) en (1):

Notar que 𝑃 (1|𝑿) + 𝑃(2|𝑿) = 1

Clasificar el retrato utilizando el criterio de la distancia de Mahalanobis (13) y el criterio de

a) Suponga que c(A|B)πB = c(B|A)πA .

holger.benalcazar@epn.edu.ec análisis discriminante 7

• Decisión di : si 𝐗 ∈ Ai , clasificar como Pi

Reemplazando (33) en (32) y simplificando el término 𝑿′𝑽−1 𝑿, se clasifica en 𝑃𝑖 antes que

Equivalentemente, se clasifica en 𝑃𝑖 antes que en Pj, si:

donde la función Lg (𝐗), se denomina indicador lineal y es igual a:

holger.benalcazar@epn.edu.ec análisis discriminante 8

𝑾𝑖𝑗 = 𝑽−1 (𝑼𝑖 − 𝑼𝑗 ) = 𝑽−1 𝑼𝑖 − 𝑽−1 𝑼𝑗 = 𝑾𝑖 − 𝑾𝑗 (38)

𝐖ij determina la dirección de la variable indicadora discriminante entre las poblaciones

c(j|i)πi = c(i|j)πj (40)

entonces X se clasifica en 𝑃𝑖 , si:

Solo se necesitan 𝑟 = min(𝐺 − 1, 𝑝) direcciones de proyección para discriminar G grupos,

holger.benalcazar@epn.edu.ec análisis discriminante 9

a) Utilizando las distancias de Mahalanobis de 𝑿 a los promedios de las poblaciones. Se

b) Utilizando los indicadores lineales. Se asigna X a la población 𝑃𝑖 si la inecuación (35) se

c) Utilizando las proyecciones sobre las variables indicadoras discriminantes. Se asigna X

El valor esperado de 𝑍𝑖𝑗 sobre cada población es:

𝐸(𝑍𝑖𝑗 |𝑃𝑖 ) = 𝑾′𝑖𝑗 𝑼𝑖 = 𝑚𝑖

Entonces, la probabilidad del error de clasificar 𝑿 en 𝑃𝑖 cuando pertenece a 𝑃𝑗 , suponiendo

Las probabilidades a posteriori se calculan por:

holger.benalcazar@epn.edu.ec análisis discriminante 10

a) Suponga que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖).