Documente Academic
Documente Profesional
Documente Cultură
Guía de estudio
1. Repaso
3. Poblaciones normales
• Probabilidades del error
• Probabilidad a posteriori
5. Poblaciones desconocidas
• Descomposición de la varianza univariante
• Descomposición de la varianza en el caso multivariante
• Similar a (a):
𝑓(𝑿) = 𝜋1 𝑓1 (𝑿) + 𝜋2 𝑓2 (𝑿) (0)
𝑓2 (𝑿)𝜋2
𝑃(2|𝑿) = (2)
𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2
𝑑 : 𝐶𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑟 𝑒𝑛 𝑃1
Decisiones { 1 (4)
𝑑2 : 𝐶𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑟 𝑒𝑛 𝑃2
𝑓1(𝑿)𝜋1 𝑓2 (𝑿)𝜋2
𝑐(2|1) < 𝑐(1|2)
𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2 𝑓1 (𝑿)𝜋1 + 𝑓2 (𝑿)𝜋2
𝑓2 (𝑿)𝜋2 𝑓1 (𝑿)𝜋1
> (10)
𝑐(2|1) 𝑐(1|2)
• Funciones de densidad
1 1
𝑓𝑖 (𝑿) = 𝑝 1 exp [− 2
(𝑿 − 𝑼𝑖 )′ 𝑽−1 (𝑿 − 𝑼𝑖 )]
(2𝜋)2 |𝑽|2 (11)
• Distancia de Mahalanobis de 𝑿 a 𝑼𝑖
𝐷12 𝜋1 𝐷22 𝜋2
− ln > − ln
2 𝑐 (1|2) 2 𝑐 (2|1)
( 13 )
𝐷12 𝐷22 𝑐 (1|2)𝜋2
> − ln
2 2 𝑐 (2|1)𝜋1
𝑼2 + 𝑼1 𝑐 (1|2)𝜋2
𝑾′ 𝑿 > 𝑾′ − ln (15)
2 𝑐 (2|1)𝜋1
La variable:
′
𝑍 = 𝑊 ′ 𝑿 = 𝑤1 𝑋1 + ⋯ + 𝑤𝑝 𝑋𝑝 = 𝑊21 𝑿 (16)
Para facilitar una representación gráfica, supongamos que en la ecuación [15], se cumple el
supuesto:
c(1|2)π2 = c(2|1)π1 (19)
𝐔2 +𝐔1
𝐖′ 𝐗 > 𝐖′ (20)
2
El individuo 𝐗 3 es clasificado en P1
El individuo 𝐗 8 es clasificado en P2
|𝑧 − 𝑚1 | > |𝑧 − 𝑚2 | (21)
Es claro ahora que la representación gráfica de (15) será similar a la realizada, con la
diferencia de que el límite de clasificación estará trasladado.
𝑍~𝑁(𝑊 ′ 𝑈, 𝐷 2 ) 𝑍~𝑁(𝑊 ′ 𝑈1 , 𝐷 2 )
𝑍~𝑁(𝑚1 , 𝐷 2 )
𝑚1 +𝑚2 𝑐(1|2)𝜋
𝑃 (2|1) = 𝑃 (𝑧 ≥ 2
− ln 𝑐(2|1)𝜋2 |𝑧~𝑁(𝑚1 , 𝐷 2 )) (25)
1
𝑚1 +𝑚2
𝑃(2|1) = 𝑃 (𝑧 ≥ |𝑧~𝑁(𝑚1 , 𝐷 2 ))
2
𝑚1 + 𝑚2
𝑍 − 𝑚1 − 𝑚1
𝑃 (2|1) = 𝑃 [ ≥ 2 ]
𝐷 𝐷
(26)
𝑍 − 𝑚1 𝐷 𝐷
= 𝑃( ≥ ) = 1−𝜙( )
𝐷 2 2
Análogamente:
𝐷 𝐷
𝑃(1|2) = 𝜙 (− ) = 1 − 𝜙 ( ) = 𝑃(2|1) (27)
2 2
Entonces, bajo el supuesto de que 𝑐 (1|2)𝜋2 = 𝑐(2|1)𝜋1 , los errores de mala clasificación
son iguales y solo dependen de la distancia de Mahalanobis entre las medias.
𝜋1 𝑓1(𝑋)
𝑃 (1|𝑿) =
𝜋1 𝑓1(𝑿) + 𝜋2 𝑓2 (𝑿)
1 (28)
=
𝜋 1
1 + 𝜋2 exp [− 2 (𝐷22 − 𝐷12)]
1
donde:
𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′𝑽−1 (𝑿 − 𝑼𝒊 ) 𝑖 = 1,2 (29)
De manera similar:
1
𝑃(2|𝑿) =
𝜋 1
1 + 𝜋1 exp [− 2 (𝐷12 − 𝐷22 ] (30)
2
Ejemplo 06.01.xlsx
Se desea clasificar un retrato entre dos posibles pintores. Para ello se miden dos variables:
la profundidad del trazo y la proporción que ocupa el retrato sobre la superficie del lienzo.
Las medias de estas variables para el primer pintor, A, son (2 y 0.8) y para el segundo, B,
(2.3 y 0.7) y las desviaciones típicas de estas variables son 0.5 y 0.1 y la correlación entre
estas medidas es 0.5. La obra a clasificar tiene medidas de estas variables (2.1 y 0.75).
• 𝑃1 … 𝑃𝐺 poblaciones normales
• 𝐴1 … 𝐴𝐺 regiones de decisión
Generalizando (10) a varias poblaciones, las observaciones que se clasifican en 𝑃𝑖 antes que
en 𝑃𝑗 son:
𝜋𝑖 𝑓𝑖 (𝑿) 𝜋𝑗 𝑓𝑗 (𝑿)
𝐴𝑖 = {𝑿: > , ∀ 𝑗 ≠ 𝑖}
𝑐 ( 𝑖 |𝑗 ) 𝑐 ( 𝑗 |𝑖 ) (31)
Como las poblaciones son normales, reemplazando las funciones de densidad (11), se
clasifica en 𝑃𝑖 antes que en 𝑃𝑗 , si:
D2j πj D2i πi
− ln > − ln ∀j≠i
2 c(j|i) 2 c(i|j)
(32)
𝐷𝑗2 𝐷𝑖2 𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
> − 𝑙𝑛 ∀𝑗 ≠𝑖
2 2 𝜋𝑗 𝑐(𝑖 |𝑗)
donde
𝐷𝑖2 = (𝑿 − 𝑼𝑖 )′𝑽−1 (𝑿 − 𝑼𝑖 )
{ ′ (33)
𝐷𝑗2 = (𝑿 − 𝑼𝑗 ) 𝑽−1 (𝑿 − 𝑼𝑗 )
𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
−2𝑼𝑗′ 𝑽−1 𝑿 + 𝑼𝑗′ 𝑽−1 𝑼𝑗 > −2𝑼′𝑖 𝑽−1 𝑿 + 𝑼′𝑖 𝑽−1 𝑼𝑖 − 𝑙𝑛
𝜋𝑗 𝑐 (𝑖 |𝑗) (34)
𝑼𝑖 + 𝑼𝑗 𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
𝑾′𝑖𝑗 𝑿 > 𝑾′𝑖𝑗 ( ) − 𝑙𝑛 ∀𝑗 ≠ 𝑖 (37)
2 𝜋𝑗 𝑐 (𝑖 |𝑗)
donde:
Nuevamente, para facilitar una representación gráfica, supongamos que en la ecuación (37)
se cumple el supuesto:
La varianza de 𝑍𝑖𝑗 :
′
𝑉(𝑍𝑖𝑗 ) = (𝑼𝑖 − 𝑼𝑗 ) 𝑽−1 (𝑼𝑖 − 𝑼𝑗 ) = 𝐷𝑖𝑗2 (44)
Además:
2
(𝑚𝑖 − 𝑚𝑗 ) = 𝐷𝑖𝑗4 (45)
(𝑚𝑖 − 𝑚𝑗 ) = 𝐷𝑖𝑗2
𝑚𝑖 + 𝑚𝑗
𝑃 (𝑖 |𝑗) = 𝑃 (𝑍𝑖𝑗 > |𝑍𝑖𝑗 ~𝑁(𝑚𝑗 , 𝐷𝑖𝑗2 ))
2
(46)
𝑍𝑖𝑗 − 𝑚𝑖 𝐷𝑖𝑗 𝐷𝑖𝑗
= 𝑃( > ) = 1−𝜙( )
2 2 2
𝐷𝑖𝑗 𝐷𝑗
𝑃 (𝑗|𝑖 ) = 𝜙 (− ) = 1−𝜙( ) (47)
2 2
𝜋𝑘 𝑓𝑘 (𝑿)
𝑃(𝑘 |𝑿) = (48)
𝜋1 𝑓1 (𝑿) + ⋯ + 𝜋𝐺 𝑓𝐺 (𝑿)
𝐷2
𝜋𝑘 exp [− 2𝑘 ]
=
𝐷2 𝐷2
𝜋1 exp [− 1 ] + ⋯ + 𝜋𝐺 exp [− 𝐺 ]
2 2
Una máquina que admite monedas realiza tres mediciones de cada moneda para determinar
su valor: peso (x1), espesor (x2) y la densidad de estrías en su canto (x3). Los instrumentos
de medición de estas variables no son muy precisos y se ha comprobado en una amplia
experimentación con tres tipos de monedas usadas M1,M2 y M3, que las medidas se
distribuyen normalmente con medias para cada tipo de moneda dadas por: µ1= (20, 8, 8)´,
µ2= (19.5, 7.8, 10)´, µ3= (20.5, 8.3, 5) y matriz de covarianzas V con términos V11=4,
V21=0.8, V22=0.25, V31=-5, V32=-0.9, V33=9.
Indicar cómo se clasificaría una moneda con medidas (22, 8.5 ,7)´ utilizando el criterio de la
distancia de Mahalanobis (32), el criterio de los indicadores lineales (35) y el criterio de las
proyecciones sobre las variables indicadoras discriminantes (37). Además, calcular las
probabilidades a posteriori y las probabilidades del error de clasificación.
G grupos de tamaño 𝑛1 , … , 𝑛𝐺
𝐺 𝑛𝑔 𝐺 𝑛𝑔
2 2
∑ ∑[𝑋𝑖𝑔 − 𝑋̅] = ∑ ∑[(𝑋
̅̅̅ ̅ ̅̅̅
𝑔 − 𝑋 ) + (𝑋𝑖𝑔 − 𝑋𝑔 )]
𝑔=1 𝑖=1 𝑔=1 𝑖=1
𝐺 𝐺 𝑛𝑔
2 2
̅̅̅
= ∑ 𝑛𝑔 (𝑋 ̅ ̅̅̅
𝑔 − 𝑋) + ∑ ∑(𝑋𝑖𝑔 − 𝑋𝑔 )
𝑔=1 𝑔=1 𝑖=1
𝐺 𝐺 (49)
̅̅̅
= ∑ 𝑛𝑔 (𝑋 ̅ 2 2
𝑔 − 𝑋) + ∑(𝑛𝑔 − 1)𝑠𝑔
𝑔=1 𝑔=1
1 𝑛𝑔
̅̅̅̅
𝑿𝑔 = 𝑛 ∑𝑖=1 𝑿𝑖𝑔 promedio del grupo g
𝑔 (51)
𝐺 𝑛𝑔 𝐺 𝐺 𝑛𝑔
′ ′
̅ )(𝑿𝑖𝑔 − 𝑿
∑ ∑(𝑿𝑖𝑔 − 𝑿 ̅ ) = ∑(𝑿
̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅ ′
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) + ∑ ∑(𝑿𝑖𝑔 − 𝑿𝑔 )(𝑿𝑖𝑔 − 𝑿𝑔 )
𝑔=1 𝑖=1 𝑔=1 𝑔=1 𝑖=1
(52)
̅̅̅̅
= ∑𝐺𝑔=1 𝑛𝑔 (𝑿 ̅ ̅̅̅̅ ̅ ′ 𝐺 ̂
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) + ∑𝑔=1(𝑛𝑔 − 1)𝑺𝑔
= 𝑩+𝑾
donde:
𝑛𝑔
1 ′
̂𝑔 =
𝑺 ∑(𝑿𝑖𝑔 − ̅̅̅̅
𝑿𝑔 )(𝑋𝑖𝑔 − ̅̅̅
𝑋𝑔 )
𝑛𝑔 − 1 (53)
𝑖=1
𝐺
𝑾 (𝑛𝑔 − 1)
𝑺̂
𝑤 = =∑ ̂
𝑺 (54)
𝑛−𝐺 (𝑛 − 𝐺) 𝑔
𝑔=1
La regla de clasificación (32) estimada con los datos muestrales es entonces: clasificar 𝑿 en
𝑃𝑖 antes que en Pj si:
donde:
−1
̂𝑖2 = (𝑿 − ̅̅̅
𝐷 𝑿𝑖 )′𝑺̂ ̅̅̅
𝑤 (𝑿 − 𝑿 𝑖 )
′ −1
̂
𝐷 2 ̅̅̅ ̂ ̅̅̅
𝑗 = (𝑿 − 𝑿𝑗 ) 𝑺𝑤 (𝑿 − 𝑿𝑗 )
(56)
Si ponemos:
−1
̂𝑖,𝑗 = 𝑺̂
𝑾 ̅̅̅ ̅̅̅̅
𝑤 (𝑿𝑖 − 𝑿𝑗 )
−1
= 𝑺̂ ̅̅̅ ̂ −1 ̅̅̅̅
𝑤 𝑿𝑖 − 𝑺𝑤 𝑿𝑗
(57)
= 𝑾̂𝑖 − 𝑾 ̂𝑗
̂𝑖𝑗 𝑿
𝑍𝑖𝑗 = 𝑾 (58)
Entonces la regla de clasificación (37) estimada es: clasificar a 𝑿 en 𝑃𝑖 antes que en 𝑃𝑗 , si:
̅̅̅
𝑿 + ̅̅̅
𝑿𝑗 𝜋 𝑖 𝑐 (𝑗 |𝑖 )
𝑾̂𝑖𝑗 ′ 𝑿 > 𝑾̂𝑖𝑗′ ( 𝑖 ) − 𝑙𝑛 (59)
2 𝜋𝑗 𝑐 (𝑖 |𝑗)
𝜋 𝑖 𝑐 ( 𝑗 |𝑖 )
̂𝑖𝑗 ′𝑿 > 𝑚𝑖𝑗 − 𝑙𝑛
𝑾
𝜋𝑗 𝑐(𝑖 |𝑗)
con:
̂ij ′ 𝐗
mi= 𝐖 ̅i ̂ij′ 𝐗
mj = 𝐖 ̅j mij = (mi + mj) /2 (60)
También se puede estimar la regla de clasificación (35), se clasifica en 𝑃𝑖 antes que en Pj, si:
πi c(j|i)
L̂j (X) > L̂i (X) −ln ∀𝑖 ≠𝑗 (61)
πj c(i|j)
-1
'
L̂g (X)=-2 X̅ g Ŝ ̅ ' ̂-1 ̅
w X+ Xg Sw Xg
(62)
̂ 'g X+ 𝐖
L̂g (X)=-2 𝐖 ̂ 'g X̅ g
πi c(j|i)
L̃i (𝐗) > L̃j (𝐗) −ln (63)
πj c(i|j)
donde a los L̃g (𝐗), los denominaremos indicadores lineales transformados y son igual a:
L̃g (X)= 𝐖
̂ g' X - 0.5 𝐖 ̅g
̂ g' X (64)
Se quiere clasificar personas por su género conocidas 7 medidas físicas (datos de Peña).
Como los datos para toda la población de hombres y mujeres son desconocidos, vamos a
trabajar con los datos muestrales. En la muestra hay 15 mujeres (variable sexo=1) y 12
hombres (sexo=2).
a) Suponga que 𝜋𝑗 𝑐(𝑖 |𝑗) = 𝜋𝑖 𝑐(𝑗|𝑖). Clasificar a los individuos mediante las proyecciones
sobre la variable indicadora discriminante Z12.
c) Con los mismos supuestos de la parte b, clasificar a los individuos utilizando los
indicadores lineales transformados (63).
• 𝐺 poblaciones
• 𝑟 = min(𝐺 − 1, 𝑝)
2. 𝒁 es la proyección de 𝑿
𝐺 𝑛𝑔 𝐺 𝐺 𝑛𝑔
2 2 2
∑ ∑(𝑍𝑗𝑔 − 𝑍̅) = ∑ 𝑛𝑔 (𝑍𝑗𝑔 − 𝑍̅) + ∑ ∑(𝑍𝑗𝑔 − 𝑍𝑔̅ )
𝑔=1 𝑗=1 𝑔=1 𝑔=1 𝑗=1
(68)
= 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜𝑠 + 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑔𝑟𝑢𝑝𝑜𝑠
= 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 (𝑉𝐸) + 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 (𝑉𝑁𝐸)
Se quiere que la variabilidad de 𝑍 sea máxima entre los grupos y la variabilidad dentro de
los grupos sea mínima. Esto es equivalente a:
𝑉𝐸
Maximizar 𝜙 = 𝑉𝑁𝐸 (69)
𝐺 𝑛𝑔
2
𝑉𝑁𝐸 = ∑ ∑(𝑍𝑗𝑔 − 𝑍̅)
𝑔=1 𝑗=1
𝐺 𝑛𝑔 (70)
2
= ∑ ∑ 𝑼′ (𝑿𝑗𝑔 − ̅̅̅̅
𝑿𝑔 )
𝑔=1 𝑗=1
= 𝐔′ 𝐖𝐔
𝑛𝑔
̅̅̅
𝑉𝐸 = ∑ 𝑛𝑔 (𝑍 ̅ 2
𝑔 − 𝑍)
𝑗=1 ( 71 )
= 𝐔′ 𝐁𝐔
donde:
′
̅̅̅̅
𝐁 = ∑𝐺𝑔=1 𝑛𝑔 (𝑿 ̅ ̅̅̅̅ ̅
𝑔 − 𝑿)(𝑿𝑔 − 𝑿) (72)
𝐔′ 𝐁𝐔
ϕ(𝐔) = (73)
𝐔′ 𝐖𝐔
Entonces la primera variable canónica 𝑍1 esta relacionada con el valor propio mayor de
(𝐖−1 B) y definida por el respectivo vector propio.
En general, si 𝛼1 > 𝛼2 > ⋯ > 𝛼𝑟 > 0 son los valores propios de (𝐖 −1 𝐁), y 𝐔1 , … , 𝐔r
los respectivos vectores propios, las variables canonicas se obtienen por Zi = 𝐔i′ 𝐗