Documente Academic
Documente Profesional
Documente Cultură
NIETO BARAJAS
5. Análisis de cúmulos
{
d ij = (x i − x j ) (x i − x j )
'
} 1/ 2
= (x i1 − x j1 )2 + L + (x ip − x jp )2 .
2) Distancia métrica o euclidiana estandarizada. Es la norma del vector de
diferencias de las dos observaciones estandarizadas,
{
d ij = (z i − z j ) (z i − z j )
'
}1/ 2
,
32
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
{ '
}
d ij = (x i − x j ) Σ −1 (x i − x j )
1/ 2
.
33
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
34
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
35
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
una selección inicial de puntos semilla que van a formar el centroide de los
cúmulos. El método más común es:
a. Método de K-medias.
en la Sección 5.1.
36
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Este método asegura que todos los elementos de un cúmulo están dentro
de una distancia máxima uno del otro.
c. Método de la distancia promedio. La distancia entre cúmulos se define
como el promedio de todas las distancias entre dos elementos (uno de
cada cúmulo), i.e.,
∑∑ d ij
i j
d ( UV ) W = ,
n ( UV ) n W
37
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
ni +n j
∑ (x k − x (ij) )
~2 = 1 2
d ij = σ ( ij)
ni + n j k =1
COMETARIOS FINALES:
El número de cúmulos óptimo se determina visualizando el dendograma y
determinando una distancia para la cual los grupos están bien
diferenciados.
El método del vecino más cercano tiende a maximizar la distancia entre los
cúmulos, produciendo un menor número de cúmulos que los demás
métodos. En cambio, el método del vecino más lejano tiende a minimizar
38
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
las distancias dentro de cada cúmulo, por lo que produce un número más
grande de cúmulos que los demás métodos.
El método de K-medias es muy criticado porque fija de antemano el
número K de cúmulos.
La agrupación perfecta no es tan sencilla de obtener, por lo que es
recomendable intentar con más de un método. Si varios métodos dan
resultados semejantes, entonces se puede suponer que existe una
agrupación natural de los individuos.
Es importante realizar una evaluación gráfica de los métodos de análisis de
cúmulos.
Nota. Los métodos jerárquicos se pueden usar para formar cúmulos de
variables, usando como medida de distancia el valor absoluto de la
correlación muestral entre ellas.
39
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
6. Escalamiento multidimensional
{ '
}
D ij = (z i − z j ) (z i − z j )
1/ 2
,
40
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
para i≠j=1,2,...,n.
n n (n − 1)
¿Cuántas distancias hay que calcular?. m = = .
2 2
original, i.e.,
d i1 j1 < d i2 j2 < L < d i m jm (6.1)
definida como:
41
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
∑ (d ij )
(q ) (q ) 2
− d̂ ij
i< j
Estrés(q ) =
∑ {d ij }
(q ) 2
i< j
(q)
2) Para d̂ ij fijos, encontrar una nueva configuración de puntos que
Splus: cmdscale.
42
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
7. Análisis de Factores
43
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
44
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
INTERPRETACIONES:
Las nuevas variables Fk son llamadas factores subyacentes o factores
comunes.
Los términos εj son llamados factores específicos y describen la variación
residual específica a la variable Xj.
La cantidad ψj es llamada varianza específica de la variable Xj.
Los coeficientes λjk son llamados pesos de la j-ésima variable en el k-ésimo
factor. De hecho, λ jk = Cov(X j , Fk ).
OBSERVACIONES:
Si existen Λ y Ψ de modo que la relación (7.2) se satisfaga, entonces los
factores comunes explican con exactitud la covarianza entre las variables
originales.
La varianza de Xj se puede dividir de la siguiente manera:
σ jj = λ2j1 + L + λ2jm + ψ j
{ 14 4244 3 {
45
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
46
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
47
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
48
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
8. Análisis discriminante
49
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Regla de verosimilitud:
Π , si L(x; µ1 , Σ1 ) > L(x; µ 2 , Σ 2 )
RD1 ( x ) = 1 ,
Π
2 , si L ( x ; µ1 , Σ 1 ) ≤ L ( x ; µ 2 , Σ 2 )
donde L(x; µ k , Σ k ) es la función de verosimilitud para la k-ésima
población evaluada en x.
1
donde b = Σ −1 (µ1 − µ 2 ) y c = (µ1 − µ 2 )' Σ −1 (µ1 + µ 2 ) . La función b ' x es
2
llamada función discriminante lineal de x.
50
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
donde
dk d1 d2
P(Π k x ) = e
− − −
2 e 2 +e 2
51
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Σˆ =
(n1 − 1)Σˆ 1 + (n 2 − 1)Σˆ 2 ,
n1 + n 2 − 2
52
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
53
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
k =1 k =1 i =1
1 m m
donde µˆ = ∑ n k µˆ k
n k =1
y n = ∑ n k . La matriz B es llamada matriz de
k =1
Regla discriminante.
Si se usa únicamente la primer función canónica, se calcula
54
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
(
d 2k = b1' x − b1' µˆ k ) + (b x − b µˆ ) ,
2 '
2
'
2 k
2
para k=1,2,...,m y se asigna x a la
55