Documente Academic
Documente Profesional
Documente Cultură
Donde ( z z z
m 1 2
. . . . ) se denominan factores comunes, porque de acuerdo con el modelo
planteado, influyen en conjunto en las p variables. Las variables ( )
p
....
2 1
se llaman
factores nicos o especficos, porque cada factor
i
influye exclusivamente en las variables x
i
( ) p i ....... .......... 1 .
Las ecuaciones del modelo se pueden expresar matricialmente de la forma
siguiente:
1
1
1
1
1
]
1
+
1
1
1
1
]
1
1
1
1
1
1
]
1
1
1
1
1
1
]
1
p p m pm p p
m
m
p
b
b
b
z
z
z
a a a
a a a
a a a
x
x
x
. .
...
.. ... .. ..
...
...
.
2 2
1 1
2
1
2 1
2 22 21
1 12 11
2
1
el modelo quedara, por tanto, en forma condensada como:
X AZ +
donde se supone que: m<p puesto que se desea explicar las variables por un numero mas reducido
de variables nuevas aleatorias y la totalidad de los (m+p) factores son variables incorrelacionadas:
ANALISIS FACTORIAL GENERAL 3
Prof: Salvador Carrasco Arroyo Universidad de Valencia
es decir que la variabilidad de una variable explicada por un factor no tiene relacin con l os dems
factores.
En el modelo, cada variable observada es el resultado de la combinacin lineal de los m
factores comunes con diferentes pesos (a
i
). A estos pesos se les llama saturaciones. Pero hay una
parte de x
i
no explicada por los factores comunes, estos son los factores nicos o residuos (
i
).
2.1.- Hiptesis de partida.-
Como es sabido todos los problemas intuitivos pueden ser inconsistentes a la hora de
obtener soluciones y por ello se requiere el planteamiento de unas hiptesis de partida, las
hiptesis que se utilizan en el A.F. son:
H
1
: Podemos establecer que los factores son v.a. tipificadas e incorrelacionadas. As:
E z E E z z
E E z z E
E z
i i i i
i i i i i i
i i
0 0 1
1 0 0
0
' '
Por otro lado, como los factores tienen como principal finalidad estudiar y simplificar las
correlaciones entre las variables, medidas a travs de la matriz de correlaciones, entenderemos
que:
H2 : las variables originales tambin se tipifican. A travs de la transformacin de estas
variables del tipo:
x
i
x x
i
x
por tanto y por las propiedades de la varianza:
( ) ( ) ( ) ( ) ( )
i i m im i i i
b z a z a z a x var var ....... var var var
2 2
2
2
2 1
2
1
+ + + +
as:
1 1
1
2
2
2
3
2 2 2
+ + + + + a a a a b i p
i i i im i
. . . . . . . . . . .
2.2.- Saturaciones, comunalidad y unicidad.-
Denominamos saturacin de la variable x
i
en el factor z
al coeficiente a
i
.
La determinacin de la matriz A del modelo factorial es uno de los problemas
fundamentales del AF.
ANALISIS FACTORIAL GENERAL 4
Prof: Salvador Carrasco Arroyo Universidad de Valencia
1
1
1
1
1
1
]
1
pm p p p
m
m
m
a a a a
a a a a
a a a a
a a a a
A
..
. .. . . .
..
..
..
3 2 1
3 33 32 31
2 23 22 21
1 13 12 11
Los coeficientes de A, informan de la relacin existente entre las variables y los factores
comunes. Se obtienen a partir de los coeficientes de correlacin entre las variables originales
(matriz R). En efecto recordando las propiedades de las matrices de covarianzas (recurdese que
estamos presuponiendo las hiptesis H
1
y H
2
.
R V V V V AA
A V
i i
a a
i corr ,
La matriz de saturaciones cumple que: La varianza del -simo factor se obtiene sumando
los cuadrados de las saturaciones de la -sima columna de A (conjunto de correlaciones con
dicho factor). es decir:
a
i
i
p
2
1
ya que:
( ) ( )
2 1 2 1 2 1 2 1 2 1 2 1
' ' ' I V V V V A A
tngase en cuenta que el valor propio
ANALISIS FACTORIAL GENERAL 5
Prof: Salvador Carrasco Arroyo Universidad de Valencia
Evidentemente la comunalidad nos indica el porcentaje de variabilidad de cada variable (i)
explicada por los m factores comunes.
A Cada uno de los coeficientes h
i
2
se denomina especificidad de la variable. Por tanto,
como tenamos que el modelo en forma matricial X AZ + , (matriz de factores nicos), Z
(matriz de factores comunes) ser tanto menor cuanto mayor sea la variacin explicada por los m-
factores comunes.
En el caso que estamos trabajando con variables tipificadas y por las propiedades de la
varianza aludidas anteriormente, tenemos que:
1
1
2
2
2 2 2
+ + + + a a a b
i i i i
. . . .
esto es:
1
2 2
+ h b
i i
es decir la varianza de una variable cualquiera es la suma de su comunalidad mas su unicidad b
i
2
.
Por tanto en funcin del numero de factores comunes que obtengamos, existir una parte de la
variabilidad de la variable original no explicada que corresponder a un residuo (factor nico).
2.3.- Matriz de correlaciones reducidas.-
Partimos de la correlacin entre dos variables i e i de manera que:
( )
( )
'
'
'
cov
i i
i i
i i
x x
x x corr
sabemos a de mas que:
x a z b
x a z b
i i i i
m
i i i i
m
+
+
1
1
' ' ' '
por las hiptesis de partida tenemos que:
( ) ( )
1
]
1
,
_
+
,
_
+
m
i i i
m
i i i ii i i i i
b z a b z a E x x x x corr
1
' ' '
1
' ' '
cov
desarrollando el producto
1
]
1
+ + +
m
i i i i
m
i i i
m
i i i
m
i i
b b z a b z b a z z a a E
1
' '
1
'
1
' '
1
'
de la linealidad de la esperanza y al ser los factores incorrelacionados (hiptesis de partida)
tendremos que:
ANALISIS FACTORIAL GENERAL 6
Prof: Salvador Carrasco Arroyo Universidad de Valencia
( ) ( )
'
1
' ' '
cov
i i
m
i i ii i i
x x corr a a x x
i i p , ' . . . . . . . . . . . 1
Tambin podemos observar que la varianza de la variable i-sima , viene dada por la
expresin:
( ) [ ] ( )
( )
1
]
1
+ +
1
]
1
m
i i i i i
m
i i i i i i i
z b a b z a E
b z a E x x E x
1
2 2 2 2
1
2 2
2
1 var
y aplicando nuevamente las hiptesis de partida podemos comprobar la expresin que habamos
indicado anteriormente:
i i i
m
i i
a b h b
2 2 2
1
2 2
1 + +
comprobamos pues como la varianza se descompone en dos partes, la comunalidad y la unicidad
que es la varianza residual no explicada por el modelo.
Por tanto matricialmente podemos decir que R = AA +
2
donde R
= R -
2
.
Siendo R
la matriz de correlaciones reproducida obtenindose de la matriz R
sustituyendo los unos de la diagonal principal por las comunalidades de las variables.
1
1
1
1
1
1
]
1
2
4 3 2 1
3 34
2
3 32 31
2 24 23
2
2 21
1 14 13 12
2
1
..
.. .. .. .. .. ..
..
..
..
p p p p p
p
p
p
h r r r r
r r h r r
r r r h r
r r r r h
R
La identidad fundamental tendr la expresin equivalente R
= AA. Por tanto la matriz
de correlacin muestral es un estimador de la matriz AA. Los coeficientes de saturacin ai de las
variables en los factores deben verificar esta condicin, que no es suficiente para determinarlos. En
realidad existen muchas matrices A que lo verifican, siendo, todas ellas, soluciones validas del
anlisis. Para seleccionar una solucin , deberemos establecer otra condicin para A.
Cuando tenemos estimado el producto AA , se diagonaliza la matriz de correlaciones
reducida, ya que una solucin de la ecuacin: R -
2
= R
= AA es la matriz A cuyas columnas
son los vectores propios estandarizados de R
A partir de esta matriz reducida y por medio de la diagonalizacin, como instrumento
matemtico, obtenemos a travs de los vectores y valores propios los ejes factoriales.
ANALISIS FACTORIAL GENERAL 7
Prof: Salvador Carrasco Arroyo Universidad de Valencia
3.- Viabilidad del modelo factorial
Cuando comenzamos un AF, lo primero que realizamos es la obtencin de la matriz R de
correlacin muestral a partir de los datos de una muestra de n individuos y p variables. Una vez
obtenida esa matriz, podemos hacer contrastes de hiptesis previos para decidir si el modelo
factorial es adecuado a la informacin obtenida.
Uno de estos contrastes es el test de esfericidad de Bartlet (Bartlett, M.S. 1950). Este
contraste trata de determinar si existe una estructura de relacin -mejor dicho de interrelaciones
significativas - o no entre las variables originales. Como sabemos, la matriz de correlacin R nos
indica la relacin existente entre cada par de variables ( )
ij
r y su diagonal estar compuesta por
unos. Si no existiese relacin entre las h variables, todos los coeficientes de correlacin entre cada
par de variables seria cero. Por tanto, la matriz de correlacin poblacional coincidira con la matriz
identidad y su determinante seria igual a uno
1
.
Hiptesis nula: H R
o
: 1
Hiptesis alternativa: H R
1
1 :
Si los datos son una muestra aleatoria procedente de una distribucin normal
multivariante, entonces bajo la hiptesis nula, el determinante de la matriz ser 1 y se demuestra
que el estadstico:
( )
R
p
n ln
6
5 2
1
1
]
1
+
se distribuye asintoticamente como una
2
con p(p-1)/2 grados de libertad. En el caso de que se
acepte la hiptesis nula carecera de sentido realizar un AF.
Otro ndice de idoneidad de la aplicacin del AF es el contraste de Kaiser-Meyer -Oklim.
Consiste en compara los coeficientes de correlacin y los coeficientes de correlacin parcial. Esta
medida se denomina adecuacin muestral, puede obtenerse para el conjunto o para cada
variable.
Dado que el coeficiente de correlacin parcial nos indica la correlacin existente entre dos
variables, una vez que se han eliminado los efectos lineales de las dems variables. En un AF se
puede interpretar esos efectos de las otras variables como los correspondientes a los factores
comunes. Por lo tanto, el coeficiente de correlacin parcial entre dos variables seria equivalente, en
este contexto, al coeficiente de correlacin entre los factores nicos especficos de cada dos
variables.
De acuerdo con las hiptesis de partida, los factores nicos estn incorrelacionados, los
coeficientes de correlacin parcial constituyen una aproximacin a los tericos y sern
prcticamente cero.
La medida de adecuacin se expresa como:
1
Cuando el determinante sea grande y pequeo el grado de significancia, mas improbable ser que
la matriz sea la identidad.
ANALISIS FACTORIAL GENERAL 8
Prof: Salvador Carrasco Arroyo Universidad de Valencia
KMO
r
r a
j
j
j
p m
j j
j
p m
j
p m
2
1 1
2 2
1 1 1 1
donde r
ij
son coeficientes de correlacin observados entre variables y a
ij
son coeficientes de
correlacin parcial entre variables originales.
Si los coeficientes de correlacin parcial entre las variables son muy pequeos, quiere
esto decir que la relacin entre cada par de las mismas se debe o puede ser explicada por el resto y
por tanto llevar a cabo un anlisis factorial de los datos no deja de ser una buena solucin. En este
supuesto, si la suma de los coeficientes de correlacin parcial al cuadrado es muy pequea. KMO,
ser un ndice muy prximo a la unidad y por tanto el anlisis factorial un procedimiento
adecuado. De hecho y para Kaiser:
1 >= KMO >= 090 son considerados excelentes
09 >= KMO >= 080 son buenos
08 >= KMO >= 070 son considerados aceptables
070 >= KMO >= 060 son regulares
060 >= KMO >= 050 son malos
Tambin podemos observar la diagonal de la matriz de correlaciones anti-imagen. Sern
los negativos de los coeficientes de correlacin parcial entre cada par de variables neutralizado el
efecto de todas las restantes. Interesa que sean los mas pequeos posibles y en la diagonal tenemos
los coeficientes MSA (Measures of Sampling Adequancy) que viene a ser los KMO pero en este
caso para cada variable por separado, que interesan sean lo mas elevados posibles.
4.- Estimacin de la matriz de saturaciones.
En el modelo factorial hay que estimar la matriz de saturaciones A y de residuos a partir
de la matriz R de correlaciones mustrales, entre n individuos y p variables cuantitativas.
Dicha estimacin se puede realizar por diferentes mtodos, pero el mas utilizado es el
factores principales . Este mtodo es similar a la obtencin de las componentes principales.
En el ACP dado un conjunto de p variables originales Xi (i =1,p) se obtienen p
componentes principales Z ( =1,.,p) mediante:
Z u x u x u x u x
Z u x u x u x u x
Z u x u x u x u x
p p
p p
p p p p pp p
1 11 1 12 2 13 3 1
2 21 1 22 2 23 3 2
1 1 2 2 3 3
+ + + +
+ + + +
+ + + +
. . . . .
. . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
Por otra parte en el AF las m componentes principales (m<p) y las variables originales, se
relacionan mediante:
ANALISIS FACTORIAL GENERAL 9
Prof: Salvador Carrasco Arroyo Universidad de Valencia
x a z a z a z b
x a z a z a z b
x a z a z a z b
m m
m m
p p p pm m p p
1 11 1 12 2 1 1 1
2 21 1 22 2 2 2 2
1 1 2 2
+ + + +
+ + + +
+ + + +
. . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
Recordando tambin que las variables de la matriz reconstruida a que se hace referencia el capitulo
anterior (ACP) son:
x u v
j j j
p
'
1
y adems ( )
j j
r j corr u
. Sustituyendo en la igualdad anterior, tenemos que:
x r v
j j j
p
'
1
como v xu
1
y xu Z
podemos decir que:
x r
z
r
z
r
z
r
z
j j j j pj
p
p
+ + + +
1
1
1
2
2
2
3
3
3
. . . . . . .
como habamos definido en el capitulo anterior que z y
tenemos que:
x r y r y r y r y
j j j j pj p
+ + + +
1 1 2 2 3 3
. . . . . .
donde esta ecuacin se puede expresar, agregando los (p-m) ltimos trminos, de la forma
siguiente:
( )
p pj m m m mj j j j
y r y r y r y r y r x + + + + + +
+ +
... ....
1 1 2 2 1 1
si comparamos esta expresin con el modelo factorial
x a z a z a z a z b
j i i i im m i i
+ + + + +
1 1 2 2 3 3
. . . . .
podemos observar que los coeficientes ai que aparece en el segundo miembro, son parmetros a
diferencia de los coeficientes de correlacin que son estadsticos.
Tras la comparacin entre ambos sistemas podemos indicar que:
a r a r a r
i j i j im mj 1 1 2 2
. . . . . . .
por todo lo cual podemos obtener los coeficientes de la matriz de saturacin a travs de los
coeficientes de correlacin de las variables originales con los factores. Una vez conocidos estos
coeficientes de saturacin podemos obtener las comunalidades antes mencionadas.
Las unicidades o especificidad las obtendremos al comparar ambos sistemas y relacionar:
ANALISIS FACTORIAL GENERAL 10
Prof: Salvador Carrasco Arroyo Universidad de Valencia
b r y r y
i i m m p p
+ +
+ + 11 1 1 ,
. . . . .
La unicidad (la parte de la varianza debida al factor nico) se puede estimar directamente una vez
conocidas las comunalidades, mediante la expresin:
b h
i i
2 2
1
Realizando lo mismo para todo i obtenemos las comunalidades y unicidades de cada una
de las variables.
5.- Criterios para decidir el numero de factores a retener
Lo primero que hay que tener en cuenta es que cuando estabamos en un ACP, lo que
pretendamos obtener era p factores incorrelacionados que fueran combinacin lineal de las
variables originales, de manera, que al seleccionar un numero reducido de ellos m<p explicaran el
mximo de la variabilidad total de estas variables.
En AF el planteamiento es al contrario. Pretendemos obtener las variables originales
como combinacin de los factores (teniendo en cuenta que solamente se establecen como hiptesis
m<p factores comunes). Estos factores comunes son desconocidos a priori, y debe decidirse su
numero en base a los resultados obtenidos del propio anlisis. Incluso en ocasiones se realiza un
AF fijndose previamente m y se estiman los parmetros, sin que se pueda estar convencido de que
el numero de factores escogido sea el correcto.
En principio, a la hora de escoger el numero de factores a retener se puede emplear los
criterios adoptados en el ACP. Pero como el AF es un mtodo inferencial tambin se puede
realizar contrastes de significacin de los factores. Factores que se han obtenido a travs de los
vectores propios de la matriz de correlaciones reducida.
El problema que se plantea es decidir el numero m de vectores propios de esta matriz .
Para tomar esta decisin y como estamos en un contexto inferencial, puede emplearse los
siguientes contrastes:
Criterio de esfericidad de Bartlet (1954).
Como resultado de la diagonalizacin de R
hemos obtenido p valores propios
( )
p
......
2 1
. El numero de valores propios no nulos nos indica la dimensin del espacio en el
que se encuentran las observaciones. Un valor propio nulo revelara la existencia de una
dependencia entre las variables.
Queremos contrastar la hiptesis de que hay m factores comunes. Bajo la hiptesis nula,
el rango de la matriz poblacional de correlaciones reducida es m, de forma que los ltimos ( p-m )
valores propios deben ser idnticos entre s e iguales a cero. Bajo la hiptesis nula el estadstico:
ANALISIS FACTORIAL GENERAL 11
Prof: Salvador Carrasco Arroyo Universidad de Valencia
1
1
]
1
,
_
,
_
1
]
1
m
m p
m
R
trazR
m p
p
n
1
1
1
log
6
11 2
sigue una distribucin asintotica
2
con (p-m-1)(p-m) / 2 grados de libertad. Si el valor del
estadstico de prueba supera el valor critico correspondiente, rechazamos la hiptesis nula de que
la dimensin del espacio factorial es m, y por tanto modificaremos este valor y comenzaremos de
nuevo el proceso.
Criterio de maxima-verosimilitud
Este mtodo estima los parmetros del modelo factorial a partir de:
Cov = AA+
2
y exige la especificacin previa del modelo, incluido el numero m de factores.
Se trata de obtener los estimadores de la matriz de saturaciones ( A ) y
2
(de varianzas
residuales), de manera que sea mxima la verosimilitud o probabilidad de la matriz de covarianza
muestral proporcionada por los datos. Se supone que estos son observaciones aleatorias extradas
de una distribucin normal multivariante.