AFGs

ANALISIS FACTORIAL GENERAL 1
ANALISIS FACTORIAL GENERAL

1.- INTRODUCCIN

Como decamos en la introduccin del capitulo nos parece interesante realizar un breve
estudio del anlisis factorial general, ya que nos puede dar una visin mas global de la tcnica
factorial, y mas cuando la mayora de las aplicaciones informticas no hacen distincin entre
ambos mtodos. No obstante comenzaremos haciendo una breve comparacin entre los
planteamientos generales de los dos mtodos.

El anlisis factorial es un mtodo multivariante que intenta explicar un conjunto de
variables observables mediante un numero reducido de variables no observables llamadas factores.

En cierto sentido, como toda tcnica multivariante, se puede considerar que es un mtodo
de reduccin de la dimensin por cuanto el espacio p-dimensional de las variables se reduce, como
en ACP, a un espacio m-dimensional de factores (m<p).

El AF parte al igual que el mtodo de componentes principales de una matriz de
individuos por variables, pero en este caso se trata de observar las correlaciones entre las p
variables. La hiptesis subyacente es: que dichas correlaciones no son fortuitas, sino que se deben
a que las variables comparten causas comunes llamadas factores o dimensiones subyacentes y por
tanto los factores son seleccionados para explicar las interrelaciones entre las variables.

El objetivo del anlisis consiste en identificar cuales son esas dimensiones subyacentes o
factores y cuantificarlos. Como resultado se obtiene una estimacin de las puntuaciones de cada
individuo en cada uno de los m factores, y por tanto se termina reduciendo la dimensin del
espacio.

En ACP, el primer factor o componente seria aquel que explica una mayor parte de la
varianza total, el segundo factor seria aquel que explica la mayor parte de la varianza restante, es
decir, de la que no explicaba el primero y as sucesivamente. En el anlisis factorial se distingue
entre varianza comn y nica. La varianza comn es la parte de la variacin de la variable que es
compartida con las otras variables. La varianza nica es la parte de la variacin de la variable que
es propia de esa variable. En componentes principales no hace esa distincin entre los dos tipos de
varianza. Mientras que el ACP busca hallar combinaciones lineales de las variables originales que
expliquen la mayor parte de la varianza total el factorial pretende hallar un nuevo conjunto de
variables, menor en numero que las variables originales que exprese lo que es comn a esas
variables.
Captulo
1
Prof: Salvador Carrasco Arroyo Universidad de Valencia

Aunque el proceso matemtico de calculo para estimar el modelo factorial cuando se
emplean algunos mtodos de estimacin es muy similar al calculo de los CP, la filosofa del AF es
muy distinta al del ACP ya que el AF implica la elaboracin de un modelo que requiere la
formulacin de hiptesis estadsticas y la aplicacin de mtodos de inferencia.

De todas maneras, los paquetes informticos suelen incluir el ACP y AF en el mismo
subprograma, debiendo ser el usuario quien empleando las mismas instrucciones, con ligeros
cambios de opcin, quien realiza un anlisis u otro. Este es el caso del SPSS: donde la instruccin
factor sirve para la obtencin de los dos anlisis.

2.- Formalizacin del modelo

El AF opera sobre p variables aleatorias observables ( ) x x x x
p p 1 2 1
.....

definidas sobre una misma poblacin, las cuales comparten m (m<p) causas comunes. Se trata de
encontrar m+p nuevas variables llamadas factores comunes { } Z Z Z
m 1 2
.... y factores
nicos { }
p
.....
2 1
y determinar su contribucin en las variables originales.

El modelo de anlisis factorial se define de la siguiente forma:

x a z a z a z b
x a z a z a z b
x a z a z a z b
m m
m m
p p p pm m p p
1 11 1 12 2 1 1 1
2 21 1 22 2 2 2 2
1 1 2 2
+ + + +
+ + + +
+ + + +
. . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .

Donde ( z z z
m 1 2
. . . . ) se denominan factores comunes, porque de acuerdo con el modelo
planteado, influyen en conjunto en las p variables. Las variables ( )
p
....
2 1
se llaman
factores nicos o especficos, porque cada factor
i
influye exclusivamente en las variables x
i

( ) p i ....... .......... 1 .

Las ecuaciones del modelo se pueden expresar matricialmente de la forma
siguiente:
1
1
1
1
1
]
1
+
1
1
1
1
]
1
1
1
1
1
1
]
1
1
1
1
1
1
]
1
p p m pm p p
m
m
p
b
b
b
z
z
z
a a a
a a a
a a a
x
x
x
. .
...
.. ... .. ..
...
...
.
2 2
1 1
2
1
2 1
2 22 21
1 12 11
2
1

el modelo quedara, por tanto, en forma condensada como:

X AZ +

donde se supone que: m<p puesto que se desea explicar las variables por un numero mas reducido
de variables nuevas aleatorias y la totalidad de los (m+p) factores son variables incorrelacionadas:
es decir que la variabilidad de una variable explicada por un factor no tiene relacin con l os dems
factores.

En el modelo, cada variable observada es el resultado de la combinacin lineal de los m
factores comunes con diferentes pesos (a
i
). A estos pesos se les llama saturaciones. Pero hay una
parte de x
i
no explicada por los factores comunes, estos son los factores nicos o residuos (
i
).

2.1.- Hiptesis de partida.-

Como es sabido todos los problemas intuitivos pueden ser inconsistentes a la hora de
obtener soluciones y por ello se requiere el planteamiento de unas hiptesis de partida, las
hiptesis que se utilizan en el A.F. son:

H
1
: Podemos establecer que los factores son v.a. tipificadas e incorrelacionadas. As:
E z E E z z
E E z z E
E z
i i i i
i i i i i i
i i

0 0 1
1 0 0
0
' '

Por otro lado, como los factores tienen como principal finalidad estudiar y simplificar las
correlaciones entre las variables, medidas a travs de la matriz de correlaciones, entenderemos
que:

H2 : las variables originales tambin se tipifican. A travs de la transformacin de estas
variables del tipo:
x
i

x x
i
x

por tanto y por las propiedades de la varianza:

( ) ( ) ( ) ( ) ( )
i i m im i i i
b z a z a z a x var var ....... var var var
2 2
2
2
2 1
2
1
+ + + +
as:
1 1
1
2
2
2
3
2 2 2
+ + + + + a a a a b i p
i i i im i
. . . . . . . . . . .

2.2.- Saturaciones, comunalidad y unicidad.-

Denominamos saturacin de la variable x
i
en el factor z

al coeficiente a
i
.

La determinacin de la matriz A del modelo factorial es uno de los problemas
fundamentales del AF.
1
1
1
1
1
1
]
1
pm p p p
m
m
m
a a a a
a a a a
a a a a
a a a a
A
..
. .. . . .
..
..
..
3 2 1
3 33 32 31
2 23 22 21
1 13 12 11

Los coeficientes de A, informan de la relacin existente entre las variables y los factores
comunes. Se obtienen a partir de los coeficientes de correlacin entre las variables originales
(matriz R). En efecto recordando las propiedades de las matrices de covarianzas (recurdese que
estamos presuponiendo las hiptesis H
1
y H
2
.

R V V V V AA
A V

' ' '

1 2 1 2
12

siendo V la matriz de vectores propios y la matriz de valores propios.

Esto supone que la saturacin a
i
coincide con el coeficiente de correlacin entre la
variable y el factor.

En caso general de variables no tipificadas, A se obtiene a partir de la matriz de
covarianzas S . Entonces la correlacin entre x
i
y z

ser el cociente:

( )
i i
a a
i corr ,

La matriz de saturaciones cumple que: La varianza del -simo factor se obtiene sumando
los cuadrados de las saturaciones de la -sima columna de A (conjunto de correlaciones con
dicho factor). es decir:
a
i
i
p
2
1

ya que:
( ) ( )
2 1 2 1 2 1 2 1 2 1 2 1
' ' ' I V V V V A A

tngase en cuenta que el valor propio
nos indica el porcentaje de la varianza total explicada por

el factor .

Se denomina comunalidad a la expresin:

h a
i i
m
2 2
1

Evidentemente la comunalidad nos indica el porcentaje de variabilidad de cada variable (i)
explicada por los m factores comunes.

A Cada uno de los coeficientes h
i
2
se denomina especificidad de la variable. Por tanto,
como tenamos que el modelo en forma matricial X AZ + , (matriz de factores nicos), Z
(matriz de factores comunes) ser tanto menor cuanto mayor sea la variacin explicada por los m-
factores comunes.

En el caso que estamos trabajando con variables tipificadas y por las propiedades de la
varianza aludidas anteriormente, tenemos que:

1
1
2
2
2 2 2
+ + + + a a a b
i i i i
. . . .

esto es:
1
2 2
+ h b
i i

es decir la varianza de una variable cualquiera es la suma de su comunalidad mas su unicidad b
i
2
.
Por tanto en funcin del numero de factores comunes que obtengamos, existir una parte de la
variabilidad de la variable original no explicada que corresponder a un residuo (factor nico).

2.3.- Matriz de correlaciones reducidas.-

Partimos de la correlacin entre dos variables i e i de manera que:

( )
( )
'
'
'
cov
i i
i i
i i
x x
x x corr

sabemos a de mas que:
x a z b
x a z b
i i i i
m
i i i i
m
+
+
1
1
' ' ' '

por las hiptesis de partida tenemos que:

( ) ( )
1
]
1
,
_
+
,
_
+

m
i i i
m
i i i ii i i i i
b z a b z a E x x x x corr
1
' ' '
1
' ' '
cov

desarrollando el producto

1
]
1
+ + +

m
i i i i
m
i i i
m
i i i
m
i i
b b z a b z b a z z a a E
1
' '
1
'
1
' '
1
'

de la linealidad de la esperanza y al ser los factores incorrelacionados (hiptesis de partida)
tendremos que:
( ) ( )
'
1
' ' '
cov
i i
m
i i ii i i
x x corr a a x x

i i p , ' . . . . . . . . . . . 1

Tambin podemos observar que la varianza de la variable i-sima , viene dada por la
expresin:
( ) [ ] ( )
( )
1
]
1
+ +
1
]
1
m
i i i i i
m
i i i i i i i
z b a b z a E
b z a E x x E x
1
2 2 2 2
1
2 2
2
1 var

y aplicando nuevamente las hiptesis de partida podemos comprobar la expresin que habamos
indicado anteriormente:
i i i
m
i i
a b h b
2 2 2
1
2 2
1 + +

comprobamos pues como la varianza se descompone en dos partes, la comunalidad y la unicidad
que es la varianza residual no explicada por el modelo.

Por tanto matricialmente podemos decir que R = AA +
2
donde R

= R -
2
.

Siendo R

la matriz de correlaciones reproducida obtenindose de la matriz R
sustituyendo los unos de la diagonal principal por las comunalidades de las variables.

1
1
1
1
1
1
]
1
2
4 3 2 1
3 34
2
3 32 31
2 24 23
2
2 21
1 14 13 12
2
1
..
.. .. .. .. .. ..
..
..
..
p p p p p
p
p
p
h r r r r
r r h r r
r r r h r
r r r r h
R

La identidad fundamental tendr la expresin equivalente R

= AA. Por tanto la matriz
de correlacin muestral es un estimador de la matriz AA. Los coeficientes de saturacin ai de las
variables en los factores deben verificar esta condicin, que no es suficiente para determinarlos. En
realidad existen muchas matrices A que lo verifican, siendo, todas ellas, soluciones validas del
anlisis. Para seleccionar una solucin , deberemos establecer otra condicin para A.

Cuando tenemos estimado el producto AA , se diagonaliza la matriz de correlaciones
reducida, ya que una solucin de la ecuacin: R -
2
= R

= AA es la matriz A cuyas columnas
son los vectores propios estandarizados de R

A partir de esta matriz reducida y por medio de la diagonalizacin, como instrumento
matemtico, obtenemos a travs de los vectores y valores propios los ejes factoriales.

3.- Viabilidad del modelo factorial

Cuando comenzamos un AF, lo primero que realizamos es la obtencin de la matriz R de
correlacin muestral a partir de los datos de una muestra de n individuos y p variables. Una vez
obtenida esa matriz, podemos hacer contrastes de hiptesis previos para decidir si el modelo
factorial es adecuado a la informacin obtenida.

Uno de estos contrastes es el test de esfericidad de Bartlet (Bartlett, M.S. 1950). Este
contraste trata de determinar si existe una estructura de relacin -mejor dicho de interrelaciones
significativas - o no entre las variables originales. Como sabemos, la matriz de correlacin R nos
indica la relacin existente entre cada par de variables ( )
ij
r y su diagonal estar compuesta por
unos. Si no existiese relacin entre las h variables, todos los coeficientes de correlacin entre cada
par de variables seria cero. Por tanto, la matriz de correlacin poblacional coincidira con la matriz
identidad y su determinante seria igual a uno
1
.

Hiptesis nula: H R
o
: 1
Hiptesis alternativa: H R
1
1 :

Si los datos son una muestra aleatoria procedente de una distribucin normal
multivariante, entonces bajo la hiptesis nula, el determinante de la matriz ser 1 y se demuestra
que el estadstico:
( )
R
p
n ln
6
5 2
1
1
]
1
+

se distribuye asintoticamente como una
2
con p(p-1)/2 grados de libertad. En el caso de que se
acepte la hiptesis nula carecera de sentido realizar un AF.

Otro ndice de idoneidad de la aplicacin del AF es el contraste de Kaiser-Meyer -Oklim.
Consiste en compara los coeficientes de correlacin y los coeficientes de correlacin parcial. Esta
medida se denomina adecuacin muestral, puede obtenerse para el conjunto o para cada
variable.

Dado que el coeficiente de correlacin parcial nos indica la correlacin existente entre dos
variables, una vez que se han eliminado los efectos lineales de las dems variables. En un AF se
puede interpretar esos efectos de las otras variables como los correspondientes a los factores
comunes. Por lo tanto, el coeficiente de correlacin parcial entre dos variables seria equivalente, en
este contexto, al coeficiente de correlacin entre los factores nicos especficos de cada dos
variables.

De acuerdo con las hiptesis de partida, los factores nicos estn incorrelacionados, los
coeficientes de correlacin parcial constituyen una aproximacin a los tericos y sern
prcticamente cero.

La medida de adecuacin se expresa como:

1
Cuando el determinante sea grande y pequeo el grado de significancia, mas improbable ser que
la matriz sea la identidad.
KMO
r
r a
j
j
j
p m
j j
j
p m
j
p m
2
1 1
2 2
1 1 1 1

donde r
ij
son coeficientes de correlacin observados entre variables y a
ij
son coeficientes de
correlacin parcial entre variables originales.

Si los coeficientes de correlacin parcial entre las variables son muy pequeos, quiere
esto decir que la relacin entre cada par de las mismas se debe o puede ser explicada por el resto y
por tanto llevar a cabo un anlisis factorial de los datos no deja de ser una buena solucin. En este
supuesto, si la suma de los coeficientes de correlacin parcial al cuadrado es muy pequea. KMO,
ser un ndice muy prximo a la unidad y por tanto el anlisis factorial un procedimiento
adecuado. De hecho y para Kaiser:

1 >= KMO >= 090 son considerados excelentes
09 >= KMO >= 080 son buenos
08 >= KMO >= 070 son considerados aceptables
070 >= KMO >= 060 son regulares
060 >= KMO >= 050 son malos

Tambin podemos observar la diagonal de la matriz de correlaciones anti-imagen. Sern
los negativos de los coeficientes de correlacin parcial entre cada par de variables neutralizado el
efecto de todas las restantes. Interesa que sean los mas pequeos posibles y en la diagonal tenemos
los coeficientes MSA (Measures of Sampling Adequancy) que viene a ser los KMO pero en este
caso para cada variable por separado, que interesan sean lo mas elevados posibles.

4.- Estimacin de la matriz de saturaciones.

En el modelo factorial hay que estimar la matriz de saturaciones A y de residuos a partir
de la matriz R de correlaciones mustrales, entre n individuos y p variables cuantitativas.

Dicha estimacin se puede realizar por diferentes mtodos, pero el mas utilizado es el
factores principales . Este mtodo es similar a la obtencin de las componentes principales.

En el ACP dado un conjunto de p variables originales Xi (i =1,p) se obtienen p
componentes principales Z ( =1,.,p) mediante:

Z u x u x u x u x
Z u x u x u x u x
Z u x u x u x u x
p p
p p
p p p p pp p
1 11 1 12 2 13 3 1
2 21 1 22 2 23 3 2
1 1 2 2 3 3
+ + + +
+ + + +
+ + + +
. . . . .
. . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .

Por otra parte en el AF las m componentes principales (m<p) y las variables originales, se
relacionan mediante:
x a z a z a z b
x a z a z a z b
x a z a z a z b
m m
m m
p p p pm m p p
1 11 1 12 2 1 1 1
2 21 1 22 2 2 2 2
1 1 2 2
+ + + +
+ + + +
+ + + +
. . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .

Recordando tambin que las variables de la matriz reconstruida a que se hace referencia el capitulo
anterior (ACP) son:
x u v
j j j
p
'
1

y adems ( )
j j
r j corr u

. Sustituyendo en la igualdad anterior, tenemos que:

x r v
j j j
p
'

1
como v xu
1
y xu Z

podemos decir que:

x r
z
r
z
r
z
r
z
j j j j pj
p
p
+ + + +
1
1
1
2
2
2
3
3
3

. . . . . . .

como habamos definido en el capitulo anterior que z y

tenemos que:

x r y r y r y r y
j j j j pj p
+ + + +
1 1 2 2 3 3
. . . . . .

donde esta ecuacin se puede expresar, agregando los (p-m) ltimos trminos, de la forma
siguiente:
( )
p pj m m m mj j j j
y r y r y r y r y r x + + + + + +
+ +
... ....
1 1 2 2 1 1

si comparamos esta expresin con el modelo factorial

x a z a z a z a z b
j i i i im m i i
+ + + + +
1 1 2 2 3 3
. . . . .

podemos observar que los coeficientes ai que aparece en el segundo miembro, son parmetros a
diferencia de los coeficientes de correlacin que son estadsticos.

Tras la comparacin entre ambos sistemas podemos indicar que:

a r a r a r
i j i j im mj 1 1 2 2
. . . . . . .

por todo lo cual podemos obtener los coeficientes de la matriz de saturacin a travs de los
coeficientes de correlacin de las variables originales con los factores. Una vez conocidos estos
coeficientes de saturacin podemos obtener las comunalidades antes mencionadas.

Las unicidades o especificidad las obtendremos al comparar ambos sistemas y relacionar:

b r y r y
i i m m p p
+ +
+ + 11 1 1 ,
. . . . .

La unicidad (la parte de la varianza debida al factor nico) se puede estimar directamente una vez
conocidas las comunalidades, mediante la expresin:

b h
i i
2 2
1

Realizando lo mismo para todo i obtenemos las comunalidades y unicidades de cada una
de las variables.

5.- Criterios para decidir el numero de factores a retener

Lo primero que hay que tener en cuenta es que cuando estabamos en un ACP, lo que
pretendamos obtener era p factores incorrelacionados que fueran combinacin lineal de las
variables originales, de manera, que al seleccionar un numero reducido de ellos m<p explicaran el
mximo de la variabilidad total de estas variables.

En AF el planteamiento es al contrario. Pretendemos obtener las variables originales
como combinacin de los factores (teniendo en cuenta que solamente se establecen como hiptesis
m<p factores comunes). Estos factores comunes son desconocidos a priori, y debe decidirse su
numero en base a los resultados obtenidos del propio anlisis. Incluso en ocasiones se realiza un
AF fijndose previamente m y se estiman los parmetros, sin que se pueda estar convencido de que
el numero de factores escogido sea el correcto.

En principio, a la hora de escoger el numero de factores a retener se puede emplear los
criterios adoptados en el ACP. Pero como el AF es un mtodo inferencial tambin se puede
realizar contrastes de significacin de los factores. Factores que se han obtenido a travs de los
vectores propios de la matriz de correlaciones reducida.

El problema que se plantea es decidir el numero m de vectores propios de esta matriz .
Para tomar esta decisin y como estamos en un contexto inferencial, puede emplearse los
siguientes contrastes:

Criterio de esfericidad de Bartlet (1954).

Como resultado de la diagonalizacin de R

hemos obtenido p valores propios
( )
p
......
2 1
. El numero de valores propios no nulos nos indica la dimensin del espacio en el
que se encuentran las observaciones. Un valor propio nulo revelara la existencia de una
dependencia entre las variables.

Queremos contrastar la hiptesis de que hay m factores comunes. Bajo la hiptesis nula,
el rango de la matriz poblacional de correlaciones reducida es m, de forma que los ltimos ( p-m )
valores propios deben ser idnticos entre s e iguales a cero. Bajo la hiptesis nula el estadstico:
1
1
]
1
,
_
,
_
1
]
1
m
m p
m
R
trazR
m p
p
n
1
1
1
log
6
11 2

sigue una distribucin asintotica
2
con (p-m-1)(p-m) / 2 grados de libertad. Si el valor del
estadstico de prueba supera el valor critico correspondiente, rechazamos la hiptesis nula de que
la dimensin del espacio factorial es m, y por tanto modificaremos este valor y comenzaremos de
nuevo el proceso.

Criterio de maxima-verosimilitud

Este mtodo estima los parmetros del modelo factorial a partir de:
Cov = AA+
2
y exige la especificacin previa del modelo, incluido el numero m de factores.

Se trata de obtener los estimadores de la matriz de saturaciones ( A ) y
2
(de varianzas
residuales), de manera que sea mxima la verosimilitud o probabilidad de la matriz de covarianza
muestral proporcionada por los datos. Se supone que estos son observaciones aleatorias extradas
de una distribucin normal multivariante.

AFGs

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

AFGs

Încărcat de

Drepturi de autor:

Formate disponibile

ANALISIS FACTORIAL GENERAL 1

ANALISIS FACTORIAL GENERAL

' ' '

nos indica el porcentaje de la varianza total explicada por

S-ar putea să vă placă și