Sunteți pe pagina 1din 22

Anlisis

de datos II
Semana 13

Profesor: Pablo Prez Ahumada


Universidad Alberto Hurtado
Departamento de Sociologa
ANLISIS FACTORIAL EXPLORATORIO
****Bibliografa recomendada****

o **Cea D Ancona, Mara A. (2004). Anlisis multivariable. Cap 5. Anlisis Factorial


o Vivanco, M. (1999): Anlisis estadstico multivariable. Ed. Universitaria. Cap. 4.
o Hair J, F. et al (2004): Anlisis multivariante. Madrid: Pearson. Cap. 3
Introduccin
Anlisis Factorial: tcnica de reduccin de datos desarrollada desde inicios del siglo XX
por Karl Pearson, Karl Spearman y, ms tarde, por Harold Hotteling.

Denominacin genrica que comprende una serie de procedimientos cuyo objetivo


central es el de agrupar variables con el fin de reducir informacin
Cmo? Descubriendo la estructura latente de los datos a partir del anlisis de la correlacin entre
variables. Ello permite reducir la dimensionalidad de los datos

Otro objetivo: obtencin de puntuaciones factoriales


Principal utilidad del AF exploratorio: anlisis de la dimensionalidad latente para la
generacin de escalas
se decidi mantener dicho ndice en virtud de que incluye diversos elementos (estabilidad en el empleo,
cotizacin o afiliacin a un sistema previsional e ingreso) comnmente utilizados para medir la calidad
del empleo. De modo similar, los tems incluidos en este ndice se presentan como especialmente
relevantes para analizar la relacin entre clase, gnero y calidad del empleo. A diferencia de algunas

Ejemplo Cuadro 1
Descripcin de los ndices de calidad del empleo
Desviacin Valor Valor
ndice Variables Media estndar mnimo mximo
Calidad objetiva del empleo
(n = 9.248) 1. Nivel de seguridad en el empleo: tipo de
Interseccin entre la clase y empleo (permanente o de temporada) +
50,82 23,37 0 100
Alfa de Cronbach: 0,52 afiliacin a un sistema previsional
el gnero y su efecto sobre la Valor propio (eigenvalue), 2. Nivel de ingresos
factor 1:1,37
calidad del empleo en Chile1
Motivacin en el trabajo
(n = 9.177) 1. Siente que el trabajo que realiza es importante
Omar Aguilar, Pablo Prez, Rubn Ananas, 2. Se siente motivado y comprometido en el trabajo 84,72 21,07 0 100
Claudia Mora y Osvaldo Blanco Alfa de Cronbach: 0,82 3. Disfruta el trabajo que realiza
Valor propio (eigenvalue),
factor 1:2,20

Resumen
Percepcin del control sobre
el proceso de trabajo 1. Puede influir en la cantidad de trabajo que se le asigna
En este artculo se analiza el efecto de la interseccin entre clase y gnero sobre la calidad (n = 9.111) 2. Puede cambiar el orden de las tareas asignadas
del empleo en Chile. La medida de posicin de clase utilizada est basada en la propuesta de
3. Puede cambiar la forma de trabajar 55,97 32,63 0 100
Erik O. Wright y la calidad del empleo en una medida multidimensional, que incluye un ndice Alfa de Cronbach: 0,83 4. Puede decidir tomar un descanso
de condiciones objetivas de empleo y dos ndices de condiciones subjetivas (motivacin en
Valor propio (eigenvalue),
el trabajo y percepcin del control sobre el proceso de trabajo). Los resultados demuestran
que la clase y el gnero determinan diferencias significativas en la calidad objetiva y subjetiva
factor 1:2,68
del empleo. Sin embargo, los datos tambin indican que el gnero (particularmente, el Fuente: Elaboracin propia, sobre la base de datos de la Encuesta Nacional de Empleo, Trabajo, Salud y Calidad de Vida
hecho de ser mujer) no acta necesariamente como amplificador de las desigualdades
de clase observadas en el mercado laboral. A partir de esto, al final del artculo se plantean
de los Trabajadores y Trabajadoras en Chile (ENETS 2009-2010).
algunas reflexiones sobre cmo opera la interseccin entre clase y gnero en el mercado
laboral chileno.

Omar Aguilar, Pablo Prez, Rubn Ananas, Claudia Mora y Osvaldo Blanco

Palabras clave
Empleo, mercado de trabajo, gnero, investigacin sobre el gnero, clases sociales,
condiciones de trabajo, medicin, Chile
Clasificacin JEL
J16, J70, Z13
Autores
Omar Aguilar es Director de la carrera de Sociologa de la Universidad Alberto Hurtado, Chile.
En base a qu se puede agrupar variables para generar una escala de
motivacin en el trabajo diferente de otra que mida percepciones
oaguilar@uahurtado.cl
Pablo Prez es Candidato a Ph.D. en Sociologa en el Departamento de Sociologa de la
Universidad de California, San Diego, Estados Unidos. paperez@ucsd.edu
Rubn Ananas es Analista Socioeconmico del Departamento de Estudios Sociales del
Instituto Nacional de Estadsticas (INE) de Chile. rananias@ine.cl del control sobre el proceso de trabajo?
Claudia Mora es Acadmica de la Facultad de Humanidades y Ciencias Sociales de la
Universidad Andrs Bello, Chile. claudia.mora@unab.cl
Osvaldo Blanco es Docente de la Escuela de Sociologa de la Universidad Andrs Bello,
Chile. oblanco4@gmail.com

1 Este artculo es parte de los resultados de investigacin del proyecto Fondo Nacional de Desarrollo Cientfico y Tecnolgico
(FONDECYT) Regular 1130779 Nuevas formas de pensar en la estratificacin social: la interseccin clase/gnero en el
mercado laboral chileno.
Tipos de Anlisis Factorial
Segn el objetivo:
1. Anlisis factorial exploratorio (inductivo)
2. Anlisis factorial confirmatorio

Segn el objeto de anlisis


1. Anlisis factorial tipo R (objeto = variables)
2. Anlisis factorial tipo Q (objeto = casos. Parecido al A. de Clusters pero menos rgido)

Segn el tipo de variables


1. AF con variables mtricas (u ordinales tratadas como si fueran mtricas)
2. Anlisis similares para variables no mtricas (PRINCALS; anlisis AF booleano).
Tipos de Anlisis Factorial
Segn el tipo de procedimiento usado para extraer las dimensiones latentes
1. Anlisis Factorial de Componentes Principales (ACP): identifica dimensiones subyacentes
(componentes principales) que expliquen la varianza total del las variables observadas
2. Anlisis de Factor Comn (AFC): mismos objetivos (generar factores comunes), pero intentando
explicar slo la varianza compartida entre las variables.

Ahora bien, las diferencias entre ACP y AFC van mucho ms all de del simple tratamiento de la varianza
1. Anlisis de Componentes Principales
Trata de simplificar la informacin (es decir, generar un nmero reducido de
componentes) explicando la mayor cantidad de varianza total posible.
Para ello, el APC tiene como base la matriz de correlaciones con el objetivo de formar, de
modo jerrquico, el menor nmero de componentes que retengan la mayor cantidad de
varianza
Al menos en una primera etapa, los componentes son ortogonales (perpendiculares).
As, cada componente mide una dimensin diferente

Aspectos importantes
Supuesto: existe correlacin entre variables
Siempre es recomendable estandarizar variables (puntaje z o manualmente)
1. Anlisis de Componentes Principales
Funcionamiento bsico:
En el ACP, cada componente representa el resultado de una ecuacin lineal donde las variables
originales estn ponderadas segn la importancia que ellas tengan para dicho componente
El peso o ponderacin de las variables X est representado como (saturaciones o pesos factoriales),
as:
$ = $$ $ + $) ) + $* * $, ,
) = )$ $ + )) ) + )* * ), ,
- = -$ $ + -) ) + -* * -, ,

Grficamente, un modelo de CP se representara as (Cea DAncona, 2004: 434)


2. Anlisis de Factor Comn
Se diferencia del ACP en tres aspectos

1. Opera con una distincin clave: comunalidad (hi2 = porcin de varianza explicada por el
resto de variables) v/s especificidad (porcin de varianza no explicada por ellas)
Propsito: maximizar la representacin de la varianza comn (comunalidad) entre las variables
generando factores latentes

2. El uso de la matriz de correlaciones cambia:


A diferencia del ACP, el AFC no se usa la matriz de correlacin clsica (con diagonal compuesta
de unos). En el AFC se usa una matriz de correlaciones reducida en donde la diagonal se
compone de las comunalidades, calculadas como a la correlacin mltiple cuadrada de cada
variable con las dems variables observadas
2. Anlisis de Factor Comn
3. Modelo de generacin de factores:
Los factores generados no son una funcin de las variables observadas como en el ACP. En el ACF
la lgica es inversa: las variables observadas son las que actan a modo de variables
dependientes en las ecuaciones lineales compuestas por los factores no observados .
Algebraica y grficamente, esto se define como (Cea DAncona, 2004: 435-436):

$ = $$ $ + $) ) + $* * $- - + $
) = )$ $ + )) ) + )* * )- - + )
, = ,$ $ + ,) ) + ,* * ,- - + ,
ACP y AFC
Las diferencias entre el ACP y el AFC representan en gran medida cmo se define a las variables
latentes. Mientras el ACP las define como formativas (ellas se forman a partir de las variables
observadas) y el AFC las define como reflectivas (ellas se reflejan en variables observadas).
Las diferencias entre ACP y AFC hacen que algunos autores las consideran como dos tcnicas
diferentes. Ej: Bartholomew, D. J., et al. 2002. The analysis and interpretation of multivariate data
for social scientists. London: Chapman & Hall/CR

A pesar de estas diferencias, es comn confundir ambos anlisis. En programas como SPSS, el ACP
y el AFC son parte del mismo comando de Anlisis Factorial
Ambos modelos comparten las mismas reas de aplicacin e, incluso, en ciertas circunstancias
pueden llegar a resultados similares. Ej: cuando los valores de la comunalidad son cercanos a 1 (o
sea, cuando la varianza comn es muy alta) o cuando existe un elevado nmero de variables
ACP y AFC: Cundo usar uno y otro?
El ACP muestra mayor adecuacin cuando se est interesado en predecir y determinar el nmero
de mnimo de factores necesarios para explicar la mayor cantidad de varianza total. El ACP es til
tambin cuando se tiene conocimiento previo de que la varianza especfica representa una
proporcin pequea de la varianza total de las variables.

De modo similar, el ACP suele ser utilizado para fines eminentemente exploratorios
(Bartholomew, D. J., et al. 2002) por lo que su uso es ms frecuente que el AFC

Sin embargo, en la prctica ambos anlisis pueden coexistir. Se puede realizar primero un ACP
como paso previo al AFC con el propsito de determinar la dimensionalidad de espacio factorial
comn (Cea DAncona, 2004)

*****En lo que sigue se explican las diversas fases del Anlisis Factorial (en general). Sin embargo
los ejemplos usados provienen de un Anlisis de Componentes Principales aplicado para crear
escalas de percepcin de la calidad del empleo (Datos ENETS 2009-2010)*****
Fases de Anlisis Factorial
El desarrollo de un buen AF (sea ste ACP o AFC) implica seguir seis pasos. Cinco de ellos
son obligatorios, el sexto es optativo
1. Fase previa: definicin de aspectos bsicos y preparacin de los datos
2. Extraccin de dimensiones latentes (factores comunes o componentes principales): se
decide cmo extraer los componentes o factores (qu procedimientos) y los criterios para
retener un nmero reducido de ellos (ej. % varianza explicada)
3. Obtencin de matriz factorial (matriz clave del anlisis factorial)
4. Rotacin de los factores/componentes para mejorar su interpretabilidad
5. Interpretacin y evaluacin (estadstica y analtica) del modelo factorial
6. Clculo de puntuaciones factoriales (opcional)
1. Fase previa: preparacin de datos
Descriptive Statistics
Revisin de variables (unidad de medida) N Min Max Mean SD
C1e. Puede usted influir en la cantidad
y tamao de muestra de trabajo que se le asigna o que tiene? 9307 1 5 3,16 1,632

Supuesto de normalidad de las variables: C1f. Puede elegir o cambiar el orden


9276 1 5 3,24 1,611
de sus tareas?
se flexibiliza en el ACP C1g. Puede elegir o cambiar el mtodo
o la forma en que realiza su trabajo? 9375 1 5 3,21 1,603
Se asume linealidad entre las variables C1h. Puede decidir cundo tomar un
9367 1 5 3,43 1,547
Debe existir correlacin entre las descanso?
C1q. Siente que el trabajo que usted
variables (al menos algunas de ellas) realiza es importante?
9238 1 5 4,46 ,963
C1r. Se siente motivado y
Recomendaciones importantes: comprometido en su trabajo?
9327 1 5 4,41 ,996
definir qu hacer con casos perdidos C2. En general, Qu tan satisfecho
est usted con: Las posibilidades de 9053 1 5 3,19 1,111
definir si estandarizar o no las variables promocin o de mejorar en su trabajo?
armonizar el sentido de las variables (ej. que C2b.En general, Qu tan satisfecho
todas ellas tengan correlaciones positivas) est usted con el ambiente que se
produce entre las personas que trabajan 8525 1 5 3,69 ,836
con usted (compaeros, colegas)?
D2a. Disfruta usted con el trabajo que
9452 1 5 4,29 1,005
realiza?
Valid N (listwise) 7905
Correlations
C1e. C1f. C1g. C1h. C1q. C1r. C2. C2b. D2a.
C1e. Puede usted influir en la Pearson Correlation 1 ,564** ,518** ,428** ,146** ,162** ,171** ,081** ,154**
cantidad de trabajo que se le asigna Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
o que tiene? N 9307 9181 9264 9227 9083 9170 8914 8411 9271
C1f. Puede elegir o cambiar el Pearson Correlation ,564** 1 ,763** ,541** ,165** ,171** ,185** ,100** ,179**
orden de sus tareas? Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
N 9181 9276 9243 9226 9062 9147 8876 8363 9240
C1g. Puede elegir o cambiar el Pearson Correlation ,518** ,763** 1 ,523** ,153** ,173** ,183** ,107** ,175**
mtodo o la forma en que realiza su Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
trabajo? N 9264 9243 9375 9301 9148 9235 8968 8452 9339
C1h. Puede decidir cundo tomar Pearson Correlation ,428** ,541** ,523** 1 ,179** ,216** ,227** ,159** ,230**
un descanso? Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
N 9227 9226 9301 9367 9146 9233 8956 8445 9331
C1q. Siente que el trabajo que Pearson Correlation ,146** ,165** ,153** ,179** 1 ,679** ,361** ,270** ,527**
usted realiza es importante? Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
N 9083 9062 9148 9146 9238 9210 8834 8339 9205
C1r. Se siente motivado y Pearson Correlation ,162** ,171** ,173** ,216** ,679** 1 ,406** ,328** ,588**
comprometido en su trabajo? Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
N 9170 9147 9235 9233 9210 9327 8918 8416 9293
C2. En general, Qu tan satisfecho Pearson Correlation ,171** ,185** ,183** ,227** ,361** ,406** 1 ,400** ,420**
est usted con: Las posibilidades de Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
promocin o de mejorar en su N
8914 8876 8968 8956 8834 8918 9053 8363 9017
trabajo?
C2b.En general, Qu tan satisfecho Pearson Correlation ,081** ,100** ,107** ,159** ,270** ,328** ,400** 1 ,325**
est usted con el ambiente que se Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
produce entre las personas que N
trabajan con usted (compaeros, 8411 8363 8452 8445 8339 8416 8363 8525 8492
colegas)?
D2a. Disfruta usted con el trabajo Pearson Correlation ,154** ,179** ,175** ,230** ,527** ,588** ,420** ,325** 1
que realiza? Sig. (2-tailed) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
N 9271 9240 9339 9331 9205 9293 9017 8492 9452
**. Correlation is significant at the 0.01 level (2-tailed).
1. Fase previa: preparacin de datos
Pruebas y estadsticos para comprobar la existencia de una estructura subyacente (los ms importantes)

*Determinante de la matriz de correlaciones: valor cercano a 0 indica la existencia de inter-correlaciones


elevadas entre las variables y, por tanto, la pertinencia de un AF (ojo, el estadstico no debe ser = a 0)
*Prueba de esfericidad de Bartlett: contraste entre matriz de correlacin y la matriz identidad (diagonal
compuesta de unos y celdas iguales a 0). Denota la inexistencia de correlaciones (nube de puntos en forma
de esfera). El determinante de la matriz identidad es |R| = 1. Se debe aceptar la Ha que dice que dice que R
|R|
*ndice de Kaiser-Meyer-Olkin (ndice KMO): compara correlaciones con correlaciones parciales. Tiene
valores entre 0 y 1. Se busca un valor cercano a 1 (mayor, al menos, a 0,5), lo que indica que la suma de los
coef. de correlacin son significativamente mayores a los de correlacin parcial
*Coeficiente de Correlacin Mltiple al Cuadrado (R2) : Se presentan en la Matriz de Comunalidades. Cuando
se realiza un AFC, el R2 corresponde a las comunalidades iniciales. En el ACP la M. de Comunalidades es til
para ver las comunalidades posteriores a la extraccin de componentes. Al interpretarse como una
correlacin promedio entre cada variable y el conjunto de variables con las que comparte dimensin
(componente), la comunalidad permite identificar qu variables se deberan mantener en el anlisis y cules
se deberan sacar
Otros estadsticos y pruebas: Correlacin anti-imagen (AIC)

Cuando estas pruebas dan buenos resultados, se puede asumir que es adecuado ejecutar un anlisis
factorial (ACP)
1. Fase previa: preparacin de datos
Communalities
Initial Extraction
C1e. Puede usted influir en la cantidad de
1,000 ,563
trabajo que se le asigna o que tiene?
a. Determinant = ,039 C1f. Puede elegir o cambiar el orden de sus
1,000 ,785
tareas?
C1g. Puede elegir o cambiar el mtodo o la
1,000 ,748
KMO and Bartlett's Test forma en que realiza su trabajo?
C1h. Puede decidir cundo tomar un
Kaiser-Meyer-Olkin 1,000 ,536
descanso?
Measure of Sampling ,806 C1q. Siente que el trabajo que usted realiza
Adequacy. 1,000 ,628
es importante?
Bartlett's Test Approx. C1r. Se siente motivado y comprometido en
of Sphericity Chi-Square 1,000 ,707
25565,392 su trabajo?
C2. En general, Qu tan satisfecho est
df usted con: Las posibilidades de promocin o 1,000 ,460
36 de mejorar en su trabajo?
Sig. ,000 C2b.En general, Qu tan satisfecho est
usted con el ambiente que se produce entre
1,000 ,339
las personas que trabajan con usted
(compaeros, colegas)?
D2a. Disfruta usted con el trabajo que
1,000 ,625
realiza?
Extraction Method: Principal Component Analysis.
2. Extraccin de factores o componentes
El procedimiento de extraccin de dimensiones subyacentes vara segn se trabaje con AFC o ACP

1. ACP: mtodo conocido como componentes principales. Genera dimensiones ortogonales


intentando representar la varianza total de las variables empricas

2. AFC: posee diversos mtodos de extraccin


a. Ejes principales o Factor Principal: genera factores ortogonales analizando slo la varianza compartida
(comunalidades)
b. Mxima verosimilitud: es una prueba estadstica. Requiere, por tanto, del supuesto de normalidad. Se basa en una
prueba estadstica de Chi-Cuadrado para testear si el modelo factorial obtenido puede generalizarse a la poblacin
a la que pertenece la muestra. Esta virtud es, al mismo tiempo su principal dficit (atentado a la parsimonia).
c. Mnimos cuadrados no ponderados
d. Factorizacin alfa
e. Factorizacin imagen
2. Extraccin de factores o componentes
Ms all de esta diferencia, los factores o componentes deben ser extrados a partir de un criterio
bsico: explicar la mayor cantidad de varianza (ACP) o de covarianza (AFC) de las variables
analizadas de forma simple, parsimoniosa e interpretable.

Criterios para definir el nmero de factores/componentes:


1. Autovalores: valores que indican la cantidad de varianza explicada por un componente. En el
ACP ellos equivalen a la suma de todas las variables (o sea, de todos los 1 de la diagonal de la
matriz de correlaciones).
Punto de corte convencional para el ACP: quedarse con componentes que tengan un autovalor mayor a 1

2. Porcentaje de varianza explicada por cada componente/factor:


Se obtiene de la divisin de cada autovalor por la varianza total

3. Grfico de sedimentacin
Representacin grfica, complementaria a lo anteriormente dicho (pto. 1)
2. Extraccin de factores o componentes

Total Variance Explained


Extraction Sums of Squared
Initial Eigenvalues Loadings
% of Cumulative % of Cumulati
Component Total Variance % Total Variance ve %
1 3,449 38,323 38,323 3,449 38,323 38,323
2 1,941 21,572 59,895 1,941 21,572 59,895
3 ,864 9,596 69,491
4 ,593 6,586 76,077
5 ,589 6,542 82,619
6 ,531 5,898 88,517
7 ,471 5,234 93,751
8 ,315 3,504 97,255
9 ,247 2,745 100,000
Extraction Method: Principal Component Analysis.
2. Extraccin de factores o componentes