Sunteți pe pagina 1din 11

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE

MÉXICO

ANÁLISIS MULTIVARIADO

CAPÍTULO 3: ANÁLISIS DE FACTORES.

EQUIPO 7
INTEGRANTES:
CARDENAS RAMIREZ JOSE MARIA
GONZÁLEZ PEÑALOZA ERIKA DANIELA
GONZÁLEZ RUIZ JUAN GUILLERMO
NÁJERA LÓPEZ KAREN
SALINAS CASTRO MARIA GUADALUPE

LUNES 13 DE ABRIL DE 2020


RESUMEN 2

El análisis de factores también conocido como análisis factorial, todas sus variables
tienen la misma importancia y son independientes. Tiene un gran número de
variables a las que denomina dimensión
Los objetivos específicos de esta técnica son:
1. Identificar un conjunto de dimensiones o características que se encuentran
latentes dentro de un gran conjunto de variables.
2. Encontrar características que describan a núcleos poblacionales
3. Identificar nuevas variables.
4. Crear datos paras las nuevas variables encontradas.
5. Obtener los mapas de posicionamiento semántico.
El objetivo general, por ejemplo, seria, sintetizar conceptos globales a partir de
temas o aspectos económicos.
Los objetivos específicos deberán ser por lo menos dé y cada uno englobara al
menos dos preguntas
PASOS GENERALES PARA LLEVAR A CABO UNNANALISIS DE FACTORES

Diseño de análisis de factores.


Análisis de factores de tipo-R:
¿Qué se desea agrupar? – Variables- Si en la base de datos se tiene en las
columnas variables y en los renglones personas.
Si se desea identificar un conjunto de dimensiones que están latentes dentro de un
gran nuero de variables, con el fin de agruparlas para describirlas en un menor
número de dimensiones.
Análisis de factores de tipo-Q:
¿Qué se desea agrupar? – personas – si en la base de datos se tiene en las
columnas variables y en los renglones personas
Se utiliza cuando se desea encontrar características que describan a núcleos
poblacionales
Análisis de factores de tipo-P:
¿Qué se desea agrupar? – Variables – si en la base de datos se tiene en las
columnas variables y en los renglones periodos o lugares
Este agrupa variables, pero a diferencia del R, las mediciones están identificadas a
través de renglones o del tiempo
Análisis de factores de tipo-O:
¿Qué se desea agrupar? – periodos – si en la base de datos se tiene en las
columnas variables y en los renglones periodos o lugares.

LUNES 13 DE Análisis de factores. 1


ABRIL DE 2020
RESUMEN 2

No agrupa a las variables, si no a las regiones o épocas por lo que en los renglones
no se pone la información de los n años de una región que se pretende analizar,
sino la información de cada país
Análisis de factores de tipo-S:
¿Qué se desea agrupar? – personas – los renglones son las épocas o fechas y las
columnas corresponden a las personas.
Agrupa a personas a las cuales se les realiza una medición y se le da seguimiento a
lo largo de cierto tiempo
Análisis de factores de tipo-T:
¿Qué se desea agrupar? – periodos- si en la base de datos se tiene en las
columnas personas y en los renglones periodos o lugares.
Agrupa regiones o épocas que identifican a grupos de personas por haber analizado
sus características a lo largo del cierto tempo

Estandarización o tipificación de las variables


Una vez almacenada la información es recomendable estandarizar las variables
(también se puede hacer con matriz varianzas y covarianzas)

Generar la matriz correlación


Es necesario obtener las varianzas y covarianzas de las variables y después
encontrar las correlaciones, pero si las variables se encuentran estandarizadas no
es necesario este paso.

Matriz correlación.
Proporciona una medida de relación entre las variables de interés
comparándolas por parejas. Debe de existir cero grados de relación entre los
grupos de las variables
La matriz de correlación muestra cuales variables posiblemente quedaran
agrupadas en el mismo factor y cuales posiblemente no lo hagan.
Sirve para cuando las variables se identifican con más de un factor o
característica y se tiene que deslindar para que cada variable se relaciones
con un solo factor

Determinante de la matriz correlación.


Oscila entre 0 y 1
0 ≤|R|≤1
|R|: determinante de la matriz de correlación
Si el valor del determinante es cercano a cero indica analizar el problema mediante
analisis de factores, pero si se acerca a 1 muestra que el análisis no se debe de
llevar a cabo.

LUNES 13 DE Análisis de factores. 2


ABRIL DE 2020
RESUMEN 2

Prueba de contraste de esfericidad de Bartlett.


1
[ ]
X 2C =− n−1− ( 2m+5 ) ln ⁡∨ R∨¿
6

Grados de libertad= 0.5(n2 −n ¿


Donde
m= es el número de variables
n= es el número de datos
|R|= es el determinante de la matriz de correlación

Análisis de suficiencia general o Káiser-Meyer-Olkin.


Una vez que se rechazó la hipótesis nula se realiza el análisis de suficiencia de la
técnica de análisis de factores, tanto global como para cada variable.
La medida de suficiencia o adecuación del muestreo general o KMO es una medida
global que indica si se llevara a cabo el análisis de factores, que tan fuerte y
adecuada seria la posible solución a encontrar; mientras más grande es este valor la
solución es más fuerte, lo óptimo es que sea: MASg≥ 0.5

∑ ∑ r 2 jk
h≠ j
KMO= 2 2
∑∑r jh+∑ ∑ a jh
h≠ j h≠ j

o   Propósito de la técnica en el análisis de datos


resumir la información para describirla más fácilmente, se reducen las
dimensiones o variables. Esta técnica exige que la mayoría de las
variables sea independiente en cierto grado y métricas o medidas en
escala de intervalo o razón.
o   En que consiste esta técnica.
De un gran conjunto de variables busca aquellas que estén muy
relacionadas o correlacionadas y las une para formar una nueva
dimensión llamados puntajes o puntuaciones.
o   Etapas que tienen estas pruebas

o   Hipótesis que deben considerar esta técnica.


H 0 :|R|=I ; no se debe utilizar la tecnica de analisis de factores para
resumir lainformacion de labase de datos
H a :|R|≠ I ; si se puede emplear latecnica de analisis de factores para
resumir la informacion de la base de datos
Donde
|R| es el determinante de la matriz de correlación
I= matriz identidad

 Pruebas estadísticas que deben ser consideradas


Prueba de Bartlett
LUNES 13 DE Análisis de factores. 3
ABRIL DE 2020
RESUMEN 2

o ¿Qué criterios se deben considerar para diferenciar el uso de los


diferentes criterios de esta técnica?
o ¿Qué tipo de variables se deben considerar para esta técnica?
o ¿Qué diferencia existe entre un Análisis Factorial y un Análisis de
Componentes Principales? (Importante diferenciar este concepto) En
caso de no venga en la explicación del capítulo del libro deberán
buscarlo en otro sitio de Internet.

Análisis de adecuación individual.


Después del análisis global se debe analizar cada variable, a través de la anti-
imagen de la matriz de correlación, matriz formada por el valor negativo de la
correlación parcial y la diagonal de dicha matriz. Es resultado es una medida
conocida como MASi, el resto son correlaciones parciales.
Las correlaciones parciales con valores muy grandes indican que los datos de la
variable no son adecuados y no debe estar en el análisis, i.e. fuera de la diagonal de
la matriz anti-imagen no debe haber valores grandes, sin en cambio los valores del
MASi deben ser valores grandes.
 Si MASi ≥ 0.5, se ve la matriz anti-imagen.
 Si MASi < 0.5, la variable deberá ser eliminada el estudio.
Si existieran más de un valor < 0.5, primero se saca del análisis el que
tenga el menor MASi, luego se vuelve a realizar el análisis para
determinar si se repite este caso, y así sucesivamente hasta que todas las
variables queden con valores ≥ 0.5.

Cuando ninguna variable es < 0.5, se procede a obtener la adecuación individual


con la fórmula:

∑ r2 jh
h≠ j
MASi= 2 2
∑r j +∑ a jh
h
h≠ j h≠ j

Seleccionar el modelo de factores.


 La técnica de factores: puede utilizarse en un análisis confirmatorio o
exploratorio.
 El modelo de componentes principales: solo se usa para confirmar una teoría
o hipótesis previamente establecida (confirmatorio).
 El modelo de factores común: es un análisis de tipo exploratorio, se desea
estudiar dentro del conjunto de datos.
 Centroide: método utilizado cuando no se tenía un software.
 Máxima verosimilitud: obtiene factores que explican tanta var como sea
posible en la matriz de correlación de la población.
 Ejes principales: no tiene unos en la diagonal de la matriz de correlación, las
comunalidades son estimadas.
LUNES 13 DE Análisis de factores. 4
ABRIL DE 2020
RESUMEN 2

Busca aspectos comunes entre variables para agruparlas:


Var ( total ) =Var ( común ) +Var ( específica ) +Var (aleatoria)
Var ( total ) :indica variación o dispersión de la v .Cuandos las v . estanestandarizadas .
Var ( común ) : variacion que hace parecidas alas v . y es lo que lasune .
Var ( específica ) :la que hace diferente y unica a las v . por lo que dicha variacion separa a las v .
Var ( aleatoria ) :representa el error , al no poder calcularse se considera como min . su efecto .

Componentes principales.
el modelo asume que la Var ( específica ) es tan pequeña que se considera 0, lo mismo
sucede con la Var ( aleatoria ), por lo tanto: Var ( total ) =Var ( común ) . Significa que el
máximo valor que puede tener la Var ( común ) es 1.
Para el análisis de tipo confirmatorio, el factor esta formado de una combinación
lineal de variables originales: F 1 j=U 1 X 1 j +U 2 X 2 j+U 3 X 3 j +…+ A k X kj.
F :el factor 1 de la observacion j .
U :importancio o peso relativo que cada v . estandarizada tiene con respecto al factor encontrado .
X : variable . j: número de la observación . k : número de variable .

Factor común.
Se asume que la Var ( específica ) es importante, se debe calcular y eliminar del
modelo de variación para que el resto intente agrupar a las v.
Var ( total ) −Var ( específica )=Var ( común )

Significa que el valor máximo que puede tener la Var ( común )es < 1, pero si la
Var ( específica ) es 0, entonces puede llegar a valer 1.
Para un análisis de tipo exploratorio se supone que las v. comparten algo que es
común del grupo y una parte de ellas es especifico o propio, esta ultima se elimina y
se trabaja solo con la parte común.
X ij =U 1ij F 1 +U 2 ij F 2+U 3ij F 3 +…+U mij Fm + eij

F : factores comunes .
U :importancia que cada v . estandarizada tiene con respecto al factor encontrado .
X : v . ide laobservacion j .
m: número maximo de factores.
e : factores únicos

Descomposición espectral, singular o única.


una vez que se haya escogido el modelo, se le aplica un procedimiento matemático
llamado descomposición espectral o singular.
Sea A una matriz cuadrada: A−λI.
A :matriz característica .
λ : valores propios ( eigenvalores o eigenvectores ) de la matriz A .
I :matriz identidad .

LUNES 13 DE Análisis de factores. 5


ABRIL DE 2020
RESUMEN 2

Pasos:
1. Se calculan los valores propios de cualquier matriz A, satisfaciendo:
| A−λI |=0. i.e. del Det ( A )=0 y existirá más de un eigenvector,
dependiendo del rango de A. sí A=R, y R es la matriz de correlación
entonces:|R−λI|=0.
Los eigenvalores dependen de las dimensiones de la matriz y del
número de v.
2. Calcular para cada valor propio su vector propio: si v representa los
vectores propios de A, entonces se satisface: ( A−λI ) v=0.
los eigenvectores a extraer serán los que satisfacen: : ( R− λI ) v=0.
El objetivo de la técnica es reducir las v. o dimensiones.

Seleccionar un criterio para determinar qué características deberán estar


presentes en los factores.
Los factores a obtener podrían presentar o no relación entre si. Los factores serán
dependientes o independientes bajo los siguientes criterios:
 Ortogonal: los factores se extraen de tal manera que los ángulos entre ellos
serán de 90°, se habla de una independencia, i.e. los factores tienen una
relación igual a 0.
 Oblicuo: los ejes de los factores pueden tomar cualquier posición y se
obtienen características con cierto grado de relación entre sí, i.e. la relación
entre los factores es diferente a 0.
Relación positiva: cuando los ejes están acercándose para apuntar en una
dirección opuesta.
Relación negativa: si los ejes se están alejando para apuntar a diferente
dirección.

Obtener matriz de factores no rotada.


Es el resultado de la descomposición espectral y muestra los eigenvectores
correspondientes. Cada elemento es llamado carga del factor y casi todas resultan
altas. El primer factor tiene mayor cantidad de información captada de las v. y cada
factor que se agrega a la solución en la matriz no rotada recaba menor información
del conjunto de v.
Establece de manera tentativa en cuantos factores quedaran agrupadas las v.

Conceptos
Carga del factor: es una medida de correlación entre la v. y el factor. A todo el
conjunto de cargas de un solo factor se le llama eigenvector.
Eigenvalor: denomina la cantidad de información que cada uno de los factores capta
del conjunto de v.; se obtiene al elevar al cuadrado cada carga en la matriz no
rotada y se suma cada factor.

LUNES 13 DE Análisis de factores. 6


ABRIL DE 2020
RESUMEN 2

Porcentaje de variación explicada (PVE): relación entre la variación explicada por el


factor con respecto a la variación total (VT) manejada por el conjunto de variables.
λi
PVE i= ∗10
VT
PVE : porcentaje de variación explicada del componente o factor i .
λ i :eigenvalor de la observación i.
VT : variación total o el número de variables en el análisis .
A mayor porcentaje de var el factor capta mayor cantidad de información de las v.
Comunalidad: variación explicada por el conjunto de factores para cada v. mientras
mas se aproxime el valor de la comunalidad a 1, más información se tiene en los
factores de la v.; el valor se obtiene al elevar al cuadrado cada carga de la matriz no
rotada y se le suma cada v.

Criterios para la determinación del número de factores a ser extraídos como


solución inicial.
Los criterios se aplican de acuerdo a la información dentro de la matriz no rotada y
como guía para determinar una primera solución.
A priori: casos donde se desea probar alguna teoría o hipótesis y conoce cuantos
factores se deben tener en la solución. El investigador decide el número de factores
a pedir en base a su hipótesis.
Raíz latente: se toma 2 consideraciones: si los datos no se estandarizan se retienen
los factores cuya raíz característica (variación explicada por cada factor) exceda la
media de las raíces características.
Cuando los datos son estandarizados, el factor retenido es aquel que en la solución
tiene una raíz característica > 1.
Porcentaje de variación explicada acumulada: se considera que n factores deben
manejarse como solución inicial, el porcentaje de variación explicada acumulada se
encuentra ente 60% y 95%.
Screet test: si los factores son importantes tendrán una varianza grande. Se realiza
una gráfica donde el eje x= número del factor, eje y= valores de las var
(eigenvalores).

Obtención de la matriz de factores rotada.


Se genera por computadora y contiene información referente al grado de
explicación de las variables por los factores, pero ahora serán definitivas las que
permitirán determinar la agrupación de las variables en dichos factores, se busca
así una solución final lógica.
Mediante este proceso se ajustan los ejes coordenados con el fin de obtener una
solución más sencilla y con mayor significado teórico. Al rotar los factores las
cargas cambian en virtud de la nueva posición de los ejes, es decir, cambia el
valor de los eigenvalores por cada factor, pero la variación explicada total y las
comunalidades no cambian, a menos que se eliminen o agreguen factores.

LUNES 13 DE Análisis de factores. 7


ABRIL DE 2020
RESUMEN 2

Si el proceso de rotación de factores se lleva a cabo de manera manual es de


muy alta complejidad, por lo tanto, se han creado paquetes computacionales qué
pueden realizar la rotación de factores, pero para ello es necesario especificar a
la computadora el criterio que deberá usar para realizar la rotación.
 
 Criterios para la rotación de factores.
Los métodos de rotación ortogonal son:

 Método varimax. Proviene de que la varianza se maximiza. Se trata de


identificar a un grupo de variables con un solo factor; busca la máxima
simplificación al generar tantos unos y ceros como le es posible en la matriz.
 Método quartimax. Tendrá por objetivo identificar a cada variable con al
menos uno de los factores. Tratando de que las cargas de los factores sean
lo más bajas posible y al menos una lo suficientemente alta para
considerarse significativa.
 Método equamax. Es una solución intermedia entre las anteriores, la
simplificación se hace por renglón o por columna indistintamente en la matriz
de factores.

Los métodos de rotación oblicua son:

 Método oblimin directo. Se Apoya en la simplificación de los pesos factoriales


sobre los factores primarios y no sobre los ejes de referencia.
 Método promax. Es un criterio del método varimax donde se permite a los
factores relacionarse. 
 Método quartimin. Parte de una hipótesis donde cierto grupo de variables van
a identificarse con un factor. Cada grupo de variables tendría una carga
cercana a 0 en todos los ejes de frecuencia menos en 1.

Los métodos oblicuos pueden tener los siguientes problemas:

1. La suma de los cuadrados de las cargas factoriales los suele ser igual a la
comunalidad. En consecuencia, las cargas oblicuas no indican la proporción
de varianza para cada variable explicada por los factores.
2. Las correlaciones originales entre variables no pueden ser reproducidas a
partir de los productos de las cargas factoriales.
3. Se debe tener cuidado en la explicación de los factores, ya que dos factores
pueden estar superpuestos, lo que traería confusión al tratar de distinguirlos o
interpretarlos.

Una vez generada la matriz rotada es necesario identificar las cargas significativas y
con ello con qué factor se ha identificado cada una de las variables.
 
Criterio para la identificación de cargas significativas.
Se requiere conocer el tamaño de la muestra, ya que conforme va aumentando se
tiene una mayor credibilidad o confianza en la información y por lo tanto se puede
manejar un límite cada vez menor en la carga de factor, para considerarla
significativa. Por el contrario, al manejar un nivel de significancia menor se es más
LUNES 13 DE Análisis de factores. 8
ABRIL DE 2020
RESUMEN 2

estricto con la confiabilidad del factor, por lo tanto, qué manejará un límite cada vez
mayor en la carga del factor para considerarla significativa.
Los criterios para identificar cargas significativas son los siguientes:

1.    Cuando el tamaño de la muestra se encuentra entre 50 y 100:


Carga altamente significativa es de  0.5 en adelante (prioridad 1).
Carga significativa, entre  0.4 a  0.5 (prioridad 2).
Carga significativa, entre  0.3 a  0.4 (prioridad 3).
Si la carga se encuentra entre -.03 y 0.3, esto es si la carga es menor a  0.3,
se considera que no es carga significativa (prioridad 4).

2.    Cuando el tamaño de la muestra se encuentra entre 100 y 200:


Para un alfa igual a 5%, la carga significativa es de es de  0.19 en adelante,
siempre que se hayan aplicado primero las prioridades 1,2 y 3 del apartado
anterior. Una carga menor a  0.19 ya no se considera significativa.

3.   Para un alfa igual 1%, la carga significativa es  0.26 en adelante, habiendo
aplicado primero las prioridades del inciso 1.

4. Cuando el tamaño de muestra se encuentra entre 200 300:


Para un alfa igual a 5%, la carga significativa es  0.14 en adelante.
Para un alfa igual a 1%, la carga significativa es  0.18 en adelante.

5.    Cuando el tamaño de muestra es mayor o igual a 300:

Para un alfa igual a 5%, la carga significativa es  0.11 en adelante.


Para un alfa igual a 1%, la carga significativa es  0.15 en adelante.

El objetivo de estos criterios es identificar la variable con solo un factor y por eso se
establecen las prioridades. Si existe una variable que no tenga carga significativa,
es decir, que no se haya identificado con ningún factor puede deberse a que esta
tiene una variación especifica muy alta y es muy particular.
Cuando esto sucede se tienen dos alternativas de acción:

1. Se deja la solución tal cual, sin agrupar a esa variable y así se realiza el
análisis.
2. Se elimina del banco de datos y se vuelve a correr de nuevo la solución.

 
Obtención de puntajes de factores.
Se llama puntajes a los datos con los que se manejaría cada factor como variable.
Los puntajes se pueden obtener a través de 3 enfoques:
Preciso.
Existen tres criterios para obtener coeficientes estandarizados que forman
ecuaciones lineales para la extracción de los puntajes, los cuales son:

 Regresión

LUNES 13 DE Análisis de factores. 9


ABRIL DE 2020
RESUMEN 2

 Aanderson-Rubin y
 Barlett

En estas, las variables se involucran y consisten en obtener los respectivos puntajes


al sustituir los datos estandarizados en la ecuación que defina al factor. Dicha
ecuación está formada por una combinación lineal de las variables que se manejan
en la investigación.
El método largo o preciso consiste en sustituir en una ecuación obtenida a partir de
la matriz de coeficientes estandarizados, los datos estandarizados de cada persona;
se debe recordar que la ecuación de componentes principales es:

F ij=U 1 X ij +∙ ∙∙+U I X IJ

Aproximado.
También se le denomina corto; consiste en utilizar como puntajes los datos
originales de la variable que se haya identificado más con el factor, para esto es
necesario volver a la matriz rotada y encontrar la variable que tenga mayor carga,
pero por factor.
Promedio.
Consiste en utilizar como puntajes los promedios de las variables que se agruparon
con cada factor.
 
Análisis posteriores.
El análisis de factores es una técnica útil si se tiene un gran número de variables,
las cuales se pueden resumir en pocos factores o componentes.
En factores se obtienen nuevas variables que se pueden explicar con más éxito
alguna estructura que pueden ser utilizadas en el análisis de regresión múltiple, en
el análisis discriminante, etc.

LUNES 13 DE Análisis de factores. 10


ABRIL DE 2020

S-ar putea să vă placă și