Sunteți pe pagina 1din 11

V Principal Components and Factor Analysis

Anlisis de Factores, incluidos el Anlisis de los Componentes Principales y el Anlisis de Factores Comunes, es una tcnica estadstica que se utiliza para analizar las interrelaciones entre un amplio nmero de variables para poder explicarlas en trminos de sus dimensiones comunes que se encuentran implcitas (factores). El objetivo es encontrar una forma de condensar la informacin contenida en un nmero de variables originales en un set de variables ms pequeo con la mnima prdida de informacin. El mundo de los mtodos de Anlisis de Factores es muy grande y podemos encontrar muchas variaciones dentro de l. Las tcnicas pueden alcanzar sus objetivos ya sea de una forma exploratoria o confirmatoria y hay una larga discusin respeto a estos usos. Podemos utilizar la tcnica para la reduccin de informacin (exploratorio) sin definiciones a priori respecto a los componentes o el nmero de componentes a ser extrados. En otras ocasiones el investigador tiene ideas preconcebidas sobre la estructura de los datos basadas en teoras o informacin a priori, en ese caso, la tcnica se utilizar desde un enfoque confirmatorio o en qu medida los datos cumplen con la estructura esperada. Consideraremos entonces este ltimo criterio como la primera caracterstica para diferenciar entre Principal Components y Factor Analysis con objetivos exploratorios, el primero y confirmatorios en el caso del anlisis de factores. La varianza de las variables involucradas en un anlisis la podemos descomponer en tres partes: varianza comn, especfica y error. La varianza comn es aquella compartida con otras variables involucradas en el anlisis, la comunalidad de una variable es una estimacin de esa varianza compartida. La varianza especfica o nica es aquella asociada slo con una variable y que no puede ser explicada por su correlacin con otras variables. La varianza de error es aquella que tampoco puede ser explicada por la correlacin con otras variables, pero que se debe a problemas de confiabilidad, medidas o componentes al azar cuando se mide un fenmeno. Teniendo en cuenta la forma en que la varianza de una variable puede ser explicada o descompuesta es que podemos hacer la segunda distincin entre al anlisis de factores y componentes principales. Bsicamente, la seleccin entre ambos mtodos va a depender de los objetivos de la investigacin y de la cantidad de conocimiento a priori sobre la varianza en las variables. Anlisis de Componentes es usado cuando el objetivo es resumir la mayora de la varianza o informacin original en un mnimo de factores con propsitos predictivos. El anlisis de Factor comn, por otra parte, es usado principalmente para identificar factores implcitos o dimensiones que reflejen lo que las variables comparten. La forma ms directa de comparacin de ambos mtodos es por su uso de varianza explicada versus no explicada: Principal Component Analysis considera la varianza total y factores derivados que contienen pequeas proporciones de varianza nica y, en algunos casos, varianza de error. En este anlisis, son las unidades (valores de 1.0) las que son insertadas en la

diagonal de la matriz de correlaciones, por lo que la varianza total es puesta en la matriz de factores. Anlisis de Factor Comn, por el contrario, considera slo lo comn o la varianza compartida asumiendo que tanto la varianza nica como el error no son de inters para definir la estructura de las variables. En este anlisis, comunalidades (en vez de unidades) son insertadas en la diagonal. As, los factores resultantes desde este anlisis estn basados slo en la varianza comn.

PCA es el anlisis adecuado cuando la reduccin de datos es el objetivo principal concentrndose en un mnimo de factores (llamados componentes) para representar la mxima varianza total del set de variables original. Junto a esto, el conocimiento a priori sugiere que la varianza nica y el error representan una proporcin relativamente pequea de la varianza total. CFA es el anlisis adecuado cuando el objetivo principal es identificar dimensiones latentes o constructos representados por las variables originales. El investigador adems no tiene conocimiento suficiente sobre la cantidad de varianza especfica y error presente en las variables por lo que prefiere no considerarlas en el anlisis. La discusin respecto a la preferencia de un procedimiento sobre otro es extensa. Hay quienes sostienen que el CFA es un modelo mucho ms slido y se rehsan a compararlo con PCA (profe). El argumento es que PCA adems de tener un carcter exploratorio, es decir, no tienen teora que lo sustente, es un modelo geomtrico y no estadstico como CFA que incluye el clculo del error y se sustenta en teora a ser comprobada de forma emprica. Ambos procedimientos son adecuados para trabajar con variables mtricas y al igual que las otras tcnicas analizadas requieren de ciertas condiciones o supuestos para ser ejecutados: normalidad, linealidad, homocedasticidad y homogeneidad en la muestra, aunque en este caso estas condiciones se observan slo en la medida que pudieran afectar la correlacin entre las variables analizadas. De hecho, la multicolinealidad en este caso es deseada. De todas formas, el requerimiento ms importante es el supuesto de que existe una estructura implcita en el set de variables seleccionadas y la preocupacin del investigador se centra tanto en las cualidades estadsticas de las variables como en su composicin y caractersticas. Una primera etapa incluye una inspeccin de los datos por parte del investigador para asegurarse de que estos estn efectivamente correlacionados. Si la inspeccin visual no arroja correlaciones mayores a .30, estos anlisis no sern entonces los ms adecuados. Si es as, el paso siguiente ser definir cul de los dos procedimientos se utilizar dependiendo si el anlisis ser exploratorio y se centrar en la varianza total (PFA) o confirmatorio (profe) y centrado en la varianza comn (CFA). Lo siguiente ser definir un modelo de rotacin si es que se pretende que los factores sean ortogonales o no correlacionados (VARIMAX, EQUIMAX, QUARTIMAX) u oblicuos o correlacionados (OBLIMIN, PROMAX, ORTHOBLIQUE).

Va. Principal Components Explicacin


Cuando el investigador se encuentra frente a una serie de indicadores (tems, observaciones, preguntas en un cuestionario, etc.) que se encuentran altamente correlacionadas y, por tanto, que representan a una misma dimensin, podemos afirmar que tienen una gran carga en la variable relacionada. En este contexto, entenderemos un factor como un concepto madre que nos entrega un resumen de un subgrupo de indicadores que miden en gran medida lo mismo. En PCA no hablamos de factores sino de componentes. A partir del anlisis aparecern tantos componentes como variables involucradas aunque luego se compruebe que no todos ellos son necesarios. Para realizar este anlisis, en primer lugar estandarizaremos las variables involucradas. El objetivo es encontrar una combinacin lineal entre las variables de tal forma que las varianzas sean maximizadas. Cada una de estas combinaciones ser un componente o factor (C). Buscaremos otros componentes o lneas, siempre perpendiculares y siempre procurando esta maximizacin de las varianzas o dispersiones. La recta o ecuacin es, para el primer componente, C1=u11z1+u12z2+u13z3, o lo que es lo mismo z1=a11C1+a12C2+a13C3 ( X1= a11C1+a12C2+a13C3) Mediante esta tcnica se busca reducir la multiplicidad en una unidad identificando estructuras latentes o escondidas. Desarrolla tipologas de acurdo a las variables y examina si las variables pueden ser reducidas a una dimensin y si es as poder construir un ndice uni-dimensional o escala. Adems, nos permite ortogonalizar los predictores en una matriz de variables independientes en un anlisis de regresin mltiple con multicolinealidad sustancial. Especficamente, los objetivos de esta tcnica son: - Encontrar tantos componentes como variables originales de una forma en que sean ortogonales y secuencialmente extraigan la mxima varianza de las variables. Esto se logra examinando la estructura eigen de los datos o de su matriz de correlaciones. - Reducir el nmero de dimensiones examinando qu variables tienen mayor carga en cada uno de los componentes. Esto se logra observando la matriz de componentes de carga a al igual que a travs del clculo de la redundancia de cada componente. - Rotar los componentes en un nuevo espacio que pueda ofrecer una estructura an ms simple y mejor interpretacin en trminos de contenido. As, PCA busca un mximo, ya que el primer componente tiene que extraer la mxima varianza de un set de variables y cada componente siguiente, un mximo de la varianza restante bajo la restriccin de ortogonalidad. Estos problemas de maximizacin, tal como en Discriminant Analysis, se realizan a travs de los autovalores (eigenstructure). En DA un autovalor mximo fue calculado para encontrar los coeficientes k, esto a travs de la maximizacin del radio Between/Within. En el caso de PFA, la maximizacin debe hacerse en la matriz de correlaciones. En el caso de DA se calculaban tantos autovalores o eigenvalues como funciones discriminantes fueran necesarias. En el actual anlisis tambin calcularemos tantos autovalores como componentes se quieran encontrar (con ellos los eigenvectors o cosenos de los ngulos formados por ejes de los componentes). Habiendo calculado los autovalores y los vectores (factor score coefficient matrix), podemos definir los valores o puntajes de cada uno de los componentes a partir de las variables originales. Las varianzas de cada uno de los componentes ser igual a los eigenvalues. El primer componente

tendr el autovalor ms alto. La suma de los autovalores es igual a la suma de la varianza de las tres variables originales (estandarizadas), es decir, los componentes extraen toda la varianza de las variables. Los puntajes de los componentes tambin pueden ser estandarizados (as los encontraremos en el output de SPSS). Las cargas en los componentes son los coeficientes a cuando z1=a11C1+a12C2+a13C3. As, las cargas de los componentes son equivalentes a los coeficientes de regresin. La matriz con estos coeficientes es llamada Factor Pattern. Sin embargo en PCA, donde las variable estn estandarizadas y los componentes son ortogonales, estos coeficientes a son iguales a los coeficientes de correlacin. La matriz de correlaciones entre los componentes y las variables es llamada Factor Structure. En el caso de PCA, por lo tanto, factor pattern y Factor Structure son iguales. Para el clculo de los coeficientes a tambin necesitaremos la matriz de eigenvalues y eigenvectors. Al observar estos coeficientes podremos identificar que variable tiene mayor peso en cada componente. Cuando los coeficientes son bajos en un componente es que podemos tomar la decisin de dejar ese componente fuera del modelo ya que es redundante. Lo que obtenemos luego de estos clculos (considerando tres variables en el anlisis) ser una tabla como la siguiente: Componentes Variables X1 X2 X3 Eigenvalues % varianza explicada % acumulado C1 ,977 ,162 -,981 1,945 64,8 64,8 C2 -,105 ,987 ,058 0,988 32,9 97,8 C3 ,183 ,009 ,184 0,067 2,2 100

(lo encerrado en el cuadro ms oscuro es la Factor Structure o A) Vemos que para la variable X1, por ejemplo, su mayor carga est en el primer componente (0,977) mientras para X2 est en C2 (0,987). Sabemos que estos coeficientes a son equivalentes a los coeficientes de correlacin, por lo tanto, podemos interpretarlos al cuadrado como la proporcin de varianza explicada. As, el 96% (-0,9772=0,955) de la varianza de X1 es explicada por C1, un 1% por C2 y un 3% por C3. La suma de estos porcentajes es 100% ya que la totalidad de la dispersin de X1 puede ser explicada por los componentes en conjunto. Esto es lo que llamamos comunalidad1 que en PCA es siempre igual a 1 (cuya lgica asume que es posible explicar el 100% de la varianza observada). La suma de los coeficientes al cuadrado a travs de las columnas, es igual al eigenvalue de cada componente o la suma de la proporcin de las varianzas de las tres variables que es explicada por cada componente. Es por eso, que en este ejemplo C1 es el componente que explica la mayor proporcin de varianza de las variables ya que es el que tiene mayor capacidad de rastrear la varianza comn de las variables originales. Esto lo podemos confirmar a travs de la varianza explicada (1,945/3=64,8) ya que el primer componente ha sido el que ha extrado mayor cantidad de la varianza de las tres variables tomadas en conjunto. As, es posible afirmar que si C1 y C2 explican un 97,8% de la varianza de las variables, el tercer componente C3 (que slo aporta un 2,2%) resulta redundante.
1

Proporcin de la varianza de una variable que puede ser explicada por el modelo factorial obtenido.

Para definir cuntos componentes deben ser considerados existen diferentes criterios. El ms simple y conocido criterio es el de Kaiser por el cual se retienen slo aquellos componentes cuyo eigenvalue es mayor a 1 (criterio por defecto en SPSS). Otro criterio es Cattells Scree Test por el cual el nmero de componentes se define visualmente a travs de un grfico (patrn del codo). Ninguno de estos criterios es definitivo y la decisin queda ms bien en manos del investigador. Para definir la pertinencia del anlisis es que Barlett propuso un enfoque inferencial al contrastar mediante chi-cuadrado la H nula de que las variables en la poblacin no estn correlacionadas. Si esta hiptesis nula no es rechazada, entonces PCA no debera ser realizado porque el espacio original no puede ser reducido. Otro criterio para analizar la pertinencia de PCA es el anlisis de las correlaciones parciales entre cada par de variables controlando las dems. Si estas correlaciones parciales son muy altas, entonces una reduccin del espacio tampoco es viable. Esta matriz de correlaciones las entrega SPSS es la llamada Matriz de Correlaciones Anti-Imagen.

Hasta este punto hemos logrado reducir un nmero de variables correlacionadas en un nmero menor de componentes ortogonales entre ellos. El paso siguiente es (de ser necesaria) la rotacin de los componentes para dar con una estructura ms simple y mejor en trminos de interpretacin. Esto, ya que generalmente lo que encontraremos en la prctica ser que los componentes no se ajustan de la mejor forma a los clusters formado por las variables, es decir, no nos proporcionan directamente una solucin simple como la analizada en la tabla anterior en la que era fcil de identificar la importancia de las cargas en cada componente. Para este efecto tenemos dos formas de realizar la rotacin: ortogonal y oblicua. Rotacin Ortogonal: se refiere al procedimiento en que los componentes son rotados de tal forma que continan siendo perpendiculares tal como fueron concebidos originalmente. Ejemplos de rotacin ortogonal son VARIMAX, QUARTIMAX y EQUIMAX. Los objetivos de estas tcnicas son reducir la matriz de coeficientes de carga en una estructura ms simple. Varimax simplifica las columnas, quartimax las filas y equimax ambas. La proporcin de varianza explicada (eigenvalues relativos) es distribuida de forma diferente a travs de los componentes luego de la rotacin. Antes de la rotacin, el primer componente tiene el mayor autovalor por definicin. Luego de la rotacin, puede haber otro componente que explique mayormente la varianza. La suma de los autovalores, sin embargo, ser la misma, ya que la misma cantidad de varianza sigue siendo explicada. Rotacin Oblicua: luego de haber realizado una rotacin ortogonal, se debera examinar si una rotacin oblicua proporciona una mejor solucin. Esto, ya que puede ser que los clusters de las variables no estn situados en forma perpendicular. Si el investigador opta por esta tcnica, deber enfrentar a un nmero de problemas de gran complejidad. En primer lugar, como los componentes ya no son perpendiculares y estn correlacionados habr una matriz extra de correlaciones entre estos componentes. Segundo, tal como se mencion, en el caso de componentes ortogonales, coeficientes a y correlaciones eran iguales, en la rotacin oblicua este no es el caso. Adems, la comunalidad de las variables ya no puede ser calculada como la suma de las cargas al cuadrado en la fila de una matriz, y la proporcin de varianza explicada de un componente ya no puede ser obtenida de la suma de las cargas en una columna. Recomendacin: hacer primero la rotacin ortogonal y luego comparar los resultados rotando los componentes de forma oblicua.

Output en SPSS
Para poder realizar PCA en SPSS se debe seguir la ruta Analizar-Reduccin de Datos-Anlisis Factorial. Se seleccionan las variables. En Descriptivos seleccionamos todas las opciones. En Extraccin, encontraremos que por defecto el nmero de factores est definido por los autovalores mayores a 1 (criterio Kaiser), se puede mantener este criterio o definir el nmero de componentes que se quiere obtener. Seleccionar grfico de sedimentacin. En este cuadro, PCA y solucin sin rotar viene por defecto. Cliquear en Puntuaciones. Seleccionar la opcin para guardar las variables (esto generar los nuevos componentes como variables ms en la vista de variables). El mtodo por Regresin est seleccionado, agregar Mostrar Matriz de puntuaciones. Ejecutar el anlisis. En los primeros cuadros encontraremos los estadsticos descriptivos y la matriz de correlaciones de las variables involucradas. El determinante que aparece en la nota al pie de la tabla nos indica si las variables estn linealmente relacionadas. Valores prximos a cero indican esta condicin y que es pertinente, por tanto, realizar PCA. La matriz de correlaciones inversa es la base para el clculo de las comunalidades iniciales y para el clculo de la matriz anti-imagen.

A continuacin vemos la medida de KMO y la prueba de Bartlett para la pertinencia del anlisis. KMO va entre 0 y 1, valores pequeos indican que el PCA puede no ser una buena idea dado que las correlaciones entre las variables no pueden ser explicadas por otras variables (analiza las correlaciones parciales). Bartlett contrasta la H nula antes mencionada de las correlaciones entre las variables a nivel poblacional (el sig. debe ser menor a 0,05 para poder rechazar la Ho) Luego las matrices de covarianza y correlaciones anti-imagen muestra la correlacin parcial y la covarianza parcial con los signos cambiados, si estas correlaciones parciales son muy altas, entonces PCA no es el anlisis ms indicado ya altas correlaciones parciales implica que ese par de variables excluye a las otras variables en de su explicacin.

Luego nos encontraremos con las Comunalidades o la proporcin de la varianza de una variable que puede ser explicada por el modelo factorial obtenido. Estudiando las comunalidades de la extraccin podemos valorar cules variables son las peores explicadas por el modelo. La tabla incluye las comunalidades asignadas originalmente a la variable (inicial) y las comunalidades reproducidas para la solucin factorial.

La siguiente tabla Varianza total explicada muestra cada uno de los componentes con su autovalor correspondiente o la cantidad de varianza total que est explicada por cada uno de ellos. A travs de esta informacin podemos decidir cuntos factores se considerarn.

En la tabla siguiente se encuentra la solucin factorial como tal. Contiene las correlaciones entre las variables originales y cada uno de los factores. Comparando los valores en cada uno de los componentes podemos ver qu variables constituyen los componentes. Como estos son perpendiculares entre s, las variables se cargan en un solo componente.

La matriz reproducida es la matriz de correlaciones que se obtiene a partir de la solucin factorial hallada. Si el modelo es bueno y el nmero de factores adecuado, la estructura factorial debe ser capaz de reproducir la matriz de correlaciones. En la diagonal de esta matriz se encuentran las comunalidades finales. Junto a esta matriz, se muestra la matriz de correlaciones residuales la cual contiene los residuos o diferencias entre las correlaciones observadas y las correlaciones

reproducidas. Si el modelo es correcto, el nmero de residuos con valores elevados debera ser mnimo.

La tabla siguiente muestra los coeficientes que se utilizan para el clculo de las puntuaciones de los componentes o matriz de eigenvectors.

El grfico de sedimentacin ser el que tambin nos permitir tomar una decisin respecto al nmero de componentes a incluir. Un criterio puede ser usar el punto de inflexin como lmite (arriba y abajo del codo con codo incluido).

Va. Common Factor Analysis


En PCA buscamos tantos componentes como variables originales de forma tal que los componentes fueran perpendiculares y secuencialmente extrajeran la mayor cantidad de varianza de stas. Cada componente deba representar a un grupo de variables fuertemente interrelacionadas con altas cargas en sus componentes. El problema surge cuando pese a la reduccin (incluso despus de la rotacin) las variables se cargan en slo un componente. Este componente en el que slo una o muy pocas variables son representadas no es indicativo de la parte comn de las variables sino ms bien en la parte nica (recordando que la varianza de las variables se puede descomponer en: varianza comn, especfica y error). El objetivo de CFA es la varianza comn. En CFA buscamos factores (ya no componentes) que sean ortogonales y que secuencialmente extraigan una varianza mxima de las variables, pero queremos que estos factores representes la parte comn de las variables involucradas. Por eso, en CFA no encontramos tantos factores como variables ya que la reduccin est incluida en el anlisis desde un principio (al menos que la data no presente multicolinelidad). El elemento distintivo en CFA es que trae al anlisis esta descomposicin de las varianzas d la siguiente forma: una parte la varianza comn - que puede ser explicada (F) y otra parte la varianza nica (que a su vez puede ser descompuesta en varianza especfica y error) que no puede ser explicada - o error (E). Las ecuaciones ahora son expresadas como un sistema de combinacin lineal de los factores, ms la parte no explicada X= a11F1+a12F2+a13F3+E1

El modelo est condicionado a algunos supuestos. Primero, los factores nicos E estn mutuamente no correlacionados. Luego, la varianza nica y la comn tambin deben estar sin correlacin. La matriz de correlaciones R que tiene las comunalidades (h2) en su diagonal (1 en el caso de PCA) en CFA tiene 1 menos la parte nica, es decir, solamente la varianza comn de cada variable y la llamaremos Matriz de Correlaciones Reducidas R. Dado que estas comunalidades no se conocen si no que son estimadas, se utiliza a menudo el coeficiente de correlacin mltiple de cada una de las variables con el resto al cuadrado (coeficiente de determinacin mltiple) como una primera apuesta (para determinarlo se realiza una regresin mltiple de cada variable como funcin del resto de las involucradas). El procedimiento ahora es el mismo que en PCA y obtendremos los eigenvectors y los eigenvalues. La interpretacin es la misma aunque teniendo siempre en consideracin la distincin entre varianza comn y nica que en PCA es imposible de distinguir.

Output en SPSS
CFA es llamado Principal Axis Factoring en SPSS. Las estadsticas univariadas, la matriz de correlaciones y su inversa, la matriz de correlaciones anti-imagen, el grfico de eigenvalues as como las puntuaciones de los factores no es solicitada ahora. La rotacin, al igual que en PCA, es opcional dependiendo de los resultados.

S-ar putea să vă placă și