Denominacin genrica para serie de procedimientos de anlisis multivariables que analizan la relacin mutua (interdependencia) entre variables. Tcnica que rene a una serie de procedimientos analticos que tienen como objetivo comn sintetizar informacin de variables empricas en un nmero inferior de variables latentes. - objetivo principal: agrupar informacin (variables) en funcin de la variabilidad que cada variable comparte con otras. (1, exploratorio) Conocer la estructura de relaciones de un conjunto de variables; (2, confirmatorio) contrastar hiptesis sobre dimensiones subyacentes a una matriz de datos, Validez de Constructo; (3, descriptivo) describir el patrn de relaciones de un conjunto de variables; (4, parsimonia) reducir informacin. - objetivos especficos: (1) analizar correlacin existente en una serie de variables, con el propsito de descubrir si comparten alguna estructura latente (no directamente observable); (2) obtencin de puntuaciones factoriales a partir de los factores o componentes para ser usadas en anlisis posteriores. - Anlisis de Factor Comn (AFC): considera slo la comunalidad entre las variables varianza comn, la informacin que es comn a todas ellas. Se restringe a la bsqueda de un nmero reducido de factores que expresen lo que es comn al conjunto de variables observadas. - Anlisis de Componentes Principales (ACP): analiza la varianza total del conjunto de variables observadas, incluyendo comunalidad y especificidad. Se diferencian principalmente con el tipo de varianza que consideran para efectuar el procedimiento de extraccin de dimensiones (factores, componentes); se confunden como parte de lo mismo porque utilizan algoritmos de clculo parecidos, y los paquetes de procesamiento computacional ejecutan estas dos modalidades en el mismo programa (FACTOr en spss). - Varianza total: (1) Comunalidad, hace referencia a la variacin que tienen en comn las variables; (2) Especificidad varianza especfica, a la variacin especfica de cada una de las variables, puede descomponerse en unicidad (varianza no compartida por variables) y error (parte de la unicidad que es aleatoria); (3) varianza de error, variabilidad que proviene de la poca fiabilidad en el proceso de recoleccin de datos, error de medicin. Anlisis de componentes principales - Tcnica de anlisis multivariable de interdependencia cuyo objetivo es la bsqueda de combinaciones lineales de las variables observadas, en un numero sustancialmente menor de variables latentes (no observadas). - Extrae tantos componentes como variables observadas. Carcter jerrquico, los primeros componentes se caracterizan por extraer la mayor proporcin de varianza de las variables originales; los ltimos apenas explican variabilidad. - Los componentes extractados son ortogonales (independientes o no correlacionados entre s), lo que permite que efectivamente den cuenta de dimensiones diferentes en los datos.
Modelos Reductivos (interdependencia)
- Investigador decide cuntos componentes se seleccionarn para dar cuenta de la varianza total existente en la matriz de datos; se trata de explicar la mayor proporcin de varianza total de las variables observadas con el menor nmero de componentes posibles; bsqueda de parsimonia. - Fases: (1) anlisis previo de los datos, comprobacin de la pertinencia; (2) seleccin procedimiento de extraccin de factores; (3) seleccin nmero de factores; (4) interpretacin matriz factorial. - tamao muestral: al menos 200 casos; al menos 5 casos por variable incluida en el anlisis. 100=pobre, 200=justo, 300=bueno, 500=muy bueno (Comrey). - nivel de medida: intervalares o de razn; pueden utilizarse ordinales (de ms de 5 categoras). - normalidad multivariable: variables y sus combinaciones deben estar distribuidas normalmente. Supuesto no es un requisito bsico para ACP, aunque la asimetra severa puede distorsionar los resultados. - linealidad: las relaciones entre los pares de variables deben ser lineales. - correlacin entre las variables: multicolinealidad no es un problema; se demanda la existencia de alta correlacin entre variables (superior a 0,3), la bsqueda de estructuras latentes slo tiene sentido en la medida que existen variables relacionadas entre s que puedan agruparse para dar cuenta de dimensiones del concepto que se est midiendo. Interpretacin de tablas y coeficientes Condiciones de aplicacin: evaluar correlacin existente, pertinencia realizar ACP. 1) Matriz de Correlaciones: permite evaluar la condicin de aplicacin de suficiente relacin entre variables. Se espera importante cantidad de variables correlacionadas (=>0,3). Estadstico determinante resume informacin, se espera que sea cercano a 0 para dar cuenta de una alta correlacin entre las variables. 2) KMO: compara correlacin observada con parciales (asociaciones entre pares de variables sin considerar influencia del resto de las involucradas en modelo). Mientras ms cercano a 1 (ambos tipos de correlaciones sean similares) existe asociacin entre variables; 0,5= aceptables, 0,7=adecuadas. Esfericidad Bartlett: contrasta hiptesis nula (matriz de correlaciones=matriz de identidad, variables no estn correlacionadas entre s y slo correlacionan con ellas mismas); significacin<0,05 se acepta hiptesis alternativa, ambas matrices difieren significativamente y que matriz de correlaciones no es una matriz de identidad, existen relaciones entre las variables. 3) Comunalidades: valores columna extraccin evidencian la proporcin de la varianza de cada variable que es explicada por el modelo. Se esperan valores> 0,5, o al menos 0,4. Bajo esos valores es indicio de posibilidad de eliminarlas y volver a generar el modelo sin esas variables. Interpretacin del modelo. 4) Varianza total explicada: componentes que poseen autovalor (cantidad de varianza explicada por cada factor) superior a 1 (corte) son los que se esperan analizar, ya que deben explicar la varianza de ms de una variable.
Modelos Reductivos (interdependencia)
ltima columna (rotacin) varianza explicada en %; sumatoria ideal sea superior a 60. 5) Matriz de Componentes Rotados: saturacin de cada variable en los tres componentes extrados. Al solicitar rotacin se analiza esa tabla. Coeficientes se interpretan como estadsticos de correlacin, pudiendo determinar en qu factores saturan las variables. Principal ejercicio de interpretacin sustantiva del modelo, el investigador otorga un nombre a cada uno de los componentes, el que debe ser lo ms autoexplicativo posible. Componentes con valores significativamente altos, por lo menos superiores a 0,3. Componentes positivos (relacin directa), negativos (relacin inversa), bipolares (ambos). Es posible completar la decisin pendiente de las comunalidades (eliminacin de una variable). Si existe una variable que dificulta el ejercicio interpretativo, ya sea porque es la nica que satura en un factor, posee un coeficiente de saturacin menor a 0,3 o conceptualmente no es posible incluirla como integrante de una variable latente, entonces es posible eliminar la variable del modelo.
Modelos Reductivos (interdependencia)
Anlisis de Correspondencias Tcnica de reduccin de dimensiones en el contexto de tablas de contingencia. Representacin grfica de la estructura de relaciones de dos (Simple) o ms (mltiple) variables cualitativas mediante mapas de posicionamiento. - AC representa una superacin de los estadsticos tradicionales porque, adems de entregar informacin respecto de la relacin entre variables, permite conocer la relacin entre categoras. En la interpretacin de los mapas de posicionamiento se seala que dos categoras de variables estn relacionadas cuando stas se encuentran ms cerca que el resto de las categoras. - chi cuadrado, coeficientes de correlacin no paramtrico; entregan informacin respecto del grado y direccin en que se encuentran asociadas ciertas variables; no permiten conocer de qu manera se encuentran relacionadas las distintas categoras de las variables entre s. - objetivos: (1) profundizar en el anlisis de la asociacin entre variables; (2) simplificar informacin de una tabla de contingencia; (3) generar ejes, o factores, de carcter explicativo que resumen la informacin del conjunto de categoras; (4) analizar la estructura de relacin entre categoras; (5) posicionar las categoras de las variables en un mapa perceptual que da cuenta de la inercia entre stas distancia; (6) identificar dimensiones que representen esquemas conceptuales de anlisis; (7) corroborar la relacin de dependencia entre dos o ms variables cualitativas. Representacin grfica de tabla de contingencia en mapa de posicionamiento implica resolver dos operaciones fundamentales: (1) cuantificar las categoras de las variables de modo que puedan traducirse en coordenadas; (2) establecer el origen de los ejes donde se posicionarn las coordenadas de las categoras de las variables. - (1) se logra a partir de los perfiles fila y perfiles columna; son frecuencias relativas de las filas y columnas que entregan coordenadas iniciales para las categoras de las variables. A partir de su posicionamiento en un espacio baricntrico de coordenadas se puede establecer una media ponderada de cada grupo de perfiles (fila, columnas): los centroides. Se habla de que se tratan de medias ponderadas puesto que no est equidistante de todas las categoras de las variables, sino que se encuentra ms cerca de aquellos perfiles con mayor frecuencia; para esta ponderacin se utiliza la masa. Desviacin de los perfiles fila y columna en relacin a su centroide da cuenta de la dispersin de los datos y en anlisis de correspondencia se denomina inercia. - inercia: la media ponderada de los cuadrados de las distancias chi cuadrado entre los perfiles (filas, columnas) y su perfil (fila, columna) medio; ser alta cuando los perfiles presenten grandes desviaciones en relacin a su media, y ser baja cuando se hallen cerca de la media. Entrega informacin acerca de la dispersin de las categoras de las variables en el mapa de posicionamiento; mayores niveles de inercia dan cuenta de mayor asociacin entre las categoras de las variables fila y columna. Ms concentrado al centro de gravedad (perfil medio) no existe asociacin/inercia dbil.
Modelos Reductivos (interdependencia)
- (2) centroide se establece como punto de origen de los ejes de las abscisas y de las ordenadas; ejes se obtienen bajo criterio de que maximicen la explicacin de la inercia (dispersin de los puntos). Se obtienen de forma jerrquica, en funcin de la proporcin de inercia que logran explicar. Ejes ortogonales entre s, cada uno se obtiene con el propsito de explicar la inercia que no es explicada por los dems. Nmero de ejes a obtener es igual al mnimo de categoras menos 1; mapa se construye a partir de los 2 primeros ejes ms explicados. - normalizacin: mecanismo para maximizar la inercia de los datos representados, funciona redistribuyndola entre las filas y columnas. No cambia la cantidad de inercia total ni la inercia asociada a cada eje; afecta a las puntuaciones fila y columna pues opera maximizando las distancias de las categoras filas y/o columnas, segn la seleccin realizada. - tamao muestral: pequeos o grandes, elevado. Carcter descriptivo y no inferencial, no hay tamao mnimo para la tcnica. Se debe respetar condiciones de chi-cuadrado de no existir casillas sin ningn caso (idealmente frecuencias superiores a 5 casos). Si se busca posicionar objetos en la muestra (variables que tienen una frecuencia 1: casos) se recomienda bases pequeas. - nivel de medida: cualitativas, nominales u ordinales. Intervalares recodificadas en nominales u ordinales. Toda variable con un mnimo de 3 categoras de respuestas. - existencia de asociacin entre variables: variables graficadas en el mapa de posicionamiento deben estar relacionadas entre s, se mide mediante estadstico de chi-cuadrado. Interpretacin de tablas y coeficientes 1) Resumen del procesamiento de los casos: da cuenta cantidad de casos con los que el modelo trabar, permite evaluar tamao muestral para anlisis. Evaluar en virtud de variables incluidas, que tabla de contingencia en sus cruces tenga ms de cinco casos, idealmente, en las casillas. -frecuencias para cada variables, aporta informacin descriptiva para efectos de interpretacin. -iteraciones: cantidad que efectu el programa para lograr modelo adecuado, finaliza cuando no es capaz de incrementar la inercia explicada. Importantes para responder problema de investigacin. 2) Resumen del Modelo: muestra capacidad explicativa de cada dimensin; presenta autovalores de cada dimensin. Relevante es la inercia, que da cuenta de dispersin de las categoras de las variables explicada por cada eje o dimensin; se considera como suficiente que cada eje explica al menos un 20% (0,2) de la inercia del modelo. 3) Tablas de puntos de coordenadas (de cada categora en el mapa de correspondencias): con esto se construye el mapa de correspondencias, posicionando a la categora en los valores presentados para cada eje. 4) Medidas de discriminacin: permiten denominar a los ejes en virtud de las variables incluidas en el modelo. En el caso de que las variables presenten valores altos o bajos en un eje, mientras que en el otro tengan un
Modelos Reductivos (interdependencia)
comportamiento opuesto, es posible caracterizar a los ejes. Esto no se puede hacer si valores son similares. 5) Mapa de Correspondencias mltiple (diagrama conjunto de puntos de categoras): con esto es posible interpretar la asociacin entre categoras de las variables observadas. En la medida que las categoras se encuentren cercanas al centroide implica que tienen un comportamiento homogneo respecto del resto de las incluidas; en el caso de que dos o ms puntos del mapa (categoras) se posicionen cercanamente entonces es posible afirmar que estn asociadas.
Modelos Reductivos (interdependencia)
Anlisis de Tipologas (Cluster, Conglomerados) Grupo de tcnicas multivariables cuyo principal propsito es agrupar casos basndose en las caractersticas que poseen. Busca reducir informacin a partir de la clasificacin de los casos en tipologas que permitan presentar la informacin existente en la matriz de datos de una manera resumida, generando tipologas o conglomerados altamente homogneos dentro de s, y altamente heterogneos entre ellos, que buscan basarse en el patrn subyacente de agrupamiento de los casos. - Crticas a la tcnica: meramente descriptiva, sin capacidades de inferencia estadstica; excesiva importancia del investigador. - tipologa/conglomerado: grupo de casos con alta similaridad en su comportamiento en relacin a un conjunto de variables; nube de puntos en un plano de coordenadas en que la distancia entre dos puntos de la tipologa es menor que con cualquier punto ajeno a la tipologa; se caracterizan por tener alta densidad, baja varianza intragrupal, alta varianza intergrupal, y un radio pequeo. - objetivos: (0, principal) clasificacin; (1, exploratorio) descubrir tipologas; (2, confirmatorio) contrastar hiptesis acerca de la existencia de tipologas; (3, reducir informacin) simplificar presentacin de los datos; (4) bsqueda de nuevas relaciones entre variables a partir de la forma en que se agrupan los casos. - muestra: grandes o pequeas. Se recomienda que se aplique sobre muestras que puedan ser representativas de la poblacin, porque debido a su carcter no inferencial se podra otorgar resultados difcilmente generalizables. - multicolinealidad: debe intentarse trabajar con variables con poca colinealidad entre s; de existir multicolinealidad esas variables ponderan con mayor relevancia para la definicin de conglomerados. - fases de aplicacin: (1) seleccin de variables que favorezcan la agrupacin de datos; (2) eleccin del procedimiento de conglomeracin (jerrquico o nojerrquico) y algoritmo para creacin de los conglomerados; (3) seleccionar el nmero de conglomerados y caracterizacin; (4) validacin. Anlisis de Tipologas con Procedimientos Jerrquicos. Procedimientos que generan un proceso de clasificacin de casos por etapas donde los conglomerados se van uniendo o separando de otros conglomerados. - Ventaja: permiten observar la matriz de distancias caso a caso y los grficos que muestran el proceso de conglomeracin. - tamaos muestrales pequeos, inferiores a 200 casos. - variables: en rigor intervalares o de razn, aunque se puede trabajar con ordinales y dicotmicas. (1) mtodo jerrquico Los aglomerativos: los ms utilizados, tambin se les conoce como mtodos jerrquicos ascendentes porque la agrupacin de objetos procede de forma ascendente o aglomerativa. Primero se parte con tantos conglomerados como objetos a clasificar; segunda etapa, dos de los objetos e combinan en un nico conglomerado; tercer paso, surge un nuevo
Modelos Reductivos (interdependencia)
conglomerado bien de la fusin de otros casos en un nuevo conglomerado, bien de la fusin con otro conglomerado, o por un tercer caso que se une al conglomerado previamente formado. Se van formando conglomerados de manera gradual. Proceso de conglomeracin concluye cuando se llega a un nico conglomerado que rene a todos los objetos. El grfico dendograma permite la visualizacin de cmo se han ido formando los conglomerados en las distintas etapas del anlisis. Caracterstica distintiva es que la conformacin de conglomerados es definitiva, una vez que un conglomerado se ha constituido no puede dividirse en etapas posteriores. (2) mtodo jerrquico Los divisivos: tambin conocidos como descendentes o de particin utilizan la misma lgica, pero funcionan de manera inversa; comienzan con un nico conglomerado que incluye a todos los casos y de forma gradual se procede a la disgregacin de ese conglomerado hasta que existan tantos conglomerados como casos a clasificar. -algoritmos: distintas frmulas de clculo con que se dispone objetos similares en conglomerados; dependiendo de algoritmo vara nmero y composicin de los conglomerados. -distancias mnimas (simple link): agrupan los objetos con menor distancia entre ellos, semejantes. -distancias mximas (complete-link): considera distancia entre los dos objetos ms alejados. -promedio entre grupos: considera distancia promedio entre integrantes de un conglomerado respecto de otro conglomerado; se prefiere este porque no considera slo casos extremos. Interpretacin de tablas y coeficientes (tipologa jerrquico) 1) Resumen del procesamiento de los casos: permite evaluar el tamao muestral con el que trabajar el modelo. 2) Matriz de distancias: da cuenta de la disimilaridad entre los casos, considerando las variables incluidas. 3) Historial de Conglomeracin: da cuenta de los pasos utilizados por el programa para generar la solucin de tipologas. Debido a que se trata de un mtodo por aglomeracin, cada caso inicia el proceso en su propio conglomerado. Segunda y tercera columna dan cuenta de los casos que se renen en una misa tipologa en la etapa correspondiente; ltima columna prxima etapa permite identificar en qu fase posterior esta tipologa volver a participar de una nueva aglomeracin. Los pasos finalizan en la conjuncin de las variables en un solo conglomerado. 4) Conglomerado de Pertenencia: da cuenta de la tipologa a la cual cada caso pertenece (de acuerdo al rango de soluciones solicitadas a spss). Debido a que se trabaja con la hiptesis de que es posible identificar tres grupos, se requiere comparar tanto esta cantidad como una mayor y una menor. La razn reside en que el anlisis de tipologas no cuenta con estadsticos que permitan aseverar que un modelo es ms adecuado que otro.
Modelos Reductivos (interdependencia)
Se interpreta verticalmente. Cada numero asociado a los casos evidencian a qu conglomerado pertenecen. Primera aproximacin a la determinacin de la calidad del modelo, en la medida que es posible interpretar (lo buscado en la investigacin) en virtud de su pertenencia a una tipologa. 5) Dendograma (): representacin grfica del historial de conglomeracin, permite visualizar cmo se van agrupando los casos hasta generar un nico grupo. Es necesario recurrir a grficos adicionales para efectos de caracterizar a los conglomerados y determinar cul solucin es la ms adecuada. Solicitar un grfico por cada una de las tipologas, respecto de las variables utilizadas, es posible visualizar si las soluciones arrojadas por spss poseen un comportamiento diferenciado. 6) tabla de contingencia: es necesario validar externamente la tipologa generada.
Anlisis de Tipologas con Procedimientos No Jerrquicos.
Tambin llamados mtodos de optimizacin, que da cuenta de cmo se produce la asignacin de casos a conglomerados buscando optimizar el criterio de seleccin. Mltiples mtodos no jerrquicos, pero ms utilizado es la variante K-medias de los mtodos de reasignacin. Diversos procedimientos: mtodos de reasignacin (k-medias); mtodos de bsqueda de densidad; mtodos directos. -muestras superiores a 200 casos. - K-medias permite que los casos asignados a un conglomerado en una fase del proceso sean reasignados a otro conglomerado en otra fase posterior. La condicin es que la reasignacin consiga optimizar el criterio de seleccin. La formacin de conglomerados concluye cuando no queda ningn objeto cuya reasignacin logra optimizar el resultado. - Investigador especifica nmero de conglomerados que deben formarse con los datos (valor K expresa dicho nmero); se calculan centroides iniciales de los conglomerados a partir de un procedimiento iterativo; se van asignando objetos a los centroides ms prximos (se usa distancia eucldea para definir cercana); tras cada reasignacin se recalculan los centroides (valores promedio para las variables que caracterizan al conglomerado); nuevos centroides pueden provocar una nueva reasignacin de objetos a conglomerados cuyo centroide se encuentre ms prximo; el procedimiento finaliza cuando un nuevo reclculo de los centroides no provoca ninguna alteracin en la composicin de los conglomerados, o cuando han finalizado el nmero de iteraciones posibles. - Cada proceso de reasignacin genera una re-estimacin del centroide del conglomerado. Cuando el proceso concluye coincide con que la asignacin de nuevo casos a los conglomerados ya no modifica el valor de sus centroides. Exige que quien investiga decida el nmero de conglomerados a crear. Lo que suele realizarse con esta tcnica es que se lleva a cabo un anlisis con el
Modelos Reductivos (interdependencia)
nmero de conglomerados hipotetizados por quien investiga y otro con un conglomerado ms y otro con un conglomerado menos. Luego se interpretan los conglomerados en cada uno de los tres casos y se ve qu cantidad de conglomerados propuesta tiene ms sentido a nivel interpretativo. Interpretacin de tablas y coeficientes (tipologa no jerrquicomtodo de optimizacin) 1) Centros iniciales de los conglomerados: corresponde a la asignacin de centroides con los cuales el modelo comienza a iterar, para hallar la mejor solucin posteriormente. En general se atribuyen los centroides de manera tal que sean lo ms heterogneos entre los conglomerados. 2) Historial de conglomeracin: evidencia en cuntos pasos el modelo dej de mejorar, respecto de los cambios gnerados en los centroides de las tipologas. Estas dos primeras tablas no aportan informacin sustantiva para efectos de responder la pregunta. 3) Centros de conglomerados finales: una vez que el modelo estim los conglomerados, se presentan sus centroides. En esta tabla es posible caracterizar a cada tipologa, en virtud de los promedios respecto de cada variable. Indica la media de cada conglomerado en cada variable una vez que ha finalizad el proceso de clasificacin; a partir de ella se puede tener una idea de qu tan distintos son los conglomerados en las variables de clasificacin. 4) Anova: es necesario realizar una aproximacin a la significatividad de cada variable en la solucin generada por el programa. Anova permite jerarquizar qu variables son las que ms aportan en la solucin; debe observarse los valores de la prueba F, sin embargo en la medida que los niveles crticos no han sido corregidos, no puede interpretarse la significacin en los trminos de aporte significativo al modelo por parte de las variables. Si se requiere corroborar esta informacin, un procedimiento sugerido es el anlisis discriminante. Variable con valor F ms alto es la ms relevante en la construccin de las tipologas. 5) nmero de casos en cada conglomerado: observar ponderado. Esta tabla indica la cantidad de casos clasificados en cada uno de los grupos. No es necesario un nmero similar de casos en cada uno de los grupos generados. 6) tabla de contingencia: es necesario validar la solucin hallada (igual que mtodo jerrquico); cruce mediante tablas de contingencia con otra variable. ---------------------------------------------------------------------------------------------------------------------------------Diferencias mtodos jerrquicos y no-jerarquicos Jerrquico No-jerrquico El programa genera diversa cantidad El investigador decide el nmero de conglomerados segn etapas. mximo de conglomerados que debe
Modelos Reductivos (interdependencia)
Quien investiga decide a posteriori la cantidad de conglomerados a considerar. La asignacin de un objeto a un conglomerado es definitiva.
Muestras pequeas, inferiores a 200
casos. Con muestras superiores la representacin grfica se hace muy difcil de interpretar.
haber en la matriz de datos.
Existe una valoracin continua de la composicin de los conglomerados. Sin embargo, los errores pueden provocarse por una mala decisin respecto del nmero total de conglomerados a tener en cuenta. Muestras superiores a 200 casos.
ltimas fases de aplicacin
(3) seleccionar nmero de conglomerados y caracterizar clasificacin: proponer nmero de conglomerados que puedan estar amparados en alguna reflexin terica o lgica; se suelen comparar distintos nmeros de conglomerados, mirando su caracterizacin para elegir. -para interpretacin: se establecen perfiles de los conglomerados a partir de las variables de clasificacin; se puede cruzar los conglomerados con variables no presentes en la clasificacin y que permitan caracterizar a los conglomerados. (4) validacin: evaluar cunto difieren en los conglomerados variables que no han sido utilizadas en la clasificacin; aplica el mismo anlisis a muestras distintas para ver si la estructura encontrada es consistente (reaplicacin); analizar cunto difieren realmente las variables al interior de los conglomerados, para esto puede utilizarse el anlisis discriminante, tomando como variable de agrupacin las tipologas formadas por el anlisis de tipologas.