Sunteți pe pagina 1din 37

Master en Recursos Humanos

Anlisis de Conglomerados (Cluster Analysis): prcticas con SPSS

Ana Mara Lpez rea de Metodologa de las Ciencias del Comportamiento Departamento de Psicologa Experimental

Conglomerados jerrquicos
El objetivo es agrupar a los sujetos en funcin de su parecido en las subescalas del WISC-R. dado que todas las variables son cuantitativas utilizaremos como medida de disimilaridad la distancia eucldea y como procedimiento de agregacin los mtodos de la media, mnimo y mximo. La matriz con la que vamos a trabajar es: datos1. Para ejecutar un anlisis de conglomerados con SPSS en primer lugar hay que seleccionar el men Analizar como muestra el siguiente cuadro:

Conglomerados jerrquicos
En segundo lugar seleccionamos Conglomerados jerrquicos y accedemos al siguiente cuadro:
El cuadro contiene: 1. la lista de variables del archivo. De esta lista seleccionamos aquellas sobre las que deseemos evaluar el parecido de los sujetos. En nuestro caso son las correspondientes a las subescalas del WISC-R. Una vez seleccionadas las variables las trasladamos al cuadro Variables. 2. Existe la posibilidad de agrupar (Conglomerar) casos, este es el uso ms frecuente del anlisis de conglomerados, o de agrupar variables y el resultado sera el equivalente a un anlisis factorial. 3. Adems disponemos de una serie de botones que nos permiten acceder a las diferente opciones implementadas en SPSS. En las transparencias siguientes comentaremos las opciones de los cuadros: Estadsticos, Grficos, Mtodo y Guardar en este orden.

Conglomerados jerrquicos

Cuadro Estadsticos: En este cuadro podemos solicitar: 1. adems del Historial de conglomeracin que lo proporciona por defecto si tenemos seleccionada la opcin Estadsticos dell cuadro Anlisis de conglomerados jerrquico, la Matriz de distancias. 2. Podemos pedir que nos proporcione una tabla con el conglomerado de pertenencia de cada sujeto si nos decidimos por una solucin en un nmero de conglomerados determinado o en un rango. Estas opciones son muy tiles cuando tenemos claro el nmero de conglomerados que constituye la solucin a nuestro problema de investigacin. No obstante lo ms importante no es visualizar la tabla crear una variable en el archivo de datos con valores que indican el conglomerado al que pertenece el sujeto esto podemos hacerlo con las opciones del cuadro Guardar variables nuevas.

Conglomerados jerrquicos
Cuadro Mtodo: En este cuadro podemos 1. seleccionar entre una larga lista de mtodos de conglomeracin: vinculacin inter-grupo (mtodo de la media), vinculacin intragrupos (distancia media entre las distancias de los elementos del grupo unin), vecino ms prximo (mnimo), vecino ms lejano (mximo), agrupacin de centroides (distancia entre centroides), agrupacin de medianas (media de centroides) y Mtodo de Ward (minimiza la varianza intragrupo). En principio convendra explorar con distintos mtodos hasta encontrar la soluccin ms satisfactoria. El mtodo de Ward slo puede aplicarse a variables cuantitativas. 2. Seleccionar la medida de distancia adecuada a la mtrica de las variables. 3. Podemos optar por calcular las distancias entre los sujetos a partir de puntuaciones estandarizadas con las opciones del cuadro Transformar valores. Se recomienda estandarizar cuando las variables estn medidas en escalas distintas.

Conglomerados jerrquicos
Cuadro Guardar variables nuevas: Este cuadro nos permite crear nuevas variables en el archivo de datos con el grupo de pertenencia de cada sujeto. Podemos crear una nica variable correspondiente a una Solucin nica en K conglomerados. Esta variable toma valores desde 1 hasta K e indica el grupo al que pertenece el sujeto. Si seleccionamos un Rango de soluciones crea una variable para cada una de las soluciones desde Nmero mnimo de conglomerados hasta Nmero mximo de conglomerados. Por ejemplos si en Nmero mnimo de conglomerados escribimos 2 y en Nmero mximo 4 crear 3 variables: una para la solucin en dos conglomerados, otras para la solucin en tres conglomerados y la ltima para la solucin en cuatro conglomerados.

Resultados
Conglomerados jerrquicos
a,b Resumen del procesamiento de los casos

Vlidos N Porcentaje 48 71,6

Casos Perdidos N Porcentaje 19 28,4

Total N Porcentaje 67 100,0

a. distancia eucldea al cuadrado usada b. Vinculacin promedio (Inter-grupos)

******HIERARCHICAL CLUSTER ANALYSI S****** Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine

Vinculacin simple (mtodo del mnimo) Dendrogram using Single Linkage Rescaled Distance Cluster Combine

Vinculacin completa (mtodo del mximo)

Vinculacin completa (mtodo del mximo)

Vinculacin completa (mtodo del mximo)

Vinculacin completa (mtodo del mximo)

Resultados:
Si a partir del dendograma anterior, en el cuadro Guardar variables nuevas, seleccionamos Rango de soluciones y en Nmero mnimo de conglomerados escribimos 2 y en Nmero mximo de conglomerados escribimos 4 se crean tres nuevas variables en el editor de datos que clasifican a los sujetos en funcin del cluster al que pertenecen para cada una de las soluciones en dos, tres y cuatro conglomerados. Las nuevas variables se denominan: CLU4_1, CLU3_1 y CLU2_1 como podemos observar en la porcin del editor de datos siguiente.

Resultados:
La interpretacin de los conglomerados depende del valor medio de las variables en cada uno de ellos. Es decir, para caracterizar a cada clase y diferenciarla de las dems vamos a obtener el centroide de cada una de ellas y vamos a realizar un grfico de lineas. Vamos tambin a realizar una anlisis de frecuencias para saber el nmero de sujetos de cada cluster y para cada solucin.

Tabla de frecuencia
CLU4_1 Complete Linkage Frecuencia 15 13 8 12 48 19 67 Porcentaje 22,4 19,4 11,9 17,9 71,6 28,4 100,0 Porcentaje vlido 31,3 27,1 16,7 25,0 100,0 Porcentaje acumulado 31,3 58,3 75,0 100,0

CLU3_1 Complete Linkage Frecuencia 15 25 8 48 19 67 Porcentaje 22,4 37,3 11,9 71,6 28,4 100,0 Porcentaje vlido 31,3 52,1 16,7 100,0 Porcentaje acumulado 31,3 83,3 100,0

Vlidos

Perdidos Total

1 2 3 4 Total Sistema

Vlidos

Perdidos Total

1 2 3 Total Sistema

CLU2_1 Complete Linkage Frecuenci a 23 25 48 19 67 Porcentaj e 34,3 37,3 71,6 28,4 100,0 Porcentaj e vl i do 47,9 52,1 100,0 Porcentaj e acumul ado 47,9 100,0

Vli dos

Perdi dos Total

1 2 Total Si stem a

Resultados: Perfil de medias de cada solucin


Tablas personalizadas
CLU2_1 Complete Linkage 1 2 Media Media 7 4 8 4 8 4 9 5 8 5 9 5 9 5 8 3 8 4 9 3 8 4 8 2

inf informacin sem semejanzas arit aritmtica voc vocabulario comp comprensin dig dgitos fi figuras incompletas his historietas cub cubos rom rompecabezas cn claves numricas laber laberintos

10 9 8 7 6 5 4 3 2 1 0
inf informacin sem semejanzas arit aritmtica voc vocabulario comp comprensin dig dgitos fi figuras incompletas his historietas cub cubos rom rompecabezas cn claves numricas laber laberintos

cluster 1

cluster 2

Los grficos de perfiles obtenerlos del archivo: perfiles

Resultados: Perfil de medias de cada solucin


Tablas personalizadas
CLU3_1 Complete Linkage 1 2 3 Media Media Media 7 4 7 7 4 9 6 4 10 9 5 9 8 5 9 9 5 10 9 5 10 6 3 10 7 4 10 7 3 11 6 4 10 8 2 9

inf informacin sem semejanzas arit aritmtica voc vocabulario comp comprensin dig dgitos fi figuras incompletas his historietas cub cubos rom rompecabezas cn claves numricas laber laberintos

12 10 8 6 4 2 0
inf informacin sem semejanzas arit aritmtica voc vocabulario comp comprensin dig dgitos fi figuras incompletas his historietas cub cubos rom rompecabezas cn claves numricas laber laberintos

cluster 1

cluster 2

cluster 3

Resultados: Perfil de medias de cada solucin


Tablas personalizadas
CLU4_1 Complete Linkage 1 2 3 4 Media Media Media Media 7 3 7 4 7 3 9 5 6 2 10 6 9 3 9 6 8 4 9 6 9 3 10 8 9 4 10 6 6 3 10 3 7 4 10 4 7 4 11 3 6 2 10 5 8 2 9 3

inf informacin 12 laber laberintos 10 8 cn claves numricas 6 4 2 rom rompecabezas 0 voc vocabulario arit aritmtica sem semejanzas

inf informacin sem semejanzas arit aritmtica voc vocabulario comp comprensin dig dgitos fi figuras incompletas his historietas cub cubos rom rompecabezas cn claves numricas laber laberintos

cub cubos

comp comprensin

his historietas fi figuras incompletas

dig dgitos

cluster 1

cluster 2

cluster 3

cluster 4

Conglomerados de k medias
Con la misma matriz y variables con las que hemos realizado el anlisis de conglomerados jerrquico vamos a realizar un anlisis de conglomerados de k-medias. Ahora del men Clasificar seleccionamos Conglomerado de K medias

Conglomerados de k medias
El cuadro contiene: 1. la lista de variables del archivo. De esta lista seleccionamos aquellas sobre las que deseemos evaluar el parecido de los sujetos. En nuestro caso son las correspondientes a las subescalas del WISC-R. Una vez seleccionadas las variables las trasladamos al cuadro Variables. 2. Por defecto el N de conglomerados en que divide a los sujetos es 2 pero podemos segmentar la muestra en un nmero mayor de clases. Slo tenemos que sustituir el 2 por otro nmero. 3. Sabemos que la primera particin la inducen un nmero de sujetos igual al nmero de conglomerados elegidos mediante diferentes procedimientos. Por defecto SPSS elige a los dos sujetos ms distantes. Podemos no obstante escribir en un archivo los centros de los conglomerados que dan lugar a la primera particin marcando en Leer iniciales. 4. Tambin podemos escribir en un archivo los centros de los conglomerados finales seleccionando Escribir finales.

Conglomerados de k medias
Si pulsamos en los botones Guardar del cuadro anterior obtenemos podemos crear una nueva variable en el editor de datos de manera que asigne a cada sujeto un valor que identifica el conglomerado al que pertenece. :

Si pulsamos en el botn Opciones podemos seleccionar una Tabla de ANOVA con la nica utilidad de identificar a las variables que desde un punto de vista descriptivo discriminan entre los conglomerados. Las inferencias a partir de estos resultados de ANOVA seran incorrectas. :

Resultados:
Anlisis de conglomerados de K medias
Centros iniciales de los conglomerados Conglomerado 1 2 6 10 10 11 10 9 8 16 14 15 14 14
a Historial de iteraciones

inf informacin sem semejanzas arit aritmtica voc vocabulario comp comprensin dig dgitos fi figuras incompletas his historietas cub cubos rom rompecabezas cn claves numricas laber laberintos

1 1 1 1 1 1 1 1 2 1 1 1

Iteracin 1 2 3 4

Cambio en los centros de los conglomerados 1 2 14,752 11,160 ,814 ,702 ,415 ,361 ,000 ,000

a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio o ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de ,000. La iteracin actual es 4. La distancia mnima entre los centros iniciales es de 37,202.

Resultados:
Anlisis de conglomerados de K medias
Centros de los conglomerados finales Conglomerado 1 2 7 8 8 9 8 9 9 8 8 9 8 8

inf informacin sem semejanzas arit aritmtica voc vocabulario comp comprensin dig dgitos fi figuras incompletas his historietas cub cubos rom rompecabezas cn claves numricas laber laberintos

4 4 4 5 5 5 5 3 4 3 4 2

10 9 8 7 6 5 4 3 2 1 0

inf informacin

sem semejanzas

arit aritmtica

voc vocabulario

comp comprensin

cluster 1

dig dgitos

fi figuras incompletas

cluster 2

his historietas

cub cubos

rom rompecabezas

cn claves numricas

laber laberintos

Resultados:
ANOVA Conglomerado Media cuadrtica gl inf informacin 155,462 sem semejanzas 199,432 arit aritmtica 205,962 voc vocabulario 208,046 comp comprensin 135,668 dig dgitos 163,695 fi figuras incompletas 245,833 his historietas 271,847 cub cubos 159,399 rom rompecabezas 336,154 cn claves numricas 227,637 laber laberintos 413,149 Error Media cuadrtica 4,566 7,866 9,087 9,064 9,246 9,739 6,032 7,045 6,055 7,051 9,919 6,620

gl 46 46 46 46 46 46 46 46 46 46 46 46

1 1 1 1 1 1 1 1 1 1 1 1

F 34,051 25,355 22,665 22,954 14,673 16,809 40,754 38,587 26,326 47,678 22,949 62,410

Sig. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000

Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son iguales.

Nmero de casos en cada conglomerado Congl om erado Vli dos Perdi dos 1 2 22,000 26,000 48,000 19,000

Conglomerados en dos etapas


Dado que en la matriz adems de las variables de la evaluacin intelectual disponemos de otras variables de naturaleza cualitativa tales como la presencia de ansiedad, vlvulas, retrasos en el desarrollo, etc. Vamos a realizar un anlisis de conglomerados en dos fases. Para ello elegimos Conglomerado en dos fases

Conglomerados en dos etapas


A diferencia del resto de los procedimientos aqu disponemos de dos cuadros: en uno insertamos las variables cualitativas y en el otro las cuantitativas.

Conglomerados en dos etapas


Como en el resto de los cuadros de dilogo si pinchamos en el botn Grficos podemos seleccionar dos tipos de grficos que nos ayudarn a interpretar el perfil de los conglomerados tanto en las variables cualitativas como cuantitativas.

Conglomerados en dos etapas


Pulsando en el botn Resultados podemos Estadsticos Descriptivos por conglomerado y Frecuencias de los conglomerados.

Resultados:
Conglomerados en dos fases
Agrupacin automtica Nmero de conglomerados 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Criterio bayesiano de Schwarz (BIC) 711,054 708,351 753,807 815,777 885,960 958,224 1040,247 1123,052 1209,521 1299,394 1390,763 1482,737 1576,082 1669,477 1763,157 Cambio a en BIC -2,703 45,457 61,969 70,184 72,264 82,023 82,805 86,469 89,873 91,368 91,974 93,345 93,395 93,680 Razn de cambios b en BIC 1,000 -16,816 -22,924 -25,963 -26,732 -30,342 -30,632 -31,987 -33,246 -33,799 -34,024 -34,531 -34,549 -34,655 Razn de medidas de c distancia 1,788 1,370 1,226 1,061 1,397 1,033 1,182 1,204 1,098 1,041 1,103 1,004 1,022 1,224
Congl om erado Distribucin de conglomerados N 1 2 Combi nados 17 28 45 22 67 % de com bi nados 37,8% 62,2% 100,0% % del total 25,4% 41,8% 67,2% 32,8% 100,0%

Casos excl ui dos T otal

Perfiles de los conglomerados Centroides


inf informacin sem semejanzas Media Desv. tpica Media Desv. tpica 1 8,00 1,936 8,59 2,785 8,24 2,969 8,94 3,363 8,18 2,351 8,88 2,619 9,59 1,970 7,18 3,107 7,76 2,587 8,65 3,020 6,94 2,076 8,29 3,197 Conglomerado 2 Combinados 3,82 5,40 1,887 2,783 4,43 6,00 2,645 3,82 2,945 5,29 3,053 5,04 3,480 6,04 3,687 5,14 2,990 3,32 2,310 4,43 2,116 3,86 2,592 4,07 3,030 2,61 2,025 3,357 5,49 3,635 6,67 3,612 6,22 3,437 7,11 3,575 6,82 3,413 4,78 3,218 5,69 2,803 5,67 3,599 5,16 3,030 4,76 3,743

a. Los cambios proceden del nmero anterior de conglomerados de la tabla. b. Las razones de los cambios estn relacionadas con el cambio para la solucin de los dos conglomerados. c. Las razones de las medidas de la distancia se basan en el nmero actual de conglomerados frente al nmero de conglomerados anterior.

arit aritmtica Media Desv. tpica voc Media vocabulario Desv. tpica comp Media comprensin Desv. tpica dig dgitos Media Desv. tpica fi figuras Media incompletas Desv. tpica his Media historietas Desv. tpica cub cubos Media Desv. tpica rom Media rompecabeza Desv. tpica s cn claves Media numricas Desv. tpica laber Media laberintos Desv. tpica

Resultados:
Frecuencias
proceden procedencia 1 rural Frecuencia Porcentaje 10 32,3% 21 67,7% 31 100,0% 2 urbano Frecuencia Porcentaje 7 50,0% 7 50,0% 14 100,0%

Conglomerado

1 2 Combinados

v lv ulas presencia de v lv ulas 1 Si Frecuencia Porcentaje 3 12,0% 22 88,0% 25 100,0% 2 No Frecuencia Porcentaje 14 70,0% 6 30,0% 20 100,0%

Conglomerado

1 2 Combinados

retdes retraso en el desarrollo 1 Si Frecuencia Porcentaje 8 26,7% 22 73,3% 30 100,0% ans ansiedad 1 Si Frecuencia Porcentaje 2 10,5% 17 89,5% 19 100,0% 2 No Frecuencia Porcentaje 15 57,7% 11 42,3% 26 100,0% 2 No Frecuencia Porcentaje 9 60,0% 6 40,0% 15 100,0%

Conglomerado

1 2 Combinados

Conglomerado

1 2 Combinados

Resultados:
Importancia de los atributos

Resultados:
Importancia de los atributos

Resultados:
Variacin intra-conglomerado

Resultados:
Importancia segn agrupacin

Resultados:

Resultados:

Resultados:
Prueba para una muestra Valor de prueba = 0 95% Intervalo de confianza para la diferencia Inferior Superior ,4764821 1,1366768 ,1246918 ,8396511

Prueba para una muestra Valor de prueba = 0 95% Intervalo de confianza para la diferencia Diferencia gl Sig. (bilateral) de medias Inferior Superior 27 ,000 -,57877908 -,8213243 -,3362338 27 27 27 27 27 27 27 27 27 27 27 ,000 ,001 ,010 ,021 ,145 ,005 ,000 ,000 ,000 ,008 ,000 -,55621925 -,8122251 -,3002134 -,55012974 -,8642810 -,2359785 -,42237245 -,7359185 -,1088264 -,40201383 -,7397717 -,0642560 -,29299391 -,6934485 ,1074607

Zinf Puntua: informacin Zsem Puntua: semejanzas Zarit Puntua: aritmtica Zvoc Puntua: vocabulario Zcomp Puntua: comprensin Zdig Puntua: dgitos Zfi Puntua: figuras incompletas Zhis Puntua: historietas Zcub Puntua: cubos Zrom Puntua: rompecabezas Zcn Puntua: claves numricas Zlaber Puntua: laberintos

t 5,180 2,859 3,353 2,526 2,691 2,835 5,697 2,254 2,765 3,676 2,471 4,141

gl 16 16 16 16 16 16 16 16 16 16 16 16

Sig. (bilateral) ,000 ,011 ,004 ,022 ,016 ,012 ,000 ,039 ,014 ,002 ,025 ,001

Diferencia de medias ,80657945 ,48217148 ,66429329 ,54570281 ,38414254 ,50443714 ,83255309 ,46506233 ,52024129 ,74794809 ,32044215 ,82167235

,2442607 1,0843259 ,0878061 1,0035995 ,0815166 ,1271916 ,6867685 ,8816827

,5227588 1,1423474 ,0277328 ,1214140 ,9023919 ,9190686

,3165717 1,1793245 ,0455715 ,5953128

,4010257 1,2423191

Zinf Puntua: informacin Zsem Puntua: semejanzas Zarit Puntua: aritmtica Zvoc Puntua: vocabulario Zcomp Puntua: comprensin Zdig Puntua: dgitos Zfi Puntua: figuras incompletas Zhis Puntua: historietas Zcub Puntua: cubos Zrom Puntua: rompecabezas Zcn Puntua: claves numricas Zlaber Puntua: laberintos

t -4,896 -4,458 -3,593 -2,764 -2,442 -1,501 -3,049 -4,939 -4,005 -4,283 -2,839 -6,472

-,52683232 -,8814079 -,1722568 -,59025492 -,8354870 -,3450228 -,48018512 -,7261983 -,2341720 -,58296876 -,8622595 -,3036781 -,41865379 -,7212325 -,1160751 -,63368232 -,8345916 -,4327731

S-ar putea să vă placă și