Practica Sac 1

Master en Recursos Humanos
Anlisis de Conglomerados (Cluster Analysis): prcticas con SPSS
Ana Mara Lpez rea de Metodologa de las Ciencias del Comportamiento Departamento de Psicologa Experimental
Conglomerados jerrquicos
El objetivo es agrupar a los sujetos en funcin de su parecido en las subescalas del WISC-R. dado que todas las variables son cuantitativas utilizaremos como medida de disimilaridad la distancia eucldea y como procedimiento de agregacin los mtodos de la media, mnimo y mximo. La matriz con la que vamos a trabajar es: datos1. Para ejecutar un anlisis de conglomerados con SPSS en primer lugar hay que seleccionar el men Analizar como muestra el siguiente cuadro:
En segundo lugar seleccionamos Conglomerados jerrquicos y accedemos al siguiente cuadro:
El cuadro contiene: 1. la lista de variables del archivo. De esta lista seleccionamos aquellas sobre las que deseemos evaluar el parecido de los sujetos. En nuestro caso son las correspondientes a las subescalas del WISC-R. Una vez seleccionadas las variables las trasladamos al cuadro Variables. 2. Existe la posibilidad de agrupar (Conglomerar) casos, este es el uso ms frecuente del anlisis de conglomerados, o de agrupar variables y el resultado sera el equivalente a un anlisis factorial. 3. Adems disponemos de una serie de botones que nos permiten acceder a las diferente opciones implementadas en SPSS. En las transparencias siguientes comentaremos las opciones de los cuadros: Estadsticos, Grficos, Mtodo y Guardar en este orden.
Cuadro Estadsticos: En este cuadro podemos solicitar: 1. adems del Historial de conglomeracin que lo proporciona por defecto si tenemos seleccionada la opcin Estadsticos dell cuadro Anlisis de conglomerados jerrquico, la Matriz de distancias. 2. Podemos pedir que nos proporcione una tabla con el conglomerado de pertenencia de cada sujeto si nos decidimos por una solucin en un nmero de conglomerados determinado o en un rango. Estas opciones son muy tiles cuando tenemos claro el nmero de conglomerados que constituye la solucin a nuestro problema de investigacin. No obstante lo ms importante no es visualizar la tabla crear una variable en el archivo de datos con valores que indican el conglomerado al que pertenece el sujeto esto podemos hacerlo con las opciones del cuadro Guardar variables nuevas.
Cuadro Mtodo: En este cuadro podemos 1. seleccionar entre una larga lista de mtodos de conglomeracin: vinculacin inter-grupo (mtodo de la media), vinculacin intragrupos (distancia media entre las distancias de los elementos del grupo unin), vecino ms prximo (mnimo), vecino ms lejano (mximo), agrupacin de centroides (distancia entre centroides), agrupacin de medianas (media de centroides) y Mtodo de Ward (minimiza la varianza intragrupo). En principio convendra explorar con distintos mtodos hasta encontrar la soluccin ms satisfactoria. El mtodo de Ward slo puede aplicarse a variables cuantitativas. 2. Seleccionar la medida de distancia adecuada a la mtrica de las variables. 3. Podemos optar por calcular las distancias entre los sujetos a partir de puntuaciones estandarizadas con las opciones del cuadro Transformar valores. Se recomienda estandarizar cuando las variables estn medidas en escalas distintas.
Cuadro Guardar variables nuevas: Este cuadro nos permite crear nuevas variables en el archivo de datos con el grupo de pertenencia de cada sujeto. Podemos crear una nica variable correspondiente a una Solucin nica en K conglomerados. Esta variable toma valores desde 1 hasta K e indica el grupo al que pertenece el sujeto. Si seleccionamos un Rango de soluciones crea una variable para cada una de las soluciones desde Nmero mnimo de conglomerados hasta Nmero mximo de conglomerados. Por ejemplos si en Nmero mnimo de conglomerados escribimos 2 y en Nmero mximo 4 crear 3 variables: una para la solucin en dos conglomerados, otras para la solucin en tres conglomerados y la ltima para la solucin en cuatro conglomerados.
Resultados
a,b Resumen del procesamiento de los casos
Vlidos N Porcentaje 48 71,6
Casos Perdidos N Porcentaje 19 28,4
Total N Porcentaje 67 100,0
a. distancia eucldea al cuadrado usada b. Vinculacin promedio (Inter-grupos)
******HIERARCHICAL CLUSTER ANALYSI S****** Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine
Vinculacin simple (mtodo del mnimo) Dendrogram using Single Linkage Rescaled Distance Cluster Combine
Vinculacin completa (mtodo del mximo)
Resultados:
Si a partir del dendograma anterior, en el cuadro Guardar variables nuevas, seleccionamos Rango de soluciones y en Nmero mnimo de conglomerados escribimos 2 y en Nmero mximo de conglomerados escribimos 4 se crean tres nuevas variables en el editor de datos que clasifican a los sujetos en funcin del cluster al que pertenecen para cada una de las soluciones en dos, tres y cuatro conglomerados. Las nuevas variables se denominan: CLU4_1, CLU3_1 y CLU2_1 como podemos observar en la porcin del editor de datos siguiente.
Resultados:
La interpretacin de los conglomerados depende del valor medio de las variables en cada uno de ellos. Es decir, para caracterizar a cada clase y diferenciarla de las dems vamos a obtener el centroide de cada una de ellas y vamos a realizar un grfico de lineas. Vamos tambin a realizar una anlisis de frecuencias para saber el nmero de sujetos de cada cluster y para cada solucin.
Tabla de frecuencia
CLU4_1 Complete Linkage Frecuencia 15 13 8 12 48 19 67 Porcentaje 22,4 19,4 11,9 17,9 71,6 28,4 100,0 Porcentaje vlido 31,3 27,1 16,7 25,0 100,0 Porcentaje acumulado 31,3 58,3 75,0 100,0
CLU3_1 Complete Linkage Frecuencia 15 25 8 48 19 67 Porcentaje 22,4 37,3 11,9 71,6 28,4 100,0 Porcentaje vlido 31,3 52,1 16,7 100,0 Porcentaje acumulado 31,3 83,3 100,0
Vlidos
Perdidos Total
1 2 3 4 Total Sistema
Vlidos
Perdidos Total
1 2 3 Total Sistema
CLU2_1 Complete Linkage Frecuenci a 23 25 48 19 67 Porcentaj e 34,3 37,3 71,6 28,4 100,0 Porcentaj e vl i do 47,9 52,1 100,0 Porcentaj e acumul ado 47,9 100,0
Vli dos
Perdi dos Total
1 2 Total Si stem a
Resultados: Perfil de medias de cada solucin

Tablas personalizadas
CLU2_1 Complete Linkage 1 2 Media Media 7 4 8 4 8 4 9 5 8 5 9 5 9 5 8 3 8 4 9 3 8 4 8 2
inf informacin sem semejanzas arit aritmtica voc vocabulario comp comprensin dig dgitos fi figuras incompletas his historietas cub cubos rom rompecabezas cn claves numricas laber laberintos
10 9 8 7 6 5 4 3 2 1 0
cluster 1
cluster 2
Los grficos de perfiles obtenerlos del archivo: perfiles

CLU3_1 Complete Linkage 1 2 3 Media Media Media 7 4 7 7 4 9 6 4 10 9 5 9 8 5 9 9 5 10 9 5 10 6 3 10 7 4 10 7 3 11 6 4 10 8 2 9
12 10 8 6 4 2 0
cluster 1
cluster 2
cluster 3

CLU4_1 Complete Linkage 1 2 3 4 Media Media Media Media 7 3 7 4 7 3 9 5 6 2 10 6 9 3 9 6 8 4 9 6 9 3 10 8 9 4 10 6 6 3 10 3 7 4 10 4 7 4 11 3 6 2 10 5 8 2 9 3
inf informacin 12 laber laberintos 10 8 cn claves numricas 6 4 2 rom rompecabezas 0 voc vocabulario arit aritmtica sem semejanzas
cub cubos
comp comprensin
his historietas fi figuras incompletas
dig dgitos
cluster 1
cluster 2
cluster 3
cluster 4
Conglomerados de k medias
Con la misma matriz y variables con las que hemos realizado el anlisis de conglomerados jerrquico vamos a realizar un anlisis de conglomerados de k-medias. Ahora del men Clasificar seleccionamos Conglomerado de K medias
El cuadro contiene: 1. la lista de variables del archivo. De esta lista seleccionamos aquellas sobre las que deseemos evaluar el parecido de los sujetos. En nuestro caso son las correspondientes a las subescalas del WISC-R. Una vez seleccionadas las variables las trasladamos al cuadro Variables. 2. Por defecto el N de conglomerados en que divide a los sujetos es 2 pero podemos segmentar la muestra en un nmero mayor de clases. Slo tenemos que sustituir el 2 por otro nmero. 3. Sabemos que la primera particin la inducen un nmero de sujetos igual al nmero de conglomerados elegidos mediante diferentes procedimientos. Por defecto SPSS elige a los dos sujetos ms distantes. Podemos no obstante escribir en un archivo los centros de los conglomerados que dan lugar a la primera particin marcando en Leer iniciales. 4. Tambin podemos escribir en un archivo los centros de los conglomerados finales seleccionando Escribir finales.
Si pulsamos en los botones Guardar del cuadro anterior obtenemos podemos crear una nueva variable en el editor de datos de manera que asigne a cada sujeto un valor que identifica el conglomerado al que pertenece. :
Si pulsamos en el botn Opciones podemos seleccionar una Tabla de ANOVA con la nica utilidad de identificar a las variables que desde un punto de vista descriptivo discriminan entre los conglomerados. Las inferencias a partir de estos resultados de ANOVA seran incorrectas. :
Resultados:
Anlisis de conglomerados de K medias
Centros iniciales de los conglomerados Conglomerado 1 2 6 10 10 11 10 9 8 16 14 15 14 14
a Historial de iteraciones
1 1 1 1 1 1 1 1 2 1 1 1
Iteracin 1 2 3 4
Cambio en los centros de los conglomerados 1 2 14,752 11,160 ,814 ,702 ,415 ,361 ,000 ,000
a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio o ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de ,000. La iteracin actual es 4. La distancia mnima entre los centros iniciales es de 37,202.
Resultados:
Anlisis de conglomerados de K medias
Centros de los conglomerados finales Conglomerado 1 2 7 8 8 9 8 9 9 8 8 9 8 8
4 4 4 5 5 5 5 3 4 3 4 2
10 9 8 7 6 5 4 3 2 1 0
inf informacin
sem semejanzas
arit aritmtica
voc vocabulario
comp comprensin
cluster 1
dig dgitos
fi figuras incompletas
cluster 2
his historietas
cub cubos
rom rompecabezas
cn claves numricas
laber laberintos
Resultados:
ANOVA Conglomerado Media cuadrtica gl inf informacin 155,462 sem semejanzas 199,432 arit aritmtica 205,962 voc vocabulario 208,046 comp comprensin 135,668 dig dgitos 163,695 fi figuras incompletas 245,833 his historietas 271,847 cub cubos 159,399 rom rompecabezas 336,154 cn claves numricas 227,637 laber laberintos 413,149 Error Media cuadrtica 4,566 7,866 9,087 9,064 9,246 9,739 6,032 7,045 6,055 7,051 9,919 6,620
gl 46 46 46 46 46 46 46 46 46 46 46 46
1 1 1 1 1 1 1 1 1 1 1 1
F 34,051 25,355 22,665 22,954 14,673 16,809 40,754 38,587 26,326 47,678 22,949 62,410
Sig. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son iguales.
Nmero de casos en cada conglomerado Congl om erado Vli dos Perdi dos 1 2 22,000 26,000 48,000 19,000
Conglomerados en dos etapas

Dado que en la matriz adems de las variables de la evaluacin intelectual disponemos de otras variables de naturaleza cualitativa tales como la presencia de ansiedad, vlvulas, retrasos en el desarrollo, etc. Vamos a realizar un anlisis de conglomerados en dos fases. Para ello elegimos Conglomerado en dos fases

A diferencia del resto de los procedimientos aqu disponemos de dos cuadros: en uno insertamos las variables cualitativas y en el otro las cuantitativas.

Como en el resto de los cuadros de dilogo si pinchamos en el botn Grficos podemos seleccionar dos tipos de grficos que nos ayudarn a interpretar el perfil de los conglomerados tanto en las variables cualitativas como cuantitativas.

Pulsando en el botn Resultados podemos Estadsticos Descriptivos por conglomerado y Frecuencias de los conglomerados.
Resultados:
Conglomerados en dos fases
Agrupacin automtica Nmero de conglomerados 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Criterio bayesiano de Schwarz (BIC) 711,054 708,351 753,807 815,777 885,960 958,224 1040,247 1123,052 1209,521 1299,394 1390,763 1482,737 1576,082 1669,477 1763,157 Cambio a en BIC -2,703 45,457 61,969 70,184 72,264 82,023 82,805 86,469 89,873 91,368 91,974 93,345 93,395 93,680 Razn de cambios b en BIC 1,000 -16,816 -22,924 -25,963 -26,732 -30,342 -30,632 -31,987 -33,246 -33,799 -34,024 -34,531 -34,549 -34,655 Razn de medidas de c distancia 1,788 1,370 1,226 1,061 1,397 1,033 1,182 1,204 1,098 1,041 1,103 1,004 1,022 1,224
Congl om erado Distribucin de conglomerados N 1 2 Combi nados 17 28 45 22 67 % de com bi nados 37,8% 62,2% 100,0% % del total 25,4% 41,8% 67,2% 32,8% 100,0%
Casos excl ui dos T otal
Perfiles de los conglomerados Centroides

inf informacin sem semejanzas Media Desv. tpica Media Desv. tpica 1 8,00 1,936 8,59 2,785 8,24 2,969 8,94 3,363 8,18 2,351 8,88 2,619 9,59 1,970 7,18 3,107 7,76 2,587 8,65 3,020 6,94 2,076 8,29 3,197 Conglomerado 2 Combinados 3,82 5,40 1,887 2,783 4,43 6,00 2,645 3,82 2,945 5,29 3,053 5,04 3,480 6,04 3,687 5,14 2,990 3,32 2,310 4,43 2,116 3,86 2,592 4,07 3,030 2,61 2,025 3,357 5,49 3,635 6,67 3,612 6,22 3,437 7,11 3,575 6,82 3,413 4,78 3,218 5,69 2,803 5,67 3,599 5,16 3,030 4,76 3,743
a. Los cambios proceden del nmero anterior de conglomerados de la tabla. b. Las razones de los cambios estn relacionadas con el cambio para la solucin de los dos conglomerados. c. Las razones de las medidas de la distancia se basan en el nmero actual de conglomerados frente al nmero de conglomerados anterior.
arit aritmtica Media Desv. tpica voc Media vocabulario Desv. tpica comp Media comprensin Desv. tpica dig dgitos Media Desv. tpica fi figuras Media incompletas Desv. tpica his Media historietas Desv. tpica cub cubos Media Desv. tpica rom Media rompecabeza Desv. tpica s cn claves Media numricas Desv. tpica laber Media laberintos Desv. tpica
Resultados:
Frecuencias
proceden procedencia 1 rural Frecuencia Porcentaje 10 32,3% 21 67,7% 31 100,0% 2 urbano Frecuencia Porcentaje 7 50,0% 7 50,0% 14 100,0%
Conglomerado
1 2 Combinados
v lv ulas presencia de v lv ulas 1 Si Frecuencia Porcentaje 3 12,0% 22 88,0% 25 100,0% 2 No Frecuencia Porcentaje 14 70,0% 6 30,0% 20 100,0%
Conglomerado
1 2 Combinados
retdes retraso en el desarrollo 1 Si Frecuencia Porcentaje 8 26,7% 22 73,3% 30 100,0% ans ansiedad 1 Si Frecuencia Porcentaje 2 10,5% 17 89,5% 19 100,0% 2 No Frecuencia Porcentaje 15 57,7% 11 42,3% 26 100,0% 2 No Frecuencia Porcentaje 9 60,0% 6 40,0% 15 100,0%
Conglomerado
1 2 Combinados
Conglomerado
1 2 Combinados
Resultados:
Importancia de los atributos
Resultados:
Importancia de los atributos
Resultados:
Variacin intra-conglomerado
Resultados:
Importancia segn agrupacin
Resultados:
Resultados:
Resultados:
Prueba para una muestra Valor de prueba = 0 95% Intervalo de confianza para la diferencia Inferior Superior ,4764821 1,1366768 ,1246918 ,8396511
Prueba para una muestra Valor de prueba = 0 95% Intervalo de confianza para la diferencia Diferencia gl Sig. (bilateral) de medias Inferior Superior 27 ,000 -,57877908 -,8213243 -,3362338 27 27 27 27 27 27 27 27 27 27 27 ,000 ,001 ,010 ,021 ,145 ,005 ,000 ,000 ,000 ,008 ,000 -,55621925 -,8122251 -,3002134 -,55012974 -,8642810 -,2359785 -,42237245 -,7359185 -,1088264 -,40201383 -,7397717 -,0642560 -,29299391 -,6934485 ,1074607
Zinf Puntua: informacin Zsem Puntua: semejanzas Zarit Puntua: aritmtica Zvoc Puntua: vocabulario Zcomp Puntua: comprensin Zdig Puntua: dgitos Zfi Puntua: figuras incompletas Zhis Puntua: historietas Zcub Puntua: cubos Zrom Puntua: rompecabezas Zcn Puntua: claves numricas Zlaber Puntua: laberintos
t 5,180 2,859 3,353 2,526 2,691 2,835 5,697 2,254 2,765 3,676 2,471 4,141
gl 16 16 16 16 16 16 16 16 16 16 16 16
Sig. (bilateral) ,000 ,011 ,004 ,022 ,016 ,012 ,000 ,039 ,014 ,002 ,025 ,001
Diferencia de medias ,80657945 ,48217148 ,66429329 ,54570281 ,38414254 ,50443714 ,83255309 ,46506233 ,52024129 ,74794809 ,32044215 ,82167235
,2442607 1,0843259 ,0878061 1,0035995 ,0815166 ,1271916 ,6867685 ,8816827
,5227588 1,1423474 ,0277328 ,1214140 ,9023919 ,9190686
,3165717 1,1793245 ,0455715 ,5953128
,4010257 1,2423191
Zinf Puntua: informacin Zsem Puntua: semejanzas Zarit Puntua: aritmtica Zvoc Puntua: vocabulario Zcomp Puntua: comprensin Zdig Puntua: dgitos Zfi Puntua: figuras incompletas Zhis Puntua: historietas Zcub Puntua: cubos Zrom Puntua: rompecabezas Zcn Puntua: claves numricas Zlaber Puntua: laberintos
t -4,896 -4,458 -3,593 -2,764 -2,442 -1,501 -3,049 -4,939 -4,005 -4,283 -2,839 -6,472
-,52683232 -,8814079 -,1722568 -,59025492 -,8354870 -,3450228 -,48018512 -,7261983 -,2341720 -,58296876 -,8622595 -,3036781 -,41865379 -,7212325 -,1160751 -,63368232 -,8345916 -,4327731

Practica Sac 1

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Practica Sac 1

Încărcat de

Drepturi de autor:

Formate disponibile

Master en Recursos Humanos

Anlisis de Conglomerados (Cluster Analysis): prcticas con SPSS

Vlidos N Porcentaje 48 71,6

Casos Perdidos N Porcentaje 19 28,4

Total N Porcentaje 67 100,0

a. distancia eucldea al cuadrado usada b. Vinculacin promedio (Inter-grupos)

Vinculacin completa (mtodo del mximo)

Vinculacin completa (mtodo del mximo)

Vinculacin completa (mtodo del mximo)

Vinculacin completa (mtodo del mximo)

Perdi dos Total

Resultados: Perfil de medias de cada solucin

Los grficos de perfiles obtenerlos del archivo: perfiles

Resultados: Perfil de medias de cada solucin

Resultados: Perfil de medias de cada solucin

his historietas fi figuras incompletas

Conglomerados en dos etapas

Conglomerados en dos etapas

Conglomerados en dos etapas

Conglomerados en dos etapas

Casos excl ui dos T otal

Perfiles de los conglomerados Centroides

,2442607 1,0843259 ,0878061 1,0035995 ,0815166 ,1271916 ,6867685 ,8816827

,5227588 1,1423474 ,0277328 ,1214140 ,9023919 ,9190686

,3165717 1,1793245 ,0455715 ,5953128

S-ar putea să vă placă și