Documente Academic
Documente Profesional
Documente Cultură
Los creadores de los primeros anlisis de segmentacin llamaron a esta tcnica AID
(Detencin automtica de interaccin). Como este nombre indica, la principal intencin
era la bsqueda de interacciones entre un conjunto de variables independientes con una
variable dependiente, para evitar los problemas del anlisis de clasificacin mltiple,
que es un anlisis de varianza con ms de un criterio de clasificacin (Sonquist y
Morgan, 1964). Sin embargo, esta tcnica ha sido muy utilizada con propsitos distintos
de los originalmente pensados1; de ah que sea conocida actualmente bajo el nombre de
anlisis de segmentacin, que da una idea ms precisa de su utilizacin en el campo de
la investigacin de mercados2. "El concepto segmentacin de mercado es anterior al
de segmentacin entendido como herramienta de anlisis estadstico al servicio de la
investigacin comercial. La segmentacin de mercados surge como filosofa o
estrategia de marketing aplicable a un mercado en el que, superada la fase evolutiva de
un mercado de desarrollo de la demanda primaria de un producto, la oferta de marcas se
traduce en una lucha abierta de presentacin de ventajas diferenciales para la obtencin
de mayores participaciones de mercado" (Snchez-Cuenca, 1990, 512).
Para analizar las distintas posibilidades de aplicacin de esta tcnica en el anlisis de
cuestionarios, sus usos se clasificarn segn los objetivos de la investigacin. Se
estudiarn, en primer lugar, las posibilidades descriptivas y se continuar con la utilidad
exploratoria de esta tcnica. Posteriormente, se analizar la utilidad explicativa y la
clasificatoria. Por ltimo, se har mencin a la capacidad predictora de este
procedimiento.
Ejemplos de aplicacin en el campo de las Ciencias Sociales en Espaa son Horter (1978), Garca
Ferrando (1982) y Alvira, Garca Lpez y Horter (1982). Todos ellos utilizan el algoritmo AID basado en
la suma cuadrtica.
2
El artculo donde se presenta por primera vez esta estrategia de mercados fue publicado en el
Journal of Marketing (W. Smith, 1956).
Adems de los porcentajes, para la correcta descripcin, hay que tener en cuenta
la frecuencia de cada grupo. Se observa en la misma que el grupo de mayores de
izquierda es muy reducido: apenas cubre el 7.5% de la muestra (85 de los 1137 que
contestan a la pregunta). En cambio, los dos grupos de centro-derecha son los ms
numerosos, casi un 40% en cada uno de ellos4.
Hay dos posibles maneras de resumir la informacin descriptiva de este anlisis.
La primera sera insistiendo en la oposicin centro-derecha versus izquierda, destacando
que las tres cuartas partes de la muestra (G.6 y G.7) presentan una baja aceptacin del
3
Los datos de este ejemplo estn recogidos de la Fundacin CIRES. Se trata del estudio realizado en
1991 con una muestra de 1200 casos.
4
Existe en este caso gran mayora de individuos de centro derecha porque los que no han proferido su
ideologa estn tambin incluidos en este grupo. Se ha hecho as porque su posicin ante el aborto es ms
similar a la de aqullos que a la de los de izquierda. Aunque esto se haya realizado manualmente para
simplificar el ejemplo, el anlisis de segmentacin los hubiese incorporado automticamente de la misma
forma.
Estos datos proceden del estudio n 2382 del CIS, llevado a cabo en febrero de 2000 con el objeto de
predecir el comportamiento electoral de los espaoles en las elecciones de marzo del mismo ao. Se
realiz una encuesta aleatoria con 24040 sujetos. Ms referencia tcnica puede encontrarse en
http://www.cis.es.
6
Debe sealarse que muchas de estas variables son ordinales y en el cuestionario original estn
codificadas en orden inverso a su importancia. As, por ejemplo, en la pregunta nmero 1, la opcin
mucho est codificada con un 1, mientras que la opcin nada lo est con un 4. Para que los smbolos
presentes en el rbol sean coherentes con el orden, se ha cambiado la codificacin, de tal forma que el
mucho sea igual a 4 y el nada igual a 1. Aqu, el lector debe advertir que la cuantificacin es indiferente y
slo importa el orden de los dgitos empleados. Esta misma operacin se ha realizado con las siguientes
variables del cuestionario: p2, p3, p4, p5, p6 p7, p8, p9, p22 y p23.
Importancia
100.00
94.6
86.7
25.9
7.5
4.5
2.4
2.3
2.3
1.9
PP
Nodo 1
Categora
%
n
Si
96.85 6052
No
3.15
197
Total
(26.03) 6249
No vota
Nodo 2
Categora
%
n
Si
53.32 2072
No
46.68 1814
Total
(16.19) 3886
Derecha Reg.;PSOE
Nodo 3
Categora
%
n
Si
94.95 6587
No
5.05
350
Total
(28.89) 6937
Izqu. Reg.
Nodo 4
Categora
%
Si
72.65
No
27.35
Total
(2.83)
Otros partidos;IU
n
494
186
680
Nodo 5
Categora
%
n
Si
90.99 1514
No
9.01
150
Total
(6.93) 1664
<perdido>
Nodo 6
Categora
%
n
Si
83.25 3823
No
16.75
769
Total
(19.13) 4592
Es necesario advertir que no siempre los resultados han de ser idnticos ya que, si la variable
dependiente es cualitativa, la medida que se emplean en estos dos algoritmos es distinta: 2 en el primer
caso, y el ndice de mejora en el segundo. Vanse los captulos correspondientes.
Figura 1.6.- Segmentacin de la intencin de votar por recuerdo en las ltimas autonmicas.
VOTO
Nodo 0
Categora
%
n
Si
86.11 16719
No
13.89 2697
Total
(100.00) 19416
Voto ltimas autonmicas
Mejora=0.0550
No vota;Izqu. Reg.
Nodo 1
Categora
%
n
Si
56.20 2566
No
43.80 2000
Total
(23.52) 4566
Nodo 2
Categora
%
n
Si
95.31 14153
No
4.69
697
Total
(76.48) 14850
No vota
Nodo 3
Categora
%
n
Si
53.32 2072
No
46.68 1814
Total
(20.01) 3886
Izqu. Reg.
Nodo 4
Categora
%
Si
72.65
No
27.35
Total
(3.50)
PP;Derecha Reg.;PSOE
Nodo 5
Categora
%
n
Si
95.85 12639
No
4.15
547
Total
(67.91) 13186
n
494
186
680
Otros partidos;IU
Nodo 6
Categora
%
n
Si
90.99 1514
No
9.01
150
Total
(8.57) 1664
PP
Nodo 7
Categora
%
n
Si
96.85 6052
No
3.15
197
Total
(32.18) 6249
Derecha Reg.;PSOE
Nodo 8
Categora
%
n
Si
94.95 6587
No
5.05
350
Total
(35.73) 6937
No es este el lugar para explicar las propiedades y posibilidades que ofrecen las diferencias de
porcentajes, tcnica empleada especialmente en las tablas de contingencia. El lector interesado puede
consultar Davis (1975) y Snchez Carrin (1984 y 1989).
<=17
Nodo 1
Categora
%
n
Estud
93.27 208
Trab
4.48
10
Bus tr
0.90
2
O.Inac
1.35
3
Total
(22.30) 223
(17,20]
(20,23]
Nodo 2
Categora
%
n
Estud
73.48 133
Trab
17.13
31
Bus tr
6.63
12
O.Inac
2.76
5
Total
(18.10) 181
Nodo 3
Categora
%
n
Estud
46.67
98
Trab
39.52
83
Bus tr
11.90
25
O.Inac
1.90
4
Total
(21.00) 210
Baja;M-baj;M-md,<perdido>
Nodo 6
Categora
%
n
Estud
67.39
93
Trab
21.01
29
Bus tr
8.70
12
O.Inac
2.90
4
Total
(13.80) 138
M-a/A
Nodo 7
Categora
%
Estud
93.02
Trab
4.65
Bus tr
0.00
O.Inac
2.33
Total
(4.30)
(23,26]
>26
Nodo 4
Categora
%
n
Estud
29.14
51
Trab
54.29
95
Bus tr
14.29
25
O.Inac
2.29
4
Total
(17.50) 175
Nodo 5
Categora
%
n
Estud
7.58
16
Trab
74.41 157
Bus tr
11.85
25
O.Inac
6.16
13
Total
(21.10) 211
Sexo
Nivel crtico corregido=0.0178, Chi-cuadrado=10.0957, gl=3
Hom
n
40
2
0
1
43
Nodo 8
Categora
%
Estud
10.64
Trab
79.79
Bus tr
8.51
O.Inac
1.06
Total
(9.40)
Mujer
n
10
75
8
1
94
Nodo 9
Categora
%
n
Estud
5.13
6
Trab
70.09
82
Bus tr
14.53
17
O.Inac
10.26
12
Total
(11.70) 117
Un anlisis similar al de la segmentacin es el anlisis de regresin mltiple paso a paso. Se tiene una
variable dependiente y del conjunto de variables independientes o predictores se introduce en la ecuacin
aquella variable con un coeficiente de correlacin ms alto con la primera. Posteriormente, se van
introduciendo nuevas variables a la ecuacin ya formada, asumiendo que las ya incluidas controlan la
relacin entre las que no estn en la ecuacin y la variable dependiente. Esta tcnica goza de poca
simpata entre los estadsticos por su naturaleza inductivista. La posicin ms aceptada sera la
hipottica_deductiva por la que la estadstica juzga la bondad de los modelos previamente establecidos
por el investigador en funcin de teoras plausibles.
10
Se utiliza en este libro la metodologa y terminologa que siguen distintos autores en al anlisis de
las tablas de contingencia. Vase Lazarsfeld (1955), Zeisel (1962), Rosenberg (1968) y Lieberson (1987).
Una presentacin breve puede encontrarse en el captulo 10 del manual de Mayntz, Holm y Hbner
(1975).
Figura 1.8.- Cruce de actitud liberal segn edad, segn estado civil.
Estado civil
Soltero
Otros
Edad
Edad
Joven
Actitud liberal
Total
Mayor
Joven
Mayor
(200)
(160)
(100)
(40)
60.0%
25.0%
60.0%
25.0%
No
40.0%
75.0%
40.0%
75.0%
Se sabe que la relacin del estado civil con ser liberal no es directa, sino que viene
proporcionada por la relacin que existe entre, por un lado, ser joven y estar soltero, y,
por el otro, ser mayor y estar casado.
Figura 1.9.- Cruce de actitud liberal segn estado civil y edad.
Edad
Joven
Actitud liberal
Total
Estado civil
Mayor
Soltero
Otros
(300)
(200)
(360)
(140)
60.0%
25.0%
44.4%
50.0%
No
40.0%
75.0%
55.6%
50.0%
Sig. asinttica
(bilateral)
gl
59.179
.000
1.252
.263
Por tanto, la primera segmentacin siempre se realiza con la variable que produce la
asociacin directa.
Una vez realizada esta segmentacin, la asociacin de la variable est controlada por
los valores del predictor anterior, puesto que estos ltimos se mantienen constantes en
cada grupo que ha de ser segmentado. En consecuencia, la variable con relacin ficticia,
o la variable antecedente en un modelo de intervencin, no aparece como predictor
relevante en la segmentacin. En la Figura 1.11 Figura 1.9se presenta el dendograma del
n
230
270
500
Edad
Nivel crtico corregido=0,0000, Chi-cuadrado=59,1787, gl=1
<=Joven
>Joven
Nodo 1
Categora
%
S
60,00
No
40,00
Total
(60,00)
Nodo 2
Categora
%
S
25,00
No
75,00
Total
(40,00)
n
180
120
300
Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1
Soltero
Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1
Otros
Nodo 5
Categora
%
S
60,00
No
40,00
Total
(40,00)
n
120
80
200
Nodo 6
Categora
%
S
60,00
No
40,00
Total
(20,00)
Soltero
n
60
40
100
n
50
150
200
Nodo 3
Categora
%
S
25,00
No
75,00
Total
(32,00)
Otros
n
40
120
160
Nodo 4
Categora
%
S
25,00
No
75,00
Total
(8,00)
Edad
1.02E-23
-
P. Relig.
3.10E-17
2.22E-04
2.30E-05
n
10
30
40
Figura 1.13.- rbol de segmentacin de la actitud liberal con edad y prctica religiosa
LIBERAL
Nodo 0
Categora
%
S
55,00
No
45,00
Total
(100,00)
n
330
270
600
EDAD
Nivel crtico corregido=0,0000, Chi-cuadrado=81,4815, gl=1
Joven
Mayor
Nodo 1
Categora
%
S
73,33
No
26,67
Total
(50,00)
Nodo 2
Categora
%
S
36,67
No
63,33
Total
(50,00)
n
220
80
300
P.RELIGI
Nivel crtico corregido=0,0002, Chi-cuadrado=13,6364, gl=1
Menor
Nodo 3
Categora
%
S
80,00
No
20,00
Total
(33,33)
P.RELIGI
Nivel crtico corregido=0,0007, Chi-cuadrado=11,4833, gl=1
Mayor
Nodo 4
Categora
%
S
60,00
No
40,00
Total
(16,67)
n
160
40
200
n
110
190
300
Menor
Nodo 5
Categora
%
S
50,00
No
50,00
Total
(16,67)
n
60
40
100
Mayor
Nodo 6
Categora
%
S
30,00
No
70,00
Total
(33,33)
n
50
50
100
n
60
140
200
Cosa muy distinta sucede cuando en el anlisis no se incluye como predictor una
variable relevante, especialmente si sta est asociada con otra que no posee efectos
directos sobre la dependiente (Figura 1.14). Si se realiza una segmentacin con estado
civil y prctica religiosa para explicar la autodenominacin liberal, se observa que el
primero es mejor predictor que la segunda.
Figura 1.14.- Segmentacin de la actitud liberal segn estado civil y prctica religiosa.
LIBERAL
Nodo 0
Categora
%
S
40,00
No
60,00
Total
(100,00)
n
320
480
800
Estado civil
Nivel crtico corregido=0,0000, Chi-cuadrado=40,7407, gl=1
Soltero
Otros
Nodo 1
Categora
%
S
52,22
No
47,78
Total
(45,00)
Nodo 2
Categora
%
S
30,00
No
70,00
Total
(55,00)
n
188
172
360
P.RELIGI
Nivel crtico corregido=0,0010, Chi-cuadrado=10,9104, gl=1
<=Menor
Nodo 3
Categora
%
S
60,00
No
40,00
Total
(25,00)
>Menor
n
120
80
200
Nodo 4
Categora
%
S
42,50
No
57,50
Total
(20,00)
P.RELIGI
Nivel crtico corregido=0,0000, Chi-cuadrado=17,4603, gl=1
<=Menor
n
68
92
160
n
132
308
440
Nodo 5
Categora
%
S
40,00
No
60,00
Total
(25,00)
>Menor
n
80
120
200
Nodo 6
Categora
%
S
21,67
No
78,33
Total
(30,00)
n
52
188
240
n
320
480
800
EDAD
Nivel crtico corregido=0,0000, Chi-cuadrado=133,3333, gl=1
<=Joven
>Joven
Nodo 1
Categora
%
n
S
60,00 240
No
40,00 160
Total
(50,00) 400
Nodo 2
Categora
%
S
20,00
No
80,00
Total
(50,00)
Prctica religiosa
Nivel crtico corregido=0,0000, Chi-cuadrado=16,6667, gl=1
<=Joven
Soltero
<=Joven
Nodo 4
Categora
%
n
S
50,00 100
No
50,00 100
Total
(25,00) 200
Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1
Nodo 13
Categora
%
n
S
70,00 105
No
30,00 45
Total
(18,75) 150
Prctica religiosa
Nivel crtico corregido=0,0000, Chi-cuadrado=25,0000, gl=1
>Joven
Nodo 3
Categora
%
n
S
70,00 140
No
30,00 60
Total
(25,00) 200
Otros
Nodo 14
Categora
%
S
70,00
No
30,00
Total
(6,25)
Nodo 11
Categora
%
n
S
50,00 65
No
50,00 65
Total
(16,25) 130
>Joven
Nodo 5
Categora
%
n
S
30,00 60
No
70,00 140
Total
(25,00) 200
Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1
Soltero
n
35
15
50
n
80
320
400
Otros
Nodo 12
Categora
%
S
50,00
No
50,00
Total
(8,75)
Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1
Soltero
n
35
35
70
Nodo 6
Categora
%
S
10,00
No
90,00
Total
(25,00)
Nodo 9
Categora
%
S
30,00
No
70,00
Total
(6,25)
Otros
n
15
35
50
Nodo 10
Categora
%
S
30,00
No
70,00
Total
(18,75)
Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1
Soltero
n
45
105
150
n
20
180
200
Nodo 7
Categora
%
n
S
10,00
3
No
90,00 27
Total
(3,75) 30
Otros
Nodo 8
Categora
%
S
10,00
No
90,00
Total
(21,25)
n
17
153
170
n
360
440
800
No
Nodo 1
Categora
%
S
65,00
No
35,00
Total
(50,00)
Nodo 2
Categora
%
S
25,00
No
75,00
Total
(50,00)
n
260
140
400
S
Nodo 3
Categora
%
S
80,00
No
20,00
Total
(25,00)
No
n
160
40
200
Nodo 4
Categora
%
S
50,00
No
50,00
Total
(25,00)
n
100
100
200
n
100
300
400
Nodo 5
Categora
%
S
40,00
No
60,00
Total
(25,00)
No
n
80
120
200
Nodo 6
Categora
%
S
10,00
No
90,00
Total
(25,00)
n
20
180
200
Otras posibilidades de comparacin hubiesen sido el G.4 con el G.6 (diferencia= 40%), el G.4 con el
G.7 (diferencia= 70%) y el G.5 con el G.7 (diferencia= 40%). Por tanto, la mnima es la que se produce
entre el G.5 y el G.6 (diferencia=10%).
En cambio, con los datos de la Figura 1.17, la influencia relativa de las dos variables
vara. Con estos datos, para determinar la asistencia al cine, que al individuo le guste
esta actividad es bastante ms importante que le agrade salir o no. Aunque le encante
salir, si no le gusta el cine, tendr poca probabilidad (20%) de entrar en l. Y, si le
agrada el cine, aunque no le guste salir, la posibilidad de que acuda a ver una pelcula es
alta (70%). En este ejemplo hay desequilibrio de la multicausalidad. Una variable
influye mucho ms que la otra, porque la mnima diferencia entre grupos derivados de
diferentes segmentos del nivel anterior (50%) es mayor que las diferencias producidas
por la segunda segmentacin (10%).
Figura 1.17.- rbol de segmentacin de un modelo aditivo no equilibrado.
Asistencia al cine
Nodo 0
Categora
%
S
45,00
No
55,00
Total
(100,00)
n
360
440
800
No
Nodo 1
Categora
%
S
75,00
No
25,00
Total
(50,00)
Nodo 2
Categora
%
S
15,00
No
85,00
Total
(50,00)
n
300
100
400
S
Nodo 3
Categora
%
S
80,00
No
20,00
Total
(25,00)
No
n
160
40
200
Nodo 4
Categora
%
S
70,00
No
30,00
Total
(25,00)
n
140
60
200
n
60
340
400
Nodo 5
Categora
%
S
20,00
No
80,00
Total
(25,00)
No
n
40
160
200
Nodo 6
Categora
%
S
10,00
No
90,00
Total
(25,00)
n
20
180
200
n
240
560
800
No
Nodo 1
Categora
%
S
50,00
No
50,00
Total
(50,00)
Nodo 2
Categora
%
S
10,00
No
90,00
Total
(50,00)
n
200
200
400
n
40
360
400
S
Nodo 3
Categora
%
n
S
90,00 180
No
10,00 20
Total
(25,00) 200
No
Nodo 4
Categora
%
n
S
10,00 20
No
90,00 180
Total
(25,00) 200
De la misma forma que se podan distinguir dos submodelos aditivos, entre los
modelos interactivos hay tambin distintos tipos. Un modelo recibe la denominacin de
interactivo de efectos acumulados (Figura 1.18), cuando la variable dependiente tiene
un valor anmalo en una especial combinacin de valores de dos variables. Por ejemplo,
un determinado objeto de consumo suntuario slo ser comprado por las personas que
cumplan dos condiciones: que tenga el dinero y que le guste o encuentre til la posesin
de dicho objeto. El porcentaje de compradores ser muy bajo para los grupos 1) con
escasez de recursos e inters por el bien, 2) con escasez de recursos pero interesado por
el producto y 3) sin escasez de medios econmicos y no interesados. En cambio, en el
grupo de dotados de medios y adictos al bien habr un alto porcentaje de propietarios de
ste.
La interaccin ser de efectos diferenciados, en cambio, cuando haya distintas
diferencias de porcentajes entre los grupos procedentes de segmentos distintos y dichas
diferencias presenten el mismo signo (todas positivas o negativas). Este modelo,
representado en la imagen de la Figura 1.19 implica que la segunda variable
segmentadora tiene mayor influencia para un grupo de sujetos que para otros. Se
diferencia del anterior en que el segundo predictor tiene influencia, aunque con distinto
grado, en todos los grupos y no en un subconjunto de ellos como es el caso de la
interaccin de efectos acumulados. Por ejemplo, en la compra de un bien no suntuario,
la posesin de recursos tiene mayor influencia entre aquellos a los que les gusta el bien,
que entre aquellos a los que no les gusta.
n
480
320
800
No
Nodo 1
Categora
%
S
80,00
No
20,00
Total
(50,00)
Nodo 2
Categora
%
S
40,00
No
60,00
Total
(50,00)
n
320
80
400
S
Nodo 3
Categora
%
S
90,00
No
10,00
Total
(25,00)
No
n
180
20
200
Nodo 4
Categora
%
S
70,00
No
30,00
Total
(25,00)
n
140
60
200
n
160
240
400
Nodo 5
Categora
%
S
70,00
No
30,00
Total
(25,00)
No
n
140
60
200
Nodo 6
Categora
%
S
10,00
No
90,00
Total
(25,00)
n
20
180
200
n
440
360
800
No
Nodo 1
Categora
%
S
60,00
No
40,00
Total
(50,00)
Nodo 2
Categora
%
S
50,00
No
50,00
Total
(50,00)
n
240
160
400
S
Nodo 3
Categora
%
S
90,00
No
10,00
Total
(25,00)
No
n
180
20
200
Nodo 4
Categora
%
S
30,00
No
70,00
Total
(25,00)
n
60
140
200
n
200
200
400
Nodo 5
Categora
%
S
10,00
No
90,00
Total
(25,00)
No
n
20
180
200
Nodo 6
Categora
%
S
90,00
No
10,00
Total
(25,00)
n
180
20
200
Segn fueran los tipos de interaccin, los grficos de segmentacin presentaran las
siguientes formas y valores de los porcentajes: Un modelo de efectos interactivos
acumulados saldra asimtrico y el porcentaje de uno de los grupos segmentados debera
ser semejante al del grupo no segmentado del nivel anterior (Figura 1.18); en un modelo
de interaccin diferenciadora, aun pudiendo aparecer simtrico, las diferencias de
porcentajes seran distintas para cada uno de los grupos de los que procede (Figura
1.19); por ltimo, un modelo de efectos interactivos opuestos, presentara diferencias de
porcentajes de diferente signo (Figura 1.20).
Un caso extraordinario que, paradjicamente, no es capaz de resolver este anlisis
automtico de interaccin se produce si existen efectos interactivos opuestos que se
anulen entre s. Debido a este hecho, esta tcnica se revela totalmente incapaz de
detectar este tipo de interacciones, incluso llegando a ocultar verdaderas relaciones entre
variables. En la Figura 1.21, los datos dan muestra clara de una interaccin entre sexo y
estudios. Sin embargo, el anlisis de deteccin automtica de interacciones sera incapaz
de descubrirla, porque en el momento de hacer la primera segmentacin se encontrara
que ni el sexo, ni los estudios poseen capacidad explicativa sobre la variable
dependiente. Y nada ms lejos de la realidad, por lo que se refiere al sexo, por citar el
ms evidente, que diferencia en gran medida a la variable dependiente en cada uno de
los subgrupos formados por la variable estudios.
n
400
400
800
ESTUDIOS
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1
Bajos
Altos
Nodo 1
Categora
%
S
50,00
No
50,00
Total
(50,00)
Nodo 2
Categora
%
S
50,00
No
50,00
Total
(50,00)
n
200
200
400
GNERO
Nivel crtico corregido=0,0000, Chi-cuadrado=256,0000, gl=1
Hombre
Nodo 3
Categora
%
S
90,00
No
10,00
Total
(25,00)
Mujer
n
180
20
200
Nodo 4
Categora
%
S
10,00
No
90,00
Total
(25,00)
GNERO
Nivel crtico corregido=0,0000, Chi-cuadrado=256,0000, gl=1
Hombre
n
20
180
200
n
200
200
400
Nodo 5
Categora
%
S
10,00
No
90,00
Total
(25,00)
Mujer
n
20
180
200
Nodo 6
Categora
%
S
90,00
No
10,00
Total
(25,00)
n
180
20
200
Sin ninguna otra informacin que los predictores (las notas de los dos exmenes y las
calificaciones del trabajo) y la calificacin final (de suspenso a sobresaliente), se
realizaron sendos anlisis de segmentacin: uno mediante CHAID, el otro mediante
CART.
Figura 1.22.- Segmentacin CHAID de las calificaciones.
CALIFICA
Nodo 0
Categora
%
Suspenso
55.56
Aprobado
31.62
Notable
11.97
Sobresaliente
0.85
Total
(100.00)
n
65
37
14
1
117
T
Nivel crtico corregido=0.0000, Chi-cuadrado=107.1084, gl=6
<=4
(4,5]
Nodo 1
Categora
%
n
Suspenso
100.00 57
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(48.72) 57
>5
Nodo 2
Categora
%
n
Suspenso
9.09
2
Aprobado
86.36 19
Notable
4.55
1
Sobresaliente
0.00
0
Total
(18.80) 22
Nodo 3
Categora
%
Suspenso
15.79
Aprobado
47.37
Notable
34.21
Sobresaliente
2.63
Total
(32.48)
P2
Nivel crtico corregido=0.0003, Chi-cuadrado=28.5614, gl=4
<=3.5
Nodo 4
Categora
%
n
Suspenso
100.00
2
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(1.71) 2
(3.5,7.5]
Nodo 5
Categora
%
n
Suspenso
0.00
0
Aprobado
100.00 17
Notable
0.00
0
Sobresaliente
0.00
0
Total
(14.53) 17
n
6
18
13
1
38
P2
Nivel crtico corregido=0.0000, Chi-cuadrado=38.0000, gl=3
>7.5
Nodo 6
Categora
%
n
Suspenso
0.00
0
Aprobado
66.67
2
Notable
33.33
1
Sobresaliente
0.00
0
Total
(2.56) 3
<=3.5
Nodo 7
Categora
%
n
Suspenso
100.00
6
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(5.13) 6
>3.5
Nodo 8
Categora
%
Suspenso
0.00
Aprobado
56.25
Notable
40.63
Sobresaliente
3.13
Total
(27.35)
n
0
18
13
1
32
P1
Nivel crtico corregido=0.0104, Chi-cuadrado=13.2824, gl=2
<=7.4000000000000004
>7.4000000000000004
Nodo 9
Categora
%
n
Suspenso
0.00
0
Aprobado
77.27 17
Notable
22.73
5
Sobresaliente
0.00
0
Total
(18.80) 22
Nodo 10
Categora
%
n
Suspenso
0.00
0
Aprobado
10.00
1
Notable
80.00
8
Sobresaliente 10.00
1
Total
(8.55) 10
Susp.
65
0
0
0
65
Estimacin de riesgo
ET del riesgo
Categora real
Aprob. Notab. Sobres.
0
0
0
36
6
0
1
8
1
0
0
0
37
14
1
Total
65
42
10
0
117
Estadsticas de riesgo
0.0683
0.0233
Si, en lugar de aplicar el algoritmo CHAID, se emplea CART, los resultados son
bastante semejantes. Como puede apreciarse en la Figura 1.24, los dos primeros niveles
de segmentacin sirven para separar a los suspensos. En primer lugar, empleando como
mejor clasificador el trabajo; despus, haciendo uso del segundo examen. De este modo,
quedan los 65 suspensos correctamente clasificados.
n
65
37
14
1
117
T
Mejora=0.2963
<=4.25
>4.25
Nodo 1
Categora
%
n
Suspenso
100.00 57
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(48.72) 57
Nodo 2
Categora
%
Suspenso
13.33
Aprobado
61.67
Notable
23.33
Sobresaliente
1.67
Total
(51.28)
n
8
37
14
1
60
P2
Mejora=0.0936
<=4
>4
Nodo 3
Categora
%
n
Suspenso
100.00
8
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(6.84) 8
Nodo 4
Categora
%
Suspenso
0.00
Aprobado
71.15
Notable
26.92
Sobresaliente
1.92
Total
(44.44)
n
0
37
14
1
52
P1
Mejora=0.0391
<=6.7999999999999998
>6.7999999999999998
Nodo 5
Categora
%
n
Suspenso
0.00
0
Aprobado
90.00 27
Notable
10.00
3
Sobresaliente
0.00
0
Total
(25.64) 30
Nodo 6
Categora
%
Suspenso
0.00
Aprobado
45.45
Notable
50.00
Sobresaliente
4.55
Total
(18.80)
n
0
10
11
1
22
P2
Mejora=0.0260
<=6.75
>6.75
Nodo 9
Categora
%
n
Suspenso
0.00
0
Aprobado
69.23
9
Notable
30.77
4
Sobresaliente
0.00
0
Total
(11.11) 13
Nodo 10
Categora
%
n
Suspenso
0.00
0
Aprobado
11.11
1
Notable
77.78
7
Sobresaliente 11.11
1
Total
(7.69) 9
T
Mejora=0.0320
<=6.5
Nodo 13
Categora
%
n
Suspenso
0.00
0
Aprobado
90.00
9
Notable
10.00
1
Sobresaliente
0.00
0
Total
(8.55) 10
>6.5
Nodo 14
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
100.00
3
Sobresaliente
0.00
0
Total
(2.56) 3
Sin embargo la clasificacin del resto resulta algo ms compleja. El tercer nivel hace
uso de los resultados del primer examen, creando un grupo terminal con los que sacaron
menos de un 6.8 en la mencionada prueba, pues entre ellos slo un 10%, pudieron sacar
finalmente un notable. En cambio, los 22 que sacaron buenas notas en el primer examen
se dividen por las notas del segundo examen. Si en ste sus componentes tambin
sacaron ms de 6.8, entonces es prcticamente improbable que en conjunto tuvieran
menos de notable (slo 1 de 9). En cambio, los trece aprobados (grupo 9) con alta nota
en el primer examen y baja nota en el segundo, se subdividen por su nota en el trabajo.
Si no supera el 6.5, entonces, el resultado final modal es el mero aprobado; en cambio,
si el trabajo est por encima de la mencionada calificacin, el resultado final es
evaluado correctamente como notable.
Por otro lado, la tabla de clasificacin, aun con el rbol podado, ofrece mejores
resultados que los anteriores efectuados con CHAID. En este caso menos del 5% de los
casos quedan mal clasificados.12 En concreto, 3 notables son calificados como
aprobados. stos son sujetos que empezaron con malos resultados en el primer parcial,
pero luego acabaron haciendo una buena segunda prueba y un trabajo notable. Por otro
lado, hay 2 personas de las que se predice peores resultados. En concreto, una con un
notable y otra con un sobresaliente. ste ltimo caso es justificable puesto que es el
nico con esta calificacin. La primera persona es un caso extraordinario, puesto que,
habiendo sacado menos de notable en ambos exmenes, el resultado del trabajo le eleva
la nota. La tabla de clasificacin y la estimacin del riesgo se muestran en la Figura 1.25
Figura 1.25.- Tabla de clasificacin y estadsticas de riesgo de las calificaciones (CART).
Tabla de clasificacin
Susp.
65
0
0
0
65
Categora real
Aprob.
Notab.
0
0
36
6
1
10
0
0
37
14
Estimacin de riesgo
ET del riesgo
Estadsticas de riesgo
0.0512
0.0204
Estimacin
Suspenso
Aprobado
Notable
Sobresalien
Total
Sobres.
0
0
1
0
1
Total
65
40
12
0
117
12
Una pregunta que se puede formular es si esta cantidad es admisible o no. Como todo es relativo, en
el prximo captulo se intentar dar una respuesta comparativa, poniendo en contraste esta tcnica con
otras similares.
n
65
37
14
1
117
NOTA
Nivel crtico corregido=0.0000, Chi-cuadrado=209.3926, gl=12
<=4
Nodo 1
Categora
%
n
Suspenso
100.00 58
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(49.57) 58
(4,6.2999999999999998]
Nodo 2
Categora
%
n
Suspenso
0.00
0
Aprobado
100.00 31
Notable
0.00
0
Sobresaliente
0.00
0
Total
(26.50) 31
(6.2999999999999998,6.7999999999999998]
Nodo 3
Categora
%
n
Suspenso
0.00
0
Aprobado
60.00
6
Notable
40.00
4
Sobresaliente
0.00
0
Total
(8.55) 10
>6.7999999999999998
Nodo 4
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
90.91 10
Sobresaliente
9.09
1
Total
(9.40) 11
<perdido>
Nodo 5
Categora
%
n
Suspenso
100.00
7
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(5.98) 7
La razn por la cual el resultado no es perfecto es la peculiar forma que tiene CHAID
de trabajar con los predictores cuantitativos. Como no puede tratarlos como variables
continuas, los divide en diez cortes de igual amplitud y, posteriormente, efecta las
correspondientes fusiones, con los procedimientos explicados en la seccin X.X. En el
caso que se est comentando, se han dividido en deciles, que luego han sido agrupados,
si no mostraban diferencias significativas en la variable criterio. De este modo, al final
han quedado definidos cinco grupos: el de los que tienen 4 o menos puntos, el
comprendido entre 4.5 y 6.3 (caracterizados por estar aprobados), los que tienen entre
6.3 y 6.8 (mitad de ellos aprobados, mitad notables), los que puntan con ms de 6.8 (y
en consecuencia con calificaciones de notable y sobresaliente), y finalmente los casos
perdidos, calificados como suspensos al ser todos aquellos que no se han presentado a
alguna prueba13.
Si, en lugar de aplicar el algoritmo CHAID, se emplea CART, el rbol desciende a
varios niveles, puesto que aunque slo una sea la variable ms importante, este
procedimiento slo puede
hacer al mismo tiempo una divisin binaria. En
consecuencia, el aspecto que tendra la segmentacin, empleando CART con el
predictor combinado Nota es el mostrado en la Figura 1.27.
Ntese aqu en primer lugar que el rbol se hace ms complejo por los distintos
niveles, pero tambin mucho ms acertado. De hecho, mediante este rbol la estimacin
del riesgo queda reducida a 0, porque no se produce ninguna mala clasificacin. Ni tan
siquiera quedan ms calificados los valores perdidos, ya que para su prediccin se ha
empleado una variable sustituta (la calificacin del trabajo), de acuerdo a las reglas
explicadas en la seccin X.X. Sobresale en este ejemplo que la calificacin es perfecta.
A ningn caso se le asigna un grado distinto del que ha obtenido en la realidad.
13
El programa Answertree que aqu se utiliza siempre considera categora aparte a los casos perdidos
en el caso de variables ordinales o de escala. Si se hubiera considerado nominal, los valores perdidos se
hubieran fusionado con casi completa seguridad- en el primer grupo de valores, porque todos coinciden
en calificaciones suspensas.
n
65
37
14
1
117
NOTA
Mejora=0.3899
<=4.25
>4.25
Nodo 1
Categora
%
n
Suspenso
100.00 65
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(55.56) 65
Nodo 2
Categora
%
Suspenso
0.00
Aprobado
71.15
Notable
26.92
Sobresaliente
1.92
Total
(44.44)
n
0
37
14
1
52
NOTA
Mejora=0.1711
<=6.5
>6.5
Nodo 3
Categora
%
n
Suspenso
0.00
0
Aprobado
100.00 37
Notable
0.00
0
Sobresaliente
0.00
0
Total
(31.62) 37
Nodo 4
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
93.33 14
Sobresaliente
6.67
1
Total
(12.82) 15
NOTA
Mejora=0.0160
<=8.3999999999999986
>8.3999999999999986
Nodo 5
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
100.00 14
Sobresaliente
0.00
0
Total
(11.97) 14
Nodo 6
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente 100.00
1
Total
(0.85) 1
1.5 Prediccin
Aunque tal como fue redefinido el anlisis de segmentacin por Breiman y
colaboradores, la principal funcin del anlisis de segmentacin es la clasificacin, su
cometido ms practico no est en dividir la muestra, sino en hacer predicciones sobre
ella.
A continuacin se expone un ejemplo de prediccin de voto en unas elecciones. La
pregunta original, tal como fue redactada por el CIS fue la siguiente: Como Vd.
seguramente sabe, el prximo 12 de marzo se celebrarn elecciones generales, es decir,
al Parlamento espaol. Piensa Vd. ir a votar en estas elecciones? Y las posibilidades
de respuesta registradas fueron las siguientes: 1) S, con toda probabilidad; 2)
Probablemente s; 3) Probablemente no; 4) No, con toda seguridad; 5) An no lo tiene
decidido y 6) No contesta. Los resultados del primer anlisis fueron los presentados en
la Figura 1.28.
74.1%
Probablemente s
11.3%
Probablemente no
3.8%
6.8%
3.7%
N.C.
.1%
Total
(24040)
14
Hay un problema aadido en esta prediccin. Se trata de la abstencin tcnica consistente en los
errores de censo, cambios de direcciones y otros problemas burocrticos. Posiblemente buena parte de
ella est reflejada en la categora No lo tiene decidido, pero aun con todo su cuanta debe ser superior al
porcentaje registrado y no completamente reflejado, pues tambin hay personas que teniendo su registro
en regla tiene muy clara su no participacin en los comicios. Ver la obra de Manuel Justel (1995).
No vota;Izqu. Reg.
Nodo 1
Categora
%
n
Si
57.91 3019
No
42.09 2194
Total
(26.85) 5213
Nodo 2
Categora
%
n
Si
93.23 17523
No
6.77 1272
Total
(73.15) 18795
No vota
Nodo 3
Categora
%
n
Si
53.10 2250
No
46.90 1987
Total
(22.55) 4237
Nodo 4
Categora
%
Si
78.79
No
21.21
Total
(4.30)
<=Nada
Preferencias elecciones
Mejora=0.0057
>Nada
Nodo 5
Categora
%
n
Si
40.94
915
No
59.06 1320
Total
(12.86) 2235
n
769
207
976
Otros partidos
Nodo 6
Categora
%
n
Si
66.68 1335
No
33.32
667
Total
(9.69) 2002
Nodo 7
Categora
%
Si
41.07
No
58.93
Total
(0.97)
n
69
99
168
Nodo 8
Categora
%
Si
86.63
No
13.37
Total
(3.33)
n
700
108
808
Confianza gobierno
Mejora=0.0023
<=Poca confianza
>Poca confianza
Nodo 9
Categora
%
n
Si
59.68
749
No
40.32
506
Total
(6.38) 1255
Nodo 10
Categora
%
Si
78.45
No
21.55
Total
(3.30)
n
586
161
747
Confianza oposicin
Mejora=0.0017
<=Poca confianza
Nodo 11
Categora
%
n
Si
54.76
558
No
45.24
461
Total
(5.36) 1019
>Poca confianza
Nodo 12
Categora
%
Si
80.93
No
19.07
Total
(1.02)
n
191
45
236
Por tanto, se est ante un tpico caso en el que deberan cambiarse las probabilidades
a priori de las categoras de la variable criterio. Atendiendo a la participacin en los
cuatro anteriores comicios, los porcentajes fueron de 70,5 en 1986; 69,7 en 1989; 76,4
en 1993, y 77,4 en 1996. Por tanto, la prediccin debera estar en torno al 70-78%, en
lugar del 85% previsto en la variable dependiente recodificada. Para ello habra que
ponderar la muestra (Ripley 1996, 220)15, de tal modo que se obtenga en la variable
dependiente los porcentajes supuestos en la poblacin y no los conseguidos en la
muestra. Para este ejemplo, se ha supuesto una participacin del 75%16.
El resultado es ligeramente diferente al presentado en las pginas anteriores. Resulta
incluso ms claro en la medida en que incorpora en primer lugar las dos variables
relacionadas con el voto anterior y despus introduce las relativas al inters por la
poltica o incluso las preferencias polticas. Aunque se generan siete grupos finales
distintos, slo 3 representan por s solos ms del 5% de la muestra. De un lado, el grupo
ms numeroso (el 2), constituido por casi las tres cuartas partes de la muestra, est
formado por quienes votaron en las ltimas elecciones autonmicas, entre quienes ms
del 90% tienen intencin de votar en los comicios al Parlamento espaol. Del otro lado,
se encuentran los grupos ms inclinados a abstenerse: el grupo 5, entre los que casi el
60% no tienen intencin de voto, son aquellos que se abstuvieron en las dos ltimas
elecciones y no tienen inters por la poltica; junto con el grupo 11, constituido por
apenas un 5% de la poblacin con escasa tendencia a votar17, compuesto por quienes no
votaron en las ltimas elecciones, tienen inters por la poltica, pero no confan ni en el
gobierno, ni en la oposicin.
Figura 1.30.- Tablas de clasificacin de la prediccin de voto.
Tabla de clasificacin (sin a priori)
Categora real
Estimacin
S
No
2393
S
19966
576
No
1073
Total
20542
3466
Riesgo estimado
E.T. del riesgo
0.124
0.002
Total
22359
1649
24008
Total
19401
4607
24008
0.171
0.002
Generalmente todos los programas de segmentacin incluyen la posibilidad de definir a priori los
porcentajes de la variable dependiente, sin necesidad de tener ponderado el fichero original.
16
La participacin final fue del 68,7%, porque la campaa fue de muy bajo tono y la victoria del
partido en el gobierno bastante previsible.
17
Si se miran los porcentajes en la correspondiente rama del rbol, se ve sin embargo que es
mayoritario el voto sobre el no voto. No obstante hay que tener en cuenta que en la figura aparecen los
porcentajes no ponderados. La categora predictora en realidad es aquella que genera menor riesgo y este
debe ser calculado de acuerdo a la siguiente frmula r (t ) = min
i
J
j =1
p ( j | t )C (i | j ) ( j ) . Si
(j)=p(j), entonces coincide con la categora modal; pero no siempre es as el caso, como adems se
aprecia claramente en los grupos 1, 3 y 9.
18
Esto se debe a que el punto de partida en la opcin normal es .14 (la proporcin de los que no tienen
intencin de voto). Y la segmentacin lo disminuye en dos puntos centesimales. En cambio, en la opcin
a priori, el arranque se encuentra en .25 y la divisin de la muestra logra bajar el riesgo hasta .17; por
tanto produce una mejora de ocho puntos centesimales.