Sunteți pe pagina 1din 31

1 La aplicacin del anlisis de segmentacin.

Los creadores de los primeros anlisis de segmentacin llamaron a esta tcnica AID
(Detencin automtica de interaccin). Como este nombre indica, la principal intencin
era la bsqueda de interacciones entre un conjunto de variables independientes con una
variable dependiente, para evitar los problemas del anlisis de clasificacin mltiple,
que es un anlisis de varianza con ms de un criterio de clasificacin (Sonquist y
Morgan, 1964). Sin embargo, esta tcnica ha sido muy utilizada con propsitos distintos
de los originalmente pensados1; de ah que sea conocida actualmente bajo el nombre de
anlisis de segmentacin, que da una idea ms precisa de su utilizacin en el campo de
la investigacin de mercados2. "El concepto segmentacin de mercado es anterior al
de segmentacin entendido como herramienta de anlisis estadstico al servicio de la
investigacin comercial. La segmentacin de mercados surge como filosofa o
estrategia de marketing aplicable a un mercado en el que, superada la fase evolutiva de
un mercado de desarrollo de la demanda primaria de un producto, la oferta de marcas se
traduce en una lucha abierta de presentacin de ventajas diferenciales para la obtencin
de mayores participaciones de mercado" (Snchez-Cuenca, 1990, 512).
Para analizar las distintas posibilidades de aplicacin de esta tcnica en el anlisis de
cuestionarios, sus usos se clasificarn segn los objetivos de la investigacin. Se
estudiarn, en primer lugar, las posibilidades descriptivas y se continuar con la utilidad
exploratoria de esta tcnica. Posteriormente, se analizar la utilidad explicativa y la
clasificatoria. Por ltimo, se har mencin a la capacidad predictora de este
procedimiento.

1.1 Utilidad descriptiva del anlisis de segmentacin.


La funcin clasificadora del anlisis de segmentacin permite configurar una serie de
grupos que se distinguen por su comportamiento distinto en una determinada variable
dependiente. La especificacin de las caractersticas de los grupos terminales formados
por esta tcnica es un excelente medio para describir grupos heterogneos de la muestra.
Segmentar significa dividir y este anlisis permite con su algoritmo el hallazgo de
grupos muy distintos en un determinado aspecto. Por tanto, uno de los usos que se le
puede dar a la segmentacin es la descripcin de las muestras y, por extensin, de las
poblaciones de las que son extradas.
La mejor manera de efectuar la descripcin con el anlisis de segmentacin es
mediante la interpretacin de los grupos terminales (las hojas del rbol). Hay que
recordar que para hacer una buena descripcin es necesario introducir predictores
adecuados en el procedimiento. A continuacin se compararn dos ejemplos, ambos con
la misma variable dependiente, opinin sobre el aborto, pero el segundo con ms
predictores. As se mostrar la conveniencia de dos reglas: a) incluir predictores que
1

Ejemplos de aplicacin en el campo de las Ciencias Sociales en Espaa son Horter (1978), Garca
Ferrando (1982) y Alvira, Garca Lpez y Horter (1982). Todos ellos utilizan el algoritmo AID basado en
la suma cuadrtica.
2
El artculo donde se presenta por primera vez esta estrategia de mercados fue publicado en el
Journal of Marketing (W. Smith, 1956).

sean relevantes para nuestra variable dependiente y b) introducir el mximo posible de


predictores ya que el anlisis en cuestin se encarga de filtrar los relevantes.
En el primer ejemplo ya se trata de segmentar la opinin sobre el aborto en el caso de
que un matrimonio no desee tener ms hijos a partir de tres predictores: sexo, edad e
ideologa3. De acuerdo con la figura slo las dos ltimas variables discriminan la
opinin de los sujetos y, de este modo, se conforman cuatro grupos terminales. Los ms
proabortistas (39.0%) son las personas de izquierda con menos de 45 aos. Le siguen
los de izquierda con ms edad (23.5%). Los de ideologa de centro_derecha, si son
jvenes presentan una actitud favorable en un 22.0%; pero si son mayores de 45 aos, la
posicin a favor se reduce al 10.3%. Merece la pena destacar que los de izquierda
siempre son ms favorables al aborto que los de centro_derecha; aunque en el grupo de
los mayores de cuarenta y cinco aos de izquierda, la probabilidad de estar de acuerdo
es poco ms favorable que en el de los jvenes de centro-derecha..
Figura 1.1.- rbol de segmentacin de la opinin ante el aborto (3 vv. ii.)

Adems de los porcentajes, para la correcta descripcin, hay que tener en cuenta
la frecuencia de cada grupo. Se observa en la misma que el grupo de mayores de
izquierda es muy reducido: apenas cubre el 7.5% de la muestra (85 de los 1137 que
contestan a la pregunta). En cambio, los dos grupos de centro-derecha son los ms
numerosos, casi un 40% en cada uno de ellos4.
Hay dos posibles maneras de resumir la informacin descriptiva de este anlisis.
La primera sera insistiendo en la oposicin centro-derecha versus izquierda, destacando
que las tres cuartas partes de la muestra (G.6 y G.7) presentan una baja aceptacin del
3

Los datos de este ejemplo estn recogidos de la Fundacin CIRES. Se trata del estudio realizado en
1991 con una muestra de 1200 casos.
4
Existe en este caso gran mayora de individuos de centro derecha porque los que no han proferido su
ideologa estn tambin incluidos en este grupo. Se ha hecho as porque su posicin ante el aborto es ms
similar a la de aqullos que a la de los de izquierda. Aunque esto se haya realizado manualmente para
simplificar el ejemplo, el anlisis de segmentacin los hubiese incorporado automticamente de la misma
forma.

aborto practicado en las circunstancias antedichas, y los situados a la izquierda (24.5%,


294 de los 1200 entrevistados) son ms favorables, sin llegarlo a ser en mayora (en el
supuesto ms favorable, los jvenes de izquierda slo aprueban esta prctica en un
37.0%). La otra interpretacin insistira ms en los grupos extremos: Aunque
aproximadamente un 20% de la poblacin apruebe que se lleve a cabo este tipo de
aborto, hay dos grupos en los que las probabilidades de aprobacin son
considerablemente diferentes. Por un lado, estn las personas mayores de centroderecha (un 37.9% de la muestra), de los que menos de un 10% daran su aprobacin. Y,
por otro, se encuentran los jvenes de izquierda (un 17.4% de la muestra) entre los que
la probabilidad de mantener esta opinin es superior al 35%.
En el segundo ejemplo, adems del sexo, la edad y la ideologa, se introducen los
siguientes predictores: estado civil, posicin familiar, nmero de individuos en el hogar,
nivel de estudios del entrevistado y del cabeza de familia, religin, prctica religiosa,
clase social subjetiva e ingresos. En total, pues, se incluyen 12 variables para tratar de
describir la misma variable dependiente: la opinin sobre el aborto en el supuesto de
que un matrimonio no desee tener ms descendencia. Los resultados en forma de rbol
se presentan en la figura.
Figura 1.2.- rbol de segmentacin de la opinin ante el aborto (12 vv.ii.)

Lo que ms resalta en este grfico es el poder explicativo de la primera variable


de segmentacin: la prctica religiosa. Al utilizar un procedimiento (CHAID) que no
requiere particiones binarias, sta forma cuatro grupos: los nada practicantes, con un
36.5% de favorables a este tipo de aborto, los practicantes medios, con un 15.8% de
favorables; los muy practicantes, con slo un 5.2% de opiniones a favor, y las casi 90
personas que no contestan a la prctica religiosa. Sin embargo, en el rbol aparecen seis
grupos terminales, pues cada uno de los dos primeros anteriores se subdivide en otros
dos. De este modo, entre los nada practicantes se forman dos grupos muy distintos: por
un lado, los individuos de bajos estudios con un 27.2% de favorables; por el otro, los de
ms estudios, de los que bastante ms de la mitad sostiene la posicin a favor (59.3).
Entre los muy practicantes, tambin se forman dos grupos distintos, pero no en funcin
del nivel de estudios, sino del sexo. As, entre quienes practican la religin, pero son
hombres, la aceptacin del aborto en el caso de que un matrimonio no desee tener ms
hijos es del 13.3%. Pero, si son de centro-derecha, el porcentaje de favorables desciende
a menos del 6%.

Como consecuencia de este anlisis, se forma una configuracin de grupos muy


distinta de la anterior, especialmente debido a que en el primer ejemplo no se introdujo
una variable muy importante para describir la variable dependiente: la prctica religiosa.
En esta ocasin son seis los grupos terminales formados a partir de la muestra. Dos de
ellos son muy poco favorables al aborto (menos del 15% a favor): los hombres y
mujeres practicantes. Otros dos grupos mantienen posiciones algo ms favorables, pero
an bajas (en torno al 20%): los medio practicantes (15.8%) y los nada practicantes con
bajo nivel de estudios (27.2%). Por ltimo, dos grupos sobresalen en su posicin a favor
del aborto: los que no responden a la prctica religiosa (40.9%); pero sobre todo los
nada practicantes con alto nivel de estudios. Entre estos ltimos, ms de la mitad
(59.2%) da una respuesta positiva a este tipo de aborto.
El anlisis de segmentacin permite, pues, realizar una descripcin de segmentos
de la muestra con comportamiento u opinin distintos entre ellos. Por su propia lgica,
tiende a encontrar grupos muy diferentes entre s. Ahora bien, cuanto mejores sean los
predictores introducidos, tarea que corresponde al analista, ms ntida ser la
distribucin de los distintos grupos. Por tanto, la mejor estrategia en la introduccin de
variables independientes es la inclusin en caso de duda: si se introduce un predictor
poco relevante, el propio anlisis se encarga de que no aparezca; en cambio si no se
incluye un buen predictor, la calidad de la segmentacin se reduce considerablemente.

1.2 Utilidad exploratoria del anlisis de segmentacin.


Otra utilidad adecuada del anlisis de segmentacin es la exploratoria. La razn
radica en que su algoritmo consiste precisamente en la bsqueda de las mejores
asociaciones de los predictores con la variable dependiente. En cierta medida, su
potencia reside en la seleccin de aquellas variables que mejor estn asociadas con una
determinada distribucin. Adems, esta exploracin permite la deteccin de
interacciones, por lo que es un instrumento muy adecuado para buscar pautas de
relaciones complejas entre variables. Mediante el anlisis del rbol se puede: a) detectar
qu variables son tiles para describir adecuadamente la variable dependiente; b)
descubrir qu valores de una variable predictora son homogneos en relacin con la
variable a explicar, y c) poner de manifiesto interacciones entre las variables
independientes.

1.2.1 Deteccin de variables


Si se introduce en el anlisis un conjunto de variables superior al de segmentaciones
que ha de efectuar el procedimiento, lgicamente algunas de ellas no se utilizarn para
la discriminacin de los individuos. Esta tcnica, por tanto, selecciona variables en
funcin de su poder explicativo sobre la variable dependiente.
Sea que se desee explorar qu variables predicen mejor la opinin sobre quin vota
en unas elecciones5. La variable dependiente es la intencin de voto, escindida en dos

Estos datos proceden del estudio n 2382 del CIS, llevado a cabo en febrero de 2000 con el objeto de
predecir el comportamiento electoral de los espaoles en las elecciones de marzo del mismo ao. Se

categoras en este ejemplo para hacer ms simple los resultados. De un largo


cuestionario con 46 preguntas, se han seleccionado como predictoras las siguientes
variables: sexo (p42), edad (p43), estudios (p44), situacin laboral (p45),
ideologa(p38), inters por la poltica (p1), frecuencia de conversaciones polticas (p2),
exposicin a medios de comunicacin (peridicos, televisin y radio) (p3), evaluacin
de la situacin poltica y econmica presente y futura (p4-p7), pronstico de las
elecciones (p16, p18 y p19), balance de la gestin del PP y del PSOE (p8 y p9),
confianza en el gobierno (PP) y en la oposicin (PSOE) (p22 y p23), preferencias de
partido ganador en las elecciones (p17), y recuerdos de voto en las ltimas elecciones
autonmicas (fecha variable) (p40), europeas (1999) (p41) y al parlamento espaol
(1996). Todas ellas6 se introducen en el anlisis de segmentacin, pero slo una fraccin
de las mismas aparece en el rbol de segmentacin. En este caso, mediante un anlisis
realizado con el algoritmo CHAID, con un filtro en el tercer nivel de segmentacin, las
variables presentes jerarquizadas por orden de aparicin son: 1) el voto en las ltimas
elecciones autonmicas; 2) la preferencia de ganador en las prximas elecciones, el
inters por la poltica, junto con la confianza en el gobierno, y 3) la valoracin de la
situacin poltica actual, la confianza en la oposicin, el recuerdo de voto en las ltimas
elecciones similares, la valoracin de la situacin econmica actual y futura, la
exposicin a la televisin, la edad e incluso el sexo. No obstante, hay que ser cautos en
torno a la importancia de las variables aparecidas a partir del segundo nivel, porque
pueden desempear un valor poco o muy importante segn su peso haya sido ocultado o
no por variables que segmentan prioritariamente.
Por ello, esta primera aproximacin debe acompaarse por un examen de los mejores
predictores en el primer paso, que de acuerdo a la Figura 1.3, son los siguientes: el voto
en las ltimas elecciones autonmicas, en las ltimas europeas (ambos comicios son los
ms cercanos a los pronosticados), el recuerdo de voto en las ltimas elecciones
similares. Se supone que aquellos que no han votado en previas elecciones, tampoco lo
harn en las prximas. Despus de estos tres recuerdos aparece el partido preferido para
ganar las prximas elecciones. Aqu el mecanismo sera que aquellos que tienen una
preferencia clara, son ms proclives a emitir su voto. Y, finalmente, se encuentra la
confianza en el gobierno. De modo similar, parecera razonable suponer que quienes
confan en l, estarn ms predispuestos a votar para que se mantenga, especialmente en
un momento en el que la oposicin, como era el caso en el ao 2000, tena pocas
posibilidades de victoria.

realiz una encuesta aleatoria con 24040 sujetos. Ms referencia tcnica puede encontrarse en
http://www.cis.es.
6
Debe sealarse que muchas de estas variables son ordinales y en el cuestionario original estn
codificadas en orden inverso a su importancia. As, por ejemplo, en la pregunta nmero 1, la opcin
mucho est codificada con un 1, mientras que la opcin nada lo est con un 4. Para que los smbolos
presentes en el rbol sean coherentes con el orden, se ha cambiado la codificacin, de tal forma que el
mucho sea igual a 4 y el nada igual a 1. Aqu, el lector debe advertir que la cuantificacin es indiferente y
slo importa el orden de los dgitos empleados. Esta misma operacin se ha realizado con las siguientes
variables del cuestionario: p2, p3, p4, p5, p6 p7, p8, p9, p22 y p23.

Figura 1.3.- Mejores predictores en el primer paso de la segmentacin del voto

Otro modo ms certero de juzgar la importancia de las variables es mediante la


medida de importancia empleada por Breiman et al. Ahora bien, sta slo es posible
utilizarla con el algoritmo CART, ya que para su clculo es preciso emplear las
variables sustitutas. A continuacin, se ofrece la tabla con los ndices de importancia
obtenidos mediante el programa CART. Es obvio que la conducta en las anteriores
elecciones tiene una importancia bastante superior en la conformacin de la intencin de
voto en los prximos comicios.
Figura 1.4.- Importancia de las variables en la explicacin de la intencin de voto.
Variable
Recuerdo de voto en elecciones autonmicas
Recuerdo de voto en elecciones europeas
Recuerdo de voto en elecciones parlamentarias
Confianza en el presidente del gobierno
Edad
Inters por la poltica
Evaluacin de la situacin poltica
Confianza en el jefe de la oposicin
Frecuencia conversaciones polticas
Intencin de voto al PP

Importancia
100.00
94.6
86.7
25.9
7.5
4.5
2.4
2.3
2.3
1.9

1.2.2 Agrupacin de valores de los predictores.


Adems de seleccionar las variables que mejor predicen la variable dependiente
escogida, el anlisis de segmentacin permite descubrir qu grupos de valores de una
variable predictora produce respuestas similares en la variable criterio. Esto se puede
estudiar seleccionando una sola variable predictora y dejando que se produzcan las
fusiones o fisiones binarias necesarias para conformar los grupos homogneos de
valores.
A continuacin, se exponen dos procedimientos similares de realizar la misma
operacin. Uno, empleando el criterio mltiple del procedimiento CHAID y otro,
utilizando las particiones binarias propias del algoritmo CART.

Figura 1.5.- Primera segmentacin de la intencin de votar.


VOTO
Nodo 0
Categora
%
n
Si
85.56 20542
No
14.44 3466
Total
(100.00) 24008
Voto ltimas autonmicas
Nivel crtico corregido=0.0000, Chi-cuadrado=4561.3707, gl=5

PP
Nodo 1
Categora
%
n
Si
96.85 6052
No
3.15
197
Total
(26.03) 6249

No vota
Nodo 2
Categora
%
n
Si
53.32 2072
No
46.68 1814
Total
(16.19) 3886

Derecha Reg.;PSOE
Nodo 3
Categora
%
n
Si
94.95 6587
No
5.05
350
Total
(28.89) 6937

Izqu. Reg.
Nodo 4
Categora
%
Si
72.65
No
27.35
Total
(2.83)

Otros partidos;IU

n
494
186
680

Nodo 5
Categora
%
n
Si
90.99 1514
No
9.01
150
Total
(6.93) 1664

<perdido>
Nodo 6
Categora
%
n
Si
83.25 3823
No
16.75
769
Total
(19.13) 4592

Si se emplea el algoritmo CART, la primera consecuencia es que las particiones son


binarias, y la segunda es que los valores perdidos no son tenidos en consideracin, a
menos que se introduzcan tambin otras variables que hagan el papel de sustitutas. Si se
comparan la Figura 1.5 y la Figura 1.6, fcilmente se advierte que an con diferente
forma de rbol, la nica diferencia sustancial radica en que en la segunda no se
encuentran los 4592 casos calificados en la primera como perdidos7. En ambos, se
advierte que quienes votaron en las ltimas elecciones autonmicas al PP fueron los
ms proclives (97%) a votar en las siguientes parlamentarias. A continuacin se
encontraban los que votaron al PSOE o a partidos nacionalistas de derecha (95%). Un
tercer grupo aglutina a los que votaron en las autonmicas a IU u otros partidos no
nacionalistas con casi un 91% de probabilidad de votar. Finalmente quedan con
comportamientos ms distantes por un lado, los votantes en autonmicas de partidos
nacionalistas de izquierda con una probabilidad del 73%; pero sobre todo quienes no
votaron, pues slo un 53% de ellos tenan intencin de votar en las prximas.

Es necesario advertir que no siempre los resultados han de ser idnticos ya que, si la variable
dependiente es cualitativa, la medida que se emplean en estos dos algoritmos es distinta: 2 en el primer
caso, y el ndice de mejora en el segundo. Vanse los captulos correspondientes.

Figura 1.6.- Segmentacin de la intencin de votar por recuerdo en las ltimas autonmicas.
VOTO
Nodo 0
Categora
%
n
Si
86.11 16719
No
13.89 2697
Total
(100.00) 19416
Voto ltimas autonmicas
Mejora=0.0550

No vota;Izqu. Reg.

PP;Derecha Reg.;PSOE;Otros partidos;IU

Nodo 1
Categora
%
n
Si
56.20 2566
No
43.80 2000
Total
(23.52) 4566

Nodo 2
Categora
%
n
Si
95.31 14153
No
4.69
697
Total
(76.48) 14850

Voto ltimas autonmicas


Mejora=0.0022

No vota
Nodo 3
Categora
%
n
Si
53.32 2072
No
46.68 1814
Total
(20.01) 3886

Voto ltimas autonmicas


Mejora=0.0004

Izqu. Reg.
Nodo 4
Categora
%
Si
72.65
No
27.35
Total
(3.50)

PP;Derecha Reg.;PSOE
Nodo 5
Categora
%
n
Si
95.85 12639
No
4.15
547
Total
(67.91) 13186

n
494
186
680

Otros partidos;IU
Nodo 6
Categora
%
n
Si
90.99 1514
No
9.01
150
Total
(8.57) 1664

Voto ltimas autonmicas


Mejora=0.0001

PP
Nodo 7
Categora
%
n
Si
96.85 6052
No
3.15
197
Total
(32.18) 6249

Derecha Reg.;PSOE
Nodo 8
Categora
%
n
Si
94.95 6587
No
5.05
350
Total
(35.73) 6937

1.2.3 Bsqueda de interacciones


El dendograma del anlisis de segmentacin es una herramienta til para encontrar
las principales interacciones en un conjunto de variables que tratan de explicar una
dependiente. Sin embargo, tiene, como se explicar ms adelante, una serie de
limitaciones. De momento, vase cmo se analiza un dendograma para diagnosticar la
existencia de interacciones.
La primera regla es que un dendograma simtrico es indicador de ausencia de
interacciones. Por simtrico se entiende que para cada segmento de un nivel dado las
variables predictoras son las mismas. De los ejemplos que se han incluido en este
captulo, el primero (vase la Error! No se encuentra el origen de la referencia.)
muestra la estructura peculiar de los modelos sin interaccin. En el primer nivel la
variable que segmenta es la ideologa; sta divide la muestra en dos grupos: izquierda
versus centro-derecha. Y, lo que es ms importante para este caso, en cada uno de ellos
el predictor ms adecuado es la edad, aunque exista otro alternativo que es el sexo. No
obstante, hay que adoptar una precaucin importante porque esta regla es incompleta.
Para que realmente no exista interaccin, las diferencias de porcentajes8 entre los grupos
segmentados han de ser semejantes en cada una de las divisiones. Siguiendo con el
8

No es este el lugar para explicar las propiedades y posibilidades que ofrecen las diferencias de
porcentajes, tcnica empleada especialmente en las tablas de contingencia. El lector interesado puede
consultar Davis (1975) y Snchez Carrin (1984 y 1989).

mismo ejemplo, la diferencia de porcentajes entre edades en el grupo de izquierdas es


de 13.6 puntos, mientras que la existente entre esas mismas edades en el grupo de
centro-derecha es de 11.3. Ambas cantidades son similares y si se aplicara un test de
hiptesis, se evidenciara una diferencia no significativa, esto es, posiblemente debida a
errores de muestreo.
El caso contrario lo constituye un nuevo ejemplo de una muestra de jvenes de
Burgos (n=1000), en el que la variable criterio es la situacin ocupacional, expuesto en
la Figura 1.7. En esta ocasin, la primera segmentacin crea cinco grupos de edad: 17
aos o menos, 18 a 20 aos, de 21 a 23, de 24 a 26 y ms de 26 aos. En el segundo
nivel de segmentacin, slo para el segundo grupo de edad, el mejor predictor es la
clase social; mientras que slo para el ltimo, aparece como relevante el gnero. Por
tanto, puede hablarse de interaccin porque supuestamente -ms adelante se aclarar el
matiz- la clase social es la variable ms influyente en la ocupacin de los jvenes (la
variable dependiente) slo entre las edades de 18 a 20 aos. En otras edades su poder de
explicacin desciende hasta dejar de ser significativo. Lo mismo ocurre con el gnero,
que solo se muestra significativo entre los jvenes con ms de 28 aos. la ideologa
entre los de ingresos medios, y con la clase social subjetiva entre los entrevistados con
altas retribuciones. Sin embargo, aqu tambin hay que tomar precauciones y observar la
tabla de las significaciones en cada segmentacin, porque en ocasiones, la introduccin
de una variable u otra para la segmentacin efectiva es cuestin de dcimas, apenas
significativas. No es sta la situacin en el presente caso, porque claramente slo
aparece la clase en el grupo de edades comprendido entre la enseanza obligatoria y los
veinte aos. Y slo se manifiesta significativo el gnero a partir de los 26 y ligeramente
a partir de los 24 aos.
Figura 1.7.- Segmentacin de la situacin ocupacional de los jvenes de Burgos.
Situacin laboral
Nodo 0
Categora
%
n
Estud
50.60 506
Trab
37.60 376
Bus tr
8.90
89
O.Inac
2.90
29
Total
(100.00) 1000
Edad entrevistado
Nivel crtico corregido=0.0000, Chi-cuadrado=376.5482, gl=12

<=17
Nodo 1
Categora
%
n
Estud
93.27 208
Trab
4.48
10
Bus tr
0.90
2
O.Inac
1.35
3
Total
(22.30) 223

(17,20]

(20,23]

Nodo 2
Categora
%
n
Estud
73.48 133
Trab
17.13
31
Bus tr
6.63
12
O.Inac
2.76
5
Total
(18.10) 181

Nodo 3
Categora
%
n
Estud
46.67
98
Trab
39.52
83
Bus tr
11.90
25
O.Inac
1.90
4
Total
(21.00) 210

Clase social de origen


Nivel crtico corregido=0.0278, Chi-cuadrado=13.3290, gl=3

Baja;M-baj;M-md,<perdido>
Nodo 6
Categora
%
n
Estud
67.39
93
Trab
21.01
29
Bus tr
8.70
12
O.Inac
2.90
4
Total
(13.80) 138

M-a/A
Nodo 7
Categora
%
Estud
93.02
Trab
4.65
Bus tr
0.00
O.Inac
2.33
Total
(4.30)

(23,26]

>26

Nodo 4
Categora
%
n
Estud
29.14
51
Trab
54.29
95
Bus tr
14.29
25
O.Inac
2.29
4
Total
(17.50) 175

Nodo 5
Categora
%
n
Estud
7.58
16
Trab
74.41 157
Bus tr
11.85
25
O.Inac
6.16
13
Total
(21.10) 211
Sexo
Nivel crtico corregido=0.0178, Chi-cuadrado=10.0957, gl=3

Hom

n
40
2
0
1
43

Nodo 8
Categora
%
Estud
10.64
Trab
79.79
Bus tr
8.51
O.Inac
1.06
Total
(9.40)

Mujer

n
10
75
8
1
94

Nodo 9
Categora
%
n
Estud
5.13
6
Trab
70.09
82
Bus tr
14.53
17
O.Inac
10.26
12
Total
(11.70) 117

En consecuencia, resumiendo, puede decirse que el anlisis de segmentacin es una


tcnica que puede ser til para la exploracin de tres elementos muy interconectados
entre s. En primer lugar, ayuda a seleccionar qu variables son importantes; tambin
ayuda a descubrir segmentos de la poblacin con una conducta muy extrema, y
finalmente no slo es capaz de descubrir asociaciones, sino tambin es una herramienta
til para encontrar interacciones entre las variables.

1.3 Utilidad explicativa del anlisis de segmentacin.


El anlisis fue concebido y es utilizado principalmente con una finalidad
exploratoria. Su capacidad de seleccionar las asociaciones ms relevantes entre un
conjunto indefinido de variables puede conducir fcilmente al establecimiento de
relaciones empricas que no sean causales. La principal objecin que se le puede hacer a
este anlisis es que busca las asociaciones empricamente ms fuertes y stas no
necesariamente tienen que ser indicadoras de una relacin causa efecto entre los
fenmenos9.
Esta objecin pierde peso siempre y cuando se introduzca entre los predictores el
conjunto de fenmenos que causan realmente la variable dependiente. Aunque este
requerimiento debe aplicarse a toda tcnica estadstica de causalidad, es particularmente
importante que se aplique a esta tcnica, a menos que se quiera incurrir en un alto riesgo
de error.
Aprovechando el conocimiento de distintos modelos de relacin entre tres o ms
variables10, se detalla a continuacin el comportamiento que esta tcnica adopta frente a
cada uno de ellos. Ello se hace as con una doble intencin: mostrar la bondad de esta
tcnica para detectar relaciones complejas entre variables y ayudar a la interpretacin de
las distintas formas que presentan los dendogramas que se generan con este anlisis.

1.3.1 Modelos espurios y de intervencin.


Como ambos modelos presentan las mismas caractersticas estadsticas y es el
investigador quien decide si se trata de uno u otro estableciendo con la ayuda de la
teora la posicin de las variables en la cadena causal, el comportamiento del anlisis de
segmentacin es similar ante uno y otro. La cuestin reside en mostrar cmo se
comporta la tcnica de segmentacin ante la presencia de variables antecedentes
(relaciones ficticias o espurias) o intervinientes (relaciones indirectas).
Hay tres posibilidades: a) que el predictor sea totalmente ficticio b) que el predictor
tambin contribuya a explicar por s solo la variable dependiente y c) que haya un
predictor muy efectivo no incluido en el anlisis, pero que est relacionado con un
predictor falso utilizado en la segmentacin.
Sean tres variables con una relacin bajo el modelo espurio; por ejemplo, edad,
estado civil y autodenominacin liberal. Esta ltima ser considerada variable
dependiente y las dos primeras predictores. Los datos tridimensionales se incluyen en la
Figura 1.8.

Un anlisis similar al de la segmentacin es el anlisis de regresin mltiple paso a paso. Se tiene una
variable dependiente y del conjunto de variables independientes o predictores se introduce en la ecuacin
aquella variable con un coeficiente de correlacin ms alto con la primera. Posteriormente, se van
introduciendo nuevas variables a la ecuacin ya formada, asumiendo que las ya incluidas controlan la
relacin entre las que no estn en la ecuacin y la variable dependiente. Esta tcnica goza de poca
simpata entre los estadsticos por su naturaleza inductivista. La posicin ms aceptada sera la
hipottica_deductiva por la que la estadstica juzga la bondad de los modelos previamente establecidos
por el investigador en funcin de teoras plausibles.
10
Se utiliza en este libro la metodologa y terminologa que siguen distintos autores en al anlisis de
las tablas de contingencia. Vase Lazarsfeld (1955), Zeisel (1962), Rosenberg (1968) y Lieberson (1987).
Una presentacin breve puede encontrarse en el captulo 10 del manual de Mayntz, Holm y Hbner
(1975).

Figura 1.8.- Cruce de actitud liberal segn edad, segn estado civil.
Estado civil
Soltero

Otros

Edad

Edad

Joven
Actitud liberal

Total

Mayor

Joven

Mayor

(200)

(160)

(100)

(40)

60.0%

25.0%

60.0%

25.0%

No

40.0%

75.0%

40.0%

75.0%

Se sabe que la relacin del estado civil con ser liberal no es directa, sino que viene
proporcionada por la relacin que existe entre, por un lado, ser joven y estar soltero, y,
por el otro, ser mayor y estar casado.
Figura 1.9.- Cruce de actitud liberal segn estado civil y edad.
Edad
Joven
Actitud liberal

Total

Estado civil
Mayor

Soltero

Otros

(300)

(200)

(360)

(140)

60.0%

25.0%

44.4%

50.0%

No

40.0%

75.0%

55.6%

50.0%

Si la relacin entre la variable espuria (predictor ficticio) y la dependiente es


efectivamente nula, la segmentacin sabr discriminar adecuadamente entre la
influencia real y la ficticia, porque siempre y cuando la asociacin entre los predictores
no sea perfecta, las asociaciones binarias con la variable dependiente sern mayores con
el predictor real que con el ficticio. La razn reside en que la asociacin ficticia es el
producto de dos asociaciones: la que existe entre el predictor real y la variable
dependiente, y la de la relacin entre ambos predictores. En la Figura 1.10 se verifica
que la asociacin de la autodenominacin liberal con la edad es mayor que con el estado
civil.
Figura 1.10.- Significaciones bivariadas de la edad y el estado civil.
Pruebas de chi-cuadrado
Valor
Chi-cuadrado de Pearson: Edad
Chi-cuadrado de Pearson: Estado civil

Sig. asinttica
(bilateral)

gl

59.179

.000

1.252

.263

Por tanto, la primera segmentacin siempre se realiza con la variable que produce la
asociacin directa.
Una vez realizada esta segmentacin, la asociacin de la variable est controlada por
los valores del predictor anterior, puesto que estos ltimos se mantienen constantes en
cada grupo que ha de ser segmentado. En consecuencia, la variable con relacin ficticia,
o la variable antecedente en un modelo de intervencin, no aparece como predictor
relevante en la segmentacin. En la Figura 1.11 Figura 1.9se presenta el dendograma del

anlisis incluyendo la segunda segmentacin (Nodos 3 a 6), que en realidad no debiera


aparecer, debido a la nula diferencia entre los porcentajes de las categoras de estado
civil provenientes del mismo grupo.
Figura 1.11. rbol de segmentacin de la actitud liberal con edad y estado civil.
Actitud liberal
Nodo 0
Categora
%
S
46,00
No
54,00
Total
(100,00)

n
230
270
500

Edad
Nivel crtico corregido=0,0000, Chi-cuadrado=59,1787, gl=1

<=Joven

>Joven

Nodo 1
Categora
%
S
60,00
No
40,00
Total
(60,00)

Nodo 2
Categora
%
S
25,00
No
75,00
Total
(40,00)

n
180
120
300

Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1

Soltero

Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1

Otros

Nodo 5
Categora
%
S
60,00
No
40,00
Total
(40,00)

n
120
80
200

Nodo 6
Categora
%
S
60,00
No
40,00
Total
(20,00)

Soltero

n
60
40
100

n
50
150
200

Nodo 3
Categora
%
S
25,00
No
75,00
Total
(32,00)

Otros

n
40
120
160

Nodo 4
Categora
%
S
25,00
No
75,00
Total
(8,00)

Una segunda condicin de correlacin esprea sera la prediccin de la misma


variable dependiente por dos variables, relacionadas entre s, que ejercen influencia
sobre ella, es decir,
dos predictores, que se encuentran en situacin de
multicolinealidad. Sean por ejemplo, edad y prctica religiosa. Observando el cuadro de
la Figura 1.12, se ve cmo la significacin de la prctica religiosa crece
considerablemente en el segundo nivel de segmentacin (de 3.1E-17 a 2.2E-4 2.3E-4).
Esto, adems del efecto del tamao de la muestra, es debido a la correlacin entre los
dos predictores. De igual manera, cabe pensar que el coeficiente del nodo 0 o G0
correspondiente a la edad, est sobreestimado por el efecto indirecto de la edad hacia la
actitud liberal a travs de la prctica religiosa.
Figura 1.12.- Significaciones del chi2 para cada grupo y predictor.
Segmento
n
G0
500
G1 (1)
300
G2 (1)
200

Edad
1.02E-23
-

P. Relig.
3.10E-17
2.22E-04
2.30E-05

A pesar de estos problemas, el anlisis de segmentacin no yerra en la


discriminacin de la variable ms influyente. Como puede comprobarse en el
dendrograma, la edad precede en nivel a la prctica religiosa por su mayor capacidad de
segmentacin (Figura 1.13).

n
10
30
40

Figura 1.13.- rbol de segmentacin de la actitud liberal con edad y prctica religiosa
LIBERAL
Nodo 0
Categora
%
S
55,00
No
45,00
Total
(100,00)

n
330
270
600

EDAD
Nivel crtico corregido=0,0000, Chi-cuadrado=81,4815, gl=1

Joven

Mayor

Nodo 1
Categora
%
S
73,33
No
26,67
Total
(50,00)

Nodo 2
Categora
%
S
36,67
No
63,33
Total
(50,00)

n
220
80
300

P.RELIGI
Nivel crtico corregido=0,0002, Chi-cuadrado=13,6364, gl=1

Menor
Nodo 3
Categora
%
S
80,00
No
20,00
Total
(33,33)

P.RELIGI
Nivel crtico corregido=0,0007, Chi-cuadrado=11,4833, gl=1

Mayor
Nodo 4
Categora
%
S
60,00
No
40,00
Total
(16,67)

n
160
40
200

n
110
190
300

Menor
Nodo 5
Categora
%
S
50,00
No
50,00
Total
(16,67)

n
60
40
100

Mayor
Nodo 6
Categora
%
S
30,00
No
70,00
Total
(33,33)

n
50
50
100

n
60
140
200

Cosa muy distinta sucede cuando en el anlisis no se incluye como predictor una
variable relevante, especialmente si sta est asociada con otra que no posee efectos
directos sobre la dependiente (Figura 1.14). Si se realiza una segmentacin con estado
civil y prctica religiosa para explicar la autodenominacin liberal, se observa que el
primero es mejor predictor que la segunda.
Figura 1.14.- Segmentacin de la actitud liberal segn estado civil y prctica religiosa.
LIBERAL
Nodo 0
Categora
%
S
40,00
No
60,00
Total
(100,00)

n
320
480
800

Estado civil
Nivel crtico corregido=0,0000, Chi-cuadrado=40,7407, gl=1

Soltero

Otros

Nodo 1
Categora
%
S
52,22
No
47,78
Total
(45,00)

Nodo 2
Categora
%
S
30,00
No
70,00
Total
(55,00)

n
188
172
360

P.RELIGI
Nivel crtico corregido=0,0010, Chi-cuadrado=10,9104, gl=1

<=Menor
Nodo 3
Categora
%
S
60,00
No
40,00
Total
(25,00)

>Menor

n
120
80
200

Nodo 4
Categora
%
S
42,50
No
57,50
Total
(20,00)

P.RELIGI
Nivel crtico corregido=0,0000, Chi-cuadrado=17,4603, gl=1

<=Menor

n
68
92
160

n
132
308
440

Nodo 5
Categora
%
S
40,00
No
60,00
Total
(25,00)

>Menor

n
80
120
200

Nodo 6
Categora
%
S
21,67
No
78,33
Total
(30,00)

n
52
188
240

Sin embargo, esta conclusin es ficticia en la medida en que el estado civil no es el


verdadero predictor de la autodenominacin liberal, sino la edad. La nica solucin a
este problema consiste en incluir el correcto predictor (o bien, en considerar el estado
civil como un sustituto aproximado de la edad). Si en el anlisis se incluye esta ltima
variable, el esquema resultante es muy distinto, pues el estado civil se queda sin
explicar nada y la prctica religiosa le supera en poder discriminante, al contrario de lo
que ocurra en el ejemplo anterior donde no se inclua la edad entre los posibles
predictores. Como se puede ver reflejado en el ltimo nivel del rbol (Figura 1.15), los
grupos formados por la variable estado civil no son distintos en la variable dependiente.
Figura 1.15.- Segmentacin de la actitud liberal segn edad, prctica religiosa y estado civil.
LIBERAL
Nodo 0
Categora
%
S
40,00
No
60,00
Total
(100,00)

n
320
480
800

EDAD
Nivel crtico corregido=0,0000, Chi-cuadrado=133,3333, gl=1

<=Joven

>Joven

Nodo 1
Categora
%
n
S
60,00 240
No
40,00 160
Total
(50,00) 400

Nodo 2
Categora
%
S
20,00
No
80,00
Total
(50,00)

Prctica religiosa
Nivel crtico corregido=0,0000, Chi-cuadrado=16,6667, gl=1

<=Joven

Soltero

<=Joven

Nodo 4
Categora
%
n
S
50,00 100
No
50,00 100
Total
(25,00) 200

Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1

Nodo 13
Categora
%
n
S
70,00 105
No
30,00 45
Total
(18,75) 150

Prctica religiosa
Nivel crtico corregido=0,0000, Chi-cuadrado=25,0000, gl=1

>Joven

Nodo 3
Categora
%
n
S
70,00 140
No
30,00 60
Total
(25,00) 200

Otros
Nodo 14
Categora
%
S
70,00
No
30,00
Total
(6,25)

Nodo 11
Categora
%
n
S
50,00 65
No
50,00 65
Total
(16,25) 130

>Joven

Nodo 5
Categora
%
n
S
30,00 60
No
70,00 140
Total
(25,00) 200

Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1

Soltero

n
35
15
50

n
80
320
400

Otros
Nodo 12
Categora
%
S
50,00
No
50,00
Total
(8,75)

Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1

Soltero

n
35
35
70

Nodo 6
Categora
%
S
10,00
No
90,00
Total
(25,00)

Nodo 9
Categora
%
S
30,00
No
70,00
Total
(6,25)

Otros

n
15
35
50

Nodo 10
Categora
%
S
30,00
No
70,00
Total
(18,75)

Estado civil
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1

Soltero

n
45
105
150

n
20
180
200

Nodo 7
Categora
%
n
S
10,00
3
No
90,00 27
Total
(3,75) 30

Otros
Nodo 8
Categora
%
S
10,00
No
90,00
Total
(21,25)

1.3.2 Modelos multicausales.


Siempre y cuando la segmentacin se produzca en ms de un nivel, puede hablarse
de multicausalidad. La razn es muy simple pues en estos casos ms de una variable
contribuye a explicar la variable dependiente. Dentro de los modelos multicausales se
pueden distinguir los aditivos, si las variables influyen de forma independiente entre s,
y los interactivos, en el caso de que una determinada configuracin de los valores de dos
o ms predictores produzcan valores singulares en la variable dependiente. En la
prctica, un modelo es aditivo cuando en un determinado nivel k son semejantes todas
las diferencias de porcentajes calculadas entre los grupos que proceden del mismo
segmento. Y es interactivo cuando esas diferencias no son de la misma magnitud. Por
ejemplo en la Figura 1.16, la diferencia de porcentajes entre los G.4 y G.5 (80% y 50%
respectivamente) es similar, en este caso idntica, a la de los G.6 y G.7 (40% y 10%).
En cambio, en el ejemplo B) de la , la diferencia de porcentajes entre los grupos G.4 y
G.5 (90% y 70%) es sensiblemente menor que la de los G.6 y G.7 (70% y 10%).

n
17
153
170

Figura 1.16.- rbol de segmentacin de un modelo aditivo equilibrado.


Asistencia al cine
Nodo 0
Categora
%
S
45,00
No
55,00
Total
(100,00)

n
360
440
800

Gusto por el cine


Nivel crtico corregido=0,0000, Chi-cuadrado=129,2929, gl=1

No

Nodo 1
Categora
%
S
65,00
No
35,00
Total
(50,00)

Nodo 2
Categora
%
S
25,00
No
75,00
Total
(50,00)

n
260
140
400

Gusto por salir


Nivel crtico corregido=0,0000, Chi-cuadrado=39,5604, gl=1

S
Nodo 3
Categora
%
S
80,00
No
20,00
Total
(25,00)

No

n
160
40
200

Nodo 4
Categora
%
S
50,00
No
50,00
Total
(25,00)

Gusto por salir


Nivel crtico corregido=0,0000, Chi-cuadrado=48,0000, gl=1

n
100
100
200

n
100
300
400

Nodo 5
Categora
%
S
40,00
No
60,00
Total
(25,00)

No

n
80
120
200

Nodo 6
Categora
%
S
10,00
No
90,00
Total
(25,00)

n
20
180
200

A su vez, los modelos aditivos pueden clasificarse en equilibrados y no equilibrados,


segn la importancia relativa de los predictores que influyan sobre la variable
dependiente. La segmentacin posee la virtud de poner en primer trmino el predictor
con mayor asociacin con la variable dependiente. As pues, en la situacin extrema de
equilibrio, los dos predictores tendrn la misma significacin y aparecern
indistintamente en el primer o el segundo nivel de segmentacin. Dado que esto ocurre
muy rara vez, discrecionalmente se define un modelo aditivo equilibrado cuando la
mnima diferencia de porcentajes entre dos grupos del nivel k+1 pertenecientes a
distintos grupos del nivel k es menor que la mnima diferencia de porcentajes entre dos
grupos procedentes del mismo grupo del nivel k.
Un par de ejemplos con datos simulados aclararn estas comparaciones de
diferencias de porcentajes. Tmese como variable dependiente la asistencia a un cine
durante el ltimo ao y como predictores si a los individuos les gusta esta actividad y si
les gusta salir de casa para disfrutar del ocio. En la Figura 1.16 aparece un modelo
aditivo equilibrado. Ya se ha visto que es aditivo, porque la diferencia de porcentajes
entre los nodos.3 y 4 (formados en la segunda segmentacin a partir del grupo.1) es
idntica a la de los nodos.5 y 6 (tambin formados en la segunda segmentacin a partir
esta vez del grupo 2). Adems, es equilibrado, porque la diferencia entre los nodos 4 y 5
(segmentos, que perteneciendo a distintos grupos del primer nivel, uno al grupo 1 y el
otro al grupo.2 ofrecen la mnima diferencia de porcentajes11) es menor que la que se
produce entre los grupos.3 y 4 .6 y 7 (ambas similares por ser un modelo aditivo). En
este caso, se podra decir que la asistencia al cine depende tanto de que a uno le guste
este arte como de que le guste salir de casa.
11

Otras posibilidades de comparacin hubiesen sido el G.4 con el G.6 (diferencia= 40%), el G.4 con el
G.7 (diferencia= 70%) y el G.5 con el G.7 (diferencia= 40%). Por tanto, la mnima es la que se produce
entre el G.5 y el G.6 (diferencia=10%).

En cambio, con los datos de la Figura 1.17, la influencia relativa de las dos variables
vara. Con estos datos, para determinar la asistencia al cine, que al individuo le guste
esta actividad es bastante ms importante que le agrade salir o no. Aunque le encante
salir, si no le gusta el cine, tendr poca probabilidad (20%) de entrar en l. Y, si le
agrada el cine, aunque no le guste salir, la posibilidad de que acuda a ver una pelcula es
alta (70%). En este ejemplo hay desequilibrio de la multicausalidad. Una variable
influye mucho ms que la otra, porque la mnima diferencia entre grupos derivados de
diferentes segmentos del nivel anterior (50%) es mayor que las diferencias producidas
por la segunda segmentacin (10%).
Figura 1.17.- rbol de segmentacin de un modelo aditivo no equilibrado.
Asistencia al cine
Nodo 0
Categora
%
S
45,00
No
55,00
Total
(100,00)

n
360
440
800

Gusto por el cine


Nivel crtico corregido=0,0000, Chi-cuadrado=290,9091, gl=1

No

Nodo 1
Categora
%
S
75,00
No
25,00
Total
(50,00)

Nodo 2
Categora
%
S
15,00
No
85,00
Total
(50,00)

n
300
100
400

Gusto por salir


Nivel crtico corregido=0,0209, Chi-cuadrado=5,3333, gl=1

S
Nodo 3
Categora
%
S
80,00
No
20,00
Total
(25,00)

No

n
160
40
200

Nodo 4
Categora
%
S
70,00
No
30,00
Total
(25,00)

Gusto por salir


Nivel crtico corregido=0,0051, Chi-cuadrado=7,8431, gl=1

n
140
60
200

n
60
340
400

Nodo 5
Categora
%
S
20,00
No
80,00
Total
(25,00)

No

n
40
160
200

Nodo 6
Categora
%
S
10,00
No
90,00
Total
(25,00)

n
20
180
200

La utilizacin de datos reales no confirmara probablemente ninguno de los dos


modelos anteriores y, en su lugar, proporcionara indicios de interaccin entre los dos
predictores para la explicacin de la asistencia al cine. Si a un individuo no le gusta el
cine, el que le guste salir o no va a tener un efecto pequeo sobre su asistencia. Sin
embargo, gustndole ver pelculas, la influencia del gusto por salir ser considerable.

Figura 1.18.- Segmentacin con interaccin acumulada.


Asistencia al cine
Nodo 0
Categora
%
S
30,00
No
70,00
Total
(100,00)

n
240
560
800

Gusto por el cine


Nivel crtico corregido=0,0000, Chi-cuadrado=152,3810, gl=1

No

Nodo 1
Categora
%
S
50,00
No
50,00
Total
(50,00)

Nodo 2
Categora
%
S
10,00
No
90,00
Total
(50,00)

n
200
200
400

n
40
360
400

Gusto por salir


Nivel crtico corregido=0,0000, Chi-cuadrado=256,0000, gl=1

S
Nodo 3
Categora
%
n
S
90,00 180
No
10,00 20
Total
(25,00) 200

No
Nodo 4
Categora
%
n
S
10,00 20
No
90,00 180
Total
(25,00) 200

De la misma forma que se podan distinguir dos submodelos aditivos, entre los
modelos interactivos hay tambin distintos tipos. Un modelo recibe la denominacin de
interactivo de efectos acumulados (Figura 1.18), cuando la variable dependiente tiene
un valor anmalo en una especial combinacin de valores de dos variables. Por ejemplo,
un determinado objeto de consumo suntuario slo ser comprado por las personas que
cumplan dos condiciones: que tenga el dinero y que le guste o encuentre til la posesin
de dicho objeto. El porcentaje de compradores ser muy bajo para los grupos 1) con
escasez de recursos e inters por el bien, 2) con escasez de recursos pero interesado por
el producto y 3) sin escasez de medios econmicos y no interesados. En cambio, en el
grupo de dotados de medios y adictos al bien habr un alto porcentaje de propietarios de
ste.
La interaccin ser de efectos diferenciados, en cambio, cuando haya distintas
diferencias de porcentajes entre los grupos procedentes de segmentos distintos y dichas
diferencias presenten el mismo signo (todas positivas o negativas). Este modelo,
representado en la imagen de la Figura 1.19 implica que la segunda variable
segmentadora tiene mayor influencia para un grupo de sujetos que para otros. Se
diferencia del anterior en que el segundo predictor tiene influencia, aunque con distinto
grado, en todos los grupos y no en un subconjunto de ellos como es el caso de la
interaccin de efectos acumulados. Por ejemplo, en la compra de un bien no suntuario,
la posesin de recursos tiene mayor influencia entre aquellos a los que les gusta el bien,
que entre aquellos a los que no les gusta.

Figura 1.19.- Segmentacin de interaccin diferenciada.


Asistencia al cine
Nodo 0
Categora
%
S
60,00
No
40,00
Total
(100,00)

n
480
320
800

Gusto por el cine


Nivel crtico corregido=0,0000, Chi-cuadrado=133,3333, gl=1

No

Nodo 1
Categora
%
S
80,00
No
20,00
Total
(50,00)

Nodo 2
Categora
%
S
40,00
No
60,00
Total
(50,00)

n
320
80
400

Gusto por salir


Nivel crtico corregido=0,0000, Chi-cuadrado=25,0000, gl=1

S
Nodo 3
Categora
%
S
90,00
No
10,00
Total
(25,00)

No

n
180
20
200

Nodo 4
Categora
%
S
70,00
No
30,00
Total
(25,00)

Gusto por salir


Nivel crtico corregido=0,0000, Chi-cuadrado=150,0000, gl=1

n
140
60
200

n
160
240
400

Nodo 5
Categora
%
S
70,00
No
30,00
Total
(25,00)

No

n
140
60
200

Nodo 6
Categora
%
S
10,00
No
90,00
Total
(25,00)

n
20
180
200

En tercer lugar, se denomina de efectos opuestos a aquel submodelo interactivo en el


que las diferencias de porcentajes entre los grupos son de signo distinto. Ello implica
que el efecto de una segunda variable es radicalmente distinto segn sean los valores de
la primera. Un determinado medicamento puede tener efectos muy positivos para un
enfermo y consecuencias desastrosas para una persona con salud.

Figura 1.20.- Segmentacin de interaccin de efectos opuestos.


Asistencia al cine
Nodo 0
Categora
%
S
55,00
No
45,00
Total
(100,00)

n
440
360
800

Gusto por el cine


Nivel crtico corregido=0,0045, Chi-cuadrado=8,0808, gl=1

No

Nodo 1
Categora
%
S
60,00
No
40,00
Total
(50,00)

Nodo 2
Categora
%
S
50,00
No
50,00
Total
(50,00)

n
240
160
400

Gusto por salir


Nivel crtico corregido=0,0000, Chi-cuadrado=150,0000, gl=1

S
Nodo 3
Categora
%
S
90,00
No
10,00
Total
(25,00)

No

n
180
20
200

Nodo 4
Categora
%
S
30,00
No
70,00
Total
(25,00)

Gusto por salir


Nivel crtico corregido=0,0000, Chi-cuadrado=256,0000, gl=1

n
60
140
200

n
200
200
400

Nodo 5
Categora
%
S
10,00
No
90,00
Total
(25,00)

No

n
20
180
200

Nodo 6
Categora
%
S
90,00
No
10,00
Total
(25,00)

n
180
20
200

Segn fueran los tipos de interaccin, los grficos de segmentacin presentaran las
siguientes formas y valores de los porcentajes: Un modelo de efectos interactivos
acumulados saldra asimtrico y el porcentaje de uno de los grupos segmentados debera
ser semejante al del grupo no segmentado del nivel anterior (Figura 1.18); en un modelo
de interaccin diferenciadora, aun pudiendo aparecer simtrico, las diferencias de
porcentajes seran distintas para cada uno de los grupos de los que procede (Figura
1.19); por ltimo, un modelo de efectos interactivos opuestos, presentara diferencias de
porcentajes de diferente signo (Figura 1.20).
Un caso extraordinario que, paradjicamente, no es capaz de resolver este anlisis
automtico de interaccin se produce si existen efectos interactivos opuestos que se
anulen entre s. Debido a este hecho, esta tcnica se revela totalmente incapaz de
detectar este tipo de interacciones, incluso llegando a ocultar verdaderas relaciones entre
variables. En la Figura 1.21, los datos dan muestra clara de una interaccin entre sexo y
estudios. Sin embargo, el anlisis de deteccin automtica de interacciones sera incapaz
de descubrirla, porque en el momento de hacer la primera segmentacin se encontrara
que ni el sexo, ni los estudios poseen capacidad explicativa sobre la variable
dependiente. Y nada ms lejos de la realidad, por lo que se refiere al sexo, por citar el
ms evidente, que diferencia en gran medida a la variable dependiente en cada uno de
los subgrupos formados por la variable estudios.

Figura 1.21.- Segmentacin con interaccin no detectada.


Asistencia al cine
Nodo 0
Categora
%
S
50,00
No
50,00
Total
(100,00)

n
400
400
800

ESTUDIOS
Nivel crtico corregido=1,0000, Chi-cuadrado=0,0000, gl=1

Bajos

Altos

Nodo 1
Categora
%
S
50,00
No
50,00
Total
(50,00)

Nodo 2
Categora
%
S
50,00
No
50,00
Total
(50,00)

n
200
200
400

GNERO
Nivel crtico corregido=0,0000, Chi-cuadrado=256,0000, gl=1

Hombre
Nodo 3
Categora
%
S
90,00
No
10,00
Total
(25,00)

Mujer

n
180
20
200

Nodo 4
Categora
%
S
10,00
No
90,00
Total
(25,00)

GNERO
Nivel crtico corregido=0,0000, Chi-cuadrado=256,0000, gl=1

Hombre

n
20
180
200

n
200
200
400

Nodo 5
Categora
%
S
10,00
No
90,00
Total
(25,00)

Mujer

n
20
180
200

Nodo 6
Categora
%
S
90,00
No
10,00
Total
(25,00)

n
180
20
200

Sin embargo, en el anlisis de segmentacin lo ms frecuente es encontrar las


interacciones bajo la forma de dendrogramas asimtricos. Como se explic en el
apartado de la utilidad exploratoria de esta tcnica, la segmentacin en un mismo nivel
por distintas variables es indicio de interaccin. Ahora bien, en estos casos, resulta ms
difcil calificar el tipo de interaccin. El dendrograma no ofrece, en principio, ningn
dato para la clasificacin. En cambio, una tabla de significaciones como la de la Figura
1.12, permite, al menos, distinguir las interacciones de efectos acumulados de las otras
dos. Para que una interaccin sea del primer tipo, es condicin necesaria, aunque no
suficiente, que en uno de los grupos de un nivel de segmentacin, la relacin con la
variable dependiente sea no significativa. En la Figura 1.18, por ejemplo, la interaccin
del gusto por el cine con el gusto por salir para explicar la asistencia a salas de
proyeccin es de tipo acumulado, porque la relacin del gusto por salir con la asistencia
a pelculas slo es significativa cuando al individuo le gusta el cine. La otra condicin
se obtiene a partir del dendrograma y es que haya al menos un grupo del segundo
predictor con un valor de la variable dependiente semejante al resto de grupos del
primer predictor. As, en la Figura 1.20, el G.6 tiene un porcentaje de favorables a la
sanidad pblica del 10%, bastante superior al resto de grupos de la variable anterior
(gusto por el cine) (donde los grupos G.1 y G.2 ostentan valores medios y altos, con
porcentajes 40% y 80% respectivamente), por lo que este ejemplo no se puede clasificar
como interactivo de efectos acumulados.
Para distinguir los otros dos tipos de modelos interactivos es preciso realizar los
cruces necesarios y estudiar el comportamiento de las distintas diferencias de
porcentajes. Otra posibilidad sera hacer que las variables segmentadoras fueran las
mismas para cada nivel de segmentacin y, de esta manera, estudiar el comportamiento
de los porcentajes que presentan los distintos grupos formados por los valores de los

predictores. Pero esto tambin implicara volver al punto de partida: la tabla de


contingencia.

1.4 Clasificacin de datos


Otra de las aplicaciones ms obvias de este anlisis es la clasificacin. Para
mostrarlo, se pone a continuacin un ejemplo real, sencillo y didctico. Se trata de una
poblacin de estudiantes de un determinado ao en una asignatura de Estadstica
impartida a alumnos de Sociologa. Para calificarlos, se emplearon dos exmenes y un
trabajo. La calificacin final se obtuvo mediante las siguientes normas: en primer lugar,
el estudiante deba tener aprobada las tres clasificaciones, lo que implicaba sacar al
menos un 4.5 en cada una de ellas. En el caso de que las tres estuvieran aprobadas, se
realizaba la media ponderada. Los exmenes se ponderaban con 0,3 puntos, mientras el
trabajo se haca con 0,4. Finalmente si se alcanzaba el 9,5 se obtena matricula (ningn
caso entre los 117 evaluados), con ms de 8,5 se reciba un sobresaliente; con ms de
6,5 un notable y, el resto, siempre que hubiesen alcanzado ms de 4.5 en cada una de las
pruebas se quedaba con un mero aprobado. Estas reglas pueden resumirse del siguiente
modo:
E1 < 4.5 E 2 < 4.5 T < 4.5 Suspenso
E1 4.5 E 2 4.5 T 4.5 P = 0.3E1 + 0.3E 2 + 0.4T
P 4.5 P < 6.5 Aprobado
P 6.5 P < 8.5 Notable
P 8.5 Sobresaliente

Sin ninguna otra informacin que los predictores (las notas de los dos exmenes y las
calificaciones del trabajo) y la calificacin final (de suspenso a sobresaliente), se
realizaron sendos anlisis de segmentacin: uno mediante CHAID, el otro mediante
CART.
Figura 1.22.- Segmentacin CHAID de las calificaciones.
CALIFICA
Nodo 0
Categora
%
Suspenso
55.56
Aprobado
31.62
Notable
11.97
Sobresaliente
0.85
Total
(100.00)

n
65
37
14
1
117

T
Nivel crtico corregido=0.0000, Chi-cuadrado=107.1084, gl=6

<=4

(4,5]

Nodo 1
Categora
%
n
Suspenso
100.00 57
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(48.72) 57

>5

Nodo 2
Categora
%
n
Suspenso
9.09
2
Aprobado
86.36 19
Notable
4.55
1
Sobresaliente
0.00
0
Total
(18.80) 22

Nodo 3
Categora
%
Suspenso
15.79
Aprobado
47.37
Notable
34.21
Sobresaliente
2.63
Total
(32.48)

P2
Nivel crtico corregido=0.0003, Chi-cuadrado=28.5614, gl=4

<=3.5
Nodo 4
Categora
%
n
Suspenso
100.00
2
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(1.71) 2

(3.5,7.5]
Nodo 5
Categora
%
n
Suspenso
0.00
0
Aprobado
100.00 17
Notable
0.00
0
Sobresaliente
0.00
0
Total
(14.53) 17

n
6
18
13
1
38

P2
Nivel crtico corregido=0.0000, Chi-cuadrado=38.0000, gl=3

>7.5
Nodo 6
Categora
%
n
Suspenso
0.00
0
Aprobado
66.67
2
Notable
33.33
1
Sobresaliente
0.00
0
Total
(2.56) 3

<=3.5
Nodo 7
Categora
%
n
Suspenso
100.00
6
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(5.13) 6

>3.5
Nodo 8
Categora
%
Suspenso
0.00
Aprobado
56.25
Notable
40.63
Sobresaliente
3.13
Total
(27.35)

n
0
18
13
1
32

P1
Nivel crtico corregido=0.0104, Chi-cuadrado=13.2824, gl=2

<=7.4000000000000004

>7.4000000000000004

Nodo 9
Categora
%
n
Suspenso
0.00
0
Aprobado
77.27 17
Notable
22.73
5
Sobresaliente
0.00
0
Total
(18.80) 22

Nodo 10
Categora
%
n
Suspenso
0.00
0
Aprobado
10.00
1
Notable
80.00
8
Sobresaliente 10.00
1
Total
(8.55) 10

El primero de ellos muestra como mejor variable predictora el trabajo, dividiendo a


los estudiantes en tres grupos en el primer nivel. El mejor definido es el de aquellos que
han obtenido un 4 o menos en esta prueba. Todos ellos, los 57 que no la superaron,
quedan suspendidos. Los restantes se dividen en un grupo pequeo de 22 personas con
4,5 5 en el trabajo, caracterizados por una alta probabilidad de tener un mero aprobado
en la calificacin final y en otro grupo mayor, con mejores notas en el trabajo (ms de
5), bastante ms heterogneo en su comportamiento ya que no llega al 50% el nmero
de clasificados con el aprobado y ms de la tercera parte presentan un notable.
En el segundo nivel, tanto el segundo grupo como el tercero se subdivide por la nota
del segundo examen. Dadas las reglas, era lgico esperar que hubiera interaccin,
porque la influencia de esta segunda variable sobre el criterio es nula para determinados
valores de la tercera variable, en concreto, cuando el trabajo est por debajo del 4.5. En
este segundo nivel prcticamente todos los grupos quedan homogneos, salvo uno, el de
los que sacaron ms de 5 en el trabajo y ms de 4 en el segundo examen. ste ltimo
grupo se caracteriza por estar formado por aproximadamente una mitad de aprobados y
otra de notables.
Por esta ltima razn, sobre este grupo, en el tercer nivel, opera la variable relativa a
la calificacin del primer examen, que discrimina bsica, pero torpemente, entre
aquellos que obtienen aprobado y aquellos que consiguen notable o sobresaliente,
puesto que 7 de los 8 estudiantes mal clasificados se encuentran en los grupos
terminales de este tercer nivel.
Visto desde otro punto de vista (Figura 1.23), la tabla de clasificacin presenta una
estimacin del riesgo menor del 7%.
Figura 1.23.- Tabla de clasificacin y estadsticas de riesgo de las calificaciones (CHAID).
Tabla de clasificacin
Estimacin
Suspenso
Aprobado
Notable
Sobresaliente
Total

Susp.
65
0
0
0
65

Estimacin de riesgo
ET del riesgo

Categora real
Aprob. Notab. Sobres.
0
0
0
36
6
0
1
8
1
0
0
0
37
14
1

Total
65
42
10
0
117

Estadsticas de riesgo
0.0683
0.0233

Si, en lugar de aplicar el algoritmo CHAID, se emplea CART, los resultados son
bastante semejantes. Como puede apreciarse en la Figura 1.24, los dos primeros niveles
de segmentacin sirven para separar a los suspensos. En primer lugar, empleando como
mejor clasificador el trabajo; despus, haciendo uso del segundo examen. De este modo,
quedan los 65 suspensos correctamente clasificados.

Figura 1.24.- Segmentacin CART podada de las calificaciones.


CALIFICA
Nodo 0
Categora
%
Suspenso
55.56
Aprobado
31.62
Notable
11.97
Sobresaliente
0.85
Total
(100.00)

n
65
37
14
1
117

T
Mejora=0.2963

<=4.25

>4.25

Nodo 1
Categora
%
n
Suspenso
100.00 57
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(48.72) 57

Nodo 2
Categora
%
Suspenso
13.33
Aprobado
61.67
Notable
23.33
Sobresaliente
1.67
Total
(51.28)

n
8
37
14
1
60

P2
Mejora=0.0936

<=4

>4

Nodo 3
Categora
%
n
Suspenso
100.00
8
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(6.84) 8

Nodo 4
Categora
%
Suspenso
0.00
Aprobado
71.15
Notable
26.92
Sobresaliente
1.92
Total
(44.44)

n
0
37
14
1
52

P1
Mejora=0.0391

<=6.7999999999999998

>6.7999999999999998

Nodo 5
Categora
%
n
Suspenso
0.00
0
Aprobado
90.00 27
Notable
10.00
3
Sobresaliente
0.00
0
Total
(25.64) 30

Nodo 6
Categora
%
Suspenso
0.00
Aprobado
45.45
Notable
50.00
Sobresaliente
4.55
Total
(18.80)

n
0
10
11
1
22

P2
Mejora=0.0260

<=6.75

>6.75

Nodo 9
Categora
%
n
Suspenso
0.00
0
Aprobado
69.23
9
Notable
30.77
4
Sobresaliente
0.00
0
Total
(11.11) 13

Nodo 10
Categora
%
n
Suspenso
0.00
0
Aprobado
11.11
1
Notable
77.78
7
Sobresaliente 11.11
1
Total
(7.69) 9

T
Mejora=0.0320

<=6.5
Nodo 13
Categora
%
n
Suspenso
0.00
0
Aprobado
90.00
9
Notable
10.00
1
Sobresaliente
0.00
0
Total
(8.55) 10

>6.5
Nodo 14
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
100.00
3
Sobresaliente
0.00
0
Total
(2.56) 3

Sin embargo la clasificacin del resto resulta algo ms compleja. El tercer nivel hace
uso de los resultados del primer examen, creando un grupo terminal con los que sacaron
menos de un 6.8 en la mencionada prueba, pues entre ellos slo un 10%, pudieron sacar
finalmente un notable. En cambio, los 22 que sacaron buenas notas en el primer examen
se dividen por las notas del segundo examen. Si en ste sus componentes tambin
sacaron ms de 6.8, entonces es prcticamente improbable que en conjunto tuvieran
menos de notable (slo 1 de 9). En cambio, los trece aprobados (grupo 9) con alta nota
en el primer examen y baja nota en el segundo, se subdividen por su nota en el trabajo.
Si no supera el 6.5, entonces, el resultado final modal es el mero aprobado; en cambio,
si el trabajo est por encima de la mencionada calificacin, el resultado final es
evaluado correctamente como notable.
Por otro lado, la tabla de clasificacin, aun con el rbol podado, ofrece mejores
resultados que los anteriores efectuados con CHAID. En este caso menos del 5% de los
casos quedan mal clasificados.12 En concreto, 3 notables son calificados como
aprobados. stos son sujetos que empezaron con malos resultados en el primer parcial,
pero luego acabaron haciendo una buena segunda prueba y un trabajo notable. Por otro
lado, hay 2 personas de las que se predice peores resultados. En concreto, una con un
notable y otra con un sobresaliente. ste ltimo caso es justificable puesto que es el
nico con esta calificacin. La primera persona es un caso extraordinario, puesto que,
habiendo sacado menos de notable en ambos exmenes, el resultado del trabajo le eleva
la nota. La tabla de clasificacin y la estimacin del riesgo se muestran en la Figura 1.25
Figura 1.25.- Tabla de clasificacin y estadsticas de riesgo de las calificaciones (CART).
Tabla de clasificacin
Susp.
65
0
0
0
65

Categora real
Aprob.
Notab.
0
0
36
6
1
10
0
0
37
14

Estimacin de riesgo
ET del riesgo

Estadsticas de riesgo
0.0512
0.0204

Estimacin
Suspenso
Aprobado
Notable
Sobresalien
Total

Sobres.
0
0
1
0
1

Total
65
40
12
0
117

Aunque las predicciones estn bastante ajustadas, no son perfectas, porque la


verdadera clasificacin est basada ms en una combinacin lineal de los predictores,
que en unas reglas de decisin. Para evitar estos desajustes, Breiman et al. (1984; 132135) propusieron tambin emplear combinaciones de variables como clasificadores. En
el ejemplo que se acaba de exponer, es fcil hacer la sustitucin, porque se sabe que la
adecuada clasificacin responde a la siguiente frmula: 0.3E1+0.3E3+0.4T. Por ello, si
se designa esta expresin bajo el nombre de Nota y se introduce como un predictor ms,
el resultado empleando CHAID directamente es el presentado en la Figura 1.26:

12

Una pregunta que se puede formular es si esta cantidad es admisible o no. Como todo es relativo, en
el prximo captulo se intentar dar una respuesta comparativa, poniendo en contraste esta tcnica con
otras similares.

Figura 1.26.- Segmentacin de la calificacin utilizando la variable nota (CHAID).


CALIFICA
Nodo 0
Categora
%
Suspenso
55.56
Aprobado
31.62
Notable
11.97
Sobresaliente
0.85
Total
(100.00)

n
65
37
14
1
117

NOTA
Nivel crtico corregido=0.0000, Chi-cuadrado=209.3926, gl=12

<=4
Nodo 1
Categora
%
n
Suspenso
100.00 58
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(49.57) 58

(4,6.2999999999999998]
Nodo 2
Categora
%
n
Suspenso
0.00
0
Aprobado
100.00 31
Notable
0.00
0
Sobresaliente
0.00
0
Total
(26.50) 31

(6.2999999999999998,6.7999999999999998]
Nodo 3
Categora
%
n
Suspenso
0.00
0
Aprobado
60.00
6
Notable
40.00
4
Sobresaliente
0.00
0
Total
(8.55) 10

>6.7999999999999998
Nodo 4
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
90.91 10
Sobresaliente
9.09
1
Total
(9.40) 11

<perdido>
Nodo 5
Categora
%
n
Suspenso
100.00
7
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(5.98) 7

La razn por la cual el resultado no es perfecto es la peculiar forma que tiene CHAID
de trabajar con los predictores cuantitativos. Como no puede tratarlos como variables
continuas, los divide en diez cortes de igual amplitud y, posteriormente, efecta las
correspondientes fusiones, con los procedimientos explicados en la seccin X.X. En el
caso que se est comentando, se han dividido en deciles, que luego han sido agrupados,
si no mostraban diferencias significativas en la variable criterio. De este modo, al final
han quedado definidos cinco grupos: el de los que tienen 4 o menos puntos, el
comprendido entre 4.5 y 6.3 (caracterizados por estar aprobados), los que tienen entre
6.3 y 6.8 (mitad de ellos aprobados, mitad notables), los que puntan con ms de 6.8 (y
en consecuencia con calificaciones de notable y sobresaliente), y finalmente los casos
perdidos, calificados como suspensos al ser todos aquellos que no se han presentado a
alguna prueba13.
Si, en lugar de aplicar el algoritmo CHAID, se emplea CART, el rbol desciende a
varios niveles, puesto que aunque slo una sea la variable ms importante, este
procedimiento slo puede
hacer al mismo tiempo una divisin binaria. En
consecuencia, el aspecto que tendra la segmentacin, empleando CART con el
predictor combinado Nota es el mostrado en la Figura 1.27.
Ntese aqu en primer lugar que el rbol se hace ms complejo por los distintos
niveles, pero tambin mucho ms acertado. De hecho, mediante este rbol la estimacin
del riesgo queda reducida a 0, porque no se produce ninguna mala clasificacin. Ni tan
siquiera quedan ms calificados los valores perdidos, ya que para su prediccin se ha
empleado una variable sustituta (la calificacin del trabajo), de acuerdo a las reglas
explicadas en la seccin X.X. Sobresale en este ejemplo que la calificacin es perfecta.
A ningn caso se le asigna un grado distinto del que ha obtenido en la realidad.

13

El programa Answertree que aqu se utiliza siempre considera categora aparte a los casos perdidos
en el caso de variables ordinales o de escala. Si se hubiera considerado nominal, los valores perdidos se
hubieran fusionado con casi completa seguridad- en el primer grupo de valores, porque todos coinciden
en calificaciones suspensas.

Figura 1.27.- Segmentacin de la calificacin utilizando la variable nota (CART).


CALIFICA
Nodo 0
Categora
%
Suspenso
55.56
Aprobado
31.62
Notable
11.97
Sobresaliente
0.85
Total
(100.00)

n
65
37
14
1
117

NOTA
Mejora=0.3899

<=4.25

>4.25

Nodo 1
Categora
%
n
Suspenso
100.00 65
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente
0.00
0
Total
(55.56) 65

Nodo 2
Categora
%
Suspenso
0.00
Aprobado
71.15
Notable
26.92
Sobresaliente
1.92
Total
(44.44)

n
0
37
14
1
52

NOTA
Mejora=0.1711

<=6.5

>6.5

Nodo 3
Categora
%
n
Suspenso
0.00
0
Aprobado
100.00 37
Notable
0.00
0
Sobresaliente
0.00
0
Total
(31.62) 37

Nodo 4
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
93.33 14
Sobresaliente
6.67
1
Total
(12.82) 15
NOTA
Mejora=0.0160

<=8.3999999999999986

>8.3999999999999986

Nodo 5
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
100.00 14
Sobresaliente
0.00
0
Total
(11.97) 14

Nodo 6
Categora
%
n
Suspenso
0.00
0
Aprobado
0.00
0
Notable
0.00
0
Sobresaliente 100.00
1
Total
(0.85) 1

1.5 Prediccin
Aunque tal como fue redefinido el anlisis de segmentacin por Breiman y
colaboradores, la principal funcin del anlisis de segmentacin es la clasificacin, su
cometido ms practico no est en dividir la muestra, sino en hacer predicciones sobre
ella.
A continuacin se expone un ejemplo de prediccin de voto en unas elecciones. La
pregunta original, tal como fue redactada por el CIS fue la siguiente: Como Vd.
seguramente sabe, el prximo 12 de marzo se celebrarn elecciones generales, es decir,
al Parlamento espaol. Piensa Vd. ir a votar en estas elecciones? Y las posibilidades
de respuesta registradas fueron las siguientes: 1) S, con toda probabilidad; 2)
Probablemente s; 3) Probablemente no; 4) No, con toda seguridad; 5) An no lo tiene
decidido y 6) No contesta. Los resultados del primer anlisis fueron los presentados en
la Figura 1.28.

Figura 1.28.- Intencin de acudir a las urnas


Pensamiento de voto

S, con toda seguridad

74.1%

Probablemente s

11.3%

Probablemente no

3.8%

No, con toda seguridad

6.8%

An no lo tiene decidido (NO LEER)

3.7%

N.C.

.1%

Total

(24040)

La primera dificultad del anlisis deriva de la no correspondencia de las posibles


respuestas con el resultado final. En las posibilidades de contestacin hay
comportamientos probables y conductas an no decididas14. Sin embargo, para una
prediccin slo hay dos posibles respuestas: S y No. Si se comparan los porcentajes de
respuesta con los resultados de participacin en anteriores consultas, la decisin ms
aproximada sera sin duda considerar slo la categora de Si, con toda seguridad, como
la nica que refleja adecuadamente el futuro comportamiento, ya que la participacin en
las elecciones de 2000 fue del 77%. Sin embargo, es casi seguro que un porcentaje
importante de los que se decantaron por el Probablemente, s, votaran finalmente el da
sealado para la ocasin. Por tanto, la primera decisin del anlisis es dicotomizar la
variable dependiente en las categoras S (incluyendo las dos primeras) y No
(incluyendo las tres ltimas), considerando las nicas 24 personas que no contestan
como un valor perdido.
Como consecuencia de esta decisin, habra un nmero excesivos de predicciones
positivas, ya que caera en esta categora el 85.4% de los encuestados y, como
finalmente ocurri, era improbable que se produjera la mencionada tasa de
participacin.

14

Hay un problema aadido en esta prediccin. Se trata de la abstencin tcnica consistente en los
errores de censo, cambios de direcciones y otros problemas burocrticos. Posiblemente buena parte de
ella est reflejada en la categora No lo tiene decidido, pero aun con todo su cuanta debe ser superior al
porcentaje registrado y no completamente reflejado, pues tambin hay personas que teniendo su registro
en regla tiene muy clara su no participacin en los comicios. Ver la obra de Manuel Justel (1995).

Figura 1.29.- Segmentacin con probabilidades a priori ajustadas.


VOTO
Nodo 0
Categora
%
n
Si
85.56 20542
No
14.44 3466
Total
(100.00) 24008
Voto ltimas autonmicas
Mejora=0.1157

No vota;Izqu. Reg.

PP;Derecha Reg.;PSOE;Otros partidos;IU

Nodo 1
Categora
%
n
Si
57.91 3019
No
42.09 2194
Total
(26.85) 5213

Nodo 2
Categora
%
n
Si
93.23 17523
No
6.77 1272
Total
(73.15) 18795

Voto ltimas europeas


Mejora=0.0084

No vota

PP;PSOE;Izqu. Reg.;IU;Derecha Reg.;Otros partidos

Nodo 3
Categora
%
n
Si
53.10 2250
No
46.90 1987
Total
(22.55) 4237

Nodo 4
Categora
%
Si
78.79
No
21.21
Total
(4.30)

Inters por la poltica


Mejora=0.0066

<=Nada

Preferencias elecciones
Mejora=0.0057

>Nada

Nodo 5
Categora
%
n
Si
40.94
915
No
59.06 1320
Total
(12.86) 2235

n
769
207
976

Otros partidos

Nodo 6
Categora
%
n
Si
66.68 1335
No
33.32
667
Total
(9.69) 2002

Nodo 7
Categora
%
Si
41.07
No
58.93
Total
(0.97)

PP;PSOE;Derecha Reg.;IU;Izqu. Reg.

n
69
99
168

Nodo 8
Categora
%
Si
86.63
No
13.37
Total
(3.33)

n
700
108
808

Confianza gobierno
Mejora=0.0023

<=Poca confianza

>Poca confianza

Nodo 9
Categora
%
n
Si
59.68
749
No
40.32
506
Total
(6.38) 1255

Nodo 10
Categora
%
Si
78.45
No
21.55
Total
(3.30)

n
586
161
747

Confianza oposicin
Mejora=0.0017

<=Poca confianza
Nodo 11
Categora
%
n
Si
54.76
558
No
45.24
461
Total
(5.36) 1019

>Poca confianza
Nodo 12
Categora
%
Si
80.93
No
19.07
Total
(1.02)

n
191
45
236

Por tanto, se est ante un tpico caso en el que deberan cambiarse las probabilidades
a priori de las categoras de la variable criterio. Atendiendo a la participacin en los
cuatro anteriores comicios, los porcentajes fueron de 70,5 en 1986; 69,7 en 1989; 76,4
en 1993, y 77,4 en 1996. Por tanto, la prediccin debera estar en torno al 70-78%, en
lugar del 85% previsto en la variable dependiente recodificada. Para ello habra que

ponderar la muestra (Ripley 1996, 220)15, de tal modo que se obtenga en la variable
dependiente los porcentajes supuestos en la poblacin y no los conseguidos en la
muestra. Para este ejemplo, se ha supuesto una participacin del 75%16.
El resultado es ligeramente diferente al presentado en las pginas anteriores. Resulta
incluso ms claro en la medida en que incorpora en primer lugar las dos variables
relacionadas con el voto anterior y despus introduce las relativas al inters por la
poltica o incluso las preferencias polticas. Aunque se generan siete grupos finales
distintos, slo 3 representan por s solos ms del 5% de la muestra. De un lado, el grupo
ms numeroso (el 2), constituido por casi las tres cuartas partes de la muestra, est
formado por quienes votaron en las ltimas elecciones autonmicas, entre quienes ms
del 90% tienen intencin de votar en los comicios al Parlamento espaol. Del otro lado,
se encuentran los grupos ms inclinados a abstenerse: el grupo 5, entre los que casi el
60% no tienen intencin de voto, son aquellos que se abstuvieron en las dos ltimas
elecciones y no tienen inters por la poltica; junto con el grupo 11, constituido por
apenas un 5% de la poblacin con escasa tendencia a votar17, compuesto por quienes no
votaron en las ltimas elecciones, tienen inters por la poltica, pero no confan ni en el
gobierno, ni en la oposicin.
Figura 1.30.- Tablas de clasificacin de la prediccin de voto.
Tabla de clasificacin (sin a priori)
Categora real
Estimacin
S
No
2393
S
19966
576
No
1073
Total
20542
3466
Riesgo estimado
E.T. del riesgo

0.124
0.002

Total
22359
1649
24008

Tabla de clasificacin (con a priori)


Categora real
Estimacin
S
No
2746
S
16655
1352
No
3255
Total
18007
6001
Riesgo estimado
E.T. del riesgo

Total
19401
4607
24008

0.171
0.002

Gracias a haber optado por la opcin apriorstica, se pueden predecir mejores


resultados sobre el voto. En la Figura 1.30, donde aparecen las tablas correspondientes a
los anlisis de segmentacin realizados sin y con a priori, se reflejan importantes
diferencias. Paradjicamente el riesgo estimado es peor en la tabla de la opcin a
priori18. Sin embargo, refleja unas predicciones ms acordes con la realidad, puesto que
la izquierda predira un 93% de votantes, mientras que empleando a priori el porcentaje
se acerca hasta el 80%. An no es el real, pero se acerca bastante ms que el anterior.
15

Generalmente todos los programas de segmentacin incluyen la posibilidad de definir a priori los
porcentajes de la variable dependiente, sin necesidad de tener ponderado el fichero original.
16
La participacin final fue del 68,7%, porque la campaa fue de muy bajo tono y la victoria del
partido en el gobierno bastante previsible.
17
Si se miran los porcentajes en la correspondiente rama del rbol, se ve sin embargo que es
mayoritario el voto sobre el no voto. No obstante hay que tener en cuenta que en la figura aparecen los
porcentajes no ponderados. La categora predictora en realidad es aquella que genera menor riesgo y este
debe ser calculado de acuerdo a la siguiente frmula r (t ) = min
i

J
j =1

p ( j | t )C (i | j ) ( j ) . Si

(j)=p(j), entonces coincide con la categora modal; pero no siempre es as el caso, como adems se
aprecia claramente en los grupos 1, 3 y 9.
18
Esto se debe a que el punto de partida en la opcin normal es .14 (la proporcin de los que no tienen
intencin de voto). Y la segmentacin lo disminuye en dos puntos centesimales. En cambio, en la opcin
a priori, el arranque se encuentra en .25 y la divisin de la muestra logra bajar el riesgo hasta .17; por
tanto produce una mejora de ocho puntos centesimales.

1.6 Una visin general de la aplicacin del anlisis de


segmentacin
En este captulo se ha puesto una serie de diversos ejemplos de aplicaciones del
anlisis de segmentacin. A partir de ellos, el lector podra extraer la falsa conclusin de
que vale para casi todo. Y, en realidad, ello no es as. En primer lugar, hay que advertir
que es mejor para unas cosas que para otras. Podra ponerse entre sus ms sobresalientes
caractersticas la habilidad calificadora del anlisis y dejar en ltimo lugar la funcin
explicativa, a la que slo habra que otorgar un mero papel exploratorio. En segundo
lugar, hay que advertir la escasa estabilidad de los resultados, entendiendo por ello los
diferentes segmentos que se pueden formar segn se emplee un algoritmo u otro. En
este sentido, por ejemplo podra destacarse el algoritmo CART como un buen
clasificador de casos, pero deficiente a la hora de proporcionar una descripcin clara de
cmo se segmentan los datos. A este respecto, el procedimiento CHAID simplifica
enormemente el proceso de interpretacin, porque produce rboles con menos niveles,
impidiendo una combinacin extraa de variables de la que dar cuenta. Finalmente, es
preciso recomendar la inclusin del mayor nmero de variables posibles en al anlisis,
el cual ya se encargar de realizar la seleccin. Obviamente, esto no puede hacerse de
forma acrtica sin mirar el contenido y el significado de la variable. Hay que evitar
sobretodo variables que sean posteriores en la cadena causal. Por ejemplo, si la variable
criterio es la ideologa, no sera apropiado poner como predictor el voto, ya que ste es
consecuencia de aquella y no a la inversa. Pero tambin y esto es ms difcil de preversera inapropiada la inclusin de un falso predictor correlacionado con una variable no
incluida en el modelo, como sera, por ejemplo, la inclusin del estado civil, sin incluir
la edad, en el caso de que sta sea el verdadero predictor.

S-ar putea să vă placă și