Sunteți pe pagina 1din 65

RBOLES DE CLASIFICACIN

Y REGRESIN

Jos Manuel Rojo Abun


Laboratorio de Estadstica
Instituto de Economa y Geografa
Consejo Superior de Investigaciones Cientficas
Madrid, Mayo 2006

ndice
1

INTRODUCCIN

CUESTIONES PREVIAS

Grafos, rboles y rboles binarios

Cuartiles, deciles y centiles

ndices de asociacin y medidas de impureza

11

Algoritmos para desarrollar rboles

20

INTRODUCCIN A LA HERRAMIENTA ANSWER TREE

22

Creacin de un rbol

22

Evaluacin del modelo

23

Guardar un proyecto

24

DESCRIPCIN DE LA VENTANA PRINCIPAL Y VISORES

24

Ventana principal

24

Visores de la ventana principal

25

Vistas de la ventana principal

26

Otros controles de la ventana principal

33

BARRA DE HERRAMIENTAS Y BARRA DE MENS

34

Mens

34

Barra de herramientas

37

DESARROLLO MANUAL DE UN RBOL

38

VALIDACIN DEL RBOL

44

Dividir datos en submuestras

44

Validacin cruzada

45

Ejemplo de validacin por submuestras

46

EJERCICIOS

50

8.1

EJERCICIO DE CLASIFICACIN DE LIRIOS

50

8.2

EJERCICIO DE VALORACIN DE CRDITO

55

8.3

EJERCICIO DE VALORACIN DEL PRECIO DE VIVIENDAS

61

Laboratorio de Estadstica

Pgina n 3

1- INTRODUCCIN
AnswerTree es una herramienta de software, que reemplaza al antiguo CHAID de
S.P.S.S., para realizar clasificaciones basadas en rboles de decisin.
Los anlisis de clasificacin basados en rboles de decisin son tcnicas de
explotacin de datos (data mining) que consisten en estudiar grandes masas de
datos con el fin de descubrir patrones no triviales.
Los patrones no triviales que se estudiarn habitualmente sern los predictivos y los
explicativos.
Un rbol de decisin representa una serie de pautas basadas en ciertas variables
explicativas que se muestran segn recorremos el rbol.
Ejemplo
RIESGO
Nodo 0
Categora
%
n
Sin riesgo 50 .0021
Con riesgo 50 .0021
Total
(100 .00)42
HORAST
Mejora=0.1605

<=11.5

>11.5

Nodo 1
Categora
%
n
Sin riesgo 31 .03 9
Con riesgo 68 .9720
Total
(69 .05)29

Nodo 2
Categora
%
n
Sin riesgo 92 .3112
Con riesgo 7 .69 1
Total
(30 .95)13

CARRERA
Mejora=0.0261

ciencias
Nodo 13
Categora
%
n
Sin riesgo 50 .00 5
Con riesgo 50 .00 5
Total
(23 .81)10

SEXO
Mejora=0.0023

humanidades
Nodo 14
Categora
%
n
Sin riesgo 21 .05 4
Con riesgo 78 .9515
Total
(45 .24)19

mujer

varon

Nodo 15
Categora
%
Sin riesgo 87 .50
Con riesgo 12 .50
Total
(19 .05)

Nodo 16
Categora
%
Sin riesgo 100 .00
Con riesgo 0 .00
Total
(11 .90)

n
7
1
8

n
5
0
5

Estos rboles se construyen mediante un algoritmo que va dividiendo los registros


de la base de datos (casos u observaciones) en nodos de forma recursiva, de
manera que con cada subdivisin las frecuencias relativas de las categoras de la
variable dependiente vayan tendiendo a 0 o a 1.

AnswerTree dispone de cuatro algoritmos para realizar rboles de clasificacin:


CHAID
CHAID Exhaustivo
C&RT o CART
QUEST
Aunque AnswerTree permite la construccin de rboles de forma totalmente
automatizada, los mejores resultados se obtienen con la colaboracin del usuario, al
aplicar el conocimiento que tiene de los datos, tomando decisiones racionales al
decidir si se va o no a dividir un nodo determinado.

Laboratorio de Estadstica

Pgina n 4

Ventajas de estos modelos:


-

Transparencia: a diferencia de otros modelos de clasificacin, la forma de un


rbol es intuitiva y fcil de interpretar.
Portabilidad: las pautas que se extraen del camino a una hoja del rbol se
pueden expresar fcilmente en distintos formatos, como SQL o sintaxis de
S.P.S.S.
Modelizacin: los modelos de clasificacin basados en rboles de
clasificacin pueden utilizar tanto variables continuas como categricas; en
concreto, si las variables independientes son categricas y tienen gran
nmero de categoras, entonces estos modelos darn mejores resultados que
los modelos de clasificacin clsicos.
No es preciso una habilidad analtica excepcional para afinar un rbol de
decisin.

Desventajas:
-

En estos modelos se deber de emplear un gran volumen de datos para


asegurarnos que la cantidad de casos en un nodo terminal es significativa.

Algunas aplicaciones habituales de estas tcnicas pueden ser:


-

Investigacin de mercados: identificacin de los perfiles de los posibles


clientes.
Evaluacin de crditos: descripcin de los grupos de alto riesgo.
Medicina: determinacin del tratamiento que dar el mejor resultado con un
determinado paciente.
Enseanza: desarrollo de perfiles de estudiantes con / sin xito.

Laboratorio de Estadstica

Pgina n 5

2- CUESTIONES PREVIAS
Antes de empezar a examinar el modulo AT, vamos a definir una serie de conceptos
ampliamente utilizados en la construccin y anlisis de rboles de clasificacin y
regresin.

2.1. Grafos, rboles y rboles binarios


a) Grafo:
Un grafo G es un par de conjuntos (V, E), donde V representa un conjunto
cualesquiera y E es un subconjunto de pares de V. A los elementos del conjunto V
habitualmente se le denomina Nodos y a los elementos del conjunto E Aristas.
Ejemplo
Sea el grafo G = (V, E) donde:

V = {A, B, C, D}
E = {{A, B}, {A, C}, {A, D}, {B, D}}

Los grafos se pueden representar de la siguiente forma:

Un ejemplo de grafo es el plano del metro, donde los nodos representan las distintas
estaciones y las aristas representan las vas entre dos estaciones.

b) Camino
Denominamos camino a una sucesin de nodos unidos por aristas de forma que no
se repite ninguna arista.

Laboratorio de Estadstica

Pgina n 6

Ejemplo

c) Grafo conexo
Decimos que un grafo G= (V, E) es conexo si para cualquier par de nodos
pertenecientes al grafo existe un camino que los une.

Ejemplo

GRAFO NO CONEXO

GRAFO CONEXO

d) Circuito
Es un camino que empieza y termina en el mismo nodo sin repetir ninguna arista.

Laboratorio de Estadstica

Pgina n 7

Ejemplo

EJEMPLO DE CIRCUITO

e) Grado de incidencia de un nodo


Es el nmero de aristas que inciden en dicho nodo.

f) rbol
Existe un tipo de grafos especiales denominados rboles, que suelen ser utilizados
para representar esquemas de toma de decisiones.
Dado un grafo G = (V, E) se dice que es un rbol si verifica las siguientes
condiciones:

Es conexo

No tiene circuitos.

Ejemplo de rbol

Laboratorio de Estadstica

Pgina n 8

Al nodo situado en el extremo superior se le denomina Nodo Raz y a los nodos


situados en la parte inferior se le denomina Nodos Terminales.
Un ejemplo de rbol es la estructura del disco de un ordenador.

g) rbol binario
Se dice que el rbol T = (V, E) es un rbol binario si existe un nodo que esta
conectado por dos aristas y el resto de los nodos estn conexionados exactamente
por una o por tres aristas.
Al nodo que tiene nicamente dos aristas se le denomina NODO RAZ y a los nodos
a los que llega una sola arista se le denomina nodos terminales.
Ejemplo de rbol binario

2.2. Cuartiles, deciles y centiles


Si bien en teora el Answer Tree puede utilizar variables con cualquier nivel de
medida, en realidad solamente trabaja con variables categricas. La forma de pasar
una variable con un nivel de medida de escala o proporcin a un nivel de medida
ordinal o nominal es categorizando o discretizando la variable. En el proceso de
categorizacin o discretizacin se utilizan conceptos tales como mediana, cuartiles y
percentiles.
a) Mediana
Si los datos de una muestra se colocan de manera ordenada por su magnitud, el
valor medio que divide al conjunto en dos grupos de igual tamao se le denomina
MEDIANA.
1
2
3
4
5
Mediana 6
7
8
9
10
11

1.21
1.23
1.23
1.34
1.45
1.45
1.56
1.56
1.56
1.78
1.89

Laboratorio de Estadstica

Pgina n 9

b) Cuartiles
Por extensin de esta idea, los tres valores que la dividen en cuatro partes iguales,
reciben el nombre de CUARTILES, evidentemente el segundo cuartil corresponde
con la mediana.

c) Deciles
Anlogamente los nueve valores que dividen a la muestra en diez partes iguales
reciben el nombre de deciles.
d) Centiles
Los valores que dividen a la muestra en 100 partes iguales se denominan centiles.
e) Categorizar variables
Cuando se desea pasar una variable medida en escala de intervalo u ordinal, a una
escala nominal, se crea una nueva variable, de forma que a cada uno de los valores
que toma la variable lo sustituye por el intervalo en el que esta dicho valor, como se
puede apreciar en el siguiente ejemplo:

Q1

Q2

Q3

VARIABLE
VARIABLE
CATEGORI
ORIGINAL
ZADA
1 1.21 1.21 A
2 1.23 1.23 A
3 1.23 1.23 A
4 1.23 1.23 A
Q1 1.23 1.23 A
6 1.31 1.31 B
7 1.34 1.34 B
8 1.34 1.34 B
9 1.45 1.45 B
Q2 1.45 1.45 B
11 1.45 1.45 C
12 1.45 1.45 C
13 1.56 1.56 C
14 1.56 1.56 C
Q3 1.56 1.56 C
16 1.56 1.56 D
17 1.67 1.67 D
18 1.78 1.78 D
19 1.89 1.89 D
20 1.91 1.91 D

A esta operacin se la suele denominar categorizar variables.


Laboratorio de Estadstica

Pgina n 10

2.3. ndices de asociacin y medidas de impureza


La creacin de rboles de clasificacin y regresin consiste, bsicamente, en ir
creando sucesivas subdivisiones del conjunto de datos de acuerdo con un algoritmo
determinado, de forma tal que, con cada nueva subdivisin que se realice, mejore la
clasificacin de la variable criterio.
Las medidas que habitualmente se suelen utilizar para comparar la mejora de cada
nueva subdivisin son las siguientes:

2
ndice de Gini
ndice Binario.

a) Coeficiente

El coeficiente trata de medir la asociacin entre dos variables nominales u


ordinales y se define como:
2

=
2

(n

i, j

ni' , j

ni' , j

Notacin:

ni , j Es la frecuencia observada de la celda {i,j}


ni,, j Es la frecuencia esperada de la celda (i, j)

Si los sucesos A y B son independientes, deber de ocurrir:

p( A I B) = p( A) * p( B)
Adems si un suceso A tiene una probabilidad de ocurrencia P y realizamos n
repeticiones del experimento aleatorio, entonces el nmero esperado de ocurrencias
de dicho suceso ser de:
n* p
Si las categoras de la variable fila y las categoras de la variable columna son
independientes, se debera de cumplir la siguiente condicin:

P ( I I J ) = P (I ) P ( J )

Laboratorio de Estadstica

Pgina n 11

Por lo tanto la frecuencia esperada en cada celda de la tabla si las variables fueran
independientes ser de:

ni, j = n * p (i I j ) = n * p(i ) * p ( j ) = n *

ni * n* j
*
n
n

Por lo tanto comparando las frecuencias observadas con las frecuencias esperadas
si las variables fueran independientes tendremos una idea del grado de asociacin
existente entre las variables tal y como hace este coeficiente:

=
2

(n

i, j

ni' , j

ni' , j

Valores cercanos a cero de este coeficiente indicaran que no hay asociacin


entre la variable fila y la variable columna.
Valores grandes de este coeficiente indicaran la existencia de asociacin
entre las variables fila y columna de la tabla.
Ejemplo

Veamos un ejemplo tal y como nos ser presentado en el anlisis de rboles de


clasificacin y regresin:
Sea la variable objetivo RIESGO, que indica si un prstamo ha sido devuelto; esta
variable tiene las siguientes categoras: Sin riesgo y Con riesgo para indicar si
han existido dificultades para recuperar el prstamo. Se desea medir la asociacin
con la variable SEXO que indica el genero del beneficiario del prstamo.
Primero calculamos la tabla de frecuencias observadas y esperadas:
Tabla de contingencia SEXO * RIESGO

SEXO

varon
mujer

Total

Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada

RIESGO
Sin riesgo
Con risego
10
8
9.0
9.0
11
13
12.0
12.0
21
21
21.0
21.0

Laboratorio de Estadstica

Total
18
18.0
24
24.0
42
42.0

Pgina n 12

Para calcular la frecuencia esperada bajo la hiptesis de que son independientes


operamos de la siguiente forma:

P (V I S ) = P(V ) P( S )
Casilla

P (V I S )
P(V I C )
P( M I S )
P(M I C )

Frecuencia relativa
(18/42)*(21/42)=0.214
(18/42)*(21/42)=0.214
(24/42)*(21/42)=0.286
(24/42)*(21/42)=0.286

Frecuencia
absoluta
esperada
42*0.214=9
42*0,214=9
42*0.286=12
42*0.286=12

Ahora podemos calcular el coeficiente:

=
2

(P

i, j

Pi ,' j )

Pi ,' j

(10 9) 2 (8 9) 2 (11 12) 2 (13 12) 2


1 1
+
+
+
= 2 + = 0.3888
9
9
12
12
9 12

Como es un valor cercano a cero, indica que existe poca relacin entre las variables,
por lo tanto el conocimiento previo del gnero del posible cliente no nos aportar
ninguna informacin sobre su riesgo.
En el siguiente recuadro vemos cmo nos lo mostrar la aplicacin:

Laboratorio de Estadstica

Pgina n 13

En el siguiente ejemplo vamos a estudiar la asociacin con la variable Trabajo, que


indica si el receptor del prstamo trabaja ms o menos de cinco horas a la semana.
Tabla de contingencia TRABAJO * RIESGO

TRABAJO

Menos de 5
Mas de 5

Total

Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada

RIESGO
Sin riesgo Con risego
4
14
9.0
9.0
17
7
12.0
12.0
21
21
21.0
21.0

Total
18
18.0
24
24.0
42
42.0

2 = 9.722
En este caso, existe una clara asociacin entre estas dos variables, dividiendo el
conjunto de datos en dos grupos obtendremos:

Podemos observar cmo el coeficiente est indicando una clara asociacin entre las
dos variables; el 77,78% de los clientes que trabajan menos de cinco horas a la
semana son de riesgo, en cambio los clientes que trabajan ms de cinco horas, el
70,83% no han presentado ningn riesgo para devolver el prstamo.

Laboratorio de Estadstica

Pgina n 14

b) ndice de Gini
El ndice de Gini en el nodo t se define como:
g (t ) = 1 p (i / t ) 2

Donde i representa las distintas categoras de la clase criterio. Cuando todos los
casos del nodo t pertenecen a la misma categora, el ndice de Gini toma el valor
cero, se dice entonces que el nodo se vuelve puro.
Este ndice es una medida de impureza en la clasificacin de los datos, a medida
que vamos clasificando correctamente los datos, el ndice de Gini va tomando
valores cercanos a 0.
Para medir la mejora de una clasificacin debida a la divisin de los datos en dos
grupos, se utiliza el siguiente criterio:

( s, t ) = g (t ) piz g (tiz ) pde g (tde )


Donde g(t) es el valor del ndice de Gini en el nodo t, Piz es la proporcin de casos
enviados al nodo izquierdo, Pde es la proporcin de los casos enviados al nodo
derecho, g(t iz) es el valor del ndice de Gini en el nodo izquierdo y g(tde) es el valor
en el nodo derecho y s es la divisin propuesta.
Valores altos de esta funcin sern indicios de una buena clasificacin y valores
bajos indicaran una mala clasificacin.
Ejemplo:
Vamos a calcular el ndice de Gini para medir la mejora en la clasificacin al utilizar
las dos variables del ejemplo anterior:
Variable Gnero
En primer lugar calculamos la tabla de contingencia como en los casos anteriores.
Realizamos los clculos:
En primer lugar calculamos el ndice de Gini en el nodo raz:
riesgo Evaluacion del riesgo

Vlidos

0
Sin riesgo
1
Con risego
Total

Frecuencia
21
21
42

Porcentaje
50,0
50,0
100,0

Porcentaje
vlido
50,0
50,0
100,0

Laboratorio de Estadstica

Porcentaje
acumulado
50,0
100,0

Pgina n 15

2
21 21

1
P(i / 0) 2 = 1 = 0.5
g(0) =

42 42
i =1

A continuacin calculamos el ndice en los dos nodos que resultaran de realizar la


clasificacin por sexo:

11 13
g(1) = 1 P(i / 1) = 1 = 0.496
24 24
i =1
2

2
10 8
g(2) = 1 P(i / 2) 2 = 1 = 0.494
18 18
i =1

Por lo tanto la mejora conseguida ser de:

( s, t ) = g (t ) piz g (tiz ) pde g (tde ) =


0.5

24
18
0.496 0.494 = 0.0046
42
42

Vemos que la disminucin de la impureza es mnima, mostramos cmo quedara


representado en el rbol:

Laboratorio de Estadstica

Pgina n 16

RIESGO
Nodo 0
Categora
%
Sin riesgo
50.00
Con risego 50.00
Total
(100.00)

n
21
21
42

SEXO
Mejora=0.0046

mujer

varon

Nodo 1
Categora
%
Sin riesgo
45.83
Con risego 54.17
Total
(57.14)

n
11
13
24

Nodo 2
Categora
%
Sin riesgo
55.56
Con risego 44.44
Total
(42.86)

n
10
8
18

Variable Trabajo
Hacemos lo mismo con la variable Trabajo:
Primero calculamos la tabla:
Tabla de contingencia riesgo Evaluacion del riesgo * trabajo

riesgo Evaluacion
del riesgo

Sin riesgo

Con risego

Total

Recuento
% de trabajo
Recuento
% de trabajo
Recuento
% de trabajo

trabajo
1,00 Menos 2,00 Mas
de 5
de 5
4
17
22,2%
70,8%
14
7
77,8%
29,2%
18
24
100,0%
100,0%

Total
21
50,0%
21
50,0%
42
100,0%

A continuacin calculamos el ndice de Gini:


2

4 14
1 P(i / 1) = 1 = 0.34
18 18
i =1
g(1) =
2
2
2
17 7
1 P(i / 2) 2 = 1 = 0.41
24 24
i =1
g(2) =
2

Por lo tanto la mejora conseguida ser de:

( s, t ) = g (t ) piz g (tiz ) pde g (tde ) =


0.5

18
24
0.34 0.41 = 0.1157
42
42

Laboratorio de Estadstica

Pgina n 17

Vemos que la disminucin de la impureza es bastante mayor a cuando utilizamos la


variable genero como variable de clasificacin. Mostramos como quedara
representada en el rbol esta nueva divisin:

c) ndice Binario
La funcin del criterio binario para la divisin S en el nodo T se define como:
K

( s, t ) = Pde Piz P(i / t iz ) P(i / t de )


i =1

El ndice binario al igual que el ndice de Gini se basa en encontrar la divisin S que
maximice este valor, pues valores altos de esta funcin indicaran buenas
particiones.
Ejemplo
Utilizamos el ejemplo anterior para ilustrar el uso del ndice binario
Tabla de contingencia riesgo Evaluacion del riesgo * sexo Sexo

riesgo Evaluacion
del riesgo

Total

Sin riesgo

Con risego

Recuento
% de sexo Sexo
Recuento
% de sexo Sexo
Recuento
% de sexo Sexo

sexo Sexo
1,00 varon 2,00 mujer
10
11
55,6%
45,8%
8
13
44,4%
54,2%
18
24
100,0%
100,0%

Total
21
50,0%
21
50,0%
42
100,0%

Calculamos el ndice binario para la divisin basada en el gnero.


2

24 18 11 10 13 8

K
( s, t ) = Pde Piz P (i / t iz ) P(i / t de ) =

+
= 0.009259
42 42 24 18 24 18

i =1
Laboratorio de Estadstica

Pgina n 18

Podemos observar que la mejora es mnima


RIESGO
Nodo 0
Categora
%
Sin riesgo
50.00
Con risego 50.00
Total
(100.00)

n
21
21
42

SEXO
Mejora=0.0093

mujer

varon

Nodo 1
Categora
%
Sin riesgo
45.83
Con risego 54.17
Total
(57.14)

n
11
13
24

Nodo 2
Categora
%
Sin riesgo
55.56
Con risego 44.44
Total
(42.86)

n
10
8
18

Ejemplo
Calculamos el ndice binario pero esta vez vamos a utilizar Trabajo como variable de
segmentacin.
Tabla de contingencia riesgo Evaluacion del riesgo * trabajo

riesgo Evaluacion
del riesgo

Total

Sin riesgo

Con risego

Recuento
% de trabajo
Recuento
% de trabajo
Recuento
% de trabajo

trabajo
1,00 Menos 2,00 Mas
de 5
de 5
4
17
22,2%
70,8%
14
7
77,8%
29,2%
18
24
100,0%
100,0%

Total
21
50,0%
21
50,0%
42
100,0%

18 24 4 17 14 7
K

( s, t ) = Pde Piz P(i / t iz ) P(i / t de ) =


+

= 0.23148
42 42 18 24 18 24
i =1

Laboratorio de Estadstica

Pgina n 19

RIESGO
Nodo 0
Categora
%
Sin riesgo
50.00
Con risego 50.00
Total
(100.00)

n
21
21
42

TRABAJO
Mejora=0.2315

Menos de 5

Mas de 5

Nodo 1
Categora
%
Sin riesgo
22.22
Con risego 77.78
Total
(42.86)

Nodo 2
Categora
%
Sin riesgo
70.83
Con risego 29.17
Total
(57.14)

n
4
14
18

n
17
7
24

En este caso podemos observar que la mejora es notable respecto a la variable


anterior.

2.4 Algoritmos para desarrollar rboles


AnswerTree dispone de cuatro algoritmos para realizar rboles de clasificacin:

CHAID
CHAID Exhaustivo
C&RT o CART
QUEST

a) Chaid
Es, posiblemente, el algoritmo ms utilizado en la creacin de rboles, puede
trabajar con variables en cualquier nivel de medida. Dada una variable predictora,
funde aquellas categoras consideradas estadsticamente homogneas y deja las
categoras heterogneas inalteradas. A continuacin de todas las variables
predictoras potenciales elige la que tenga el mayor valor del coeficiente para formar
la primera rama del rbol.
Si la variable criterio es continua, de utiliza la prueba F. Si la variable criterio es

categrica se utiliza la prueba


.
No es binario y por lo tanto tiende a crear un rbol ms ancho que con los algoritmos
que producen rboles binarios.
b) Chaid exhaustivo
Este algoritmo funciona bsicamente igual que el anterior, la nica diferencia es que
realiza un examen ms minucioso para realizar la fusin de categoras y por lo tanto
utilizando ms tiempo de clculo que el anterior.

Laboratorio de Estadstica

Pgina n 20

c) C&RT
Es un algoritmo que produce rboles binarios. El C&RT divide los datos en dos
conjuntos de forma que los datos comprendidos dentro de cada subconjunto sean
ms homogneos que en el conjunto anterior.
Las medidas de asociacin que utiliza son:

Para variables categricas:


o ndice de impureza de Gini
o ndice binario,

Para variables continuas:


o Test de homogeneidad de varianzas

d) QUEST
Es un algoritmo que produce rboles binarios; est creado con vistas a la eficiencia
en los clculos, siendo el tiempo de procesamiento ms corto que en el C&RT. La
variable dependiente debe de tener nivel de medida nominal.

Para variables categricas:


o Estadstico basado en 2

Para variables continuas:


o Prueba F

Laboratorio de Estadstica

Pgina n 21

3.- INTRODUCCIN A LA HERRAMIENTA ANSWERTREE


3.1. Creacin de un rbol
Para crear nuestro primer rbol de clasificacin, vamos a utilizar un fichero en
formato S.P.S.S. que contiene medidas de los ptalos y spalos de tres variedades
distintas de lirios.
El objetivo del anlisis es encontrar una regla de clasificacin que nos permita
identificar a qu variedad pertenece una determinada planta basndonos en sus
caractersticas fsicas.

Iniciamos la aplicacin
Inicio/ Programas/ AnswerTree/ AnswerTree 3.0

AnswerTree organiza el trabajo por proyectos, un proyecto es bsicamente una


asociacin con un fichero de datos o una vista de una base de datos. Tambin se
van guardando los distintos rboles que vayamos construyendo. La extensin de un
fichero de proyecto es ATP.
Es importante destacar que no podremos crear nuevas variables, realizar
transformaciones o seleccionar casos desde la aplicacin.
En este cuadro de dialogo, seleccionamos la opcin:

Crear un nuevo proyecto.

En el cuadro Seleccionar fuente de datos, elegimos la opcin:

Archivo de datos de S.P.S.S.

Indicamos el fichero que contiene los datos que deseamos analizar:


Lirios.sav
En este momento se abre automticamente un asistente que nos ayudar a definir
los parmetros para crear el rbol de clasificacin. El proceso consta de cuatro
pasos:
1. Seleccin del mtodo de desarrollo: deberemos especificar un

mtodo de los cuatro disponibles. Para este primer ejemplo vamos a


seleccionar el mtodo C&RT, que crea rboles binarios.
2. Definicin del modelo: en este punto deberemos especificar qu
variables sern predictoras y cul ser la variable criterio. Elegimos la
variable Especie como variable criterio y como predictoras todas las
dems.
3. Validacin: es en este cuadro donde se indican las opciones de
validacin del rbol, en principio no indicamos ninguna.

Laboratorio de Estadstica

Pgina n 22

4. Opciones avanzadas: en este cuadro deberemos ajustar algunos

parmetros del rbol:


Profundidad mxima del rbol: 5
Nodo parental: 5
Nodo filial: 2

Pulsamos aceptar para terminar con el asistente y finalizar para ver el rbol
mnimo creado.
El nodo que estamos viendo es el nodo raz, para desarrollar el resto del rbol
pulsamos el botn
, inmediatamente dar comienzo el algoritmo C&RT para
desarrollar el rbol hasta encontrar un criterio de parada.
En este punto deberemos examinar el rbol obtenido para identificar las reglas de
clasificacin. En nuestro ejemplo obtenemos las siguientes conclusiones:

Si el lirio tiene ptalos cortos (menores de 2,45) pertenece a la variedad


SETOSA.
Si consideramos las plantas con una longitud de los ptalos mayor de 2,45
entonces:
Aquellas que tienen una anchura de ptalo menor de 1,75
probablemente sern de la variedad VERSICOLOR.
Las que tienen una anchura mayor de 1,57 pertenecern a la variedad
VIRGINICA.

Las sucesivas subdivisiones no aportan informacin, de manera que habra que


eliminarlas.

3.2. Evaluacin del modelo


Pulsando la pestaa Riesgo se nos presenta una tabla que resume la capacidad del
rbol para clasificar los datos de nuestra muestra.
Los elementos de la diagonal de la Matriz de Clasificacin errnea representan los
elementos correctamente clasificados.
La Estimacin de riesgo es la proporcin de elementos errneamente clasificados.

3.3. Guardar el proyecto


Para guardar el proyecto, que en este momento consta de un solo rbol y una

asociacin con el fichero lirios.sav pulsamos las siguientes opciones:

Archivo/ Guardar proyecto.

Laboratorio de Estadstica

Pgina n 23

4- DESCRIPCIN DE LA VENTANA PRINCIPAL Y VISORES DE ANSWERTREE


Para examinar la ventana principal de la aplicacin abrimos el proyecto Merz and
Murphy (1996), para determinar si los datos histricos pueden proporcionar
informacin sobre quin pudiera incurrir en algn tipo de incumplimiento en la
devolucin de crditos bancarios.
4.1. Ventana principal
Cuando se abre un proyecto ya creado se despliega la ventana principal de la
aplicacin. Esta ventana contiene la ventana donde se representa el rbol y los
visores auxiliares para facilitar su examen: Proyecto, rbol, Tabla, Grafico y datos.
Esta ventana contiene el proyecto abierto y los rboles, que pueden ser ms de uno.
Si no hay ningn proyecto abierto, esta ventana permanece vaca.
Los rboles creados se muestran de forma jerrquica. El nombre de cada rbol
puede ser editado y cambiado, as mismo podemos eliminar los rboles que no nos
interesen. Se activa o desactiva pulsando el correspondiente botn de la barra de
herramientas.
As mismo tambin contiene la barra de mens y la barra de herramientas:

Laboratorio de Estadstica

Pgina n 24

4.2. Visores de la ventana principal


Los visores son ventanas que pueden estar abiertas o no y sirven para ver detalles
concretos tanto del proyecto o del rbol que tenemos en la ventana principal.
Se encuentran en la esquina superior izquierda:

VISOR MAPA DEL RBOL

Esta ventana contiene una visin a escala del rbol que estamos analizando.
Usando esta ventana nos podemos desplazar rpidamente por el rbol sin ms que
pulsar en el nodo deseado.
VISOR NODO: TABLA

Muestra la tabla de frecuencias de la variable criterio en el nodo seleccionado, la


informacin se actualiza automticamente al seleccionar un nuevo nodo.
Si la variable criterio es continua se muestra la media y su desviacin tpica en el
nodo seleccionado.
VISOR NODO: GRFICO

Muestra un grfico de distribucin de la variable criterio del nodo seleccionado. Si la


variable criterio est medida en escala nominal u ordinal se muestra un diagrama de
barras; si, por el contrario, es continua se muestra el histograma. La informacin se
actualiza automticamente al seleccionar un nuevo nodo.

Laboratorio de Estadstica

Pgina n 25

VISOR DE DATOS

Muestra una tabla conteniendo un listado con los casos incluidos en el nodo
seleccionado.
4.3. Vistas de la ventana principal
En esta ventana se muestra el rbol con las reglas de decisin que definen las
divisiones. Si no es posible mostrar el rbol completo se muestra una porcin del
mismo. Para facilitar su anlisis dispone de cinco vistas distintas del rbol, a las
cuales podemos acceder pulsando la pestaa correspondiente.
Las pestaas para cambiar la vista del rbol se encuentran en la parte inferior de la
tabla:

Breve descripcin de las distintas vistas del rbol


1. Vista rbol: muestra el rbol o una porcin del mismo; nos podemos mover
por el rbol a travs de las barras de scrolling. Si seleccionamos un nodo,
automticamente se actualizan los visores para mostrar la informacin
correspondiente.
2. Vista Ganancias: muestra los estadsticos asociados a los nodos finales; las
ganancias pueden ser vistas por nodos o por percentiles. Si la variable es
continua se muestra la ganancia media de los nodos. Si seleccionamos un
nodo automticamente se actualiza la informacin en los visores.

Laboratorio de Estadstica

Pgina n 26

3. Riesgo: muestra la tabla de clasificaciones errneas; sirve para estimar el


riesgo de clasificaciones errneas.
4. Reglas: muestra las reglas utilizadas para seleccionar los casos de un nodo
del rbol.
5. Resumen: muestra un informe del rbol, fichero utilizado y parmetros del
rbol.
1. Vista Ganancias

En el caso de una variable criterio categrica, la tabla de ganancias muestra los


estadsticos de los nodos finales, que describen el rbol respecto a la categora
criterio de la variable dependiente. En nuestro ejemplo la categora criterio es
CUENTA CRITICA.
Si la variable criterio es continua se muestran los valores relativos a la media y
desviacin tpica de los casos incluidos en cada nodo.
Como alternativa se puede mostrar la tabla ordena por los percentiles de la variable
ganancias.
Descripcin de las columnas.

Nodos:
Nmero de nodo, sirve para identificar un nodo determinado.
Nodo n:
Nmero de casos atrapados en el nodo.
Nodo %:
Porcentaje de los casos totales atrapados en el nodo.
Ganancia: Nmero de casos que pertenecen a la categora criterio en el
nodo.
Ganancia % Porcentaje del total de casos que pertenecen a la categora
criterio atrapados en el nodo.
Resp %:
Porcentaje de casos que pertenecen a la categora criterio.
ndice %
Razn de frecuencias.

Laboratorio de Estadstica

Pgina n 27

PARA ACLARAR EL SIGNIFICADO DE ESTAS COLUMNAS COMENTAMOS EL


RENGLN CORRESPONDIENTE AL NODO 6

Nodo 6:

Nmero de casos:
318.
Porcentaje de casos: 318/1000= 0.318.
Ganancia:
207.
Ganancia %: 207/293= 0.706, el n total de casos que pertenecen a la categora
criterio es de 293.

Resp %: 207/318 = 0.6509, densidad de casos de la categora criterio.

318 = 2.22165, densidad de casos de la categora criterio en el


293
1000
nodo / densidad de casos de la categora criterio en el nodo raz.

207

ndice%:

Opciones de la vista ganancias


Para acceder al cuadro de dialogo que contiene las opciones de la tabla de
ganancias pulsamos:
Formato/ ganancias.

Laboratorio de Estadstica

Pgina n 28

Las filas representan. Opciones sobre las unidades representadas en las filas de la
tabla.
Nodos:
En la tabla hay una fila por cada nodo del rbol.
Percentiles: Cada fila de la tabla representa una determinada porcin de los casos.
Columnas de ganancias. Es posible seleccionar los valores que aparecen en la
columna de ganancias de la tabla y controlar el orden de las filas.
Contenido: si se selecciona Porcentaje de casos de la categora criterio, en la
columna de ganancias aparece el porcentaje de casos que pertenecen a la categora
criterio especificada. Si se selecciona Beneficio promedio, en la columna de
ganancias aparece el beneficio o la prdida para cada nodo, esta opcin se define
en el cuadro de dialogo Beneficios.
Orden: se puede solicitar que las filas este en orden ascendente o descendente,
basndose en los valores de la Ganancia.
Categora: seleccin de la categora criterio, automticamente se actualiza la vista
de ganancias.
Comentario de la tabla de Ganancias
En el resumen de ganancias para la variable criterio ESTADO DE CUENTAS,
respecto a la categora criterio CUENTA CRITICA. Podemos leer en la primera fila
los estadsticos para el Nodo 6 recorriendo su fila. Nodo n y Nodo %, indican el
nmero de casos y el porcentaje del total de casos que hay en el nodo 6, 318 casos
es decir el 38.8% de los casos de la muestra est en este nodo.
Ganancia n y Ganancia % indican el nmero de casos que pertenecen a la
categora criterio, 207 casos son cuentas crticas, lo cual indica que el 70.6% de las
cuentas crticas se encuentran en este nodo. La columna Resp % indica que la
densidad de CUENTAS CRITICAS en este nodo es de 65.1%, teniendo en cuenta
que la densidad de CUENTAS CRITICAS en el nodo raz es del 29.30% el
incremento obtenido es de 65.1
= 2.22 , como lo indica la columna ndice.
29.3
2 Vista de Riesgos
La vista de riesgo muestra una tabla para evaluar la capacidad del modelo desde el
punto de vista de error en la clasificacin.
Cuando la estimacin del riesgo se calcula ignorando los costes, coincide con el
porcentaje de casos incorrectamente clasificados.

Laboratorio de Estadstica

Pgina n 29

A diferencia de la Vista Ganancias, se consideran todas las categoras.


Matriz de clasificacin
La matriz de clasificacin errnea coteja en una tabla el valor pronosticado por el
modelo y el valor real. En las casillas de la diagonal principal se encuentran las
coincidencias entre las estimaciones y las observaciones, que se denominan
aciertos.
Fuera de la diagonal principal, se encuentran los errores.
Esta tabla es til para identificar qu categoras son las mejor o peor representadas.
En esta tabla podemos observar que 220 de las 293 CUENTAS CRITICAS han sido
correctamente clasificadas, 49 cuentas del tipo DEVUELTO han sido clasificadas
errneamente como CUENTA CRITICA, etc.
Las categoras CUENTA CRTICA y DEVUELTO quedan bien identificadas por el
modelo, en cambio para el resto de las categoras el modelo es muy malo.
La Estimacin de riesgo y el Error tpico de la estimacin de riesgo son valores
que indican la capacidad del clasificador de una forma global. En este caso, la
estimacin de riesgo para un caso es de 0.289, que quiere decir que el 28.9% de los
casos ha sido incorrectamente clasificados.
N aciertos
N

1000 (220 + 478 + 5 + 8)


1000

289
1000

= 0.289

3. Vista Reglas
Las reglas indican las sucesivas selecciones que se han realizado para crear un
nodo determinado.

Laboratorio de Estadstica

Pgina n 30

Por ejemplo, el nodo 3 est constituido por aquellos que tienen un solo crdito y
ninguna otra deuda a plazo. Esta es la informacin que nos permitir comprender el
modelo de clasificacin y posteriormente aplicarlo a nuevos casos.
Las reglas de seleccin se pueden generar en tres formatos:
1. Reglas de decisin.
2. Sintaxis de S.P.S.S.
3. Consulta de S.Q.L.
Para acceder al formato deseado seleccionamos desde la barra de mens:
Formato/ Reglas

S.P.S.S.

Las reglas del tipo sintaxis de S.P.S.S. pueden ser utilizadas en una ventana de
sintaxis de S.P.S.S. para clasificar nuevos datos basndose en el modelo o asignar
valores a casos ya existentes.
Por ejemplo, asignando valores:
* Nodo 3.
DO IF (SYSMIS(NUMCRED) OR (VALUE(NUMCRED) LE 1))
(MISSING(OTRASDEU) OR OTRASDEU NE 1 AND OTRASDEU NE 2).
COMPUTE nod_001 = 3.
COMPUTE pre_001 = 3.
COMPUTE prb_001 = 0.795019.
END IF.
EXECUTE.

AND

Nota: SYSMIS(arg) True or 1 if the value is system-missing; false or 0 otherwise.

Laboratorio de Estadstica

Pgina n 31

Mediante estas instrucciones se generaran tres nuevas variables en el fichero de


datos conteniendo las correspondientes asignaciones.
* Nodo 3.
SELECT IF ((SYSMIS(NUMCRED) OR (VALUE(NUMCRED) LE 1))
(MISSING(OTRASDEU) OR OTRASDEU NE 1 AND OTRASDEU NE 2)).
EXECUTE.
En cambio en modo seleccin,
correspondientes al nodo.

seleccionaremos

nicamente

los

AND

casos

S.Q.L.
Las reglas de SQL pueden ser utilizadas para seleccionar y etiquetar casos a partir
de un procesador de base de datos de S.Q.L.
En modo asignacin:
/* Nodo 3*/
UPDATE <TABLE>
SET nod_001 = 3, pre_001 = 3, prb_001 = 0.795019
WHERE ((NUMCRED IS NULL) OR (NUMCRED <= 1)) AND ((OTRASDEU IS
NULL) OR OTRASDEU <> 1 AND OTRASDEU <> 2);

En modo seleccin:
/* Nodo 3*/
SELECT * FROM <TABLE>
WHERE ((NUMCRED IS NULL) OR (NUMCRED <= 1)) AND ((OTRASDEU IS
NULL) OR OTRASDEU <> 1 AND OTRASDEU <> 2);

Decisin
Las reglas de Decisin son descripciones de las caractersticas de los nodos en
lenguaje formal, adecuadas para incluirlas en informes o presentaciones.
/* Nodo 3*/
IF (N DE CRDITOS EXISTENTES EN EL BANCO IS MISSING OR (N DE
CRDITOS EXISTENTES EN EL BANCO <= 1)) AND (OTRAS DEUDAS A PLAZO
!= "BANCO" AND OTRAS DEUDAS A PLAZO != "T. COMERCIO")
THEN
Node = 3
Prediction = 3
Probability = 0.795019

Laboratorio de Estadstica

Pgina n 32

La variable Prediction hace referencia a la categora estimada, y la variable


Probability hace referencia a la densidad de la categora estimada en dicho nodo.
En este caso la categora 3 es DEVUELTO, y porcentaje (en tantos por uno) de
casos de dicha categora en el nodo 3 es de 0.79050.
VISTA RESUMEN DEL ANLISIS
La vista resumen del anlisis de la ventana rbol contiene la siguiente informacin
en formato de texto:
1. Informacin del proyecto: Nombre del proyecto, nombre del rbol, archivo
de datos empleado, nmero de casos y ponderacin.
2. Informacin de la particin: Referente al tipo de validacin mediante
muestra de entrenamiento.
3. Informacin de la validacin cruzada.
4. Criterios de desarrollo del rbol: Mtodo de desarrollo, especificaciones del
algoritmo, reglas de parada y poda.
5. Modelo: Variable criterio, predictores, costes etc.
El resumen del anlisis se puede utilizar como parte de un informe o para ajustar
dicho anlisis cambiando el modelo o los criterios.

4.4. Otros controles de la vista del rbol

La ventana rbol dispone de una barra de herramientas que permite modificar la


apariencia del rbol:
Muestra los nodos en forma tabla.
Muestra los nodos en forma grfica
Muestra los nodos en forma de tabla y grfica simultneamente.
Muestra el rbol en forma vertical.
Muestra el rbol en forma horizontal a la derecha.
Muestra el rbol en forma horizontal a la izquierda.
Zoom del rbol.

Laboratorio de Estadstica

Pgina n 33

5- BARRA DE HERRAMIENTAS Y BARRA DE MENS


Abrimos proyecto Merz and Murphy.
La ventana principal de AnswerTree contiene ocho mens, desde los cuales
accedemos a todas las funciones de la aplicacin.
5.1. Mens

Men Archivo

Nuevo proyecto: cierra el proyecto activo y crea uno nuevo.


Abrir proyecto: Cierra el proyecto activo y abre uno existente.
Guardar proyecto: Guarda el proyecto activo.
Guardar proyecto como: Guarda el proyecto activo con un nuevo nombre.
Nuevo rbol: Invoca al asistente para crear un nuevo rbol.
Exportar.
Preparar pgina: Permite cambiar las preferencias de la impresora: tamao
del papel y orientacin.
Presentacin preliminar: Muestra cmo quedar impreso el rbol.
Imprimir: Imprime el rbol.
Cambiar de servidor: Permite especificar un servidor de datos.
Cerrar: Cierra la aplicacin.

Men Edicin
Los comandos de este men afectan al proyecto y a la ventana rbol.

Restaurar copia anterior guardada: Restaura la versin guardada del


proyecto.
Copiar: Copia la ventana seleccionada al portapapeles. Dependiendo del
S.O. puede dar problemas.
Copiar rbol: Cuando tenemos en la ventana rbol, la vista rbol, copia el
rbol al portapapeles como una imagen con formato de mapa de bits *.bmp.
Seleccionar nodos terminales: Selecciona los nodos terminales del rbol,
tenemos distintas posibilidades de seleccin

Laboratorio de Estadstica

Pgina n 34

Men Ver
En este men estn las pociones que afectan a los visores y a la ventana rbol.

Nodo: Cambia la forma en que son presentados los nodos de la vista rbol de
la ventana rbol. Podemos escoger entre: tabla, grafico y ambos.
Proyecto: Muestra el visor del proyecto.
Mapa del rbol: Muestra el visor del mapa del rbol.
Grfico: Muestra el visor de grfico de nodo.
Tabla: Muestra el visor de tabla del nodo.
Datos: Muestra el visor de datos.
Muestra: Cambia entre la muestra de entrenamiento y la muestra de
comprobacin.
Orientacin: Permite seleccionar la orientacin del rbol.
Muestra el cuadro de inicio: Muestra u oculta el cuadro de dialogo de inicio
de aplicacin.

Laboratorio de Estadstica

Pgina n 35

Barra de herramientas: Muestra la barra de herramientas en la ventana


principal y en la ventana rbol.
Barra de estado: Muestra la barra de estado en el fondo de la ventana
principal.

Men Formato

Ganancias: Define el formato de la tabla resumen de ganancias en la vista


ganancias de la ventana rbol, aqu podemos definir todas las opciones,
como la categora de referencia, el tipo de listado etc.
Reglas: Permite especificar el formato de las reglas que describen los nodos.

Men Anlisis
Desde este men podemos acceder a los distintos parmetros del algoritmo con que
hemos desarrollado el rbol, no podemos cambiar ni las variables predictoras, ni el
algoritmo.

Definir variable: Permite cambiar la escala de medida de las variables que


han intervenido en el desarrollo del rbol.
Opciones avanzadas: Permite modificar las especificaciones de las reglas de
parada, los modelos CHAID, C&RT y QUEST, la poda, las puntuaciones, los
costes y las probabilidades a priori.

Men rbol
El men rbol proporciona opciones para trabajar con el rbol activo.

Desarrollar rbol: Desarrolla todo el rbol. Si el rbol ya se ha desarrollado


parcialmente, ste comienza a desarrollarse a partir de la formacin existente.
Desarrollar rbol un nivel: Agrega un nivel a la estructura del rbol, siempre
que no encuentre una regla de parada.
Desarrollar rbol y podar: Desarrolla todo el rbol y lo poda
automticamente de acuerdo con las especificaciones de poda. Esta funcin
no se encuentra disponible si el mtodo de desarrollo es CHAID o CHAID
exhaustivo.
Desarrollar rama: Desarrolla el rbol desde el nodo seleccionado hasta
obtener los nodos terminales. No se puede seleccionar esta opcin si se han
seleccionado varios nodos.
Desarrollar rama un nivel: Agrega un nivel bajo el nodo seleccionado. No se
puede seleccionar esta opcin si se han seleccionado varios nodos.
Seleccionar predictor: Permite especificar el predictor que se utilizar para
dividir el nodo activo y el modo en que se agruparn los valores del predictor
para la divisin.

Laboratorio de Estadstica

Pgina n 36

Seleccionar substitutos: Permite especificar una variable substituta para


utilizarla al dividir el nodo activo. Si una variable predictora tiene valores
perdidos en un nodo particular, se puede seleccionar una variable predictora
substituta que substituya a la variable predictora original. Los substitutos se
encuentran disponibles slo para los modelos desarrollados mediante los
mtodos C&RT o QUEST.
Definir divisin: Permite volver a definir la divisin del nodo activo. Se puede
utilizar esta opcin para fundir o separar nodos.
Eliminar rama: Elimina la rama bajo el nodo seleccionado.
Eliminar un nivel: Elimina el nivel ms bajo de los nodos del rbol

5.2. Barra de herramientas de la ventana rbol

Desarrollar el rbol.
Desarrolla el rbol y a continuacin lo poda; slo est disponible en los
rboles creados con los algoritmos C&RT y QUEST.

Desarrolla la rama del nodo seleccionado.

Elimina la rama bajo el nodo seleccionado.

Selecciona un predictor para dividir el nodo seleccionado.

Permite volver a definir la divisin del nodo activo.

Permite cambiar entre muestra de entrenamiento y muestra de


comprobacin.

Laboratorio de Estadstica

Pgina n 37

6. DESARROLLO MANUAL DEL RBOL


Aunque AnswerTree permite el desarrollo automtico del rbol de decisin, es
frecuente que el analista desee intervenir en el desarrollo del mismo para que, con el
conocimiento previo que tenga de los datos, permitir que dicho desarrollo se adapte
mejor a sus exigencias.
Las opciones disponibles de desarrollo manual en AnswerTree son las siguientes:

Desarrollar rbol un nivel.


Desarrollar rama.
Desarrollar rama un nivel.
Seleccionar predictor.
Definir divisin.
Eliminar rama.
Eliminar un nivel.

Para ilustrar estas capacidades vamos a utilizar el fichero de datos en formato


S.P.S.S. Creditos.sav para crear un proyecto con las siguientes caractersticas:

Variable Criterio: RIESGO.


Variables predictoras:
Todas las dems.
Mtodo de desarrollo:
CR&T.
Nmero de niveles: 5.
Nodo parental:
2.
Nodo filial:
1.

Desarrollar rbol un nivel


Desde la barra de mens:
Anlisis / Desarrollar rbol un nivel.
O bien desde el men contextual, seleccionando cualquier nodo del rbol. Hay que
tener en cuenta que las reglas de parada tienen preferencia sobre la orden de
desarrollo, de ah que se hayan definido unas reglas tan generosas en los
parmetros del rbol.
Es habitual que el proceso de desarrollo del rbol lo hagamos nivel por nivel, para ir
comprendiendo su estructura a medida que se desarrolla.

Ejercicio: Desarrollar paso a paso todo el rbol, decidir en dnde parar.

Laboratorio de Estadstica

Pgina n 38

Evaluacion del riesgo


Nodo 0
Categora
%
Sin riesgo
50.00
Con risego 50.00
Total
(100.00)

n
21
21
42

Horas trabajadas a la semana


Mejora=0.1605

<=11.5

>11.5

Nodo 41
Categora
%
Sin riesgo
31.03
Con risego 68.97
Total
(69.05)

Nodo 42
Categora
%
Sin riesgo
92.31
Con risego
7.69
Total
(30.95)

n
9
20
29

Horas trabajadas a la semana


Mejora=0.0502

<=4
Nodo 43
Categora
%
Sin riesgo
8.33
Con risego 91.67
Total
(28.57)

OBS
Mejora=0.0440

>4

n
1
11
12

Nodo 44
Categora
%
Sin riesgo
47.06
Con risego 52.94
Total
(40.48)

n
12
1
13

<=41

n
8
9
17

Nodo 45
Categora
%
Sin riesgo 100.00
Con risego
0.00
Total
(28.57)

>41

n
12
0
12

Nodo 46
Categora
%
Sin riesgo
0.00
Con risego 100.00
Total
(2.38)

n
0
1
1

Seguir aadiendo niveles, no va a aportar nada.

Desarrollar rama
Esta opcin permite que se desarrolle la rama bajo el nodo seleccionado hasta que
se encuentra una regla de parada. Tambin est disponible desde la barra de
herramientas de la ventana rbol

Desarrollar rama un nivel


Desarrolla la rama bajo el nodo seleccionando un nivel. Es la opcin ms utilizada
cuando deseamos comprender el patrn de la clasificacin.

Ejercicio: partiendo del nodo Raz, ir desarrollando rama a rama hasta


encontrar un rbol optimo.

Laboratorio de Estadstica

Pgina n 39

Evaluacion del riesgo


Nodo 0
Categora
%
n
Sin riesgo
50.00 21
Con risego 50.00 21
Total
(100.00) 42
Horas trabajadas a la semana
Mejora=0.1605

<=11.5

>11.5

Nodo 51
Categora
%
n
Sin riesgo
31.03 9
Con risego 68.97 20
Total
(69.05) 29

Nodo 52
Categora
%
n
Sin riesgo
92.31 12
Con risego
7.69 1
Total
(30.95) 13

Horas trabajadas a la semana


Mejora=0.0502

<=4

>4

Nodo 53
Categora
%
n
Sin riesgo
8.33 1
Con risego 91.67 11
Total
(28.57) 12

Nodo 54
Categora
%
n
Sin riesgo
47.06 8
Con risego 52.94 9
Total
(40.48) 17
Tipo de carrera cursada
Mejora=0.0581

ciencias
Nodo 55
Categora
%
Sin riesgo
83.33
Con risego 16.67
Total
(14.29)

humanidades

n
5
1
6

Nodo 56
Categora
%
n
Sin riesgo
27.27 3
Con risego 72.73 8
Total
(26.19) 11

Eliminar Rama
Elimina todos los nodos bajo el nodo seleccionado. Esta opcin tambin est
disponible desde la barra de herramientas

Seleccionar un predictor
El cuadro de dilogo Seleccionar predictor muestra una lista de los predictores que
se pueden utilizar para dividir (o volver a dividir) un nodo seleccionado.
En la tabla aparece informacin sobre cada variable, dependiendo del mtodo de
desarrollo utilizado. (No todos los elementos indicados aparecen para todos los
mtodos de desarrollo.).

Laboratorio de Estadstica

Pgina n 40

Si estamos utilizando medidas de impureza (C&RT), la tabla nos mostrar cunto


disminuye la impureza por cada variable disponible.
Tipo de divisin: Es el tipo de divisin, predeterminada para una divisin basada en
el algoritmo, personalizada para una divisin especificada por el usuario o arbitraria
para predictores que no son competidores.

En cambio si estamos utilizando la medida de asociacin, la tabla nos muestra el


2
valor del coeficiente , los grados de libertad y el p-value corregido.

Como el algoritmo no es binario, hay una columna denominada Nodos que nos
informa del nmero de nodos que se van a crear.

Definir divisin
El cuadro de dilogo Definir divisin para los predictores continuos, continuos
categorizados y ordinales permite especificar los puntos de corte que definen la
divisin. La lista muestra el nmero de nodos y el rango de cada uno. En la lista slo
se muestran dos filas para los rboles C&RT y QUEST. Es posible que la lista
contenga ms de dos filas para los rboles CHAID. Los valores del punto de corte se
cambian al arrastrar el control deslizante o al introducir un valor para el punto de
corte.
El rango de valores del predictor se muestra sobre el control deslizante y el valor
ms bajo que aparece se representa como el borde izquierdo de la barra deslizante.
Para variables predictoras continuas, el control deslizante establece el punto de
corte para la divisin. Para los rboles C&RT y QUEST se utiliza un solo control
deslizante. Para las variables continuas categorizadas y ordinales, el control
deslizante tiene dos fichas que representan los lmites superior e inferior del nodo
seleccionado

Laboratorio de Estadstica

Pgina n 41

Definir divisiones para variables nominales:


El cuadro de dilogo Definir divisin para los predictores nominales permite mover
categoras de la variable predictora de un nodo a otro. Cada columna del cuadro de
dilogo representa un nodo y las categoras de la variable presente en dicho nodo.
Las categoras se mueven a otros nodos arrastrando categoras hacia la columna
deseada, o bien utilizando el men contextual.
En el cuadro de dilogo slo se muestran dos columnas para los rboles C&RT y
QUEST. Para rboles CHAID aparece una columna adicional vaca llamada Nuevo
nodo. Las categoras se mueven a esta columna para agregar nuevos nodos.
Inicialmente el encabezado de la columna de nuevo nodo est en gris. Si mueve una
categora a la columna de nuevo nodo, el encabezado cambia a negro y aparece
otra columna de nuevo nodo en gris a la derecha de la ltima columna. No es
posible agregar nuevos nodos si solamente hay una categora por nodo.

Especificar puntos de corte para variables predictoras continuas y ordinales:


1.
2.
3.
4.

Seleccionar un nodo de la lista.


Invocar el men contextual Seleccionar predictor.
Seleccionar una variable continua u ordinal.
Pulsar el botn definir divisin, aparecer el cuadro de dialogo para definir los
puntos de corte.
5. Arrastrar el control deslizante hasta el valor deseado.
6. Pulsar Continuar.

Laboratorio de Estadstica

Pgina n 42

PARA MOVER CATEGORAS DE UN NODO A OTRO:

Seleccionar la categora que se desea mover.


Elegir la opcin deseada en el men contextual.
o Mover a la derecha. Mueve la categora seleccionada a la derecha
una columna.
o Mover a la izquierda. Mueve la categora seleccionada a la izquierda
una columna.

Laboratorio de Estadstica

Pgina n 43

7- VALIDACIN DEL RBOL


Para evaluar cmo se comporta el modelo creado para generalizar los resultados a
muestras ms grandes, hay disponibles tres opciones de validacin.

7.1. No validar el rbol


Esta opcin no considera ningn procedimiento de validacin. El rbol se crea y
comprueba con todo el conjunto de datos.
7.2 Dividir datos en submuestras
La particin divide los datos en dos grupos: una muestra de entrenamiento, desde la
cual se genera el modelo, y una muestra de comprobacin, en la cual se prueba el
modelo generado. Si el modelo generado en una parte de los datos coincide con la
otra parte, la estructura debera poder generalizar los datos correctamente con
conjuntos de datos ms grandes y similares a los datos actuales. Si se opta por la
particin, utilice el control deslizante para determinar la proporcin de casos que se
considerar en las muestras de entrenamiento y comprobacin.
Nota: la proporcin que se selecciona es aproximada.

Laboratorio de Estadstica

Pgina n 44

Despus de definir las particiones, seleccionamos la muestra de entrenamiento


(Men Ver / muestra) y desarrollamos el rbol. Cuando terminemos con la etapa de
desarrollo, seleccionamos la muestra de comprobacin en el men Ver.
Los resultados mostrados en la ventana rbol cambiarn para mostrar aquellos
obtenidos al aplicar el rbol a la muestra de comprobacin. Si se analizan las
estimaciones de riesgo, el resumen de ganancias y el resumen de anlisis, se podr
determinar el grado de generalizacin del rbol.
7.3. Validacin cruzada
La validacin cruzada implica dividir la muestra en una serie de muestras ms
pequeas. A continuacin, se generan los rboles, que no incluyen los datos de
cada submuestra. Por ejemplo, con una validacin cruzada de diez veces, los datos
se dividen en 10 submuestras (nmero de submuestras) y luego se generan 10
rboles. El primer rbol se basa en todos los casos excepto los correspondientes a
la primera submuestra; el segundo rbol se basa en todos los casos excepto los de
la segunda submuestra, y as sucesivamente. Para cada rbol se calcula el riesgo
de clasificacin errnea aplicando el rbol a la submuestra que se excluy al
generarse este. La estimacin de riesgo mediante validacin cruzada para todo el
rbol se calcula como el promedio de los riesgos de todos los rboles. Si selecciona
la estimacin de riesgo mediante validacin cruzada, deber especificar el nmero
de submuestras en el cuadro de dilogo.
Nota: la estimacin de riesgo mediante validacin cruzada slo se encuentra
disponible cuando el rbol se desarrolla de forma automtica. Slo se debe
especificar la validacin cruzada para conjuntos de datos pequeos.
Semilla aleatoria:
Cuando se utiliza una validacin, los casos se asignan de forma aleatoria a
particiones o nmeros de submuestras. La configuracin de la semilla permite
especificar el valor inicial que utiliza el generador de nmero aleatorio para asignar
casos. Esta funcin es til si se desea poder duplicar de forma exacta la particin en
otra sesin, ya que los conjuntos definidos con el mismo nmero de semilla aleatoria
siempre asignarn los mismos casos a las mismas particiones. Por tanto, si desea
duplicar la particin ms adelante, defina un valor especfico para la semilla. El valor
predeterminado es 2.000.000.

Laboratorio de Estadstica

Pgina n 45

7.3.1. Ejemplo de validacin dividiendo los datos en submuestras


Para ilustrar las opciones de validacin vamos a utilizar el fichero en formatos
S.P.S.S. Lirios.sav.
Abrimos un nuevo proyecto indicando que la fuente de datos es un archivo de
S.P.S.S.
En la ventana correspondiente, indicamos el archivo a cargar: Lirios.sav
Elegimos como mtodo de desarrollo el algoritmo C&RT.
Indicamos que la variable criterio es ESPECIE, y las variables predictoras sern
todas las dems.
Nos aseguramos que la escala de mediada de la variable ESPECIE es nominal y el
resto esta medido en escala continua.
En el Cuadro de comprobacin seleccionamos la opcin:
Dividir datos en Submuestras
A continuacin indicamos que la muestra de entrenamiento (la muestra con la que
se deducirn los parmetros del rbol) tendr un tamao del 50% del total de la
muestra.
Nuestra muestra tiene un tamao de 150 casos, por lo tanto se dividir en dos
grupos, cada uno de ellos con 75 casos aproximadamente. De tener un tamao
mayor, podramos elegir un porcentaje para la muestra de entrenamiento algo
menor.
En el cuadro de opciones avanzadas, realizamos las siguientes opciones:

Niveles bajo raz:


Nodo parental:
Nodo filial:

6.
2.
1.

Elegimos unos criterios as de generosos porque vamos a realizar un desarrollo


guiado, eligiendo manualmente cuando paramos.
Vamos guiando el desarrollo hasta obtener el siguiente rbol.

Laboratorio de Estadstica

Pgina n 46

ESPECIE (Muestra de entrenamiento)


Nodo 0
Categora
%
n
Iris-setosa
35.53 27
Iris-versicolor 28.95 22
Iris-virginica
35.53 27
Total
(100.00) 76
ptalo - longitud
Mejora=0.3448

<=2.7000000000000002

>2.7000000000000002

Nodo 1
Categora
%
Iris-setosa
100.00
Iris-versicolor
0.00
Iris-virginica
0.00
Total
(35.53)

Nodo 2
Categora
%
Iris-setosa
0.00
Iris-versicolor 44.90
Iris-virginica
55.10
Total
(64.47)

n
27
0
0
27

n
0
22
27
49

ptalo - longitud
Mejora=0.2700

<=4.75
Nodo 3
Categora
%
n
Iris-setosa
0.00 0
Iris-versicolor 100.00 20
Iris-virginica
0.00 0
Total
(26.32) 20

>4.75
Nodo 4
Categora
%
n
Iris-setosa
0.00 0
Iris-versicolor
6.90 2
Iris-virginica
93.10 27
Total
(38.16) 29

A continuacin examinamos las vistas riesgos y ganancias.


Vista Riesgos
La Estimacin de riesgo es de 0.026, es decir un 2.6% de la observaciones estn
mal clasificadas, por lo tanto el 97.4% estn bien clasificadas. Dos plantas
estimadas como Virginica, pertenecen realmente a la especie Versicolor.
Cotejamos este resultado con la muestra de comprobacin. Cambiamos a muestra
de comprobacin:

Ver / Muestra / comprobacin o bien desde la barra de herramientas:

Ahora la Estimacin de riesgo con la muestra de comprobacin, la cual no ha


intervenido en la estimacin de los parmetros del modelo es de 0.067, por lo tanto
hay un 6.7% de estimaciones errneas.
El incremento de riesgo ha sido de 0.067
= 2.57 .
0.026

Laboratorio de Estadstica

Pgina n 47

Esta vez se han clasificado errneamente cuatro plantas de la especie Versicolor


como Virginica, y adems una planta perteneciente a la especie Versicolor
perteneca realmente a la espacie Virginica. La especie Setosa ha sido
correctamente clasificada en su totalidad.

Vista Ganancias
Para interpretar esta vista hay que tener en cuenta la muestra que estamos
considerando y la categora criterio de la variable criterio. Empezamos con la
muestra de entrenamiento, y la especie Virginica como categora criterio.
Muestra de entrenamiento.

El nodo n 4 contiene 29 casos, que representan el 38% de los casos de esta


muestra, de los cuales 27 pertenecen a la categora criterio (Virginica).
El porcentaje de casos en este nodo que pertenecen a la categora criterio es del
93.1%.
El resto de los nodos no contienen ningn caso de la categora criterio.
Cambiamos a muestra de comprobacin.

Laboratorio de Estadstica

Pgina n 48

Ahora el nodo n 4 contiene 26 casos, de los cuales 22 pertenecen a la categora


criterio. El porcentaje de casos en este nodo que pertenecen a la categora criterio
es del 86.6%.
Este nodo contiene el 95% de los casos de la muestra que pertenecen a la categora
criterio.
El Nodo nmero 3, contiene 25 casos, de los cuales 1 pertenece a la categora
criterio, que significa el 4.3% de todas la plantas de la especie Virginica. El
porcentaje de casos que pertenecen a la categora criterio en este nodo es del 4.0%.

Laboratorio de Estadstica

Pgina n 49

8. EJERCICIOS

8.1- Ejercicio de clasificacin de lirios


Introduccin
El problema de buscar reglas de clasificacin, para determinar a que tipo de especie,
pertenece un lirio determinado es un clsico en la materia y llevo a Fisher en 1936 a
desarrollar el anlisis discriminante.
En esta prctica repetiremos la experiencia de Fisher, si bien aplicando la tcnica
AnswerTree en vez del anlisis discriminante.
Objetivo del anlisis
Determinar el conjunto de predictores y comprender las reglas de clasificacin para
tres especies de lirios, basndonos en cuatro medidas fsicas. Los algoritmos
empleados son:
C&RT
QUEST
Datos
Los datos se encuentran en el fichero en formato S.P.S.S. Lirios.sav. En este
archivo se encuentran cuatro variables continuas y la variable de clasificacin
ESPECIES.
Variables continuas:
Estadsticos descriptivos
N
spalo - longitud
spalo - ancho
ptalo - longitud
ptalo - ancho

150
150
150
150

Mnimo
4.30
2.00
1.00
.10

Mximo
7.90
4.40
6.90
2.50

Media
5.8433
3.0540
3.7587
1.1987

Desv. tp.
.82807
.43359
1.76442
.76316

Variable de clasificacin
La variable de clasificacin es ESPECIE, est medida en escala nominal y tiene tres
categoras distintas:
Valor
1
2
3

Etiqueta
Iris-setosa
Iris_versicolor
Iris-virginica

Laboratorio de Estadstica

Pgina n 50

Desarrollo de los rboles de decisin.


Creamos dos rboles de decisin, los parmetros para ambos rboles sern los
siguientes:
Nmero de niveles bajo el nodo raz: 5.
Nmero mnimo de casos en el nodo parental: 5.
Nmero mnimo de casos en el nodo filial: 2.
Primero creamos el rbol mediante el algoritmo C&RT y a continuacin mediante el
algoritmo QUEST.
Despus de crear los dos rboles de decisin por separado, desarrollamos los
nodos raz de forma automtica mediante la opcin desarrollo y poda del rbol
automtica del rbol.
Para facilitar la localizacin, en la ventana proyecto, editamos los nombres de los
rboles y lo cambiamos por el nombre del algoritmo con que han sido creados.

En los mapas del rbol, se observa la estructura general de los rboles.


Por lo general, si el anlisis es bueno, los rboles generados con mtodos de
desarrollo distintos, tienden a producir rboles parecidos, pero no totalmente
idnticos.
Interpretacin de resultados
La especie SETOSA se caracteriza bsicamente en tener una longitud del ptalo
ms pequeo que las dems especies. Para el rbol construido mediante el
algoritmo C&RT los lirios con una longitud de los ptalos menor de 2.45 pertenecen
a la especie SETOSA.
F (ptalo - longitud NOT MISSING AND (ptalo - longitud <= 2.45))
THEN
Node = 1
Prediction = 1
Probability = 1.000000
Segn el rbol construido mediante el algoritmo QUEST, la especie SETOSA se
caracteriza por tener la longitud de los ptalos menor de 2.09.

Laboratorio de Estadstica

Pgina n 51

/* Nodo 1*/
IF (PET_LON NOT MISSING AND (PET_LON <= 2.09701836576332))
THEN
Node = 1
Prediction = 1
Probability = 1.000000
Las otras dos especies requieren informacin complementaria en ambos rboles.
En el rbol C&RT la clasificacin para la especie Versicolor es:
* Nodo 3*/
IF (ptalo - longitud IS MISSING OR (ptalo - longitud > 2.45)) AND (ptalo - ancho
IS MISSING OR (ptalo - ancho <= 1.75))
THEN
Node = 3
Prediction = 2
Probability = 0.907407

En cambio, para el rbol QUEST la regla de clasificacin es:


* Nodo 3*/
IF (PET_LON IS MISSING OR (PET_LON > 2.09701836576332)) AND
(PET_ANCH IS MISSING OR (PET_ANCH <= 1.64421096848612))
THEN
Node = 3
Prediction = 2
Probability = 0.923077

Desarrollo del rbol controlado guiado por el usuario


Como los dos algoritmos generan rboles similares, vamos a desarrollar un tercer
rbol mediante el algoritmo C&RT. Los parmetros sern los mismos:

Nmero de niveles bajo el nodo raz: 5.


Nmero mnimo de casos en el nodo parental: 5.
Nmero mnimo de casos en el nodo filial: 2.

Esta vez, vamos a desarrollar el rbol paso a paso. En vez de elegir la opcin
Desarrollar el rbol del men rbol, seleccionamos la opcin aadir un nivel al rbol.
Podemos observar que la variable elegida para realizar la divisin ha sido longitud
del ptalo. Todos los casos que el largo del ptalo sean inferior a 2.45 se envan al
nodo 1, los que son mayores se envan al nodo 2.
El algoritmo C&RT muestra la importancia relativa de la divisin de un nodo,
utilizando la disminucin en la impureza, o mejora, como criterio de evaluacin. En
este ejemplo, utilizamos la medida de impureza predeterminada de Gini. En la

Laboratorio de Estadstica

Pgina n 52

primera divisin del rbol, la mejora corresponde a 0,3333. Esto significa que la
impureza de los dos nodos filiales resultante de la divisin era 0,3333 menor que la
impureza del nodo raz.
El nodo 1 est compuesto por una sola especie (SETOSA) y contiene todos los
casos de dicha especie.
En el nodo 2 se encuentran las 100 observaciones restantes, entre las que se
observan todos los lirios VERSICOLOR y VIRGINICA.
Podemos observar que no es posible mejorar el rendimiento del rbol desarrollando
el nodo 1.
Seleccionamos el nodo 2 y desarrollamos dicha rama mediante la opcin del men
contextual: Desarrollar rama un nivel.
Ahora observamos que la mejora ha sido de 0.2598. El nodo 2 se ha dividido
utilizando la variable ancho del ptalo y la mejora corresponde a 0,2598. Los dos
nodos filiales del nodo 2 describen a grandes rasgos los dos tipos restantes de lirios.
En este punto debemos de plantearnos la posibilidad de seguir desarrollando el
rbol por el nodo 5. Probamos como en el caso anterior y obtenemos una mejora de
0.029. Como no nos aporta informacin importante eliminamos la rama creada.
Probabilidades a priori
Supongamos que nuestra muestra no represente fielmente la frecuencia en que
aparece la especie de lirio en la naturaleza. En este caso, podemos corregir la
distribucin de la probabilidad a priori de los datos indicando especficamente las
probabilidades a priori.
El conjunto de probabilidades a priori indica a AnswerTree que el valor de las clases
debe corresponder al de las probabilidades asignadas. Las probabilidades a priori
explcitas se pueden definir a travs del cuadro de dilogo Opciones avanzadas o
bien en opciones avanzadas del asistente para creacin de rboles.
Vamos a crear un nuevo rbol de clasificacin corrigiendo las probabilidades a priori
de forma que concuerden con la frecuencia observada en la naturaleza:
Especie frecuencia
setosa
20%
Versicolor
40%
Virginica
40%
Creamos un nuevo rbol mediante el algoritmo C&RT con los mismos parmetros
que los anteriores, pero en opciones avanzadas, corregimos las probabilidades a
priori de forma que coincidan con la tabla anterior y desarrollamos el rbol.
Podemos observar que el rbol de clasificacin creado no coincide con los
anteriores.

Laboratorio de Estadstica

Pgina n 53

Anlisis de riesgos
La estimacin de riesgos indica la capacidad del rbol para realizar clasificaciones
correctas, en el primer rbol la probabilidad de realizar una clasificacin errnea es
de 0.026, frente a 0.66 que tendramos en el nodo raz. un lirio de la especie
virginica ha sido errneamente clasificado como versicolor, y 3 lirios que pertenecan
a la especie versicolor han sido errneamente clasificados como virginica. todos los
lirios de la especie setosa han sido correctamente clasificados.

Laboratorio de Estadstica

Pgina n 54

8.2- Ejemplo de valoracin de crdito


Objetivo del anlisis
Nuestro objetivo es poder clasificar a los solicitantes de un crdito conforme a si
representan o no un riesgo, basndonos en la informacin disponible.
Datos
El archivo de datos para este ejemplo es CREDIT.SAV. El archivo contiene una
variable criterio, Valoracin de crdito (bueno o malo), y cuatro variables predictoras:
Edad categrica (joven, adulto o mayor), Tiene tarjeta AMEX (s o no), Pago
semanal/mensual (pago semanal o pago mensual) y Categora profesional (directivo,
profesional, administrativo, con experiencia o sin experiencia). Se han recopilado
datos de 323 casos.
La codificacin de las variables del archivo es la siguiente:
CREDIT_V Valoracin Crdito (1=defecto)
Value Label
0 Malo
1 Bueno
CAT_PROF Categora profesional

Value Label
1 Directivo
2 Profesional
3 Administrativo
4 Operario cualificado
5 No cualificado
PAGO_MES Pago Semanal/Mensual

Value Label
1.00 Paga semanal
2.00 Sueldo mensual
EDAD

Edad Categrica

Value Label
1 Joven (< 25)
2 Adulto (25-35)
3 Mayor ( > 35)

AMEX

Tiene tarjeta Amex

Value Label
0 No
1 S

Laboratorio de Estadstica

Pgina n 55

Creacin del rbol


Dado que todas las variables son categricas, elegiremos el mtodo CHAID para
desarrollar el rbol.
La variable criterio ser Valoracin del crdito y el resto sern variables predictoras.
Hay que observar que si bien todas las variables son categricas, algunas podran
ser definidas como ORDINALES.
Los parmetros del rbol van a ser los siguientes:

rbol sin validacin


Nmero de niveles: 6.
Nodo parental:
5.
Nodo filial:
1.

Elegimos unos parmetros tan generosos para tener ms libertad al realizar el


desarrollo guiado del rbol.
Desarrollo del nodo raz
Antes de desarrollar el nodo raz podemos observar en el nodo raz, que la
proporcin de crditos malos es del 52.01%.
Si observamos la vista Riesgos, la estimacin del riesgo a priori, es del 47%.
Primer nivel

Elegimos la opcin Desarrollar el rbol un nivel.


Valoracin Crdito (1=defecto)
Nodo 0
Categora
%
n
Bueno
47.99 155
Malo
52.01 168
Total
(100.00) 323
Pago Semanal/Mensual
Nivel crtico ajustado=0.0000, Chi-cuadrado=162.2958, gl=1

Sueldo mensual
Nodo 1
Categora
%
Bueno
84.18
Malo
15.82
Total
(48.92)

Paga semanal

n
133
25
158

Nodo 2
Categora
%
Bueno
13.33
Malo
86.67
Total
(51.08)

n
22
143
165

La variable elegida para separar los nodos ha sido: Pago Semanal/Mensual. En el


nodo de la izquierda, la densidad de crditos buenos es del 84%, en el nodo de la

Laboratorio de Estadstica

Pgina n 56

derecha la densidad de crditos malos es del 86.67. La vista Riesgo nos indica que
la estimacin del riesgo es ahora del 14%.
En la rama izquierda, esta los que perciben el sueldo mensual, de estaos clientes el
84% pertenecen a la categora Buena, en la rama de la derecha se encuentran los
que perciben la paga semanal, de los cuales el 86% pertenecen a la categora Mala.
Con esta sencilla regla hemos conseguido clasificar correctamente el

323 25 22
= 0.854 85% de los casos.
323
Segundo nivel
Para tratar de mejorar el rbol aadimos otro nivel. En ambos nodos, la variable
elegida ha sido EDAD CATEGORIZADA, el riesgo estimado es ahora del 12%, lo
cual es una significativa mejora. De los 323 casos, solo hay 40 clasificados
errneamente.

Entre los que perciben una paga mensual, los mayores de 25 aos son ms
solventes que los menores de 25 aos. Para los que reciben una paga semanal, solo
los mayores de 35 aos son solventes.
El grupo ms insolvente son los que reciben una paga semanal y tienen menos de
35 aos.
Para tratar de mejorar el rendimiento del rbol, vamos a desarrollar los nodos con
alto nivel de confusin.
Nodo nmero 4

Laboratorio de Estadstica

Pgina n 57

La clasificacin de este nodo no es definitiva, para intentar aclararla elegimos la


opcin Desarrollar rama un nivel. Vemos que ocho casos han quedado bien
clasificados. De los 24 mal clasificados hemos pasado a tener solo 17 casos mal
clasificados.
Nodo nmero 5.
Aunque la densidad de crditos altos es muy alta, aun hay 15 casos mal
clasificados. Desarrollamos la rama correspondiente a este nodo un nivel. La
variable elegida es CATEGORA PROFESIONAL, pero seguimos teniendo 15 casos
mal clasificados, por lo tanto, al no mejorar el rendimiento podemos eliminamos la
rama creada.

RBOL FINAL

Es interesante observar la coincidencia de las variables de divisin en el segundo


nivel.

Laboratorio de Estadstica

Pgina n 58

Anlisis de resultados
RIESGOS,

Categora estimada

Estimacin de riesgo
ET de la estimacin de riesgo

Matriz de clasificacin errnea


Categora real
Bueno Malo

Total

Bueno
Malo
Total

124
199
323

123
32
155

1
167
168

Estadsticos de riesgo
0.102167
0.016852

El riesgo de realizar una clasificacin errnea mediante el modelo actual es del


10.2%, hay un crdito pronosticado como bueno que realmente es malo, y hay 32
crditos malos clasificados como buenos.
Prcticamente ningn crdito Malo ha sido clasificado como Bueno.

Ganancias
MEDIANTE LA OPCIN FORMATO/ GANANCIAS, ELEGIMOS LA CATEGORA
CRDITO BUENO COMO CATEGORA DE REFERENCIA. PARA FACILITAR LA
COMPRENSIN DE LA TABLA DE GANANCIAS NOS ASEGURAMOS QUE TENEMOS
EL VISOR TABLA DE NODO ABIERTO.

El resumen de ganancias en este ejemplo concreto, muestra cual son los nodos que
tienen la mayor y menor proporcin de crditos buenos.

Laboratorio de Estadstica

Pgina n 59

La primera columna indica el nmero de nodo, el cual corresponde al nodo final en la


tabla, si pulsamos sobre dicho nodo en la tabla, el visor Tabla de nodo
automticamente actualiza la informacin de dicho nodo.
El nodo nmero 8, corresponde a los solicitantes del crdito que reciben un sueldo
mensual y son jvenes y la categora profesional que tienen es Administrativo O
directivo.
Hay en total 8 solicitantes (Nodo:n), que representa el 2.5% del total de solicitantes.
El nmero de crditos buenos en este nodo es de 8 (Ganancia:n) que representa el
5.16% de todos los crditos buenos de la muestra.
El porcentaje de crditos buenos en este nodo es del 100% (Resp: %) y representa
un incremento del 208.4 sobre el nodo raz (ndice %).
El nodo ms interesante es el nodo 3, pues contiene el 69.7% de los crditos
Buenos, y su porcentaje de crditos buenos es del 99.1. Los clientes de dicho nodo
se caracterizan por:
Nodo 3*/
IF (Pago Semanal/Mensual = "Sueldo mensual") AND (Edad Categrica != "Joven (< 25)")
THEN
Node = 3
Prediction = 1
Probability = 0.990826

El peor nodo de todo el rbol es el 5, pues representa al 48.9 de la


muestra y contiene una proporcin de crditos buenos del 9.5%.

Laboratorio de Estadstica

Pgina n 60

8.3- EJERCICIO DE VALORACIN DEL PRECIO DE VIVIENDAS


Algoritmo C&RT para crear un rbol de regresin con el fin de estimar el precio de
una vivienda.

Datos
El fichero de datos corresponde al estudio realizado por Harrison y Rubinfeld en
1978 para evaluar los efectos de varios factores de tipo ambiental, econmico y
social sobre los valores de las viviendas en la zona de Boston. Las variables
observadas han sido las siguientes:
El archivo de datos para este ejemplo es HOUSING.SAV. El archivo contiene una
variable criterio, Mediana de hogares ocupados por propietarios (definida como
continua) y 13 variables predictoras:

Crim:
Tasa de crimen per cpita (continua)
Zn:
Proporcin de terreno residencial en de zonas 2322,5 m2
(continua)
Indus: Proporcin de acres de negocios no comerciales por pueblo (continua)
Chas:
Variable ficticia de conexin al ro Charles (nominal, 0 adyacente
al ro, 1 = no adyacente al ro)
Nox:
Concentracin de xidos ntricos pp cada 10 millones (continua)
Cuartos:
Nmero promedio de habitaciones por vivienda (continua)
Edad:
Proporcin de viviendas ocupadas por propietarios antes de
1940 (continua)
Dis:
Distancia ponderada a 5 centros de empleo de Boston (continua)
Circ:
ndice de accesibilidad a autopistas radiales (continua)
Impuesto: Tasa del valor total de los impuestos de propiedad por 10.000$
(continua)
Paratio:
Razn de alumnos/profesores por pueblo (continua)
N:
Proporcin de poblacin de raza negra por pueblo transformada
(continua)
EstaInf:
% estatus inferior de la poblacin (continua)
Medh:
Mediana del precio de los hogares ocupados por Zona.

Laboratorio de Estadstica

Pgina n 61

Creacin del rbol con el algoritmo C&RT


Cuando la variable criterio esta mediada en escala continua, l a medida utilizada
para evaluar la impureza de un nodo mediante el algoritmo C&RT es LSD que se
define de la siguiente manera:
R (t ) =

1 N (t )
( y i y (t )) 2

N (t ) i =1

Es por tanto la varianza respecto a la media en el nodo t.


La divisin de dos nodos se realiza de forma que se maximice la siguiente
expresin:

( s, t ) = R(t ) Pi R(ti ) Pd R(t d )


Por lo tanto en cada nueva divisin, la mejora indica la disminucin de la varianza
del nodo padre, es por lo tanto fundamental conocer la varianza original de la
variable para poder ajustar los parmetros del rbol. En nuestro caso la varianza de
la variable criterio es 84.45 y su media es 22.530K dlares.
Para la creacin del rbol elegimos el algoritmo C&RT, y como variable criterio
elegimos MEDH (Mediana del precio de los hogares ocupados por Zona), como
variables predictoras utilizamos el resto de variables en el fichero.
En opciones avanzadas seleccionamos los siguientes parmetros:

Niveles bajo raz:


Nodo parental:
Nodo filial:
Cambio mnimo en la impureza:

6.
5.
1.
2.

Desarrollo del rbol de regresin

El nodo raz simplemente muestra la media de la variable criterio para todos los
datos de la muestra. En este ejemplo la media vale 22.5328, la desviacin tpica es
de 9.19 y el nmero de casos contenidos en este nodo es de 506.

Laboratorio de Estadstica

Pgina n 62

Elegimos la opcin Desarrollar el rbol un nivel. La variable elegida ha sido


Promedio de habitaciones por vivienda. El punto de corte se ha dado en el valor
6.94.
La mejora de la impureza de calcula de la siguiente manera:

R(0) = 9.197122
R(1) = 6.353522
R(3) = 8.988522
Pi = 0.8498
Pd = 0.1502

( s,0) = 9.19712 0.8498 6.3535 2 0.1502 8.9885 2 = 38.22


Es decir, de la varianza total del nodo 0 que es 84.58, mediante la divisin en 2
nodos, hemos explicado 38.22 unidades, la varianza que no hemos explicado es de
46.19 unidades, que se corresponde con la siguiente expresin:

Varianza Total = Varianza Explicada + Varianza no explicada


O lo que es lo mismo:
Varianza Total Varianza Explicada = Varianza No Explicada
84.41-38.22= 46.19.
Esto se corresponde con el valor Estimacin de riesgo en la vista Riesgos, que es la
varianza no explicada, de hay la importancia de conocer la varianza de la variable
criterio antes de desarrollar el rbol.

Laboratorio de Estadstica

Pgina n 63

Para desarrollar el resto del rbol de regresin elegimos la opcin Desarrollar el


rbol y podar.

Examen del rbol de regresin

Esta claro que la rama de la derecha hace referencia al tamao de la casa, todas
las divisiones se realizan por la variable nmero de habitaciones de la casa. Si
tienen ms de 7 habitaciones, el precio medio es de 45.0967$. Si ests solo tienen 7
habitaciones el precio medio es de 32.113$. El nmero de viviendas con ms de 6
habitaciones es del 15% de la muestra.

La primera divisin de la rama izquierda, se corresponde con la variable % estatus


inferior de la poblacin, las reas ocupadas por residentes con un estatus inferior de
menos 14.39% tienen un valor superior a aquellas donde el porcentaje es mayor del
14.39, la mejora es de 14.45 respecto a 40.32 unidades del nodo l.

Laboratorio de Estadstica

Pgina n 64

El desarrollo del nodo nmero 4, hace referencia a la preocupacin por la


inseguridad ciudadana. Mientras que el desarrollo del nodo 3 hace referencia por la
comunicacin con los centros de empleo.

Laboratorio de Estadstica

Pgina n 65

S-ar putea să vă placă și