Sunteți pe pagina 1din 8

Regresión Logı́stica: Respuesta Binaria

Samuel Martı́nez
April 4, 2020

1 Introducción
La regresión lineal tiene en cuenta que la variable respuesta es de tipo numérica.
En los casos que la variable dependiente es dicotómica. Por ejemplo; aprobado
o reprobado, positivo o negativo en un test...etc. Por tanto, se debe realizar una
transformación sobre la variable dependiente para garantizar que la relación con
las variables independientes sea lineal.
Luego, vamos a definir p la probabilidad de éxito y 1 − p la probabilidad de
fracaso. Donde se utiliza la función log para predecir la probabilidad de que un
evento ocurra para una situación particular.

 
p
Log = β0 + x1 β1 + xx β2 + ... + xn βn
1−p
Se despeja la variable p del logaritmo natural y se llega a la expresión de
interés que es:

exp β0 + x1 β1 + xx β2 + ... + xn βn
p=
1 + exp β0 + x1 β1 + xx β2 + ... + xn βn
Donde el modelo de regresión logı́stica permite predecir la probabilidad de
ocurrencia p en función de los valores de las variables independientes.

1.1 Medidas de Bondad de Ajuste


1. Prueba ómnibus: Es una prueba que indica si el modelo es estadı́sticamente
significativo para explicar la variable respuesta. Realiza una estimación
a partir de la log −verosimilitud y la devianza para realizar una prueba
chi-cuadrado. H0 : El modelo no es significativo.
2. Pseudo R-cuadrado. El porcentaje de varianza que explican las variables
independientes de la variable dependiente. Si R2 > 0.4 se considera que
existe una explicación buena de la variable dependiente. Si 0.2 < R2 < 0.4
se considera que existe una explicación aceptable de la variable dependi-
ente. Si R2 < 0.2 se considera que existe una mala explicación de la
variable dependiente.

1
3. Los betas estimados sobre las variable independientes. El estadı́stico uti-
lizado para la estimación es un estadı́stico de W ald y la hipótesis nula es
igual a la del modelo de regresión.
4. Tabla de clasificación: Muestra el porcentaje de clasificación correcta de
los datos por el modelo. Un porcentaje mı́nimo aceptable es del 50%.

1.2 Ejercicios
1. Se hizo un estudio para investigar compras de automóviles nuevos. Se
seleccionó una muestra de 20 familias. Cada familia se encuestó para
determinar la edad de su coche más viejo y su ingreso familiar total. Se
hizo una encuesta de seguimiento 6 meses después, para determinar si en
realidad habı́an comprado un nuevo vehı́culo en ese lapso (y = 1 indica sı́,
y y = 0 indica no). Los datos del estudio aparecen en la siguiente tabla.

Ingreso,x1 Edad,x2 y Ingreso, xl Edad,x2 y


45000 2 0 37000 5 1
40000 4 0 31000 7 1
60000 3 1 40000 4 1
50000 2 1 75000 2 0
55000 2 0 43000 9 1
50000 5 1 49000 2 0
35000 7 1 37500 4 1
65000 2 1 71000 1 0
53000 2 0 34000 5 0
48000 1 0 27000 6 0

(a) Ajustar un modelo de regresión logı́stica a los· datos.


(b) ¿Cuál es la probabilidad estimada de que una familia con ingreso de
45000 pesos y un coche de 5 años de antigüedad compre un nuevo
vehı́culo durante los siguientes 6 meses?

2
2. Consumer Report le realizó una prueba de sabor a 19 marcas de chocolates.
En los datos a continuación se da el precio por porción, en base al tamaño
de porción de la FDA que es de 1.4 onzas, ası́ como una evaluación de la
calidad de los 19 chocolates tomados para la prueba (Consumer Report,
febrero 2002).

Fabricante Precio Evaluación


Bernard Callebaut 3.17 muy bueno
Candinas 3.58 excelente
Fannie May 1.49 bueno
Godiva 2.91 muy bueno
Hershey’s 0.76 bueno
L.A. Burdick 3.70 muy bueno
La Maison du Chocolate 5.08 excelente
Leonidas 2.11 muy bueno
Lindt 2.20 bueno
Martine’s 4.76 excelente
Michael Recchiuti 7.05 muy bueno
Neuchatel 3.36 bueno
Neuchatel Sugar Free 3.22 bueno
Richard Donnelly 6.55 muy bueno
Russell Stover 0.70 bueno
See’s 1.06 muy bueno
Teuscher Lake of Zurich 4.66 muy bueno
Whitman’s 0.70 regular
Whitman’s Sugar Free 1.21 regular

Suponga que desea determinar si los productos que son más caros son
mejor evaluados. Para los propósitos de este ejercicio, emplee la siguiente
variable binaria dependiente.

y = 1si la evaluación de la calidad fue excelente o muy buena


y = 0si la evaluación de la calidad fue buena o regular

(a) Dé la ecuación de regresión logı́stica que relaciona x = precio por


porción con y.
(b) Obtener una estimación de la probabilidad de que la evaluación de un
chocolate cuyo precio por porción es 4.00 sea muy bueno o excelente.

3
3. Los siguientes datos muestran los resultados de los aspirantes a un pro-
grama de doctorado de una universidad. La variable respuesta es la ad-
misión en términos del genero, el departamento y el puntaje de admisión.

Admit Gender Dept Punt


1 Admitted Male A 512.00
2 Rejected Male A 313.00
3 Admitted Female A 89.00
4 Rejected Female A 19.00
5 Admitted Male B 353.00
6 Rejected Male B 207.00
7 Admitted Female B 17.00
8 Rejected Female B 8.00
9 Admitted Male C 120.00
10 Rejected Male C 205.00
11 Admitted Female C 202.00
12 Rejected Female C 391.00
13 Admitted Male D 138.00
14 Rejected Male D 279.00
15 Admitted Female D 131.00
16 Rejected Female D 244.00
17 Admitted Male E 53.00
18 Rejected Male E 138.00
19 Admitted Female E 94.00
20 Rejected Female E 299.00
21 Admitted Male F 22.00
22 Rejected Male F 351.00
23 Admitted Female F 24.00
24 Rejected Female F 317.00

Encuentre el modelo de regresión. Estime la probabilidad de ser admitido


de una mujer que tuvo un puntaje de 380 y aspirante del departamento
B.

4
4. La tabla siguiente presenta los resultados de disparo de 25 misiles an-
tiaéreos, de superficie a aire, con blancos de diversas velocidades. El re-
sultado de cada prueba es un éxito (y = 1) o un fracaso (y = O).

Prueba (x), nudos y Prueba (x), nudos y


1 400 0 14 330 1
2 220 1 15 280 1
3 490 0 16 210 1
4 210 1 17 300 1
5 500 0 18 470 1
6 270 0 19 230 0
7 200 1 20 430 0
8 470 0 21 460 0
9 480 0 22 220 1
10 310 1 23 250 1
11 240 1 24 200 1
12 490 0 25 390 0
13 420 0

Ajustar un modelo de regresión logı́stico. Estime el resultado de la prueba


si la velocidad es de 400 nudos.
5. Determine la probabilidad de que unos clientes de la Empresa de ropa
Simmons utilicen un cupón de descuento a partir del gasto anual en miles
de dólares en ropa y si tienen la tarjeta de crédito de la empresa.

Gasto Anual Miles Tarjeta Crédito Cupón


1 2.29 1 0
2 3.21 1 0
3 2.13 1 0
4 3.92 0 0
5 2.53 1 0
6 2.47 0 1
7 2.38 0 0
8 7.08 0 0
9 1.18 1 1
10 3.35 0 0

5
6. La tabla presenta los datos de 30 encuestados, de los cuales 15 son leales
a la marca (indicando 1) y 15 no lo son (indicados con 0). También se
miden las actitudes hacia la marca (Marca), hacı́a la categorı́a del producto
(Producto) y hacia las compras (Compras), todo en una escala de 1 (no
favorable) a 7 (favorable). El objetivo es calcular la probabilidad de que
un consumidor sea leal a la marca como función de la actitud hacia la
marca, la categorı́a del producto y las compras.

LEALTAD MARCA PRODUCTO COMPRAS


1 1 4 3 5
2 1 6 4 4
3 1 5 2 4
4 1 7 5 5
5 1 6 3 4
6 1 3 4 5
7 1 5 5 5
8 1 5 4 2
9 1 7 5 4
10 1 7 6 4
11 1 6 7 2
12 1 5 6 4
13 1 7 3 3
14 1 5 1 4
15 1 7 5 5
16 0 3 1 3
17 0 4 6 2
18 0 2 5 2
19 0 5 2 4
20 0 4 1 3
21 0 3 3 4
22 0 3 4 5
23 0 3 6 3
24 0 4 4 2
25 0 6 3 6
26 0 3 6 3
27 0 4 3 2
28 0 3 5 2
29 0 5 5 3
30 0 1 3 2

6
7. Se hizo un estudio tratando de relacionar la propiedad de casas con el
ingreso familiar. Se seleccionaron 20 familias, se estimó su ingreso y otra
información acerca de la propiedad de la vivienda (y = 1 indica sı́, y y = 0
indica no). Los datos se ven a continuación.

Familia Ingreso Estado de propiedad Familia Ingreso Estado de propiedad


1 38000 0 11 38700 1
2 51200 1 12 40100 0
3 39600 0 13 49500 1
4 43400 1 14 38000 0
5 47700 0 15 42000 1
6 53000 0 16 54000 1
7 41500 1 17 51700 1
8 40800 0 18 39400 0
9 45400 1 19 40900 0
10 52400 1 20 52800 1

Ajustar un modelo de regresión logı́stico. Estime el estado de la propiedad


si el ingreso es de 40000.
8. Suponga que buscamos determinar las caracterı́sticas sobresalientes de las
familias que han visitado un centro vacacional durante los últimos dos
años. Se obtuvieron datos de un pretest aplicado a una muestra de 42 fa-
milias. Las familias que visitaron un centro vacacional durante los pasados
dos años se codificaron como 1 y las que no lo hicieron, como 2 (VISITA).
También se obtuvieron datos sobre el ingreso anual de la familia, la actitud
hacia los viajes (VIAJE, medida en una escala de 9 puntos), la importan-
cia asignada a las vacaciones familiares (VACACIONES, medida en una
escala de 9 puntos), el tamaño de la familia (TAMAÑOF) y la edad del jefe
de familia (EDAD). Realice un modelo de regresión logı́stico para mode-
lar la variable visitar a centro comerciales a partir de las demás variable
independientes.

7
Ingreso
Visitas a Familiar Actitud Importancia
Tamaño de Edad jefe de
centros Anual en hacia los de los viajes
la Familia la familia
comerciales miles de viajes familiares
dólares
1 1 50.20 5 8 3 43
2 1 70.30 6 7 4 61
3 1 62.90 7 5 6 52
4 1 48.50 7 5 5 36
5 1 52.70 6 6 4 55
6 1 75.00 8 7 5 68
7 1 46.20 5 3 3 62
8 1 57.00 2 4 6 51
9 1 64.10 7 5 4 57
10 1 68.10 7 6 5 45
11 1 73.40 6 7 5 44
12 1 71.90 5 8 4 64
13 1 56.20 1 8 6 54
14 1 49.30 4 2 3 56
15 1 62.00 5 6 2 58
16 2 32.10 5 4 3 58
17 2 36.20 4 3 2 55
18 2 43.20 2 5 2 57
19 2 50.40 5 2 4 37
20 2 44.10 6 6 3 42
21 2 38.30 6 6 2 45
22 2 55.00 1 2 2 57
23 2 46.10 3 5 3 51
24 2 35.00 6 4 5 64
25 2 37.30 2 7 4 54
26 2 41.80 5 1 3 56
27 2 57.00 8 3 2 36
28 2 33.40 6 8 2 50
29 2 37.50 3 2 3 48
30 2 41.30 3 3 2 42
31 1 50.80 4 7 3 45
32 1 63.60 7 4 7 55
33 1 54.00 6 7 4 58
34 1 45.00 5 4 3 60
35 1 68.00 6 6 6 46
36 1 62.10 5 6 3 56
37 2 35.00 4 3 4 54
38 2 49.60 5 3 5 39
39 2 39.40 6 5 3 44
40 2 37.00 2 6 5 51
41 2 54.50 7 3 3 37
42 2 38.20 2 2 3 49
8

S-ar putea să vă placă și