Sunteți pe pagina 1din 16

1

Universidad Central del Ecuador


Facultad de Ciencias Físicas y Matemática
Ingeniería Matemática

Ecología
Nombre: Roy Andrés Torres
REGRESIÓN LINEAL BINOMIAL
Introducción
Se va analizar el mediante “el desastre del Challenger” el empleo de la REGRESIÓN LINEAL
BINOMIAL, que es un tipo de análisis de regresión utilizado para predecir el resultado de una
variable categórica (una variable que puede adoptar un número limitado de categorías) en función
de las variables independientes o predictoras, es útil para modelar la probabilidad de un evento
ocurriendo como función de otros factores. El análisis de regresión logística se enmarca en el
conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglés) que usa como función
de enlace la función logit. Las probabilidades que describen el posible resultado de un único
ensayo se modelan como una función de variables explicativas, utilizando una función logística.
Con este análisis estamos interesados en cómo la probabilidad de falla en una junta tórica dada
está relacionada con la temperatura de lanzamiento y calcularemos esa probabilidad cuando la
temperatura es de 31 ° F. Esta probabilidad no se puede modelar correctamente como una función
lineal ya que inevitablemente caerá afuera del intervalo[0,1] deseado. La idea detrás es bastante
simple: transformar un modelo lineal que tiene como objetivo una respuesta en ℝ- para que
produzca un valor en [0,1] esto se logra mediante la función logística. Pretendemos mediante
nuestro análisis, encontrar pruebas que deberían haber sido argumentos sólidos para posponer el
lanzamiento.

Problema.

Caso de estudio: EL DESASTRE DEL CHALLENGER.


El desastre del Challenger ocurrió el 28 de enero de 1986, cuando el orbitador del transbordador
espacial NASA Challenger se separó y se desintegró a los 73 segundos de su vuelo, lo que provocó
la muerte de sus siete miembros de la tripulación. El accidente conmocionó profundamente a la
sociedad estadounidense, en parte debido a la atención que había recibido la misión debido a la
presencia de Christa McAuliffe, quien habría sido la primera maestra astronauta. Debido a esto, la
televisión de la NASA transmitió en vivo el lanzamiento a las escuelas públicas de EE. UU.
2

Lo que resultó en millones de niños en edad escolar que presenciaron el accidente. El accidente
tuvo serias consecuencias para la credibilidad de la NASA y resultó en una interrupción de 32
meses en el programa del transbordador. La Comisión Presidencial Rogers (formada por el
astronauta Neil A. Armstrong y el Premio Nobel Richard P. Feynman, entre otros) fue creada para
investigar el desastre.
La comisión determinó que la desintegración comenzó con la falla de un sello de junta tórica en el
motor del cohete sólido debido a las inusuales temperaturas frías (-0.6 grados Celsius) durante el
lanzamiento. Esta falla produjo una ruptura de la combustión de gas a través del motor de cohete
sólido que comprometió toda la estructura del transbordador, lo que resultó en su desintegración
debido a las fuerzas aerodinámicas extremas. El problema con las juntas tóricas era algo conocido:
la noche antes del lanzamiento, hubo una teleconferencia de tres horas entre los ingenieros de
motores y la administración de la NASA, discutiendo el efecto de la baja temperatura prevista para
el lanzamiento en el rendimiento de la junta tórica. La conclusión, influenciada por la Figura 1(a)
fue: "Los datos de temperatura no son concluyentes para predecir el soplado de la junta tórica
primaria".

1
Figura 1(a): Número de incidentes en las juntas tóricas (juntas archivadas) versus temperaturas. El
panel a incluye solo vuelos con incidentes.

1
NASA. (1986). Ilustración del número de incidentes en las juntas tóricas. [Figura 1(a)]. Recuperado de
https://bookdown.org/egarpor/SSS2-UC3M/logreg-examps.html.
3

La Comisión Rogers observó una falla importante en la Figura 1(a): los vuelos con cero incidentes
fueron excluidos de la trama porque se consideró que estos vuelos no aportaron ninguna
información sobre el efecto de la temperatura (Figura 1(b)). La Comisión Rogers concluyó: Un
análisis cuidadoso del historial de vuelo del rendimiento de la junta tórica habría revelado la
correlación del daño de la junta tórica a baja temperatura”.

2
Figura 2(b): Número de incidentes en las juntas tóricas (juntas archivadas) versus temperaturas. El
panel b incluye todos vuelos (con y sin incidentes).

El conjunto de datos contiene información sobre el estado de los cohetes de refuerzo sólidos
después de los 23 lanzamientos.

 Defecto: variable binaria que indican si hubo un incidente con las juntas tóricas de cohetes
sólidos. 1 codifica un incidente y 0 su ausencia. En el análisis, nos centramos en las juntas
tóricas de la junta de campo como los factores más determinantes para el accidente.
 Temperatura: temperatura en el día del lanzamiento. Medido en grados Fahrenheit.

2
NASA. (1986). Ilustración de los vuelos con y sin incidentes en las juntas tóricas. [Figura 1(b)]. Recuperado de
https://bookdown.org/egarpor/SSS2-UC3M/logreg-examps.html.
4

3
Table 1: Conjunto de datos de Challenger.

Lanzamiento Fecha Defecto Temperatura


1 12/04/81 0 66
2 12/11/81 1 70
3 22/03/82 0 69
4 11/11/82 0 68
5 04/04/83 0 67
6 18/06/83 0 72
7 30/08/83 0 73
8 28/11/83 0 70
41-B 03/02/84 1 57
41-C 06/04/84 1 63
41-D 30/08/84 1 70
41-G 05/10/84 0 78
51-A 08/11/84 0 67
51-C 24/01/85 1 53
51-D 12/04/85 0 67
51-B 29/04/85 0 75
51-G 17/06/85 0 70
51-F 29/07/85 0 81
51-I 27/08/85 0 76
51-J 03/10/85 0 79
61-A 30/10/85 1 75
61-B 26/11/85 0 76
61-C 12/01/86 1 58

3
NASA, (1986). Challenger dataset. Recuperado de https://history.nasa.gov/rogersrep/genindex.htm.
5

Objetivos.
El propósito de este estudio de caso es cuantificar cuál fue la influencia de la temperatura en la
probabilidad de tener al menos un incidente relacionado con las juntas tóricas. Específicamente,
queremos abordar las siguientes preguntas:
1. P1. ¿La temperatura está asociada con incidentes de junta tórica?
2. P2. ¿De qué manera la temperatura estaba afectando la probabilidad de incidentes de junta
tórica?
3. P3. ¿Cuál fue la probabilidad pronosticada de un incidente en una junta tórica para la
temperatura del día de lanzamiento?
Marco Teórico.
Regresión logística
La regresión logística analiza datos distribuidos binomialmente de la forma
𝑌𝑖 ~𝐵(𝑝𝑖 , 𝑛𝑖 ), 𝑝𝑎𝑟𝑎 𝑖 = 1, … , 𝑚,
donde los números de ensayos Bernoulli 𝑛𝑖 son conocidos y las probabilidades de éxito 𝑝𝑖 son
desconocidas. El modelo es entonces obtenido a base de lo que cada ensayo (valor de 𝑖) y el
conjunto de variables explicativas/independientes puedan informar acerca de la probabilidad final.
Estas variables explicativas pueden pensarse como un vector 𝑋𝑖 k-dimensional y el modelo toma
entonces la forma
𝑌
𝑝𝑖 = 𝐸 (𝑛𝑖 |𝑋𝑖 ).
𝑖

Los logit de las probabilidades binomiales desconocidas son modeladas como una función lineal
de los 𝑋𝑖 .
𝑝𝑖
𝑙𝑜𝑔𝑖𝑡(𝑝𝑖 ) = ln ( ) = 𝛽0 + 𝛽1 𝑥1,𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘,𝑖 .
1 − 𝑝𝑖

Note que un elemento particular de 𝑋𝑖 puede ser ajustado a 1 para todo 𝑖 obteniéndose
una constante independiente en el modelo. Los parámetros desconocidos 𝛽𝑗 son usualmente
estimados a través de máxima verosimilitud.
La interpretación de los estimados del parámetro 𝛽𝑗 es como los efectos aditivos en el logaritmo
de la razón de momios para una unidad de cambio en la 𝑗 − é𝑠𝑖𝑚𝑎 variable explicativa. En el caso
de una variable explicativa dicotómica, por ejemplo género, 𝑒 𝛽 es la estimación de la razón de
momios (odds ratio) de tener el resultado para, por decir algo, hombres comparados con mujeres.
6

El modelo tiene una formulación equivalente dada por:

1
𝑝𝑖 =
1 + 𝑒 −(𝛽0+𝛽1 𝑥1,𝑖 +⋯+𝛽𝑘𝑥𝑘,𝑖 )

Esta forma funcional es comúnmente identificada como un "perceptrón" de una capa simple o red
neuronal artificial de una sola capa. Una red neuronal de una sola capa calcula una salida continua
en lugar de una función definida a trozos. La derivada de 𝑝𝑖 con respecto a 𝑋 = 𝑥1 … 𝑥𝑘 es
calculada de la forma general:

1
𝑦=
1 + 𝑒 −𝑓(𝑋)

donde 𝑓(𝑋) es una función analítica en X. Con esta elección, la red de capa simple es idéntica al
modelo de regresión logística. Esta función tiene una derivada continua, la cual permite ser usada
en propagación hacia atrás. Esta función también es preferida pues su derivada es fácilmente
calculable:
𝑑𝑓
𝑦 ′ = 𝑦(1 − 𝑦)
𝑑𝑋

Implementación práctica.
La regresión logística unidimensional puede usarse para tratar de correlacionar la probabilidad de
una variable cualitativa binaria (asumiremos que puede tomar los valores reales "0" y "1") con una
variable escalar x. La idea es que la regresión logística aproxime la probabilidad de obtener "0"
(no ocurre cierto suceso) o "1" (ocurre el suceso) con el valor de la variable explicativa 𝑥. En esas
condiciones, la probabilidad aproximada del suceso se aproximará mediante una función
logística del tipo
𝑒 (𝛽0 +𝛽1 𝑥) 1
𝜋(𝑥) = (𝛽 +𝛽 𝑥)
= −(𝛽 +𝛽 𝑥) ,
𝑒 0 1 +1 𝑒 0 1 +1
7

4
Figura 2: Función logística con 𝛽0 + 𝛽1 𝑥 en el eje horizontal y 𝜋(𝑥) en el eje vertical.
que puede reducirse al cálculo de una regresión lineal para la función logit de la probabilidad:

𝜋(𝑥)
𝑔(𝑥) = 𝑙𝑛 = 𝛽0 + 𝛽1 𝑥,
1 − 𝜋(𝑥)
o una regresión exponencial:
𝜋(𝑥)
= 𝑒 (𝛽0 +𝛽1 𝑥) .
1 − 𝜋(𝑥)
El gráfico de la función logística se muestra en la Figura 2, la variable independiente es la
combinación lineal (𝛽0 + 𝛽1 𝑥) y la variable dependiente es la probabilidad estimada 𝜋(𝑥). Si se
realiza la regresión lineal, la forma de la probabilidad estimada puede ser fácilmente recuperada a
partir de los coeficientes calculados:
Para hacer la regresión deben tomarse los valores 𝑋𝑖 de las observaciones ordenados de mayor a
menor y formar la siguiente tabla:

Valores Valor de Probabilidad Logit


ordenados categoría estimada
𝑋1 𝜀1 𝜋(𝑋1 ) 𝑔(𝑋1 )
𝑋2 𝜀2 𝜋(𝑋2 ) 𝑔(𝑋2 )
... ... ... ...
𝑋𝑛 𝜀𝑛 𝜋(𝑋𝑛 ) 𝑔(𝑋𝑛 )

4
Recuperado de https://www.wikiwand.com/es/Regresi%C3%B3n_log%C3%ADstica.
8

Donde 𝜀𝑗 es "0" o "1" según el caso y, además:

∑𝑖𝑘=1 𝜀𝑘 𝜋(𝑋 )
0 ≤ 𝜋(𝑋𝑖 ) = ≤ 1, 𝑔(𝑋𝑖 ) = ln (1−𝜋(𝑋𝑖 )) = 𝛽0 + 𝛽1 𝑋𝑖
𝑖 𝑖

En el cálculo de g pueden aparecer problemas al principio del intervalo si 𝜋(𝑋𝑖 ) = 0 para algunos
valores de 𝑗.
Modelo.
Comencemos el análisis replicando las Figura 1(b) y verificando que la regresión lineal no es la
herramienta adecuada para responder P1 – P3. Para eso, hacemos dos diagramas de dispersión de
Defecto (número de incidentes totales en las uniones de campo) versus Temperatura.
Probabilidad de defecto

Temperatura
Diagrama 1. Dispersión de Defecto versus Temperatura.
9

Hay un problema fundamental en el uso de la regresión lineal para estos datos: la respuesta no es
continua. Como consecuencia, no hay linealidad y los errores alrededor de la media no son
normales (de hecho, son fuertemente no normales).

Aunque la regresión lineal no es la herramienta adecuada para estos datos, es capaz de detectar la
diferencia obvia entre los dos gráficos:

1. La tendencia para los lanzamientos con incidentes es plana, lo que sugiere que no hay
dependencia de la temperatura (Figura 1(a)). Este fue uno de los argumentos detrás de
la decisión de la NASA de lanzar el cohete a una temperatura de 30.92 grados.
2. Sin embargo, la tendencia para todos los lanzamientos indica una clara dependencia
negativa entre la temperatura y la cantidad de incidentes. (Figura 1(b)). Piénselo de
esta manera: la temperatura mínima para un lanzamiento sin incidentes jamás registrada
fue superior a 64.4 grados, y el Challenger se lanzó a 30.92 sin conocer claramente los
efectos de temperaturas tan bajas.
En lugar de tratar de predecir el número de incidentes, nos concentraremos en modelar la
probabilidad de esperar al menos un incidente dada la temperatura, un enfoque más simple pero
también revelador. En otras palabras, buscamos estimar la siguiente curva:

𝑝(𝑥) = ℙ(𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑡𝑒 = 1|𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 𝑥)

de Defecto y Temperatura. Esta probabilidad no se puede modelar correctamente como una


función lineal como 𝛽0 + 𝛽1 𝑥, ya que inevitablemente caerá afuera [0,1] para algún valor de 𝑥
(algunos tendrán probabilidades negativas o probabilidades mayores que una). La técnica que
resuelve este problema es la regresión logística. La idea detrás es bastante simple: transformar un
modelo lineal 𝛽0 + 𝛽1 𝑥- que tiene como objetivo una respuesta en ℝ - para que produzca un valor
en [0,1]. Esto se logra mediante la función logística:

𝑒𝑡 1
𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝑡) = 1+𝑒 𝑡 = 1+𝑒 −𝑡 .

Para modelar la probabilidad de que las juntas tóricas fallen a varias temperaturas, podríamos
aplicar el modelo de regresión logística,
10

𝑒 𝛽0 +𝛽1 𝑥𝑖
ℙ(𝑌𝑖 = 1|𝑥𝑖 ) = = 𝜋𝑖
1 + 𝑒 (𝛽0 +𝛽1 𝑥𝑖 )

donde para la observación 𝑖:

 𝑌𝑖 = 1 denota al menos una falla de la junta tórica para un lanzamiento dado,


 𝑌𝑖 = 0 indica que no fallan las juntas tóricas (lanzamiento exitoso) y
 𝑥𝑖 denota la temperatura exterior en grados Fahrenheit en el momento del lanzamiento.

Tenga en cuenta que si 𝛽1 es cero en el modelo anterior, entonces 𝑥𝑖 (temperatura) no proporciona


información sobre la probabilidad de una junta tórica fallida. Por lo tanto, podríamos probar la
hipótesis de que:

𝐻0 :𝛽1 = 0

𝐻𝑎 :𝛽1 ≠ 0

El modelo logístico sería el siguiente:

𝑒 𝛽0 +𝛽1 𝑥
ℙ(𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑡𝑒 = 1|𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 𝑥) = 𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝛽0 + 𝛽1 𝑥) =
1 + 𝑒 (𝛽0 +𝛽1 𝑥)

con 𝛽0 + 𝛽1 𝑥 desconocidos.

Estimación Máxima Verosimilitud de los parámetros.


̂0 , 𝛽
La estimación de los parámetros 𝛽 ̂1 , … , 𝛽
̂𝑛 de un modelo de regresión logística se efectúa por
medio del método de estimación por máxima verosimilitud. Según dicho método se obtienen los
estimadores máximos verosímiles como funciones de la muestra que hacen que se maximice la
función de verosimilitud asociada a la nuestra.

Denotando por 𝐿((𝑥 (1) , 𝑐 (1) ), … , (𝑥 (𝑁) , 𝑐 (𝑁) ), 𝛽0 , 𝛽1 , … , 𝛽𝑛 ) a la función de verosimilitud asociada
̂0 , 𝛽
a una muestra de tamaño 𝑁, para un modelo de regresión logística con parámetros 𝛽 ̂1 , … , 𝛽
̂𝑛 ,
con una variable clase 𝐶 dicotómica, se tiene que:

𝐿 ((𝑥 (1) , 𝑐 (1) ), … , (𝑥 (𝑁) , 𝑐 (𝑁) ), 𝛽0 , 𝛽1 , … , 𝛽𝑛 ) =


11

𝑁
(𝑗) 1−𝑐 (𝑗)
(𝑗) 𝑐 (𝑗)
= ∏ 𝑃(𝐶 = 1|𝑥 ) (1 − 𝑃(𝐶 = 1|𝑥 ))
𝑗=1

Por otra parte, teniendo en cuenta que 𝑙𝑛(𝑧) es una función creciente estrictamente, y por tanto el
̂0 , 𝛽
valor de los parámetros 𝛽 ̂1 , … , 𝛽
̂𝑛 maximizando

𝐿 ((𝑥 (1) , 𝑐 (1) ), … , (𝑥 (𝑁) , 𝑐 (𝑁) ), 𝛽0 , 𝛽1 , … , 𝛽𝑛 )

coincide con el valor de los parámetros que maximiza

𝑙𝑛𝐿 ((𝑥 (1) , 𝑐 (1) ), … , (𝑥 (𝑁) , 𝑐 (𝑁) ), 𝛽0 , 𝛽1 , … , 𝛽𝑛 )

Desarrollando el logaritmo natural de la función de verosimilitud obtenemos:

𝑙𝑛𝐿 ((𝑥 (1) , 𝑐 (1) ), … , (𝑥 (𝑁) , 𝑐 (𝑁) ), 𝛽0 , 𝛽1 , … , 𝛽𝑛 ) =

𝑁 𝑁
(𝑗) (𝑗)
= ∑𝑐 𝑙𝑛𝑃(𝐶 = 1|𝑥 ) + ∑(1 − 𝑐 (𝑗) ) ln (1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )) =
𝑗=1 𝑗=1

𝑁 𝑁

= ∑ 𝑐 (𝑗) [𝑙𝑛𝑃(𝐶 = 1|𝑥 (𝑗) ) − ln (1 − 𝑃(𝐶 = 1|𝑥 (𝑗) ))] + ∑ ln (1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )) =
𝑗=1 𝑗=1

𝑁 𝑁
(𝑗)
𝑃(𝐶 = 1|𝑥 (𝑗) )
= ∑𝑐 𝑙𝑛 + ∑ ln (1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )) =
1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )
𝑗=1 𝑗=1

Teniendo en cuenta que


𝑛
𝑃(𝐶 = 1|𝑥 (𝑗) )
𝑙𝑛 = 𝛽0 + ∑ 𝛽𝑖 𝑥𝑖 (𝑗)
1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )
𝑖=1

y que
𝑛 (𝑗) )
(𝑗) 𝑒 −(𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 1
(1 − 𝑃(𝐶 = 1|𝑥 )) = =
−(𝛽0 +∑𝑛 (𝑗)
𝑖=1 𝛽𝑖 𝑥𝑖 ) (𝛽0 +∑𝑛 (𝑗)
𝑖=1 𝛽𝑖 𝑥𝑖 )
1+𝑒 1+𝑒
12

Obtenemos

𝑙𝑛𝐿 ((𝑥 (1) , 𝑐 (1) ), … , (𝑥 (𝑁) , 𝑐 (𝑁) ), 𝛽0 , 𝛽1 , … , 𝛽𝑛 ) =

𝑁 𝑛 𝑁
(𝑗) (𝑗) 𝑛 (𝑗) )
∑𝑐 (𝛽0 + ∑ 𝛽𝑖 𝑥𝑖 ) + ∑ ln (1 + 𝑒 (𝛽0+∑𝑖=1 𝛽𝑖 𝑥𝑖 )
𝑗=1 𝑖=1 𝑗=1

̂0 , 𝛽
Los estimadores máximos verosímiles 𝛽 ̂1 , … , 𝛽
̂𝑛 para los parámetros 𝛽0 , 𝛽1 , … , 𝛽𝑛 se van a
obtener al resolver al resolver el siguiente sistema de 𝑛 + 1 ecuaciones e 𝑛 + 1 incógnitas:

𝑁 𝑁 𝑛 (𝑗)
𝜕𝑙𝑛𝐿 𝑒 (𝛽0+∑𝑖=1 𝛽𝑖 𝑥𝑖 )
= ∑ 𝑐 (𝑗) − ∑ 𝑛 (𝑗) = 0
𝜕𝛽0 1 + 𝑒 (𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 )
𝑗=1 𝑗=1

𝑁 𝑁 𝑛 (𝑗)
𝜕𝑙𝑛𝐿 𝑒 (𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 )
= ∑ 𝑐 (𝑗) 𝑥1 (𝑗) − ∑ 𝑥1 (𝑗) 𝑛 (𝑗) = 0
𝜕𝛽1 1 + 𝑒 (𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 )
𝑗=1 𝑗=1

𝑁 𝑁 𝑛 (𝑗)
𝜕𝑙𝑛𝐿 (𝑗) (𝑗) (𝑗) 𝑒 (𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 )
= ∑ 𝑐 𝑥𝑛 − ∑ 𝑥𝑛 𝑛 (𝑗) = 0
𝜕𝛽𝑛 1 + 𝑒 (𝛽0+∑𝑖=1 𝛽𝑖 𝑥𝑖 )
𝑗=1 𝑗=1

En el anterior sistema de 𝑛 + 1 ecuaciones y 𝑛 + 1 incógnitas no es posible obtener una fórmula


cerrada para los estimadores de los parámetros 𝛽0 , 𝛽1 , … , 𝛽𝑛 , de ahí que lo habitual sea utilizar
técnicas iterativas para llevar a cabo dichas estimaciones. Al utilizar el método de Newton-
Raphson para llevar a cabo dichas iteraciones, se obtiene la siguiente fórmula de actualización de
los parámetros:

𝛽̂ 𝑛𝑢𝑒𝑣𝑜 = 𝛽̂ 𝑣𝑖𝑒𝑗𝑜 + (𝑿𝒕 𝑾𝑿)−1 𝑿𝑡 (𝒄 − 𝒑


̂)

donde

𝛽̂ = (𝛽
̂1 , … , 𝛽
̂𝑛 )

𝑿 matriz cuyas filas son 𝑥 (𝑗) , 𝑗 = 1, … , 𝑁. Es decir, 𝑿 ∈ 𝑀(𝑁, 𝑛)

𝑾 matriz diagonal con elementos 𝑝(𝑗) (1 − 𝑝(𝑗) ), 𝑗 = 1, … , 𝑁, 𝑾 ∈ 𝑀(𝑁, 𝑁)


13

𝑝(1) (1 − 𝑝(1) ) ⋯ 0
𝑾=( ⋮ ⋱ ⋮ )
(𝑁) (𝑁)
0 ⋯ 𝑝 (1 − 𝑝 )

̂ vector cuya componente 𝑗 − é𝑠𝑖𝑚𝑎 indica la probabilidad estimada en esa iteración.


𝒑

̂ ∈ 𝑀(𝑁, 1), con


Es decir, 𝒑

(𝑗) ̂ 𝑣𝑖𝑒𝑗𝑜 )
(𝑗) 𝑒 (𝑥 𝛽
𝑝 = ̂ 𝑛𝑢𝑒𝑣𝑜 )
(𝑗) 𝛽
1 + 𝑒 (𝑥

c vector de componentes 𝑐 (𝑗) , 𝑗 = 1, … , 𝑁. Por lo tanto 𝒄 ∈ 𝑀(𝑁, 1).

Los criterios de convergencia del método iterativo utilizado para estimar los parámetros pueden
ser varios, pero en todos ellos la idea subyacente es que bien 𝛽̂ 𝑣𝑖𝑒𝑗𝑜 ≅ 𝛽̂ 𝑛𝑢𝑒𝑣𝑜 o 𝑙𝑛𝐿(𝛽̂ 𝑣𝑖𝑒𝑗𝑜 ) ≅
𝑙𝑛𝐿(𝛽̂ 𝑛𝑢𝑒𝑣𝑜 ) o 𝑝̂ 𝑣𝑖𝑒𝑗𝑜 ≅ 𝑝̂ 𝑛𝑢𝑒𝑣𝑜 .

Resultados.
Utilizamos nuestro programa en R para obtener estimaciones de los coeficientes 𝛽0 y 𝛽1 para los
datos, por lo tanto, el modelo estimado para 𝜋𝑖 viene dado por

𝑒 15.043−0.232𝑥𝑖
ℙ(𝑌𝑖 = 1|𝑥𝑖 ) = = 𝜋𝑖
1 + 𝑒 15.043−0.232𝑥𝑖

donde 𝑏0 = 15.043 es el valor de Defecto que estima 𝛽0 y 𝑏1 = −0.232 es el valor de Temperatura


que estima 𝛽1.

Es importante destacar que el valor p para la prueba de Temperatura muestra un resultado


significativo (𝑝 = 0.0320) que proporciona evidencia suficiente para concluir que 𝛽1 ≠ 0, lo
que nos permite concluir que la temperatura afecta la probabilidad de una falla de la junta tórica.

El resumen del modelo logístico es notablemente diferente de la regresión lineal, ya que la


metodología detrás es bastante diferente. Sin embargo, tenemos pruebas de la importancia de cada
coeficiente. Aquí obtenemos que la temperatura es significativamente diferente de cero, al menos
a un nivel 𝛼 = 0.05. Por lo tanto, podemos concluir que la temperatura está afectando la
probabilidad de un incidente con las juntas tóricas (respuestas P1).
14

El coeficiente de temperatura 𝛽1, puede considerarse la "correlación entre la temperatura y la


probabilidad de tener al menos un incidente". Esta correlación, como lo demuestra el signo de 𝛽1,
es negativo.

Tracemos la curva logística ajustada para ver que efectivamente la probabilidad de incidente y la
temperatura están negativamente correlacionadas:

Figura 3. Logit se ajusta a los datos del Challenger

A la vista de esta curva y el resumen del modelo, podemos concluir que la temperatura estaba
aumentando la probabilidad de un incidente de junta tórica (P2).

De hecho, los intervalos de confianza para los coeficientes muestran un significado de correlación
negativa a nivel 𝛼 = 0.05:

2.5 % 97.5 %
Defecto 3.3305848 34.34215133
Temperatura -0.5154718 -0.06082076

Para demostrar que la regresión logística se ajusta bien a estos datos, aplicamos la prueba de
bondad de ajuste de Hosmer-Lemeshow, utilice las pruebas de bondad de ajuste para determinar
si las probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que
la distribución binomial no predice.
15

Si el valor p para la prueba de bondad de ajuste es menor que el nivel de significancia elegido, las
probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que la
distribución binomial no predice.

p-value = 0.1157

Rechazamos la hipótesis nula y afirmamos que la regresión logística es apropiada

Conclusiones.

Cuando la temperatura es cero no es realmente realista para este modelo, el valor de 𝑒 𝑏0 no es


interpretable. Sin embargo, el valor de 𝑒 𝑏1 = 𝑒 −0.232 ≈ 0.79 muestra que las probabilidades de
que las juntas tóricas fallen en un lanzamiento dado disminuyen y cambian en un factor de 0.79
por cada aumento de temperatura de 1 ° F. (Tenga en cuenta que esto implica que cada disminución
de 1 ° F en la temperatura aumenta las probabilidades de una junta tórica fallida por un factor de
𝑒 0.232 ≈ 1.26.) El transbordador Challenger se lanzó a una temperatura de 31 ° F. Esperando hasta
53 ° F, las probabilidades de falla habrían disminuido en un factor de 𝑒 −0.232 (53 − 31) ≈ 0.006.
Tenga en cuenta que para una temperatura de 31 ° F nuestro modelo pone la probabilidad de una
falla en

𝑒 15.043−0.232.31
ℙ(𝑌𝑖 = 1|𝑥𝑖 ) = = 𝜋𝑖
1 + 𝑒 15.043−0.232.31

que, usando R para hacer este cálculo, obtenemos 𝜋𝑖 ≈ 0.999616.

Finalmente, la probabilidad de tener al menos un incidente con las juntas tóricas en el día del
lanzamiento fue 0.9996 según el modelo logístico ajustado (P3).

Esta extrapolación, junto con las evidencias planteadas por un análisis simple como lo hicimos
nosotros, deberían haber sido argumentos sólidos para posponer el lanzamiento.
16

Referencias.

 Lab notes for Statistics for Social Sciences II: Multivariate Techniques. BSc in International
Studies and BSc in International Studies & Political Science, Carlos III University of Madrid.
Eduardo García Portugués2018-01-20, v12.3 https://bookdown.org/egarpor/SSS2-UC3M/logreg-
examps.html
 Presidential Commission on the Space Shuttle Challenger Accident. 1986. Report of the
Presidential Commission on the Space Shuttle Challenger Accident (Vols. 1 & 2). Washington,
DC. http://history.nasa.gov/rogersrep/genindex.htm.

 Dalal, Siddhartha R., Edward B. Fowlkes, and Bruce Hoadley. 1989. “Risk Analysis of the Space
Shuttle: Pre-Challenger Prediction of Failure.” Journal of the American Statistical Association 84
(408): 945–57. doi:10.1080/01621459.1989.10478858.
 Pedro Larranaga, Iñaki Inza, Abdelmalik Moujahid. Departamento de Ciencias de la Computación
e Inteligencia Artificial. Universidad del País Vasco–Euskal Herriko Unibertsitatea.
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t7logistica.

S-ar putea să vă placă și