Sunteți pe pagina 1din 14

TRABAJO 1 – RLM

Estadística 2

Integrantes
Felipe Lopera Ángel
Juan Felipe Mora Quintero
Vanessa Peralta Valencia

Equipo 10
Grupo M-J (8:00-10:00 am)
Trabajo 1
Regresión lineal múltiple
Presentación del problema

En un estudio a gran escala realizado en EEUU sobre la eficacia en el control de


infecciones hospitalarias se recogió información en 113 hospitales. Posteriormente se
analizó una muestra aleatoria de 65 hospitales. A continuación, se definen las variables.

Y: Riesgo de infección
X1: Duración de la estadía
X2: Rutina de cultivos
X3: Número de camas
X4: Censo promedio diario
X5: Número de enfermeras

Los datos están disponibles en el archivo Equipo10.txt


A continuación, una vista previa de los datos:

Riesgo de X1 X2 X3 X4 X5
infección
3.9 8.28 49.5 12 113.1 546
4.7 10.72 53.8 23.2 94.1 113
… … … … … …
3.9 11.15 56.5 7.7 73.9 281
3.7 7.58 56.7 20.8 88 97

Matriz de gráficas de dispersión con boxplots y correlaciones


Desarrollo del trabajo
1.

Estime un modelo de regresión lineal múltiple que explique el Riesgo de Infección en


términos de todas las variables predictoras. Analice la significancia de la regresión y de
los parámetros individuales. Interprete los parámetros estimados. Calcule e interprete el
coeficiente de determinación múltiple R2. Comente los resultados.

Estimación del modelo de regresión lineal múltiple

Sean X₁ =Duración de la estadía


n=65 X₂ = Rutina de cultivos
k=5 X₃ = Número de camas
p=6 X₄ = Censo promedio diario
Y=Riesgo de infección X₅ = Número de enfermeras

Con base en el análisis de la matriz de gráficos de dispersión se plantea un modelo RLM


para el problema:

Para todo i=1,2,3, … ,65 ε 𝑖𝑖𝑑


̃ N (0, σ2I)

Y con base en la tabla de parámetros estimados se obtiene la ecuación de regresión


ajustada:

Ŷi= -0.072957369 + 0.090589236Xi₁ + 0.024027207Xi₂ + 0.047121774Xi₃ +


0.014381457Xi₄ + 0.001676887Xi₅

Para todo i=1,2,3, … ,65

También se puede especificar el modelo en términos matriciales, así:

y = Xβ + ε con ε ∼iid N(0, σ2I)

Significancia de los parámetros del modelo


̂j
β
Estadístico de prueba t0= ̂ j) ~bajo H0
Se(β
t0,025 , 59 = 2.001
Estas pruebas establecen el siguiente juego de hipótesis:
H0: βj = 0
Ha: βj ≠ 0
para j = 0, 1, . . . , 5.

Se rechaza si P Value es más pequeño que α ó si t0 es mayor a t0,025, 59 = 2.001


En la siguiente tabla se evalúa la decisión para cada parámetro:

βj t0 PValue Decisión
β0 -0.0459 0.9639 No rechazo H0 es decir que β0 no es significativo
β1 0.9898 0.3263 No rechazo H0 es decir que β1 no es significativo
β2 0.7830 0.4367 No rechazo H0 es decir que β2 no es significativo
β3 3.6760 0.0005 Rechazo H0 por lo tanto β3 es significativo
β4 2.0745 0.0424 Rechazo H0 por lo tanto β4 es significativo
β5 2.1591 0.0349 Rechazo H0 por lo tanto β5 es significativo

A partir de las pruebas de significancia P Value y valor estadístico de prueba se puede


concluir con un nivel de significancia de α = 0.05 que los parámetros individuales β3, β4,
β5 son significativos cada uno en presencia de los demás parámetros. Por otro lado, se
encuentra que β0, β1, β2, son individualmente no significativos en presencia de los
demás parámetros.

Interpretación de los parámetros estimados

En primer lugar, se deben identificar aquellos parámetros susceptibles de interpretación,


ya que solo es posible interpretar aquellos que resultaron significativos individualmente,
en este caso son: β3, β4, β5.

 Por un aumento unitario en el número de camas se espera que el riesgo de infección


aumente en promedio 0.047121774 siempre que las demás covariables permanezcan
constantes.
 Por un aumento unitario en el censo promedio diario se espera que el riesgo de
infección aumente en promedio 0.14381457 siempre que las demás covariables
permanezcan constantes.
 Por un aumento unitario en número de enfermeras se espera que el riesgo de
infección aumente en promedio 0.001676887 siempre que las demás covariables
permanezcan constantes.
En conclusión, el número promedio de camas, el número promedio de pacientes en el
hospital por día durante el periodo del estudio y el número de enfermeras afectan de
manera significativa el Riesgo de Infección.

Significancia de la regresión

Se prueba la significancia de la regresión por medio de las pruebas establecidas en el


siguiente juego de hipótesis:

H₀: β₁=β₂=β₃=β₄=β₅=0
Hₐ: Al menos un βj ≠0
para j= 1, 2, 3, 4, 5,

Tabla ANOVA

Los resultados de las pruebas cómo lo son el valor P y el valor del estadístico de prueba
se obtienen en las dos últimas columnas de la tabla de parámetros estimados. De esta
manera el estadístico de prueba:

𝑀𝑆𝑅
F0 = ~𝐹 5,59
𝑀𝑆𝐸

F0 = 9.93511

Región de rechazo:
P Value < 0.05

6.27267e-07 < 0.05

Con un nivel de significancia del 5% se puede concluir que hay suficiente evidencia
muestral para rechazar la hipótesis nula concluyendo que el modelo de RLM propuesto
es significativo. Por tanto, puede afirmarse que el riesgo de infección se relaciona con al
menos una de las variables predictoras.

Cálculo e interpretación del coeficiente de determinación

𝑆𝑆𝑇
Se sabe que 𝑅 2 = 1 - de manera que se puede calcular a partir de la tabla ANOVA.
SSE

Teniendo en cuenta que SST = SSR+SSE = 43.5893+51.7713 = 95.3606


43.5893
Así, 𝑅 2 = = 0.4571
95.3606

De esta forma, el 45.71% de la variabilidad total en el Riesgo de Infección es explicado


por el modelo de RLM propuesto; esto indica que no hay un muy buen ajuste por parte
del modelo. Por otro lado, se puede calcular el R2 ajustado como una medida de bondad
de ajuste, así:

2
(𝑛 − 1)𝑀𝑆𝐸
𝑅𝑎𝑑𝑗 =1−
𝑆𝑆𝑇

Así,
2
(65 − 1)0.87748
𝑅𝑎𝑑𝑗 =1− = 0.4151
95.3606
2
El valor de 𝑅𝑎𝑑𝑗 = 0.4151 es menor que 𝑅 2 = 0.4571 lo que indica que en el modelo
propuesto podría haber variables que no aporten significativamente. Es decir que se
podría depurar el modelo eliminando aquellas variables redundantes.

2.

Use la tabla de todas las regresiones posibles, para probar la significancia simultánea del
subconjunto de tres variables con los valores p mayores del punto anterior. Según el
resultado de la prueba ¿es posible descartar del modelo las variables del subconjunto?

De la tabla de coeficientes podemos definir que las variables que se estudiarán en el


subconjunto serán:

X₁ =Duración de la estadía
X₃ = Número de camas
X₄ = Censo promedio diario

Esto quiere decir, que se quiere analizar, si la duración de la estadía (Duración promedio
de la estadía de todos los pacientes en el hospital (en días), el número de camas (Número
promedio de camas en el hospital durante el periodo del estudio) y el censo promedio
diario (Número promedio de pacientes en el hospital por día durante el periodo del
estudio), son significativas en el momento de evaluar el riesgo de contraer una infección
en los 65 hospitales evaluados.

Para esto se realiza la siguiente prueba de hipótesis

H0: β1= β3= β4=0


H1: βj ≠ 0
para j=1,2,4

Modelo completo (MC): Yi= β₀ + β₁Xi₁ + β₂Xi₂ + β₃Xi₃ + β₄Xi₄ + β₅Xi₅ + εi


Modelo Reducido (MR): Yi= β₀ + β₂Xi₂ +β₅Xi₅ + εi

[𝑆𝑆𝐸(𝑀𝑅)−𝑆𝑆𝐸(𝑀𝐶)]/3 (85.383−51.771)/3
F0 = ~𝑓3,59 = = 13.148257
𝑀𝑆𝐸(𝑀𝐶) 0.87748

SSE(MR): Se encuentra en la tabla de todas las regresiones posibles =85.383


SSE(MC): También se halla en la tabla, como la regresión que incluye todas las variables =51.771
MSE(MC): Se obtiene de la tabla ANOVA = (SSE)/(n-p) donde su valor es 0.01487254237

Región de Rechazo {𝐹0 |𝐹0 > 𝐹∝,𝑔𝑙𝑠𝑠𝑒𝑥𝑡𝑟𝑎,𝑛−𝑝 }

𝑓0.05,3,59 = 2.758078
Como 𝐹0 >𝑓0.05,3,59 = (13,1482 > 2.760767), se rechaza H0, entonces se concluye que el
riesgo de infección en los hospitales depende al menos de una de las variables asociadas
al subconjunto de variables seleccionadas para el estudio (duración de la estadía, número
de camas, censo promedio diario).

Este análisis se puede verificar mediante el punto anterior ya que se concluyó que los
parámetros β3 y β4 eran significativos para el Riesgo de Infección.
3.

Plantee una pregunta donde su solución implique el uso exclusivo de una prueba de
hipótesis lineal general de la forma H0 : Lβ = 0 (solo se puede usar este procedimiento y
no SSextra), donde especifique claramente la matriz L, el modelo reducido y la expresión
para el estadístico de prueba.

Pregunta

¿Acaso tiene la misma incidencia en el porcentaje de probabilidad de infección el


quedarse X1 días en el hospital a que hayan X4 pacientes promedio durante el período de
estudio? Además, ¿el número de camas tiene la misma afectación en la variable
dependiente que el número de enfermeras?

β1= β4 β1-β4=0

H0:
β3= β5 β3- β5=0

De forma matricial,

β0

β1

H0: 0 1 0 0 -1 0 β2 0

0 0 0 1 0 -1 β3 =

β4 0

β5

Escribiendo el modelo reducido (RM)

Note que la matriz L tiene r = 2 filas linealmente independientes (observe que una fila
no puede escribirse como un múltiplo escalar de la otra).

RM: y = β0 + β1 (X1+ X4) + β2X2 + β3 (X3+ X5)

y = β30 + β X1,4 + β2 X2 + β3 X3,5

Siendo X1,4 = X1 + X4 y X3,5 = X3 +X5

Y ahora escribimos el estadístico de prueba,

4.
Realice una validación de los supuestos en los errores y examine si hay valores atípicos,
de balanceo e influénciales. ¿Qué puede decir acerca de la validez de este modelo?
Argumente.

Validación supuestos sobre errores

Prueba de normalidad

H0: εi ~ N vs H1: εi ≠ N

Por la prueba gráfica es posible evidenciar que casi todos los errores se acercan a la línea
y esto refleja que puede haber una tendencia a que los errores identificados en el modelo
se distribuyan de forma normal. Además, se confirma este análisis mediante una prueba
de Shapiro Wilk que arroja un valor p=0.7536 y como este valor es grande no se puede
rechazar H0.

Varianza constante

H0: V[εi]= σ2 vs Ha: V[εi] ≠ σ2


A partir de la gráfica de residuales Estudentizados se puede observar que pesar de que
hay algunos valores que se encuentran alejados, en general se evidencia una tendencia de
los puntos a formar un rectángulo lo que supone que el modelo tiene varianza constante.
Así, la mayoría de los puntos se concentran en esta figura, y de una manera no tan estricta
se puede entender que algunas observaciones sean atípicas.

Por lo tanto, a partir de la prueba gráfica se puede concluir que no es posible rechazar
con certeza la hipótesis nula.

Observaciones atípicas

A continuación, se calculan los estadísticos que permiten aplicar criterios en ese sentido,
estos son: residuales Estudentizados, los valores de la diagonal de la matriz H (hii), la
distancia de Cook (di) y los DFFITS.

Una observación será atípica si se tiene un residual Estudientizado ri cuyo su valor


absoluto sea mayor a 3. Según la Columna de los residuales Estudentizados se tiene que
ninguna observación es atípica, el valor más bajo que se obtiene en la muestra es -2.3503
en el dato 55, esto significa que no tenemos puntos atípicos en el estudio.

Puntos de balanceo
2𝑝
Se asume que i es un punto de balanceo si hii >
𝑛

2𝑝 2∗6
En este caso se tiene que = = 0.18461
𝑛 65

Los puntos según la columna son: 1,14,15,16,48,54,55 puntos de balanceo

Valores influenciales

Para evaluar esto se utilizan dos parámetros, la distancia de Cook y el DFFITS. Para el di,
2𝑝
diremos que es influencial si di>1 y para el DFFITS si su valor absoluto es mayor a √ 𝑛

Teniendo en cuenta el criterio de la distancia de cook no se encuentra ningún punto que


sea influencial. Pero con el criterio de DFFITS se evidencia que

Los datos 1,14,16,50,55 son influenciales.


De esta manera se puede resumir que en el conjunto de datos:

 Se tienen 0 observaciones atípicas.


 Los puntos 1,14,15,16,48,54,55 son puntos de balanceo.
 Las observaciones 1,14,16,50,55 son valores influenciales.

Argumentación sobre la validez del modelo

Finalmente, acerca de la validez del modelo consideramos que: a pesar de ser


significativo, porque se relaciona con al menos una de las variables predictoras, este no
tiende a ser lineal.

Esto se puede confirmar a partir del valor del R2 (45.71%), este valor puede verse
afectado porque en la muestra se presentan 7 puntos de balanceo y estas observaciones
pueden controlar algunas propiedades del modelo afectando su ajuste. Además, hay 5
valores influenciales que podrían halar el modelo en su dirección y esto hace que haya un
desbalance (descuadre) y que este no tienda a ser lineal.

Hay variables que sobran en este estudio y deberían ser eliminadas para obtener una
mejor predicción y análisis más apropiados para el Riesgo de Infección y la manera en
que este se ve afectado por las predictoras.

S-ar putea să vă placă și