Documente Academic
Documente Profesional
Documente Cultură
Estadística 2
Integrantes
Felipe Lopera Ángel
Juan Felipe Mora Quintero
Vanessa Peralta Valencia
Equipo 10
Grupo M-J (8:00-10:00 am)
Trabajo 1
Regresión lineal múltiple
Presentación del problema
Y: Riesgo de infección
X1: Duración de la estadía
X2: Rutina de cultivos
X3: Número de camas
X4: Censo promedio diario
X5: Número de enfermeras
Riesgo de X1 X2 X3 X4 X5
infección
3.9 8.28 49.5 12 113.1 546
4.7 10.72 53.8 23.2 94.1 113
… … … … … …
3.9 11.15 56.5 7.7 73.9 281
3.7 7.58 56.7 20.8 88 97
βj t0 PValue Decisión
β0 -0.0459 0.9639 No rechazo H0 es decir que β0 no es significativo
β1 0.9898 0.3263 No rechazo H0 es decir que β1 no es significativo
β2 0.7830 0.4367 No rechazo H0 es decir que β2 no es significativo
β3 3.6760 0.0005 Rechazo H0 por lo tanto β3 es significativo
β4 2.0745 0.0424 Rechazo H0 por lo tanto β4 es significativo
β5 2.1591 0.0349 Rechazo H0 por lo tanto β5 es significativo
Significancia de la regresión
H₀: β₁=β₂=β₃=β₄=β₅=0
Hₐ: Al menos un βj ≠0
para j= 1, 2, 3, 4, 5,
Tabla ANOVA
Los resultados de las pruebas cómo lo son el valor P y el valor del estadístico de prueba
se obtienen en las dos últimas columnas de la tabla de parámetros estimados. De esta
manera el estadístico de prueba:
𝑀𝑆𝑅
F0 = ~𝐹 5,59
𝑀𝑆𝐸
F0 = 9.93511
Región de rechazo:
P Value < 0.05
Con un nivel de significancia del 5% se puede concluir que hay suficiente evidencia
muestral para rechazar la hipótesis nula concluyendo que el modelo de RLM propuesto
es significativo. Por tanto, puede afirmarse que el riesgo de infección se relaciona con al
menos una de las variables predictoras.
𝑆𝑆𝑇
Se sabe que 𝑅 2 = 1 - de manera que se puede calcular a partir de la tabla ANOVA.
SSE
2
(𝑛 − 1)𝑀𝑆𝐸
𝑅𝑎𝑑𝑗 =1−
𝑆𝑆𝑇
Así,
2
(65 − 1)0.87748
𝑅𝑎𝑑𝑗 =1− = 0.4151
95.3606
2
El valor de 𝑅𝑎𝑑𝑗 = 0.4151 es menor que 𝑅 2 = 0.4571 lo que indica que en el modelo
propuesto podría haber variables que no aporten significativamente. Es decir que se
podría depurar el modelo eliminando aquellas variables redundantes.
2.
Use la tabla de todas las regresiones posibles, para probar la significancia simultánea del
subconjunto de tres variables con los valores p mayores del punto anterior. Según el
resultado de la prueba ¿es posible descartar del modelo las variables del subconjunto?
X₁ =Duración de la estadía
X₃ = Número de camas
X₄ = Censo promedio diario
Esto quiere decir, que se quiere analizar, si la duración de la estadía (Duración promedio
de la estadía de todos los pacientes en el hospital (en días), el número de camas (Número
promedio de camas en el hospital durante el periodo del estudio) y el censo promedio
diario (Número promedio de pacientes en el hospital por día durante el periodo del
estudio), son significativas en el momento de evaluar el riesgo de contraer una infección
en los 65 hospitales evaluados.
[𝑆𝑆𝐸(𝑀𝑅)−𝑆𝑆𝐸(𝑀𝐶)]/3 (85.383−51.771)/3
F0 = ~𝑓3,59 = = 13.148257
𝑀𝑆𝐸(𝑀𝐶) 0.87748
𝑓0.05,3,59 = 2.758078
Como 𝐹0 >𝑓0.05,3,59 = (13,1482 > 2.760767), se rechaza H0, entonces se concluye que el
riesgo de infección en los hospitales depende al menos de una de las variables asociadas
al subconjunto de variables seleccionadas para el estudio (duración de la estadía, número
de camas, censo promedio diario).
Este análisis se puede verificar mediante el punto anterior ya que se concluyó que los
parámetros β3 y β4 eran significativos para el Riesgo de Infección.
3.
Plantee una pregunta donde su solución implique el uso exclusivo de una prueba de
hipótesis lineal general de la forma H0 : Lβ = 0 (solo se puede usar este procedimiento y
no SSextra), donde especifique claramente la matriz L, el modelo reducido y la expresión
para el estadístico de prueba.
Pregunta
β1= β4 β1-β4=0
H0:
β3= β5 β3- β5=0
De forma matricial,
β0
β1
H0: 0 1 0 0 -1 0 β2 0
0 0 0 1 0 -1 β3 =
β4 0
β5
Note que la matriz L tiene r = 2 filas linealmente independientes (observe que una fila
no puede escribirse como un múltiplo escalar de la otra).
4.
Realice una validación de los supuestos en los errores y examine si hay valores atípicos,
de balanceo e influénciales. ¿Qué puede decir acerca de la validez de este modelo?
Argumente.
Prueba de normalidad
H0: εi ~ N vs H1: εi ≠ N
Por la prueba gráfica es posible evidenciar que casi todos los errores se acercan a la línea
y esto refleja que puede haber una tendencia a que los errores identificados en el modelo
se distribuyan de forma normal. Además, se confirma este análisis mediante una prueba
de Shapiro Wilk que arroja un valor p=0.7536 y como este valor es grande no se puede
rechazar H0.
Varianza constante
Por lo tanto, a partir de la prueba gráfica se puede concluir que no es posible rechazar
con certeza la hipótesis nula.
Observaciones atípicas
A continuación, se calculan los estadísticos que permiten aplicar criterios en ese sentido,
estos son: residuales Estudentizados, los valores de la diagonal de la matriz H (hii), la
distancia de Cook (di) y los DFFITS.
Puntos de balanceo
2𝑝
Se asume que i es un punto de balanceo si hii >
𝑛
2𝑝 2∗6
En este caso se tiene que = = 0.18461
𝑛 65
Valores influenciales
Para evaluar esto se utilizan dos parámetros, la distancia de Cook y el DFFITS. Para el di,
2𝑝
diremos que es influencial si di>1 y para el DFFITS si su valor absoluto es mayor a √ 𝑛
Esto se puede confirmar a partir del valor del R2 (45.71%), este valor puede verse
afectado porque en la muestra se presentan 7 puntos de balanceo y estas observaciones
pueden controlar algunas propiedades del modelo afectando su ajuste. Además, hay 5
valores influenciales que podrían halar el modelo en su dirección y esto hace que haya un
desbalance (descuadre) y que este no tienda a ser lineal.
Hay variables que sobran en este estudio y deberían ser eliminadas para obtener una
mejor predicción y análisis más apropiados para el Riesgo de Infección y la manera en
que este se ve afectado por las predictoras.