Sunteți pe pagina 1din 22

ESTADÍSTICA GENERAL

Semana 15
MODELO DE REGRESIÓN LINEAL SIMPLE
Existen parámetros 𝛽0 , 𝛽1 y 𝜎 2 de tal suerte que con cualquier valor fijo de la variable
independiente X, la variable dependiente está relacionada con X por conducto de la
ecuación de modelo

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜖

La cantidad 𝜖 en la ecuación de modelo es una variable aleatoria, que se supone está


normalmente distribuida con E(𝜖) = 0 y V(𝜖) = 𝜎 2 .

La variable 𝜖 se conoce como término de error aleatorio o desviación aleatoria en el


modelo.
Sin 𝜖, cualquier par observado (x, y) correspondería a un punto que queda exactamente sobre la
línea 𝑌 = 𝛽0 + 𝛽1 𝑋, llamada línea de regresión (o de población) verdadera. La inclusión del
término de error aleatorio permite que (x, y) quede o por encima de la línea de regresión
verdadera (cuando 𝜖 > 0) o por debajo (cuando 𝜖 < 0).
SUPUESTOS DEL MODELO DE REGRESIÓN
LINEAL SIMPLE

✓ Linealidad (en los parámetros 𝛽0 y 𝛽1 ).


✓ Normalidad (tanto de los Y|X=x como
de los términos aleatorios 𝜖𝑖 ).
✓ Homocedasticidad (homogeniedad de
varianzas o varianzas iguales 𝜎 2 ).
✓ Independencia (no tener más de una
observación para cada individuo).
EJERCICIO
SECCIÓN 12.1. EJERCICIO 7. El artículo “Some Field Experience in the Use of an
Accelerated Method in Estimating 28-Day Strength of Concrete” (J. Amer. Concrete
Institute, 1969: 895) consideró regresar Y = resistencia estándar después de 28 días de
curado (lb/pulg2) contra X = resistencia acelerada (lb/pulg2). Suponga que la ecuación de
la línea de regresión verdadera es Y = 1800 + 1.3X.

a. ¿Cuál es el valor esperado de la resistencia después de 28 días cuando la resistencia


acelerada = 2500?
b. ¿Cuánto se debe esperar que cambie la resistencia después de 28 días cuando la
resistencia acelerada se incrementa en una lb/pulg2?
c. Responda el inciso b) para un incremento de 100 lb/pulg2.
d. Responda el inciso b) para una reducción de 100 lb/pulg2.
ESTIMACIÓN DE PARÁMETROS DEL MODELO
Un investigador casi nunca conocerá los valores de 𝛽0 , 𝛽1 y 𝜎 2 , pero se podrán estimar a
partir de una muestra de datos compuesta de n pares observados (𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 )
donde 𝑦𝑖 es el valor observado de una variable aleatoria Y

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖

Principio de los mínimos cuadrados:

De acuerdo con este principio, una línea proporciona un buen ajuste para los datos si las
distancias verticales (desviaciones) de los puntos observados a la línea son pequeñas.

La desviación vertical del punto (𝑥𝑖 , 𝑦𝑖 ) con respecto a la línea 𝑦 = 𝑏0 + 𝑏1 𝑥 es

La altura del punto – altura de la línea = 𝑦𝑖 − (𝑏0 + 𝑏1 𝑥𝑖 )


La suma de las desviaciones verticales al cuadrado de los puntos (𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 ) a la
línea es entonces
𝑛

𝑓 𝑏0 , 𝑏1 = ෍[𝑦𝑖 − (𝑏0 + 𝑏1 𝑥𝑖 ) ]2
𝑖=1

෢0 y 𝛽
Las estimaciones puntuales de 𝛽0 y 𝛽1 , denotadas por 𝛽 ෢1 llamadas estimaciones de
෢0
mínimos cuadrados, son aquellos valores que reducen al mínimo a 𝑓 𝑏0 , 𝑏1 . Es decir, 𝛽
y𝛽෢1 son tales que 𝑓 𝛽
෢0 , 𝛽
෢1 ≤ 𝑓 𝑏0 , 𝑏1 con cualesquier 𝑏0 y 𝑏1 . La línea de regresión
estimada o línea de mínimos cuadrados es entonces la línea cuya ecuación es y = 𝛽 ෢0 +
෢1 𝑥.
𝛽

Interpretación de los parámetros:

𝛽0 : intercepto. Sirve para ayudar a ajustar el modelo.

𝛽1 : pendiente. Cambio esperado o cambio medio en Y con un cambio unitario en X.


La estimación de los mínimos cuadrados del coeficiente de pendiente 𝛽1 de la línea de
regresión verdadera es
σ𝑛 ҧ
𝑖=1(𝑥𝑖 −𝑥)(𝑦 ത
𝑖 −𝑦) 𝑆𝑥𝑦

𝑏1 = 𝛽1 = =
σ(𝑥𝑖 −𝑥)ҧ 2 𝑆𝑥𝑥

𝑛
(σ𝑛𝑖=1 𝑥𝑖 )(σ𝑛𝑖=1 𝑦𝑖 )
𝑆𝑥𝑦 = ෍ 𝑥𝑖 𝑦𝑖 −
𝑛
𝑖=1

𝑛 𝑛
(σ 2
2 𝑖=1 𝑥𝑖 )
𝑆𝑥𝑥 = ෍ 𝑥𝑖 −
𝑛
𝑖=1

La estimación de los mínimos cuadrados de la intersección 𝛽0 de la línea de regresión


verdadera es

෢1 σ 𝑥𝑖
σ 𝑦𝑖 − 𝛽
෢0 =
𝑏0 = 𝛽 ෢1 𝑥ҧ
= 𝑦ത − 𝛽
𝑛
Estimación de 𝝈𝟐 y 𝝈:
σ 2
2 2
(𝑦𝑖 − 𝑦
ෝ𝑖 ) 𝑆𝐶𝐸
𝜎ො = 𝑠 = =
𝑛−2 𝑛−2

SCE: suma de cuadrados del error. Puede ser interpretada como una medida de cuánta
variación de y permanece sin ser explicada por el modelo, es decir, cuánta no puede ser
atribuida a una relación lineal. Otra forma de calcular SCE es:

෢0 ෍ 𝑦𝑖 − 𝛽
𝑆𝐶𝐸 = ෍ 𝑦𝑖 2 − 𝛽 ෢1 ෍ 𝑥𝑖 𝑦𝑖

𝜎ො = 𝑠
Coeficiente de determinación
El coeficiente de determinación, denotado por 𝑟 2 , está dado por:

𝑆𝐶𝐸
𝑟 2 = 1 − 𝑆𝑇𝐶

(σ𝑛
𝑖=1 𝑦𝑖 )
2
donde STC = 𝑆𝑦𝑦 = σ(𝑦𝑖 − ത 2
𝑦) = σ𝑛𝑖=1 𝑦𝑖2 − 𝑛

𝑟 2 se interpreta como la proporción de variación de 𝑦 observada que puede ser explicada por el
modelo de regresión lineal simple (atribuida a una relación lineal aproximada entre 𝑦 y 𝑥).

Mientras más alto es el valor de 𝑟 2 , más exitoso es el modelo de regresión lineal simple al
explicar la variación de 𝑦. Si 𝑟 2 es pequeño, un analista normalmente deseará buscar un modelo
alternativo (como un modelo no lineal o un modelo de regresión múltiple que implique más de
una sola variable independiente) que explique con más eficacia la variación de 𝑦.
Ejemplo 12.4: El concreto sin finos, hecho de un agregado grueso uniformemente graduado y
una pasta de cemento y agua, es benéfico en áreas propensas a lluvias intensas debido a sus
excelentes propiedades de drenaje. El artículo “Pavement Thickness Design for No-Fines
Concrete Parking Lots” (J. of Transportation Engr., 1995: 476-484) empleó un análisis de
mínimos cuadrados al estudiar cómo y = porosidad (%) está relacionada con x = peso unitario
(pcf) en especímenes de concreto. Considere los siguientes datos representativos, mostrados
en formato tabular conveniente para calcular los valores de los estadísticos resumidos:
Obs. x y X2 xy Y2
1 99 28,8 9801,00 2851,20 829,44
2 101,1 27,9 10221,21 2820,69 778,41
3 102,7 27,0 10547,29 2772,90 729,00
4 103,0 25,2 10609,00 2595,60 635,04
5 105,4 22,8 11109,16 2403,12 519,84
6 107,0 21,5 11449,00 2300,50 462,25
7 108,7 20,9 11815,69 2271,83 436,81
8 110,8 19,6 12276,64 2171,68 384,16
9 112,1 17,1 12566,41 1916,91 292,41
10 112,4 18,9 12633,76 2124,36 357,21
11 113,6 16,0 12904,96 1817,60 256,00
12 113,8 16,7 12950,44 1900,46 278,89
13 115,1 13,0 13248,01 1496,30 169,00
14 115,4 13,6 13317,16 1569,44 184,96
15 120,0 10,8 14400,00 1296,00 116,64
Sumatoria 1640,1 299,8 179849,73 32308,59 6430,06
Ejemplo 12.6: La alta densidad de población de Japón ha provocado un sinnúmero de
problemas de consumo de recursos. Una dificultad especialmente seria tiene que ver
con la eliminación de desechos. El artículo “Innovative Sludge Handling Through
Pelletization Thickening” (Water Research, 1999: 3245-3252) reportó la intervención de
una nueva máquina de compresión para procesar lodos de albañal. Una parte
importante de la investigación implicó relacionar el contenido de humedad de gránulos
comprimidos (y, en %) con la velocidad de filtración de la máquina (x, en kg-DS/m/h). Los
siguientes datos se tomaron de una gráfica incluida en el artículo:
Obs. x y X2 xy Y2
1 125,3 77,9 15700,09 9760,87 6068,41
2 98,2 76,8 9643,24 7541,76 5898,24
3 201,4 81,5 40561,96 16414,10 6642,25
4 147,3 79,8 21697,29 11754,54 6368,04
5 145,9 78,2 21286,81 11409,38 6115,24
6 124,7 78,3 15550,09 9764,01 6130,89
7 112,2 77,5 12588,84 8695,50 6006,25
Y: Contenido de humedad de 8 120,2 77,0 14448,04 9255,40 5929,00
9 161,2 80,1 25985,44 12912,12 6416,01
gránulos comprimidos (%). 10 178,9 80,2 32005,21 14347,78 6432,04
11 159,5 79,9 25440,25 12744,05 6384,01
12 145,8 79,0 21257,64 11518,20 6241,00
X: Velocidad de filtración de la 13 75,1 76,7 5640,01 5760,17 5882,89
máquina (kg-DS/m/h). 14 151,4 78,2 22921,96 11839,48 6115,24
15 144,2 79,5 20793,64 11463,90 6320,25
16 125,0 78,1 15625,00 9762,50 6099,61
17 198,8 81,5 39521,44 16202,20 6642,25
18 132,5 77,0 17556,25 10202,50 5929,00
19 159,6 79,0 25472,16 12608,40 6241,00
20 110,7 78,6 12254,49 8701,02 6177,96
Sumatoria 2817,9 1574,8 415949,85 222657,88 124039,58
INFERENCIAS SOBRE EL PARÁMETRO DE
PENDIENTE 𝛽1
TEOREMA: La suposición del modelo de regresión lineal simple implica que la variable estándar

෢1 − 𝛽1
𝛽 ෢1 − 𝛽1
𝛽
𝑇= =
𝑆/ 𝑆𝑥𝑥 𝑆𝛽෢1

tiene una distribución t con n – 2 grados de libertad.

Un intervalo de confianza de 100(1 - 𝛼)% para la pendiente 𝜷𝟏 de la línea de regresión


verdadera es:
INFERENCIAS SOBRE EL PARÁMETRO DE
PENDIENTE 𝛽1
TEOREMA: La suposición del modelo de regresión lineal simple implica que la variable estándar

෢1 − 𝛽1
𝛽 ෢1 − 𝛽1
𝛽
𝑇= =
𝑆/ 𝑆𝑥𝑥 𝑆𝛽෢1

tiene una distribución t con n – 2 grados de libertad.

Un intervalo de confianza de 100(1 - 𝛼)% para la pendiente 𝜷𝟏 de la línea de regresión


verdadera es:

𝑠
෢1 ± 𝑡𝛼/2,𝑛−2 ∙
𝛽
𝑆𝑥𝑥
Procedimientos de prueba de hipótesis

La prueba de utilidad del modelo es la prueba de 𝐻0 : 𝛽1 = 0 contra 𝐻𝑎 : 𝛽1 ≠ 0, en cuyo caso


෢1 /𝑆 ෢
el valor estadístico de prueba es la relación t, t = 𝛽 𝛽1
ANOVA
La hipótesis nula 𝐻0 : 𝛽1 = 0 puede ser probada contra 𝐻𝑎 : 𝛽1 ≠ 0 con un ANOVA
Tabla de ANOVA

Se rechaza 𝐻0 : 𝛽1 = 0 si f ≥ 𝐹𝛼,1,𝑛−2
Ejemplo 12.4: El concreto sin finos, hecho de un agregado grueso uniformemente graduado y
una pasta de cemento y agua, es benéfico en áreas propensas a lluvias intensas debido a sus
excelentes propiedades de drenaje. El artículo “Pavement Thickness Design for No-Fines
Concrete Parking Lots” (J. of Transportation Engr., 1995: 476-484) empleó un análisis de
mínimos cuadrados al estudiar cómo y = porosidad (%) está relacionada con x = peso unitario
(pcf) en especímenes de concreto. Considere los siguientes datos representativos, mostrados
en formato tabular conveniente para calcular los valores de los estadísticos resumidos:

Ejemplo 12.6: La alta densidad de población de Japón ha provocado un sinnúmero de


problemas de consumo de recursos. Una dificultad especialmente seria tiene que ver
con la eliminación de desechos. El artículo “Innovative Sludge Handling Through
Pelletization Thickening” (Water Research, 1999: 3245-3252) reportó la intervención de
una nueva máquina de compresión para procesar lodos de albañal. Una parte
importante de la investigación implicó relacionar el contenido de humedad de gránulos
comprimidos (y, en %) con la velocidad de filtración de la máquina (x, en kg-DS/m/h).
Los siguientes datos se tomaron de una gráfica incluida en el artículo:
Ejercicio12.4 # LECTURA DE DATOS
x y x^2 xy y^2 (datos_12.4<-read.csv2("datos_12.4.csv"))
99 28,8 9801,00 2851,20 829,44
101,1 27,9 10221,21 2820,69 778,41 # MODELO 12.4
102,7 27,0 10547,29 2772,90 729,00 (modelo_12.4<-lm(datos_12.4$y~datos_12.4$x))
103,0 25,2 10609,00 2595,60 635,04 summary(modelo_12.4)
105,4 22,8 11109,16 2403,12 519,84
107,0 21,5 11449,00 2300,50 462,25
108,7 20,9 11815,69 2271,83 436,81
110,8 19,6 12276,64 2171,68 384,16
112,1 17,1 12566,41 1916,91 292,41
112,4 18,9 12633,76 2124,36 357,21
113,6 16,0 12904,96 1817,60 256,00
113,8 16,7 12950,44 1900,46 278,89
115,1 13,0 13248,01 1496,30 169,00
115,4 13,6 13317,16 1569,44 184,96
120,0 10,8 14400,00 1296,00 116,64

Σ 1640,1 299,8 179849,73 32308,59 6430,06


Ejercicio12.6
x y x^2 xy y^2
125,3 77,9 15700,09 9760,87 6068,41
98,2 76,8 9643,24 7541,76 5898,24
201,4 81,5 40561,96 16414,10 6642,25
147,3 79,8 21697,29 11754,54 6368,04
145,9 78,2 21286,81 11409,38 6115,24
124,7 78,3 15550,09 9764,01 6130,89
112,2 77,5 12588,84 8695,50 6006,25
120,2 77,0 14448,04 9255,40 5929,00
161,2 80,1 25985,44 12912,12 6416,01
178,9 80,2 32005,21 14347,78 6432,04
159,5 79,9 25440,25 12744,05 6384,01
145,8 79,0 21257,64 11518,20 6241,00
75,1 76,7 5640,01 5760,17 5882,89
151,4 78,2 22921,96 11839,48 6115,24
144,2 79,5 20793,64 11463,90 6320,25
125,0 78,1 15625,00 9762,50 6099,61
198,8 81,5 39521,44 16202,20 6642,25
132,5 77,0 17556,25 10202,50 5929,00
159,6 79,0 25472,16 12608,40 6241,00
110,7 78,6 12254,49 8701,02 6177,96
Σ 2817,9 1574,8 415949,85 222657,88 124039,58

S-ar putea să vă placă și