Sunteți pe pagina 1din 18

EL SUPUESTO DE NORMALIDAD DE LOS ERRORES

Uno de los supuestos básicos del modelo de regresión lineal clásico es el que los errores
tengan distribución normal con media cero y varianza σ 2 , esto es:

Y i=β 1 + β 2 X i +ui

Y i=Xβ +u

Donde:

ui N (0, σ 2) ; ∀ i
Con el cumplimiento del supuesto de normalidad se tiene la justificación teórica para la
utilización de pruebas estadísticas.

Una propiedad de la distribución normal es que cualquier función lineal de variables


normalmente distribuidas estará también normalmente distribuidas.

Dado que los estimadores de MCO son combinaciones lineales de Y i , entonces los
estimadores también seguirían esta distribución

( (
β1 N β1 , σ2
1 X́ 2
+
n Σ x2 ))
( ( ))
β2 N β2 ,
σ2
Σ x2

Podemos construir intervalos de confianzas alrededor de los estimadores puntuales.

INTERVALOS DE CONFIANZA PARA LOS PARAMETROS ESTIMADOS


Estimación de intervalos: proceso mediante el cual calculamos intervalos basándonos en las
estimaciones puntuales.

Intervalo de confianza: rango de valores sobre el cual tenemos la confianza de que el


parámetro población posiblemente se encuentre en ese intervalo

Construyendo un intervalo para el parámetro β 2 , estandarizado como:


^β2 −β2
z= N ( 0,1 )


2
σ
2
Σx
Definimos un nivel de confianza de ( 1−α ) ×100 :
β^ 2−β 2
Pr −z
( 1−
α<
2

√ σ
Σx
2

2
<z
1−
α
2
)
=( 1−α )
donde : z
1−
α
2
es el percentil 1−
α
2

Función de densidad de la normal estándar

Área =

Área= Área=

Entonces:

( √ √ )
2 2
σ σ
Pr ^β 2−z α 2
< β2 < ^β 2 + z α =( 1−α )
1−
2 Σx 1−
2 Σx 2

Dado los valores α podemos definir los intervalos


Ejemplo: para α =0.05, los valores máximo y mínimo del intervalo de confianza al 95% para
β 2 serían:


2
^β ± Z σ Z 0.975=1.96
2 0.975 2
Σx
Pero σ 2 no es un valor conocido por lo que usaremos en reemplazo el valor estimado s
2

, el intervalo se construye en la distribución t-student con n−2 grados libertad.

Comprobación:

2 ( n−2 ) s 2 2
x= 2
x ( n−2)

σ
[
p x2 α
2
, ( n−2)
≤ x 2 ≤ x 21−α
2
, ( n−2) ]= (1−α )
[ ( n−2 ) s 2
]
2
2 ( n−2 ) s
p ≤ σ ≤ =( 1−α )
x 2 1−α x2 α
, ( n−2 ) , ( n−2 )
2 2

Área =

Área= Área=

Comprobación:

Definimos una variable aleatoria con distribución t-student, como:


^β 2−β 2


2
σ
Σx
2
β^ 2− β2
= t (n−2 )

√ √
2
( n−2 ) s 2 s
σ
2
Σx 2
n−2
Entonces:

^β2 −β2
Pr −t
( 1−
α ( n−2 ) <
2

√ s2
Σx2
<t
1−
α
2
)
( n−2 ) = (1−α )

Operando:
( √ √ )
2 2
s s
Pr ^β 2−t α ( n−2 ) 2
< β 2< β^ 2 +t α ( n−2 ) 2
=( 1−α )
1−
2 Σx 1−
2 Σx
α
donde t (n−2) es el percentil 1−
1−
α
2
2

Siendo los limites: inferior y superior del intervalo:

β 2 ∈ β^ 2 ±t
1−
α ( n−2 )
2
s2
Σx √2

En el cado del parámetro β 1 Con un procedimiento similar.

Siendo los límites: inferior y superior del intervalo:

β 1 ∈ β^ 1 ±t
1−
α ( n−2 ) s
2 √(
2 1 X́ 2
+
n Σ x2 )
Prueba de hipótesis
Es un procedimiento a través de pruebas de hipótesis. Involucran la recolección de una
muestra y el uso de resultados muestrales para proporcionar evidencias y emitir conclusiones.

Hipótesis Nula H 0 : β2=a

Hipótesis alternativa H 0 : β2 ≠ a

Al ser β 2 una variable aleatoria prácticamente nunca será igual al valor, salvo cuestión de
azar.

Intervalo aleatorio

• Rechazo H 0

Si el valor de la hipótesis � cae fuera del intervalo de confianza

• No rechazo H 0

Si el valor de la hipótesis a cae dentro del intervalo de confianza


• ERROR TIPO I

Rechaza la hipótesis a pesar que a y β 2 son valores muy próximos


• ERROR TIPO II
Acepta la hipótesis a pesar que a y β 2 son valores muy lejanos (se acepta una hipótesis
falsa)

 Intervalos de confianza más anchos o más angostos

Relacionado con α (nivel de significancia)

Estadístico t
T-student
cuando H 0 es
cierta
β 2=a
Región de rechazo Región de rechazo


Región de
Condición aceptación
de

rechazo de H0

|√ |
^
β 2−a
>t α ( n−2 )
^
Var ( β^2 ) 1− 2

• Condición de No rechazo de H0

|√ |
^
β 2−a
<t α ( n−2 )
^
Var ( β^2 ) 1− 2

Dado el umbral t α ( n−2 )


1−
2

|t|>t α ( n−2 ) , no se comporta como t-student


1−
2

Se rechaza H0 , con un α % de posibilidades de cometer un error

PRUEBA DE SIGNIFICANCIA DE UN COEFICIENTE

Y i=β 1 + β 2 X i +ui
H 0 : β2=0

H 1: β2≠ 0

• Condición de rechazo de H 0 , con un α %  de significancia

|√ |
^
β2
|t|= >t α ( n−2 )
^
Var ( ^
β 2) 1−
2

• Condición de No rechazo de H 0 con un α %  de significancia

|√ |
^
β2
|t|= <t α ( n−2 )
^
Var ( ^
β 2) 1−
2

EL P-VALUE

Probabilidad o p>t
Indica el menor nivel de significancia con el cual podemos rechazar la H0

p−value=2 × 1−F
[ (| | )] β^
√Var
^ ( ^β )  
, n−k

p−value=2 × F −
(| √V^
β^
ar ( ^β )  
, n−k
| )
Donde:

 F
(| √V^
β^
| )
ar ( ^β )  
, n−k =Función de distribución acumulada de t-student

 k =2 en el modelo bivariado
Función de densidad de la variable aleatoria -value

Área= Área=

El p−value es igual al área sombreada

• Si p−value>0.10 el parámetro no es significativo


• Si 0.10 ≥ p−value> 0.05 el parámetro es significativo al 10%

• Si 0.05 ≥ p−value> 0.01 el parámetro es significativo al 5 %

• Si p−value≤ 0.01 el parámetro es significativo al 1 %

EJERCICIO 1:

Se tiene el siguiente modelo Y i=β 1 + β 2 X i +ui y los siguientes datos:

Σ X i=44 ΣY i =76.3 Σ X i Y i=427.55 n=9

Σ X 2i =245.5 ΣY 2i =751.39 Y^i=76.3

Σ x i y i=54.53 2
Σ x i =30.39
2
Σ y i =104.54

Cálculos previos:

X́ =
∑ X i = 44 =4.89 Ý = ∑ Y i = 76.3 =8.48
n 9 n 9

^β 1=Ý + ^β 2 X́ =8.48−( 1.79 )( 4.89 )=−0.27 ,


^β 2= ∑ Y i X i = 54.53 =1.79
2
Xi 30.39

Yi
∑ (¿− β 2 X i) = Y i −2 β^ 2 ∑ Y i X i+ ^β22 ∑ X 2i
^ 2 2

30.39 n−2

S2=
∑ i =¿
e 2

n−2

104.54−2 ( 1.79 ) (54.53 )+ ( 1.79 )2 (30.39)


¿
9−2
¿ 0.956
t α (n−2)
=t 0.975 ( 7 ) =2.3646 ,1−α =0.95 ; α =0.05
1−
2

i) Intervalo de confianza para β1 :

^β −t
1
1−
α (n−2)
2 √(
S

−2.4609 ≤ β 1 ≤ 1.9209=¿ β 1 ∈ ⌈ , ⌉
2 1
+
X́ 2
n ∑ X 2i
≤ β 1 ≤ ^β 1+ t α
1−
2
) ( n−2)

√( S
2 1
+
X́ 2
n ∑ X 2i )
ii) Intervalo de confianza para β 2 :

√( √(
2 2
^β 2−t
1−
α
2
(n−2)
S
∑ X 2i ) ≤ β 2 ≤ ^β 2+ t
1−
α
2
( n−2 )
S
∑ X 2i )
1.3706 ≤ β 1 ≤ 2.2094=¿ β 2 ∈ ⌈ , ⌉
iii) Intervalo de confianza para σ 2
(n−2) S 2 2 ( n−2)S2
≤σ ≤
X2 α X2α
(n−2) (n−2)
1−
2 2

¿ X2 α
( n−2) = X 20.975 =16.01 (7 )
1−
2
¿ X2α ( n−2 ) =X 20.025 =1.69 ( 7)

2
2
¿>0.4180 ≤ σ ≤3.9598

iv) Contraste de la hipótesis : β2


Hipótesis
H 0 : β2=0
H 1: β2≠ 0
Estadístico t:

|√ | |

√ ∑ | |√ |
2 1.79 1.79
|t|= = = =|10.092|=10.092
var ( ^β2 ) S 2
0.956
X 2i 30.39
Decisión:

Como
|t|=10.092>2.3646=t α (n −2)
1−
2
¿> Se rechaza la hipotesis nula con5 de significancia

EJERCICIO 2:

Continuando con el ejercicio de 12 del capítulo 2, pruebe que β 2=0

i) Contraste de la hipótesis : β2
Hipótesis
H 0 : β2=0
H 1: β2≠ 0
Estadístico t:

|√ | |

√ ∑ | |√ |
2 1. .0111 1.0111
|t|= = = =|14.509|=14.509
var ( ^β2 ) 2
S 0.5735
Xi
2 118.10

Decisión:

Como
|t|=14.509>2.228=t 0.95 (10 )

t α (n −2)
1−
2

¿> Se rechaza la hipotesis nula con5 de significancia

Ejercicio 3:
La tabla muestra información relacionada con la producción y el costo total de
producción de un bien en el corto plazo

Producción 1 2 3 4 5 6 7 8 9 10
Costo Total 193 226 240 244 257 260 274 297 350 420
Se desea estimar la función de costos Costos i= ^β 1+ β^ 2 Produccióni+u i
^

a) Grafique el diagrama de dispersión de las observación de la tabla y estime los


parámetros del modelo por MCO. Calcule el costo estimado
Costos i= ^β 1+ β^ 2 Produccióni y grafíquelo junto con el grafico de
^
dispersión ¿ Considera usted qué modelo se ajusta bien a los datos

b) Obtenga los residuos y grafíquelos para cada nivel de producción

c) Obtenga el estimador S 2 y las varianzas estimadas de ^β 1 y ^β 2


Obtenga también el R-cuadrado

d) Construya un intervalo de confianza para la pendiente. Pruebe la hipótesis que


los parámetros son iguales a cero

N° X Y x=X − X́ y=Y −Ý x


2
xy Y^ e e
2

1 1 193 -4.50 -83.10 20.25 373.95 186.40 6.60 43.56


2 2 226 -3.50 -50.10 12.25 175.35 206.33 19.67 386.78
3 3 240 -2.50 -36.10 6.25 90.25 226.27 13.73 188.60
4 4 244 -1.50 -32.10 2.25 48.15 246.20 -2.20 4.84
5 5 257 -0.50 -19.10 0.25 9.55 266.13 -9.13 83.42
6 6 260 0.50 -16.10 0.25 -8.05 286.07 -26.07 679.47
7 7 274 1.50 -2.10 2.25 -3.15 306 -32.00 1024.0
0
8 8 297 2.50 20.90 6.25 52.25 325.93 -28.93 837.14
9 9 350 3.50 73.90 12.25 258.65 345.87 4.13 17.08
10 10 420 4.50 143.90 20.25 647.55 365.80 54.20 2937.6
4
SUMA 55.00 2761.00 0.00 0.00 82.50 1644.50 2761.0 0 6202.5
0 3
PROMEDI 5.50 276.10
O

β 1=166.4667

β 2=19.9333

Donde:

Numero de observaciones

n 10
Promedios (Medias):
X́ =
∑ X i Ý = ∑ Y i
n n

Media de x:

X́ 5.50
Media de y:

Ý 276.10

Desviaciones de x e y respecto a su promedio

x=X − X́ y=Y −Ý


Estimadores (Parámetros):

^β =Ý − β^ X́ ^β = ∑ xy
1 2 2 2
x
Función de Regresión muestral (FRM):

Y^ = β^ 1 + ^β 2 X
Residuos:

e=Y − Y^ = y− β^ 2 x

Estimador S 2 ( Estimacion de σ 2 ) :

S=2∑ e2
n−2
Varianza estimadas de β 1 y β2 :

X́ 2 S2
( 1
var ( ^β1 ) =S 2 +
n ∑ X 2i ) var ( ^β2 ) =
∑ X 2i
Suma de cuadrados totales (SCT):

Y −Ý
∑ (¿)2
SCT =∑ Y 2=¿

SCT =∑ Y 2=SCE+ SCR= ^β 22 ∑ X 2+ ∑ e2

Suma de cuadrados explicada por la regresión (SCE):

SCE= ^β 2 ∑ X
2
Suma de cuadrados de los Residuos (SCR):

y−¿
e =∑ (¿ ^β 2 x)
2 2

∑¿
SCR =¿
R cuadrado (Medida de bondad de ajuste)

2 SCR SCE
R =1− =
SCT SCT
2
0< R <1

Si R2 tiende a cero , entonces el ajuste es bajo

Si R2 tiende a uno , entonces el ajuste es alto

Hipótesis Hipótesis
H 0 : β1=0 H 0 : β 1=0
H 1 : β 1 ≠ 0 H 1 : β1 ≠ 0

Valor absoluto
del estadístico t Estadístico t

|t|=8.7515|t|=6.5023

Decisión Decisión

Se rechaza la hipótesis nula Se rechaza la hipótesis nula

2
Estandar S

S=2∑ e2
=775.3167
n−2
Varianza estimada

X́ 2 S2
^
var ( β1 ) =S
(
2 1
+
n ∑ X 2i ) var ( ^β2 ) =
∑ X 2i
var ( ^β1 ) =361.8144 var ( ^β2 ) =9.3978

Suma de cuadrados totales(SCT )


Y −Ý
∑ (¿)2
SCT =∑ Y 2=¿

SCT =∑ Y 2=SCE+ SCR


SCT =38982.9000
Suma de cuadrados explicada por la regresión ( SCE )

SCE= ^β 2 ∑ X
2

SCE =32780.3667
Suma de cuadrados de residuos ( SCR )
SCR =6202.5333

SCR=∑ e
2

4. Se tiene el siguiente modelo: Y i=β 1 + β 2 X i + μi

Donde Y es la demanda de alimentos y X es el ingreso disponible. Además se sabe que:

Σ X i Y i=1973.67 n=20

Σ X 2i =2165.18 ΣY 2i =1813.53

X́ =9.56 Ý =8.765

SOLUCION:

Y =Demanda de alimento
X =Ingreso disponible
Y i=β 1 + β 2 X i + μi

a)

∑ X i =9.56 →
X́ =
n
∑ X i=191.20
∑ Y i =8.765 →
Ý =
n
∑ Y i=175.3
x i=X i− X́
y i=Y i−Ý
X
(¿ ¿ i+ X́ )(Y i + Ý )
¿ ∑ Y i X i =∑ ¿
Xi Y i
(¿ + X i Ý +Y i X́ + X́ Ý )
1973.67=∑ ¿

X i +¿ X́ ∑ Y i + ∑ X́ Ý
∑ X i Y i+ Ý ∑ ¿
1973.67=∑ X i Y i + ∑ X́ Ý

n x X́ x Ý =1675.868
¿> ∑ X i Y i=297.802

X i− X́
∑ (¿)2
¿ ∑ X 2i =¿

X 2i −2 X i X́ i
(¿ + X́ 2)
¿∑¿
2 2
¿ ∑ X i −2 X́ ∑ X́ i+ ∑ X́
9.56
¿
¿
¿ 2165.18−2 ( 9.56 )( 191.2 ) +20 ¿
¿ 337.308

^β = ∑ Y i X i = 297.802 =0.883
2
X 2i 337.308
^β 1=Ý + ^β 2 X́ =8.765−( 0.883 ) ( 9.56 )=0.324 ,

Interpretacion :
β 1 ( Intercepto )
β 2 ( Pendiente )

=> ^β 1 : Representa el valor de la variable y cuando la variable X es igual a 0

=> ^β 2 : Representa la variación de la variable y cuando varia en 1 unidadla variable x


2 SCR 14.0302
b) R =1− =1− =0.9494
SCT 277.0255

Yi
∑ (¿− ^β2 X i ) =∑ (Y 2i −2 β^ 2 X− X 2 β^ 22 )
2

¿ SCR=¿

∑ Y 2i −2 ^β 2 ∑ X− β^ 22 ∑ X 2i
Yi
Y 2i
2
(¿−2Y i Ý + Ý )
(¿−Ý 2)=∑ ¿
¿ ∑ Y 2i =∑ ¿
2 2
¿ ∑ Y i −2 Ý ∑ Y i+ ∑ Ý
2
¿ 1813.53−2 ( 8.765 ) ( 175.3 ) +20 ( 8.765 )
¿ 277.0255
2
¿> SCR=277.0255−( 0.883 ) ( 337.308 )=14.0302
¿> SCT=∑ Y 2i

Estimar la varianza de μ
2 2
Var ( μ )=σ =S (muestral)

S 2=
∑ e 2i = SCR = 14.0302 =0.7795
n−2 n−2 18

c) Intervalos de confianza para β1

^β 1−t

¿t
1−
1−
α
2

α (n−2)
(n−2)

√(
S2
1
+
X́ 2
n ∑ X 2i
=t 0.975 ( 18 )=2.101
)
≤ β 1 ≤ ^β 1+ t α
1−
2
( n−2)

√(
S2
1
+
X́ 2
n ∑ X 2i )
2

, 1−α =0.95 ; α=0.05


−0.7269≤ β 1 ≤ 1.3749

Intervalos de confianza para β2

^β 2−t
1−
α
2 ∑
S2
X
0.7820 ≤ β 2 ≤0.9840
2
i √(
≤ β 2 ≤ ^β 2+ t α
(n−2)
1−
2
) ( n−2 )

√( S2
∑ X 2i )
2
Intervalos de confianza para σ
2 2
(n−2) S 2 ( n−2)S
2
≤σ ≤
X α X2α
(n−2) (n−2)
1−
2 2

¿ X2 α
( n−2) = X 20.975 =31.53
(18)
1−
2
¿ X2α ( n−2 ) =X 20.025 =8.23
( 18)

Contraste de la hipótesis: β2
Hipótesis
H 0 : β2=0
H 1: β2≠ 0
Estadístico t:

|√ | |
^β2

| |√ |
0.883 0.883
|t|= = = =|18.3681|=18.3681
var ( ^β2 )
√ S2
∑ X 2i
0.7795
337.308

Decisión:

Como
|t|=18.3681>2.101=t α (n−2)
1−
2
¿> Se rechaza la hipotesis nula con 95 de significancia

5. Dados los siguientes datos de un modelo bivariado:

X 3 5 6 4 2 7 8 9 10
Y 2 4 6 3 4 8 10 14 12

a) Encuentre la SCT, SCE, SCR y calcule el R-cuadrado.


b) Encuentre la varianza de ^β 1 y ^β2
c) Pruebe la hipótesis H 0 : β2=0 y construya un intervalo de confianza al 95%
para β 1 y β2

SOLUCION:
a) Estimador S 2

S 2=
∑ e 2 =2.9619
n−2
Varianza estimada

var ( ^β1 ) =2.1062 var ( ^β2 ) =0.0494

Suma de cuadrados totales(SCT )

Y −Ý
∑ (¿)2
SCT =∑ Y 2=¿

SCT =∑ Y 2=SCE+ SCR


SCT =144.0000

Suma de cuadrados explicada por la regresión ( SCE )

SCE= ^β 2 ∑ X 2
SCE =123.2667
Suma de cuadrados de los residuos ( SCR )
SCR =20.7333
R−cuadrado
R2=0.8560

b) Intervalode confianza para β 1 y β 2 y σ 2


Si el nivel de confianza (1−α ) x 100 =95
Nivel (α )=0.05
Grados = 7

t α =2.3646
1−
2

X α (n−2 )
=16.0128
1−
2

Xα (n−2) =1.6899
2
Intervalos de confianza β1

LI =−5.0318
LS=1.8318
Intervalos de confianza β2
LI =0.980
LS=1.9587
2
Intervalos de confianza σ

LI =1.2948
LS=12.2692

c) Prueba de Hipótesis

Hipótesis Hipótesis
H 0 : β1=0 H 0 : β 1=0
H 1 : β 1 ≠ 0 H 1 : β1 ≠ 0

Valor absoluto
del estadístico t Estadístico t

|t|=1.1025|t|=6.4512

Decisión Decisión

No se rechaza la hipótesis nula Se rechaza la hipótesis nula

S-ar putea să vă placă și