Sunteți pe pagina 1din 11

Prueba de hipótesis de la pendiente y de la ordenada al origen.

Uso de la prueba t
Supongamos que deseamos probar que la pendiente es igual a una constante.
H 0 : 1  10
H1 : 1  10
ei son NID 0,  2  

1 Es una combinación lineal de las observaciones, y está distribuida normalmente.
 2
E  1   1 (Promedio de 1 ); Var 1  

(Varianza de 1 )
    S xx
Estadístico t (Definición)

 CM Re s
Denótese a Se 1   : Como el error estándar estimado o error estándar de la
  S xx

1  10
pendiente, entonces t0  . Se rechaza la hipótesis nula si t0  t 2 ,n2 .

Se 1 
 
Hipótesis para la ordenada al origen.
H 0 :  0   00
 
 0   00  0   00
; t0  
H1 :  0   00  1 x2    
Se  0 
CM Re s   
 
 n S xx 
 

    1 x2 
Se  0   CM Re s    Error estándar de la ordenada al origen.
   
 n S xx 

Se rechaza la hipótesis nula sí t0  t 2 ,n2 .


Nota: El que una variable no sea significativa no quiere decir que en realidad no lo es, es necesario
el conocimiento no estadístico del problema para determinar por ejemplo si los intervalos de los
datos fue el adecuado.

Prueba de significancia de la regresión (Caso particular del test anterior: la conste es igual a
cero).
H 0 : 1  0
H1 : 1  0
El no rechazar H 0 : 1  0 implica que no hay relación lineal entre x e y.
“X tiene muy poco valor para explicar la variación de Y, por lo tanto el mejor estimador para

cualquier x es y  y
“La verdadera relación entre x e y no es lineal”
Si se rechaza H 0 : 1  0 , explica que x tiene valor para explicar la variabilidad de y. Rechazar
H 0 : 1  0 podría equivaler a que:
“El modelo de línea recta es adecuado”
“Aunque hay un efecto lineal en x se podrían obtener mejores resultados agregando términos
polinomiales en x”.
El procedimiento de prueba para H 0 : 1  0 se puede establecer con dos métodos.

Predicción de nuevas observaciones

Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que
correspondan a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la
  
variable regresora, entonces: y 0   0   1 x0 es un estimador puntual del nuevo valor de la
respuesta y 0 .
Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que
correspondan a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la
  
variable regresora, entonces: y 0   0   1 x0 es un estimador puntual del nuevo valor de la
respuesta y 0 .
A continuación se obtendrá un estimado del intervalo para esta observación futura y 0 .

Sea   y 0  y 0 , con distribución normal con media cero y varianza.
 
     

Var    Var y 0  y 0   Var  y 0   Var y 0   2Cov y 0 , y 0 
     
   
 Var  y 0   Var  0  1 x0 
 
1 x  x
     0
2 2   
2

 n S xx 
 1 x x
Var     1   0
2   
2

 n S xx 
El resultado de predicción de 1001   % de confianza para una observación futura en x 0 es:

  1 x x
y 0  t ,n 2 . CM Re s1   0
 
2


2  n S xx 
 
Lo anteriormente expuesto se puede observar en el siguiente gráfico que muestra las bandas de
confianza y de predicción para un conjunto de datos.

El intervalo de predicción en x 0 siempre es más ancho que el intervalo de confianza en x 0 , porque


el intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con
observaciones futuras.

Coeficiente de determinación.
SCR SC Re s
La cantidad R   1
2
. Se llama coeficiente de determinación.
SCT SCT

1 2 S xx
Y su valor esperado: E R  
2

1 2 S xx   2

  : es una medida de variabilidad de y sin considerar el efecto de la variable


n 2
SCT   yi  y
i 1
regresora x.
2
 
 n
SC Re s    yi  y i  : es una medida de variabilidad de y que queda después de haber
i 1  
tenido en consideración a x.
R 2 : Proporción de la variación explicada por el regresor x.
SCR
Ya que 0  SCR  SCT : 0   1; 0  R 2  1 .
SCT
Regresión por el origen
EL modelo sin ordenada al origen es: y  1 x   . Dadas las n observaciones
n
xi , yi , i  1,2,...n , la función de mínimos cuadrados es: S 1     yi  1 xi 
2

i 1
n
 yi xi
Siguiendo el proceso por mínimos cuadrados:  i 1
1 
n
 x i2
i 1

 
EL modelo de regresión ajustado es: y  1 x .
2
  n
 n  n

 2  

y i  y i 

y 2
i   1  y i xi
El estimador de  es:   CM Re s  i 1  i 1 i 1
2

n 1 n 1
Los intervalos de confianza son:
  CM Re s
 1 :  1  t , n  1
n
 x i2
2

i 1

 x 2 .CM Re s
E  y  :  y  t , n  1 0 n
 x0 
 xi2
x0 2

i 1

 
 

 x02 
Para una observación futura: y 0  t , n  1 CM Re s 1  n
 
  xi
2

2

 i 1 
2
n  

  yi  y 
Modelo con ordenada al origen i 1  
R2 
 y i  y 
n 2

i 1

n 2
 yi
 Modelo sin ordenada al origen: i 1
R 
2
n
 y i2
i 1

A veces, el diagrama de dispersión proporciona una guía para decidir si se ajusta o no el modelo sin
ordenada al origen. También, se pueden ajustar ambos modelos y escoger entre ellos de acuerdo con
la calidad del ajuste obtenido. Si no se puede rechazar la hipótesis  0  0 en el modelo sin
ordenada al origen, quiere decir que se puede mejorar el ajuste si se usa es modelo.
El cuadrado medio de residuales es una forma útil de comparar la calidad del ajuste. El modelo que
tenga el cuadrado medio residual menor, es el mejor ajuste.

En general, R2 no es un buen estadístico para comparar los dos modelos.


El resultado de predicción de 1001   % de confianza para una observación futura en x 0 es:

  1 x x
y 0  t ,n 2 . CM Re s1   0
 2


2  n S xx 
 
El intervalo de predicción en x 0 siempre es más ancho que el intervalo de confianza en x 0 , porque
el intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con
observaciones futuras.

Coeficiente de determinación.
SCR SC Re s
La cantidad R   1
2
. Se llama coeficiente de determinación.
SCT SCT

1 2 S xx
Y su valor esperado: E R 
2
  
1 2 S xx   2

 
n 2
SCT   yi  y : es una medida de variabilidad de y sin considerar el efecto de la variable
i 1
regresora x.
2
 
n 
SC Re s    yi  y i  : es una medida de variabilidad de y que queda después de haber tenido
i 1  
en consideración a x.

R 2 : Proporción de la variación explicada por el regresor x.


SCR
Ya que 0  SCR  SCT : 0   1; 0  R 2  1 .
SCT

4.7. Transformaciones para linealizar un modelo.


A partir de un diagrama de dispersión o de la teoría sobre ciertas funciones, podemos conocer que la
relación entre las dos variables puede representarse adecuadamente solo por cierta función
matemática curvilínea (no lineal), por ejemplo la tendencia general del crecimiento poblacional
sigue un modelo exponencial positivo, el decaimiento radioactivo sigue un modelo exponencial
negativo, etc. En algunos casos una función no lineal se puede lineal izar con una transformación
adecuada.

Función linealizable Transformación Forma lineal


1
y x 0
y  log y, x  log x y  log  0  1 x
y   0 e 1x y  ln y y  ln  0  1 x
y  0  1 log x x  log x y   0  1 x
1 1
y  , x 
x
y  y   0  1 x
 0 x  1 y x

EJEMPLO. Los datos siguientes se obtuvieron de observaciones periódicas hechas durante el


crecimiento de una población de células de levadura. Se efectuaron recuentos cada dos horas.
n Horas Número
(X) de células(Y)
1 2 19
2 4 37
3 6 72
4 8 142
5 10 295
6 12 584
7 14 995
El gráfico de dispersión muestra que los datos provienen de una función exponencial
y   0 e 1x Con el fin de transformar la curva en recta conviene hacer la transformación,
y  ln ytomamos los logaritmos de las células.: RUTA: Transform>Compute Variable
(LOGNATURAL)>
n Horas Número de células Ln (Y)
(X) (Y)
1 2 19 2.944439
2 4 37 3.610918
3 6 72 4.276666
4 8 142 4.955827
5 10 295 5.686975
6 12 584 6.369901
7 14 995 6.902743

Seguidamente se verifica por medio de un gráfico de dispersión si la transformación es adecuada


RUTA:Graphs>Legacy Dialogs>Simple Scatter>Define (Y: LOGNATURAL;X: Horas>

Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la
ecuación de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la
RUTA: Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok
ANOVAb
Sum of
Model Squares Df Mean Square F Sig.
1 Regression 12.627 1 12.627 4936.297 .000a
Residual .013 5 .003
Total 12.640 6
a. Predictors: (Constant), Horas
b. Dependent Variable: LOGNATURAL

Coefficientsa
Unstandardized Standardized 95% Confidence Interval
Coefficients Coefficients for B
Lower Upper
Model B Std. Error Beta t Sig. Bound Bound
1 (Constan 53.28 .00
2.278 .043 2.168 2.388
t) 7 0
Horas 70.25 .00
.336 .005 .999 .323 .348
9 0
a. Dependent Variable:
LOGNATURAL
El modelo lineal encontrado es entonces: y  2.278  0.336.Horas . Para determinar el modelo

ajustado a los datos originales, se debe considerar la transformación y  ln y y su modelo lineal:


y  ln  0  1 x . Resolviendo: ln  0  2.278 , entonces  0  9.757 .

Finalmente, el modelo ajustado es: y  9.757e 0.336.Horas .

Las pruebas de idoneidad para el modelo se discutirán posteriormente.


En el análisis, éste caso se conoce el orden en que fueron recolectados los datos, y debe hacerse
para determinar si hay dependencia de los residuos con la secuencia del tiempo de recolección

Para realizar una regresión no lineal mediante SPSS tenemos que elegir los menús
Analize>Regression>Curve Estimation.

Este menú nos da la opción de calcular los siguientes modelos de regresión.


 Lineal, Y   0  1 X
 Logarítmica, Y   0  1 ln X
1
 Inversa Y  0 
X
Cuadrático Y   0  1 X   2 X
2

 Cubico. Y   0  1 X   2 X 2   3 X 3
 Potencia. Y   0 X 1 o ln Y  ln  0  1 ln X
Y   0 1 ln Y  ln  0  X ln 1
X
 Compuesto o
1 1
 Curva S Y  e 0  o ln Y   0 
t t
 Crecimiento Y e  0  1 X
o ln Y   0  1 X
o ln Y  ln  0  1 X
1 X
 Exponencial Y   0 e
Para el caso anterior, elegimos exponencial, y los resultados son los siguientes:
Model Summary
R R Square Adjusted R Square Std. Error of the Estimate
.999 .999 .999 .051
The independent variable is Horas.
ANOVA
Sum of Squares df Mean Square F Sig.
Regression 12.627 1 12.627 4936.297 .000
Residual .013 5 .003
Total 12.640 6
The independent variable is Horas.
Coefficients
Unstandardized Coefficients Standardized Coefficients
B Std. Error Beta t Sig.
Horas .336 .005 .999 70.259 .000
(Constant) 9.755 .417 23.394 .000
The dependent variable is ln(células).

Ejercicios.
1. Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de
educación preventiva
X Y XY X2
150 8.00 1200 22500
200 7.00 1400 40000
300 6.50 1950 90000
450 5.20 2340 202500
500 6.40 3200 250000
600 4.40 2640 360000
800 4.00 3200 640000
900 3.10 2790 810000
3900 44.60 18720 2415000

2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de
área de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece
apropiado un modelo lineal determine la ecuación de regresión.
Tienda Metros 2 Ingreso
X Y XY X2
a 55 45 2475 3025
o 80 60 4800 6400
j 85 75 6375 7225
e 90 75 6750 8100
k 90 80 7200 8100
d 110 95 10450 12100
n 130 95 12350 16900
g 140 110 15400 19600
c 180 120 21600 32400
l 180 105 18900 32400
b 200 115 23000 40000
i 200 130 26000 40000
h 215 140 30100 46225
f 260 170 44200 67600
m 300 200 60000 90000
15 2315 1615 289600 430075
3. Determine una ecuación
predictiva para calcular el
monto del seguro, en función del ingreso anual para los siguientes datos:
Ingreso Prima
X Y XY X2
13 5 65 169
16 15 240 256
17 20 340 289
18 10 180 324
20 10 200 400
25 12 300 625
26 15 390 676
32 30 960 1024
38 40 1520 1444
40 50 2000 1600
42 40 1680 1764
287 247 7875 8571
4. De una distribución de dos variables se conocen los siguientes datos:

r = 0.9; Sx = 1.2; Sy = 2.1; X  5; Y  10 . A partir de los mismos,


obténganse las rectas de regresión mínimo cuadráticas de X sobre Y y de Y
sobre X. (30%)
5. Para un mismo grupo de observaciones de las variables X e Y, se han obtenido las dos rectas
de regresión siguientes:
3x + 2y = 26
6x + 2y = 32
a) Obtener las medias de X e Y.
b) Obtener el coeficiente de correlación lineal.

6. En una distribución bidimensional ( xi , yi ) se sabe que: Los valores de la variable X son (1, 2,
3, 4 y 5); la recta de regresión de Y sobre X ( x  3 y  8  0) y el coeficiente de correlación
lineal (r=0.8). Hallar:
a) La media y la varianza de X
b) Los valores estimados de 0 y 1 de la recta de regresión de Y sobre X.
c) La covarianza
d) La media y la varianza de Y.
7. En un estudio donde se investigó la relación que existe entre la temperatura de la superficie de
una carretera (X, medida en grados Fahrenheit) y la deformación del pavimento (Y). El
20
resumen de cantidades es la siguiente: n=20, y
i 1
i  12 ,
20 20 20 20

 yi2  8,
i 1
 xi  1470;
i 1
 xi2  143215
i 1
y x y
i 1
i i  1083 .

a) Calcular las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen.


b) ¿Qué cambio se espera en la deformación del pavimento cuando la temperatura de la
superficie cambia 1°F?
c) Suponga que la temperatura se mide en grados centígrados (°C), en lugar de °F. Escriba
el nuevo modelo de regresión. (Recuerde que °F= (9/5) °C+32).

8. A partir de un conjunto de valores de las variables X e Y, se ha determinado la


regresión de Y sobre X, obteniéndose la siguiente recta: y  10  0.45x , r=0.95;
x  20
Se pide que, a partir de la definición de la anterior recta, determine los
parámetros de la recta de regresión de X sobre Y.

S-ar putea să vă placă și