Documente Academic
Documente Profesional
Documente Cultură
Uso de la prueba t
Supongamos que deseamos probar que la pendiente es igual a una constante.
H 0 : 1 10
H1 : 1 10
ei son NID 0, 2
1 Es una combinación lineal de las observaciones, y está distribuida normalmente.
2
E 1 1 (Promedio de 1 ); Var 1
(Varianza de 1 )
S xx
Estadístico t (Definición)
CM Re s
Denótese a Se 1 : Como el error estándar estimado o error estándar de la
S xx
1 10
pendiente, entonces t0 . Se rechaza la hipótesis nula si t0 t 2 ,n2 .
Se 1
Hipótesis para la ordenada al origen.
H 0 : 0 00
0 00 0 00
; t0
H1 : 0 00 1 x2
Se 0
CM Re s
n S xx
1 x2
Se 0 CM Re s Error estándar de la ordenada al origen.
n S xx
Prueba de significancia de la regresión (Caso particular del test anterior: la conste es igual a
cero).
H 0 : 1 0
H1 : 1 0
El no rechazar H 0 : 1 0 implica que no hay relación lineal entre x e y.
“X tiene muy poco valor para explicar la variación de Y, por lo tanto el mejor estimador para
cualquier x es y y
“La verdadera relación entre x e y no es lineal”
Si se rechaza H 0 : 1 0 , explica que x tiene valor para explicar la variabilidad de y. Rechazar
H 0 : 1 0 podría equivaler a que:
“El modelo de línea recta es adecuado”
“Aunque hay un efecto lineal en x se podrían obtener mejores resultados agregando términos
polinomiales en x”.
El procedimiento de prueba para H 0 : 1 0 se puede establecer con dos métodos.
Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que
correspondan a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la
variable regresora, entonces: y 0 0 1 x0 es un estimador puntual del nuevo valor de la
respuesta y 0 .
Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que
correspondan a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la
variable regresora, entonces: y 0 0 1 x0 es un estimador puntual del nuevo valor de la
respuesta y 0 .
A continuación se obtendrá un estimado del intervalo para esta observación futura y 0 .
Sea y 0 y 0 , con distribución normal con media cero y varianza.
Var Var y 0 y 0 Var y 0 Var y 0 2Cov y 0 , y 0
Var y 0 Var 0 1 x0
1 x x
0
2 2
2
n S xx
1 x x
Var 1 0
2
2
n S xx
El resultado de predicción de 1001 % de confianza para una observación futura en x 0 es:
1 x x
y 0 t ,n 2 . CM Re s1 0
2
2 n S xx
Lo anteriormente expuesto se puede observar en el siguiente gráfico que muestra las bandas de
confianza y de predicción para un conjunto de datos.
Coeficiente de determinación.
SCR SC Re s
La cantidad R 1
2
. Se llama coeficiente de determinación.
SCT SCT
1 2 S xx
Y su valor esperado: E R
2
1 2 S xx 2
i 1
n
yi xi
Siguiendo el proceso por mínimos cuadrados: i 1
1
n
x i2
i 1
EL modelo de regresión ajustado es: y 1 x .
2
n
n n
2
y i y i
y 2
i 1 y i xi
El estimador de es: CM Re s i 1 i 1 i 1
2
n 1 n 1
Los intervalos de confianza son:
CM Re s
1 : 1 t , n 1
n
x i2
2
i 1
x 2 .CM Re s
E y : y t , n 1 0 n
x0
xi2
x0 2
i 1
x02
Para una observación futura: y 0 t , n 1 CM Re s 1 n
xi
2
2
i 1
2
n
yi y
Modelo con ordenada al origen i 1
R2
y i y
n 2
i 1
n 2
yi
Modelo sin ordenada al origen: i 1
R
2
n
y i2
i 1
A veces, el diagrama de dispersión proporciona una guía para decidir si se ajusta o no el modelo sin
ordenada al origen. También, se pueden ajustar ambos modelos y escoger entre ellos de acuerdo con
la calidad del ajuste obtenido. Si no se puede rechazar la hipótesis 0 0 en el modelo sin
ordenada al origen, quiere decir que se puede mejorar el ajuste si se usa es modelo.
El cuadrado medio de residuales es una forma útil de comparar la calidad del ajuste. El modelo que
tenga el cuadrado medio residual menor, es el mejor ajuste.
1 x x
y 0 t ,n 2 . CM Re s1 0
2
2 n S xx
El intervalo de predicción en x 0 siempre es más ancho que el intervalo de confianza en x 0 , porque
el intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con
observaciones futuras.
Coeficiente de determinación.
SCR SC Re s
La cantidad R 1
2
. Se llama coeficiente de determinación.
SCT SCT
1 2 S xx
Y su valor esperado: E R
2
1 2 S xx 2
n 2
SCT yi y : es una medida de variabilidad de y sin considerar el efecto de la variable
i 1
regresora x.
2
n
SC Re s yi y i : es una medida de variabilidad de y que queda después de haber tenido
i 1
en consideración a x.
Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la
ecuación de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la
RUTA: Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok
ANOVAb
Sum of
Model Squares Df Mean Square F Sig.
1 Regression 12.627 1 12.627 4936.297 .000a
Residual .013 5 .003
Total 12.640 6
a. Predictors: (Constant), Horas
b. Dependent Variable: LOGNATURAL
Coefficientsa
Unstandardized Standardized 95% Confidence Interval
Coefficients Coefficients for B
Lower Upper
Model B Std. Error Beta t Sig. Bound Bound
1 (Constan 53.28 .00
2.278 .043 2.168 2.388
t) 7 0
Horas 70.25 .00
.336 .005 .999 .323 .348
9 0
a. Dependent Variable:
LOGNATURAL
El modelo lineal encontrado es entonces: y 2.278 0.336.Horas . Para determinar el modelo
Para realizar una regresión no lineal mediante SPSS tenemos que elegir los menús
Analize>Regression>Curve Estimation.
Ejercicios.
1. Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de
educación preventiva
X Y XY X2
150 8.00 1200 22500
200 7.00 1400 40000
300 6.50 1950 90000
450 5.20 2340 202500
500 6.40 3200 250000
600 4.40 2640 360000
800 4.00 3200 640000
900 3.10 2790 810000
3900 44.60 18720 2415000
2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de
área de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece
apropiado un modelo lineal determine la ecuación de regresión.
Tienda Metros 2 Ingreso
X Y XY X2
a 55 45 2475 3025
o 80 60 4800 6400
j 85 75 6375 7225
e 90 75 6750 8100
k 90 80 7200 8100
d 110 95 10450 12100
n 130 95 12350 16900
g 140 110 15400 19600
c 180 120 21600 32400
l 180 105 18900 32400
b 200 115 23000 40000
i 200 130 26000 40000
h 215 140 30100 46225
f 260 170 44200 67600
m 300 200 60000 90000
15 2315 1615 289600 430075
3. Determine una ecuación
predictiva para calcular el
monto del seguro, en función del ingreso anual para los siguientes datos:
Ingreso Prima
X Y XY X2
13 5 65 169
16 15 240 256
17 20 340 289
18 10 180 324
20 10 200 400
25 12 300 625
26 15 390 676
32 30 960 1024
38 40 1520 1444
40 50 2000 1600
42 40 1680 1764
287 247 7875 8571
4. De una distribución de dos variables se conocen los siguientes datos:
6. En una distribución bidimensional ( xi , yi ) se sabe que: Los valores de la variable X son (1, 2,
3, 4 y 5); la recta de regresión de Y sobre X ( x 3 y 8 0) y el coeficiente de correlación
lineal (r=0.8). Hallar:
a) La media y la varianza de X
b) Los valores estimados de 0 y 1 de la recta de regresión de Y sobre X.
c) La covarianza
d) La media y la varianza de Y.
7. En un estudio donde se investigó la relación que existe entre la temperatura de la superficie de
una carretera (X, medida en grados Fahrenheit) y la deformación del pavimento (Y). El
20
resumen de cantidades es la siguiente: n=20, y
i 1
i 12 ,
20 20 20 20
yi2 8,
i 1
xi 1470;
i 1
xi2 143215
i 1
y x y
i 1
i i 1083 .