Regresion

Probabilidad y Estadstica (I.I.
) Tema 8

1

Tema 8
REGRESION Y CORRELACION

1.- Introduccin al problema de la regresin:

En la prctica es muy frecuente encontrar procesos en los que la/s variable/s de salida dependen de
alguna forma de la/s variable/s de entrada al mismo. La mayor parte de las veces, se tiene una nica
variable de salida o respuesta (dependiente) Y, que no se controla en el experimento y que es por
tanto una variable aleatoria, mientras que se pueden tener una o varias variables de entrada
(independientes) X
1
, X
2
, ..., X
k
, que pueden o no estar controladas por el investigador, aunque lo ms
comn es que estn perfectamente controladas y por tanto no puedan considerarse del todo
aleatorias y no tengan propiedades distribucionales.

Dada esta situacin el problema de la regresin consiste en encontrar una relacin entre la variable
dependiente Y el conjunto de variables independientes X
i
(Y=f(X
1
,X
2
,...,X
k
)) que aproxime a la relacin
que realmente existe entre las variables y que es desconocida, con el objeto de poder predecir
valores de Y, a partir de los valores de X
i
.

Segn que la variable de salida dependa de una o varias variables de entrada, hablaremos de
regresin SIMPLE (la que vamos a tratar nosotros) o regresin MULTIPLE respectivamente.

Adems podemos distinguir, dependiendo de la forma que presente la funcin que relaciona las
variables, entre regresin LINEAL (la funcin es una recta), regresin PARABLICA, regresin
HIPERBLICA, etc ...

En el anlisis de regresin deberemos contemplar los siguientes cuatro aspectos:
Determinar interrelacin entre variables (test de independencia, etc ...)
Determinar tipo de funcin matemtica que relaciona ptimamente las variables
(representacin grfica).
Calcular parmetros de dicha funcin matemtica y determinar bondad de ajuste.
Realizar predicciones de la variable dependiente a partir de la independiente.

2.- Regresin simple:

En este caso concreto, consideramos la existencia de una nica variable de prediccin X.

Consideramos un conjunto {(x
i
,y
i
), i =1,2,...n} de n mediciones: y
1
, ..., y
n
de una variable respuesta Y, las
cuales se han observado bajo unas condiciones experimentales que representan los valores de la
variable de prediccin X: x
1
, x
2
, ... x
n

Si se tomaran muestras adicionales con los mismos valores de x, se debe esperar que los valores de y
varen, ya que el valor y
i
en el par ordenado (x
i
,y
i
) es el valor de una variable aleatoria. Se define Y/x
como la variable aleatoria Y correspondiente a un valor fijo x, y su media y su varianza se indican por

Y/x
y
2
Y/x
, respectivamente.

Ejemplo:
Dosis inicial de droga (X) Cantidad de droga a los 5 minutos (Y)
0.05 0.01
0.05 0.02
0.05 0.00
0.10 0.05
0.10 0.01
0.20 0.15
Probabilidad y Estadstica (I.I.) Tema 8

2
Supongamos que se administra una cantidad X=x de droga. Cul ser la prediccin ptima del valor
que tome la variable Y (Y/X=x)?. El valor promedio de Y condicionado a X=x (
Y/x
).

Es obvio que, para un valor dado de x, es imposible predecir, de manera exacta, la cantidad de droga
a los 5 minutos en una persona en particular. Sin embargo es posible predecir la cantidad de droga a
los 5 minutos de todos aquellos individuos que recibieron la misma cantidad inicial de droga. Para
cada valor de x existe una distribucin de cantidad de droga a los 5 minutos y lo que se busca es la
media de esa distribucin, dado x.

Es importante hacer notar que en la regresin slo puede asociarse un valor de Y con uno de
prediccin x; no es posible establecer una relacin causa-efecto entre las Y y las x, ya que un cambio
en las x no causar uno correspondiente en la variable respuesta. De manera obvia, existe una
relacin entre la altura y el peso de una persona, pero implica esta relacin que pueda cambiar la
altura de las personas si se modifica su peso?.

El inters recae en determinar una funcin matemtica sencilla f(x) =
Y/x,
por ejemplo un polinomio,
que describa de forma razonable, el comportamiento de la variable respuesta, es decir, la funcin
que se ajuste mejor a los datos, y nos permita predecir valores de la variable respuesta.

El primer paso que daremos ser determinar el modelo o funcin matemtica que se va a utilizar. Un
procedimiento sencillo para seleccionar el modelo de regresin a utilizar, consiste en graficar la
variable respuesta contra la variable de prediccin. Si la grfica revela una tendencia lineal, deber
suponerse un modelo de regresin lineal.

Aplicar regresin LINEAL Aplicar regresin EXPONENCIAL

El lugar geomtrico de los puntos (x,
Y/x)
) recibe el nombre de curva de regresin poblacional, y no
es ms que la representacin grfica de la funcin f(x) que aproxima a la relacin entre las variables.
Estas curvas de regresin son curvas de prediccin ideales, que usualmente no conocemos.
Obsrvese que
Y/x
es un parmetro, la media de la v. a. Y/x que, en principio habra que estimar a
partir de los datos muestrales de que disponemos.

Y
u
y/x
=+x
x
1
x
2
x
3
x
4
x
5
x
6
Y
u
y/x
=+x
x
1
x
2
x
3
x
4
x
5
x
6

3
Una vez se ha seleccionado el modelo, el siguiente paso es obtener estimaciones para los parmetros
que intervienen en el mismo.

La REGRESIN LINEAL SIMPLE implica que
Y/x
est linealmente relacionado con x por la ecuacin
de regresin lineal poblacional donde los coeficientes de regresin y son parmetros que deben
estimarse a partir de los datos muestrales:

Y/x
= + x con y R y 0

Lo que s podemos conocer a partir de los datos muestrales es la ecuacin de regresin lineal
ajustada, que es el resultado de estimar los parmetros de la expresin anterior, donde las
estimaciones a y b representan la interseccin y la pendiente de y respectivamente:

u u

= b = a
bx + a = y = y llamando x + =
Y/x Y/x

Un conjunto de datos podr dar evidencia de linealidad sobre los valores de x cubiertos por dicho
conjunto. Para valores de X ms all de la zona cubierta por los datos no tendremos nunca evidencia
de linealidad.

No se debe usar nunca la recta de regresin ajustada para predecir valores de Y
correspondientes a valores de X fuera del rango cubierto por los datos.

Una tcnica muy aceptable para estimar los parmetros de la ecuacin es el mtodo de los mnimos
cuadrados, que pasamos a estudiar.

3.- Mtodo de los mnimos cuadrados:

Al utilizar el modelo de regresin lineal, hemos definido cada variable aleatoria Y
i
=Y/x
i
de la
siguiente forma:
Y
i
=
Y/xi
+ E
i
= + x
i
+ E
i

donde E
i
es el error aleatorio (error propio del modelo, debido al azar y que tiene media cero), y que
para cada observacin y
i
de Y
i
, (x
i
,y
i
), toma un valor
i

Cuando usamos la lnea de regresin ajustada bx a y + = cada par de observaciones (x
i
,y
i
) satisface:

i i i
e bx a y + + =

donde e
i
es el error residual (distancia vertical que existe entre el valor observado en el punto i de
los datos y el valor ajustado mediante la recta de regresin,
i i i
y y e = )

Dibujando sobre el diagrama de dispersin las lneas de regresin real y ajustada y los dos tipos de
errores, obtenemos:

(x
i
,y
i
)
y=a+bx
u
y/x
=+x
i
e
i
x
Y

4
Se encontrarn a y b, estimaciones de y , de tal forma que la suma de los cuadrados de los
residuos sea mnima. Con frecuencia, la suma de los cuadrados de los residuos recibe el nombre de
suma de los cuadrados de los errores alrededor de la lnea de regresin y se representa por SSE.
Este procedimiento de minimizacin para estimar los parmetros se llama mtodo de los mnimos
cuadrados.

Siendo {(x
i
,,y
i
), i = 1,2, ..., n} la nube de puntos observada. Se encontrarn a y b con objeto de
minimizar:
)
x
b - a - y ( = ) y - y ( =
e
= SSE
i
i
2
n
=1 i i i
2
n
=1 i i
2 n
=1 i

Diferenciando SSE con respecto a a y b, se tiene:
x
)
x
b - a - y ( -2 =
b
SSE
i i
i
n
=1 i

)
x
b - a - y ( -2 =
a
SSE
i
i
n
=1 i

Al igualar las derivadas parciales a cero y reacomodar los trminos, se obtienen las ecuaciones
siguientes (llamadas ecuaciones normales):
y
x
=
x
+b
x
a
y =
x
b + na
i
i
n
=1 i i
2 n
=1 i i
n
=1 i
i
n
=1 i i
n
=1 i

las cuales se pueden resolver simultneamente (por Cramer) para dar las frmulas de clculo de a y
b:
x b - y =
n
x
-b y
= a =
)
x
( -
x
n
) y )(
x
-( y
x
n
= b =
i
n
=1 i i
n
=1 i
2
i
n
=1 i i
2 n
=1 i
i
n
=1 i i
n
=1 i i
i
n
=1 i

4.- Propiedades de los estimadores de mnimos cuadrados:

Partimos de un conjunto de datos:

donde cada Y
i
= Y/x
i
es una variable aleatoria, cuya media viene dada por:
Y/xi
= + x
i
que se
estima por: y
i
= a + bx
i
, siendo a y b las estimaciones puntuales de los parmetros y .

Adems de estimar la relacin lineal entre x e y para propsitos de prediccin, se puede tambin
estar interesado en la realizacin de inferencias acerca de su pendiente y el punto de interseccin.

Para realizar pruebas de hiptesis y la determinacin de intervalos de confianza de y , se debe
hacer la suposicin adicional de que cada Y
i
est normalmente distribuida, son todas independientes y
X Y
x
1
Y
1

x
2
Y
2

... ...
x
n
Y
n


5
su varianza es la misma para todas y viene dada por
2
. Por tanto:

Y
i
N(
Y/xi
= + x
i
,
2
)

Una estimacin insesgada de esta varianza
2
viene dada por:
2 - n
S
b -
S
=
2 - n
SSE
=
s
=
xy yy
2 2

2 - n
SSE
= s tanto por

donde:

SSE es una medida de la variabilidad de las observaciones y
i
en torno a la recta de regresin
estimada.

S
xx
es una medida de la variabilidad de x y viene dada por:

S
yy
es una medida de la variabilidad de y y viene dada por:

S
xy
es una medida de la variabilidad conjunta de x e y y viene dada por:

La b de la ecuacin de la recta de regresin ajustada podra entonces ponerse en funcin de S
xy
y S
xx
como:

Bajo estas suposiciones de
independencia, normalidad y
homocedasticidad del modelo,
se cumple que los estadsticos:

se distribuyen aproximadamente segn una t de Student con n-2 grados de libertad.

Intervalo de Confianza para

Un intervalo de confianza del (1 - ) 100% para el parmetro en la lnea de regresin
Y/xi
= + x
i

es:
S
s
t
+ b < <
S
s
t
- b
xx
/2
xx
/2

donde t
/2
es un valor de la distribucin t con n-2 grados de libertad, que deja a su derecha una
S
b -
S
= SSE
S b
+
S
2b -
S
= SSE
) x -
x
(
b
+ ) y - y )( x -
x
( -2b ) y - y ( = SSE
)
x
b - ) x b - y ( - y ( = SSE
x b - y = a como )
x
b - a - y ( = SSE
xy yy
xx
2
xy yy
2
i
n
=1 i
2
i
i
n
=1 i
2
i
n
=1 i
2
i
i
n
=1 i
2
i
i
n
=1 i

) x -
x
( =
S
2
i
n
=1 i xx

) y - y ( =
S
2
i
n
=1 i yy

) y - y )( x -
x
( =
S
i
i
n
=1 i xy

S
S
= b
xx
xy
S
s
- b
=
t
xx
b

=
n
i xx
i
2
a
S
n
x
s
- a
=
t
1

6
probabilidad /2.

Contraste de Hiptesis =
0

Para probar la hiptesis nula H
0
de que =
0
en contra de la alternativa apropiada, de nuevo se
utiliza la distribucin t con n-2 grados de libertad para establecer la regin crtica.

0
1
0
0
:
H
= :
H

0
1
0
0
:
H
:
H
>

0
1
0
0
:
H
:
H
<

Intervalo de Confianza para

Un intervalo de confianza del (1-) 100% para el parmetro en la lnea de regresin
Y/xi
= + x
i

es:
S
n
x
s
t
+ a < <
S
n
x
s
t
- a
xx
i
2 n
=1 i /2
xx
i
2 n
=1 i /2

donde t
/2
es un valor de la distribucin t con n-2 grados de libertad.

NOTA:
El del nivel de significacin y el del parmetro de la lnea de regresin son diferentes.

Contraste de Hiptesis =
0

Para probar la hiptesis nula H
0
de que =
0
en contra de la alternativa apropiada, de nuevo se
utiliza la distribucin t con n-2 grados de libertad para establecer la regin crtica.
0 1
0 0
:
H
= :
H
0 1
0 0
:
H
:
H
>
0 1
0 0
:
H
:
H
<

5.- Prediccin:

La ecuacin y = a + b x puede utilizarse para pronosticar o predecir la respuesta media
Y/x0
en x =
x
0
, donde x
0
no es necesariamente uno de los valores preseleccionados, o puede utilizarse para
predecir un valor sencillo y
0
de la variable Y
0
cuando x = x
0
. Esto es, si X es el peso humano, e Y es la
estatura humana, podemos estar interesados en obtener un intervalo de confianza sobre la media
verdadera de estatura de los humanos
Y/x0
en un peso elegido x
0
=70 kg; o bien podemos estar
interesados en un intervalo de confianza sobre una estatura individual Y
0
en un peso elegido x
0
= 70
kg.

Se esperara que el error de prediccin fuera ms grande cuando se pronostica un valor que cuando
se predice una media. Esto afectar la amplitud de los intervalos para los valores que se pronostican.

S
s
- b
=
t
xx
0
b
{ }
{ }
{ }
t
t t = R.C.
t
> t t = R.C.
t
|> t | t = R.C.
n b b
n b b
n /2 b b
2 ,
2 ,
2 ,
/
/
/
<

{ }
{ }
{ }
t
t t = R.C.
t
> t t = R.C.
t
|> t | t = R.C.
n a a
n a a
n /2 a a
2 ,
2 ,
2 ,
/
/
/
<

S
n
x
s
- a
=
t
xx
i
2
n
=1 i
0
a

7
Por tanto, lo que en estimacin puntual se haca igual para ambos casos, en estimacin por intervalos,
da lugar a dos intervalos diferentes.

Intervalo de Confianza de
Y/x0

Un intervalo de confianza del (1-) 100% para la respuesta media
Y/x0
es:
S
) x -
x
(
+
n
1
s
t
+ y < <
S
) x -
x
(
+
n
1
s
t
- y
xx
0
2
/2
0
x
Y
xx
0
2
/2
0
0

u
donde t
/2

Intervalo de Prediccin para Y
0

Un intervalo de prediccin del (1-) 100% para una sola respuesta y
0
es:
S
) x -
x
(
+
n
1
+ 1 s
t
+ y < <
S
) x -
x
(
+
n
1
+ 1 s
t
- y
xx
0
2
/2
0
x
Y
xx
0
2
/2
0
0

u
donde t
/2

6.- Evaluacin de la intensidad de la relacin lineal

Hasta ahora el mtodo que tenamos de saber cundo era conveniente suponer que la relacin entre
las variables era lineal, era slo mediante el diagrama de dispersin. Pero ya en su momento
habamos comentado que este argumento era muy dbil y que existan otros mtodos de saberlo.
Bsicamente son dos los mtodos de averiguarlo.

Mtodo del Anlisis de la Varianza

Es un procedimiento que subdivide la variacin total de la variable dependiente Y en sus componentes
ms significativas.

Supngase que se tienen n puntos de datos experimentales en la forma usual (x
i
,y
i
) y que se estima la
lnea de regresin ajustada. Habamos obtenido SSE = S
yy
- b S
xy
, de donde:
S
yy
= b S
xy
+ SSE
o bien, haciendo SST = Syy
SSR = b S
xy

tenemos:
SST = SSR + SSE

Hemos descompuesto la variacin total de la variable dependiente en dos componentes ms
significativas para el experimentador.
SST = Suma total corregida de los cuadrados
SSR = Suma de los cuadrados de regresin. Refleja la cantidad de variacin de los
valores de y explicados por el modelo, por la lnea recta en este caso.
SSE = Suma de los cuadrados del error residual. Refleja la variacin alrededor de la
lnea de regresin. Inexplicada por la recta de regresin.

Estamos entonces interesados en probar la hiptesis:
0 :
H
0 = :
H
1
0

La hiptesis nula afirma que el modelo es
Y/x
= , es decir, que las variaciones de y son

8
independientes de los valores de x y totalmente aleatorias. La hiptesis alternativa afirma, en
cambio, que una porcin significativa de la variacin de y se explica mediante el modelo de regresin
lineal de y sobre x.

Bajo las condiciones de la hiptesis nula, puede demostrarse que SSR/
2
y SSE/
2
son valores de
variables independientes
2
con 1 y n-2 grados de libertad respectivamente, y SST/
2
tambin es un
valor de variable
2
con n-1 grados de libertad.

Para probar la hiptesis nula se usa el estadstico:
s
SSR
MSE
MSR
n
SSE
SSR
=
n
SSE
SSR
= f
2
= =
) 2 (
1
) 2 ( :
1 :
2
2

y se rechaza H
0
con un nivel de significacin cuando f > F

, (1, n-2).

Anlisis de la varianza para probar = 0
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados medios Estadstico
calculado
Regresin SSR = b S
xy
1 MSR = SSR/1
Error SSE = S
yy
- b S
xy
n-2 MSE = SSE/n-2
Total SST = S
yy
n-1

f = MSR/MSE

Regin Crtica = [ F
(1, n-2),
, +)

Mtodo del Coeficiente de Determinacin

Este mtodo consiste en calcular un estadstico, cuyo valor nos indicar si se puede considerar
aceptable o no el modelo de regresin lineal. Por estar basado en el coeficiente de correlacin
empezaremos explicando la CORRELACION.

El anlisis de CORRELACION intenta medir la fuerza de la relacin lineal entre dos variables, por
medio de un simple nmero que recibe el nombre de coeficiente de correlacin de Pearson, y viene
dado por:

y x
xy
Y) cov(X,
=
Y) VAR(X)VAR(
Y) cov(X,
=
donde, como sabemos, cov(X,Y) = E[(X - E[X]) (Y - E[Y])] = E[X Y] - E[X] E[Y]

Si valores pequeos de x estn asociados a valores pequeos de y, y valores grandes de x estn
asociados a valores grandes de y, entonces (X - E[X]) y (Y - E[Y]) tendrn el mismo signo, y por
tanto (X - E[X]) (Y - E[Y]) >0 cov(X,Y) >0

Anlogamente si valores pequeos de x estn asociados a valores grandes de y, y valores grandes de
x estn asociados a valores pequeos de y, entonces (X - E[X]) y (Y - E[Y]) tendrn distinto signo, y
por tanto (X - E[X]) (Y - E[Y]) <0 cov(X,Y) <0

Este estadstico slo toma valores entre comprendidos entre -1 y 1, aunque no lo vamos a demostrar

9
( |
xy
| 1).
El valor del coeficiente de correlacin poblacional
xy
es cero cuando = 0, lo cual ocurre
esencialmente cuando no hay regresin lineal, es decir, la recta de regresin es horizontal y
cualquier conocimiento de X no es til para predecir Y.

Los valores de
xy
= 1 slo ocurren cuando se tiene una regresin lineal perfecta entre las dos
variables. Entonces, un valor
xy
= +1 implica una relacin lineal perfecta con una pendiente positiva,
mientras que un valor de
xy
= -1 resulta en una relacin lineal perfecta con una pendiente negativa.

Valores de
xy
cercanos a la unidad en magnitud, implican buena correlacin o asociacin lineal entre
X e Y, mientras que valores cercanos a cero, implican poca o ninguna correlacin (que no es lo mismo
que que las variables sean independientes).

xy
= 0 X, Y estn incorreladas, que no implica que X e Y sean independientes.

xy
= 0
xy
= 0
X,Y incorreladas: puntos al azar X,Y incorreladas: relacionadas no linealmente

xy
= +1
xy
= -1

Volvemos a encontrarnos con el problema de siempre: cov(X,Y), V(X) y V(Y) son parmetros
poblacionales que sern, en general, desconocidos y habr que estimarlos, con lo que tampoco
conoceremos el valor de
xy
, sino el de su estimacin:
xy xy
r =
| | | | | |
n
S
=
n
y
x
- y
x
n
= y) ov(x, c
y
n
1
x
n
1
- y
x
n
1
= y) ov(x, c
Y E X E Y X E = y) ov(x, c
xy
2
n
i
i
n
i
i
n
i
i
i
n
i
i
n
i
i
n
i
i
i

= = =
= = =
|
.
|
\
|
|
.
|
\
|
1 1 1
1 1 1
.


10
n
S
=
n
x
-
x
n
=
x
n
1
-
x
n
1
= (x) V =
xx
2
n
i
i
n
i
2
i
2
x
n
i
i
2
n
i
2
i
2
x
2
1 1
1 1
|
.
|
\
|
|
.
|
\
|

= =
= =

n
S
=
n
y - y n
=
y
n
1
- y
n
1
= (y) V =
yy
2
n
i
i
n
i
2
i
2
y
n
i
i
2
n
i
2
i
2
y
2
1 1
1 1
|
.
|
\
|
|
.
|
\
|

= =
= =

S
S
b =
S S
S
=
r
=
yy
xx
yy xx
xy
xy
xy

donde r
xy
es el coeficiente de correlacin muestral, que tiene el mismo signo que b, es decir, una
correlacin positiva (negativa) implica una recta de regresin con pendiente positiva (negativa) y
viceversa. Una vez conocido esto, podemos calcular:
S
SSR
=
S S
S
= r
yy yy xx
2
xy
xy
2

que recibe el nombre de coeficiente de determinacin muestral y representa la proporcin de la
variacin de S
yy
explicada por la regresin de Y en X, es decir, SSR.
r
- 1 =
S S
S
- 1 =
S
SSE
S
S
= b como
S
S
b - 1 =
S
SSE
S
b -
S
= SSE
2
xy
yy xx
2
xy
yy
xx
xy
yy
xy
yy
xy yy

S
SSR
=
S
SSE -
S
=
S
SSE
- 1 =
r
yy yy
yy
yy
2
xy

r
2
xy
* 100 % es el porcentaje de la variacin total de Y que puede ser explicado por la recta de
regresin o que es atribuible a la relacin lineal entre X e Y.

Un valor de r
2
xy
= 0.89, indica que aproximadamente el 89% de la variacin de los valores de Y se
deben a una relacin lineal con X.

Se puede realizar otro contraste de hiptesis equivalente al de = 0 con el coeficiente de
correlacin, para ver si es apropiado el mtodo de regresin lineal.

H
0
:
xy
= 0 (No es buena la regresin lineal)
H
1
:
xy
0

El estadstico del contraste es:
)
`
t > | t | t R.C. siendo

r
- 1
2 - n
r
= t
n
2
2
xy
xy
2 ,
/ :
que bajo H
0
, sigue una distribucin t de Student con n - 2 grados de libertad.


11
EJERCICIO EJEMPLO

Estamos midiendo la relacin entre la altura (X) y la longitud (Y) de la concha de cierta especie de
lapas (PATELLOIDA CANARIENSIS) que se encuentra en las costas de Canarias. Se obtienen pares
de mediciones como estas:

X 0.9 1.5 ... 2.7
Y 3.1 3.6 ... 6.3

cuyas sumatorias son las siguientes:
28 = n 832.85 = y 117.68 =
x
311.96 = y
x
151.1 = y 56.5 =
x
i
2
n
=1 i i
2 n
=1 i
i
i
n
=1 i i
n
=1 i i
n
=1 i

Se pide calcular:
a) Coeficiente de correlacin y recta de regresin de Y sobre X
b) Es vlido el modelo lineal?. Justificar la respuesta.
c) Intervalo de confianza al 90% de la longitud promedio de las lapas cuya altura es 2.
d) Intervalo de confianza al 95% de la longitud de una lapa de altura 2.

NOTA: Para los intervalos de confianza, tmese = 0.01

SOLUCION
a)
7.0618 =
28
.1) (56.5)(151 - 28(311.96)
=
n
) y )(
x
-( y
x
n
=
S
17.4496 =
28
) (151.1 - 28(832.85)
=
n
) y -( y n
=
S
3.6711 =
28
) (56.5 - 28(117.68)
=
n
)
x
-(
x
n
=
S
i
n
=1 i i
n
=1 i i
i
n
=1 i
xy
2 2
i
n
=1 i
2
i
n
=1 i
yy
2 2
i
n
=1 i
2
i
n
=1 i
xx

x 1.9236 + 1.5148 = bx + a = y
1.5148 =
n
x
b -
n
y
= x b - y = = a
1.9236 =
S
S
= = b
i
n
=1 i i
n
=1 i
xx
xy

Luego el 77.85% de la variacin de Y puede ser atribuida a su asociacin lineal creciente (r
xy
> 0) con
X

b) La cuestin que se nos plantea en este apartado es Es suficiente la cantidad r
2
xy
obtenida en el
apartado anterior?. Para averiguarlo realizamos el contraste:

H
0
: = 0
H
1
: 0

para el que se realiza el siguiente anlisis de la varianza:

0.7785 =
r
0.8823 =
S S
S
=
r
2
xy
yy xx
xy
xy

12
Anlisis de la varianza para probar = 0
Fuente de
variacin
Suma de cuadrados Grados
libertad
Cuadrados
medios
Estadstico
calculado
Regresin SSR = bS
xy
= 13.5843 1 MSR = SSR/1 =
13.5843

f =MSR/MSE
f = 91.35
Error SSE = S
yy
- bS
xy
= 3.8654 n-2 = 26 MSE = SSE/26 =
0.1487

Total SST = S
yy
= 17.4496 n-1= 27

R.C = [ F
(1, 26)
,0.05 , +) = [4.23, +)

como 91.35 cae dentro de la regin crtica, se rechaza H
0
, por lo que se acepta como vlido el modelo
lineal.

Otro contraste equivalente que poda haberse realizado es:
H
0
:
xy
= 0 (no es vlido)
H
1
:
xy
0 (es vlido)

{ } { } { } 056 / / / :
2
2. |> t | t =
t
|> t | t =
t
|> t | t R.C
9.56 =
0.4706
4.499
=
0.7785 - 1
26 0.8823
=
r
- 1
2 - n
r
=
t
5 0.0 26,
2
2, - n
2
xy
2 - n

9.56 pertenece a la regin crtica, luego se rechaza H
0
y se considera vlido el modelo lineal.

c)

0.1245 = 0.1892 * 0.3856 * 1.706 =
S
) x -
x
(
+
n
1
s
t
1.706 =
t
=
t
S
) x -
x
(
+
n
1
s
t
y = , I
xx
2
0
2
2, - n 26,0.05
2
2, - n
xx
2
0
2
2, - n
0 x y/
0

0.000088 =
S
) x -
x
(
0.000324 = ) x -
x
(
0.3856 = s 0.1487 =
26
3.8654
=
2 - n
SSE
=
s
2.018 = x
5.362 = 2 * 1.9236 + 1.5148 = y 2 =
x
xx
2
0 2
0
2
0
0

5.4865] [5.2375, = ,0.1 I
x y/
0
u


13
d)
0.807 = 1.0177 * 0.3856 * 2.0566 =
S
) x -
x
(
+
n
1
+ 1 s
t
2.056 =
t
=
t
S
) x -
x
(
+
n
1
+ 1 s
t
y = , y I
xx
2
0
2
2, - n
26,0.025
2
2, - n
xx
2
0
2
2, - n
0 0

para = 95%
6.169] [4.555, = ,0.05 y I
0

0.6695 = 1.0177 * 0.3856 * 1.706 =
S
) x -
x
(
+
n
1
+ 1 s
t
1.706 =
t
=
t
S
) x -
x
(
+
n
1
+ 1 s
t
y = , y I
xx
2
0
2
2, - n
26,0.05
2
2, - n
xx
2
0
2
2, - n
0 0

para = 90%
6.032] [4.6925, = ,0.1 y I
0

Regresion

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresion

Încărcat de

Drepturi de autor:

Formate disponibile

Probabilidad y Estadstica (I.I.

Probabilidad y Estadstica (I.I.) Tema 8

Probabilidad y Estadstica (I.I.) Tema 8

t > | t | t R.C. siendo

S-ar putea să vă placă și