Documente Academic
Documente Profesional
Documente Cultură
Regresión y correlación
Contenidos:
Dependencia
Independencia estadística Dependencia funcional
estadística
- +
Grado de asociación entre dos variables
GRÁFICOS DE DISPERSIÓN: Permite ver si hay asociación
Dadas dos variables X y Y tomadas sobre el mismo elemento de la
población, el diagrama de dispersión es simplemente un gráfico de
dos dimensiones, donde en un eje (la abscisa) se sitúa una
variable, y en el otro eje (la ordenada) se sitúa la otra variable. Si
las variables están correlacionadas, el gráfico mostraría algún nivel
de correlación (tendencia) entre las dos variables. Si no hay
ninguna correlación, el gráfico presentaría una figura sin forma,
una nube de puntos dispersos en el gráfico.
Asociación
positiva. Si
aumenta X
aumenta Y
Estadística Económica
2007-2008. Sara Mateo.
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
La relación entre dos variables métricas puede ser
representada mediante la línea de mejor ajuste a los datos.
Esta recta se le denomina recta de regresión, que puede ser
negativa o positiva, la primera con tendencia decreciente y la
segunda creciente.
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
Para el cálculo de la recta de regresión se aplica el método de
mínimos cuadrados entre dos variables. Esta línea es la que
hace mínima la suma de los cuadrados de los residuos, es
decir, es aquella recta en la que las diferencias elevadas al
cuadrado entre los valores calculados por la ecuación de la
recta y los valores reales de la serie, son las menores posibles.
y = a + bx
Recta de regresión Pendiente
yn
yn 1 yˆ i
y3
u3 ui
yi
y1 yi
y2
Intercepto
x1 x2 x3 xi xn 1 xn
yi a bxi ui ui yi yˆi
Error
Llamemos a “u” perturbación o error, siendo la diferencia que hay entre el
valor observado de la variable exógena (y) y el valor estimado que
obtendremos a través de la recta de regresión yˆ i .
y i a bxi
La metodología para la obtención de la recta será hacer MÍNIMA la suma de
los CUADRADOS de las perturbaciones. ¿Por qué se elevan al cuadrado?
n n
u ( yi yˆi ) 2
2
i i
u 2
i 1
i i
( y
i 1
ˆ
y ) 2
n 2 n n
2
ui ( yi yˆi ) yi aq bpxi
2
min
q, p i 1 i 1 i 1
En el modelo de regresión lineal simple la función elegida para aproximar la relación entre las
variables es una recta, es decir y=a+bx, donde a,b son los parámetros. A esta recta la
llamaremos RECTA DE REGRESIÓN DE Y SOBRE X.
Vamos a deducir su ecuación usando el método de los mínimos cuadrados. Dado un valor de
X, tenemos los dos valores de Y, el observado, yi , y el teórico, yi* = a + bxi. Hemos de
minimizar los errores cometidos:
n n
x y y bx x b x
i
i i
i
i
i
2
i
x y
y
x bxnx b x
i
yi a bxi 0 y ab x
2
2 i i
i i
n
i i
a
i i i
i i i i
x y a x b x
2 yi a bxi xi 0 i i i
2
i
xi yi ynx b
xi2 nx 2
b
i i i i i i
S xy
S xy bSx2 b
S x2
y obtenemos que la recta de regresión de Y sobre X: y = a + bx con los
valores a y b anteriormente calculados, o bien la siguiente expresión:
S xy
y y x x
S x2
S xy
b' y a' x b' y
S y2
S xy
x x y y
S y2
Varianza residual: Ayuda a medir la dependencia.
yi yˆi
2
Si es grande, los residuos, por término
VR = Su2 S R2y medio, serán grandes. Dependencia
N pequeña y viceversa.
Su2 rxy R
Haciendo unas transformaciones se demuestra que r(xy)
R 1 2 visto en el capítulo 6 sólo es un caso particular de R
SY
R2
Elevado al cuadrado obtenemos el coeficiente de determinación que sirve como medida
del buen ajuste de la recta de regresión
2
Cuando solo exista una variable explicativa o S xy S xy S xy
2
R bb' r 2
S x2 S y2 S x S y
independiente y una sola dependiente se cumple: xy
1 r 1 1 R 1 0 r 2 1 0 R2 1
S S S
Recta de regresión: yˆi y XY2 x XY2 xi y XY2 xi x
SX SX SX
S XY S X SY S XY SY SY
yˆi y 2 i
x x y i
x x y r xi x
S X SY S X S X SY S X SX
r 1 1 r 0 r 0 0 r 1 r 1
S S VR
2
u
2
ry
S S S
2
R
2
Y
2
u
VE
S S
2
S 2
S 2 2
VR VE
R 1
2 u
Y R 1 u
SY2
22
S SY
Y
VT VT
S S S
2
Y
2
R
2
u VT VR VE
2
R Tanto por uno de la Y que viene explicado por la X
S XY
yˆ 0 aq bpx0 y 2 x0 x
SX