Sunteți pe pagina 1din 7

Regresin lineal simple

1. Introduccin
Para este estudio utilizaremos muestras bivariantes cuantitativas, es decir
con muestras donde en cada unidad estadstica se observan dos
caractersticas cuantitativas medibles X e Y; por ejemplo, ingresos y gatos
mensuales. El objetivo es estudiar la asociacin entre dos variables
conocida tambin como asociacin simple.
Hay dos formas de estudio de la asociacin entre las variables X e Y: la
regresin y la correlacin; de las cuales, slo nos ocuparemos de la
primera.
La regresin consiste en determinar una relacin funcional (recta de
regresin) entre ellas, con el fin de que se pueda predecir el valor de una
variable en base a la otra. La variable que se va a predecir se denomina
variable dependiente y la variable que es la base de la prediccin se
denomina variable independiente.

2. Diagrama de dispersin
Sean (x
1
, y
1
), (x
2
, y
2
), ,(x
n
, y
n
) n valores de la variable bidimensional
(X, Y), observados en una muestra, donde los x
i
son los valores de la
variables X y los y
i
son los valores de la variable Y.
Los mtodos estadsticos descriptivos son vlidos en cada variable, es decir
cada variable tiene media, desviacin estndar, etc. Lo nuevo aqu es que
con estos datos en pareja se puede medir la dispersin conjunta con
respecto a las medias ( ) mediante la covarianza.
Adems, si los datos de X se tabulan en r intervalos; I
i
; y los datos de Y se
tabulan en s intervalos; I
j
, se tendr una distribucin conjunta de
frecuencias que consiste de los intervalos (I
i
, I
j
), y frecuencias f
ij
. En este
texto slo haremos regresin con datos tabulados, pero no en intervalos.

Definicin. Se denomina diagrama de dispersin o nube de puntos, a la
grfica de los valores (x
i
, y
i
) de las variables X e Y en el sistema cartesiano.

y x,
Es frecuentemente posible visualizar el tipo de relacin existente entre dos
variables a partir del diagrama de dispersin.







a) lineal positiva b) lineal negativa c) no lineal







d) ninguna relacin

Fig.1 Diagramas de dispersin

Por ejemplo, en las figuras 1.a), 1.b) los datos visualizan una relacin lineal
entre las variables X e Y. En la figura 1.c) los datos visualizan una relacin,
pero, una relacin no lineal, y en la figura 1.d) los datos visualizan ninguna
relacin vlida entre las variables X e Y.
En este captulo como ya se ha indicado en la introduccin, haremos
regresin lineal descriptiva determinado la ecuacin lineal de:
Y = a + bX
Que mejor se ajusta a los n pares de datos (x
i
, y
i
) y analizando la validez de
la regresin a partir del coeficiente de determinacin.

3. Covarianza
Es una estadstica que mide el grado de dispersin o variabilidad de dos
variables X e Y con respecto a sus medias respectivas
X
Y
X
X
Y
X
X
Y
X
X
Y
X
y x,

Definicin. La covarianza de n valores (x
1
, y
1
), (x
2
, y
2
), ,(x
n
, y
n
) de una
variable bidimensional (X, Y) es el nmero Cov(X, Y) o s
XY
que se define
igual a la media aritmtica de los productos de las desviaciones de los datos
con respecto a sus correspondientes medias . Esto es,

( )( )
n
y y x x
s
i
n
i
i
XY

=

=1


En el numerador de s
XY
se verifica la relacin:

( )( )

=
=
y x n y x y y x x
i i
n
i
i i
1


Luego,
y x
n
y x
s
i
n
i
i
XY
=

=1


La covarianza a diferencia de la varianza, puede ser negativa.

4. Coeficiente o ndice de correlacin
Definicin. El coeficiente de correlacin lineal de Pearson de n pares de
valores (x
1
, y
1
), (x
2
, y
2
), ,(x
n
, y
n
) de una variables bidimensional (X, Y) es
el nmero abstracto r que se calcula por

Y X
XY
s s
s
r =


donde, s
XY
es la covarianza de X e Y.
s
X
es la desviacin estndar de X.
s
Y
es la desviacin estndar de Y.

y x,
Se cumple:

( ) ( )




= =
2
2
2
2
y y n x x n
y x xy n
s s
s
r
Y X
XY


-1s r s 1.
Interpretacin:
Si r =1, se dice que hay una correlacin perfecta positiva.
Si r = 1, se dice que hay una correlacin perfecta negativa.
Si r =0, se dice que no hay una correlacin entre las dos variables.

5. Regresin lineal simple
Dados n pares de valores (x
1
, y
1
), (x
2
, y
2
), ,(x
n
, y
n
) de una variable
bidimensional (X, Y). La regresin lineal simple de Y con respecto a X,
consiste en determinar la ecuacin de la recta:

Y = a + bX

que mejor se ajuste a los valores de la muestra, con el fin de poder
predecir o estimar Y (variable dependiente) a partir de X (variables
independiente).
El proceso de predecir o estimar Y a partir de la variable X, es la regresin.
Hallar la funcin lineal Y = a + bX, consiste en determinar los valores de a y
b a partir de los datos de la muestra.
Usaremos la notacin
i
y para representar una valor de Y calculado de la
ecuacin Y = a + bX cuando X es igual a x
i
. Esto es
i
y = a + bx
i
.
Al valor
i
y se denomina calor estimado o predecido o ajustado de Y cuando
X = x
i
.
Si x
i
es un valor de la muestra, entonces (x
i
,
i
y ) es un punto de la recta de
regresin Y = a + bX (Ver Fig. 2).














Fig. 2 Desviaciones de valores observados y ajustados

Definicin. Se denomina error o residuo a cada diferencia,
i i i
y y d

=

del valor observado y
i
y el valor pronosticado

i
y (Fig. 2).
Un mtodo para determinar la recta que mejor se ajuste a los n datos de la
muestra (x
i
, y
i
) es el mtodo de mnimos cuadrados, que se explica a
continuacin.

6. Recta de regresin de mnimos cuadrados
La recta de regresin de mnimos cuadrados de Y en X es aquella que hace
mnima la suma de los cuadrados de errores (SCE) cuya expresin es:

SCE =
( ) ( )

= = =
= =
n
i
i i
n
i
i i
n
i
i
bx a y y y d
1
2
1
2
1
2



Luego, determinar una recta de regresin mnimos cuadrados consiste en
hallar los valores de a y b de manera que hagan mnima, la suma:

SCE =
( ) | |

=
+
n
i
i i
bx a y
1
2

X
Y
i
y


y
i
x
i
Y = a + bX
a
d
i
Este requisito se cumple, de acuerdo con el teorema de Gass-Markow, si
a y b se determinan resolviendo el siguiente sistema de ecuaciones
normales:

= =
+ =
n
i
i
n
i
i
x b na y
1 1



= = =
+ =
n
i
i
n
i
i
n
i
i i
x b x a y x
1
2
1 1


Estas ecuaciones se obtienen de igualar a cero las derivadas de SCE con
respecto a a y con respecto a b respectivamente consideradas como
variables, ya que (x
i
, y
i
) son datos observados.
Resolviendo el sistema de ecuaciones normales para b, se obtiene:

b =
( )

2
2
i i
i i i i
x x n
y x y x n
, o b =
2
X
XY
s
s


y dividiendo por n la primera ecuacin normal, se tiene el valor:

x b y a =


NOTA. Sustituyendo
x b y a =
en Y = a + bX, resulta,

( ) x X b y Y =


que es otra forma de expresar la recta de regresin. Observar que la recta
de regresin contiene al punto
( ) y x,
cuyas componentes son las medias
de X y de Y respectivamente.



Interpretacin del coeficiente de regresin b
El coeficiente b es la pendiente o el coeficiente de la regresin lineal. La
constante a es la ordenada en el origen.
Si b > 0, entonces, la tendencia lineal es creciente, es decir, a mayores
valores de X corresponden mayores valores de Y. Tambin, a menores
valores de X corresponden menores valores de Y.
Si b < 0, entonces, la tendencia lineal es decreciente, es decir, a
mayores valores de X corresponden menores valores de Y. Tambin, a
menores valores de X corresponden mayores valores de Y.
Si b = 0, entonces, Y = a . Luego, Y permanece estacionario para
cualquier valor de X. En este caso se dice, no hay regresin.

NOTA. b tambin se interpreta es el cambio promedio en Y = a + bX cuando
X cambia una unidad. Esto es, si x
i
se incrementa 1, entonces
i
y se
incrementa en promedio b.
En general, si x
i
se incrementa k, entonces
i
y se incrementa en promedio
kb.

7. Nociones de regresin no lineal
En muchos casos cuando los valores en parejas de las variables X, e Y, no
se ajustan a una lnea recta, se puede conseguir una relacin lineal
mediante una transformacin de estos valores.
A continuacin se dan algunas ecuaciones no lineales y su transformacin
lineal.
Ecuacin Transformacin lineal
a. Y = A.B
X
(exponencial) log Y = log A + (log B).X
b. Y = A.X
B
(potencial) log Y = log A + BlogX
c. Y = 1/(A + BX) (hiperblica) Y = A + BX, siendo Y = 1/ Y

S-ar putea să vă placă și