Sunteți pe pagina 1din 51

Regresin Lineal Simple y

Correlacin

Si tenemos 2 datos x y y se
pueden graficar en un sistema
coordenado y as obtener su
representacin grfica y a esta
representacin se le llama
diagrama de dispersin.

Ejemplo:
x
5
7
11
15
20
25
30
35
40

y
10
15
20
25
30
35
40
45
50

Errores comunes en regresin


a) Extrapolacin ms all del rango de los
datos observados.
b) Causa y efecto.
c) Uso de tendencias anteriores para estimar
tendencias futuras.
d) Interpretacin errnea de los coeficientes
de correlacin y determinacin.
e) Descubrimiento de relaciones cuando no
existen.

Extrapolacin ms all del rango


de los datos observados
Un error comn es suponer que la
lnea de estimacin puede aplicarse
en cualquier intervalo de valores. Una
ecuacin de estimacin es vlida slo
para el mismo rango dentro del cual
se tom la muestra inicialmente.

Causa y efecto
Los anlisis de regresin y correlacin no
pueden, de ninguna manera, determinar
la causa y el efecto.

Uso de tendencias anteriores


para estimar tendencias futuras
Debemos reevaluar los datos histricos
que se usarn para estimar la ecuacin de
regresin. Las condiciones pueden
cambiar y violar una o ms de las
suposiciones de las cuales depende
nuestro anlisis de regresin. En muchas
situaciones, sin embargo, esta varianza
cambia de un ao a otro.

Interpretacin errnea de los coeficientes


de correlacin y determinacin
El
coeficiente
de
determinacin
se
malinterpreta si usamos r2 para describir el
porcentaje de cambio en la variable
dependiente ocasionado por un cambio en la
variable independiente. Esto es incorrecto
porque r2 es una medida slo de qu tan bien
una variable describe a la otra, no de qu tanto
cambio en una variable es originado por la otra
variable. Tambin se debe distinguir r y r2.

Descubrimiento de relaciones cuando


no existen
Al aplicar el anlisis de regresin, en ocasiones se
encuentra una relacin entre dos variables que, de
hecho, no tienen un vnculo comn o sentido. A este
respecto, si uno tuviera que desarrollar un gran
nmero de regresiones entre muchos pares de
variables, probablemente sera posible obtener
algunas
relaciones
sugeridas
bastante
interesantes. Se requiere tener el conocimiento, de
las limitaciones inherentes a la tcnica que se est
empleando, adems de sentido comn para evitar
llegar a conclusiones injustificadas.

Modelo de regresin simple


El anlisis de la regresin puede ser lineal
o no lineal (curvilneo), y puede ser lineal
simple o lineal mltiple. El lineal simple se
ocupa slo de 2 variables y el lineal
mltiple de 3 o ms variables.

Modelo de regresin simple


El objetivo de este modelo es explicar el
comportamiento de una variable
cuantitativa de inters Y (consumo en un
supermercado, temperatura del aire)
como funcin de otra variable
cuantitativa X observable (ofertas, altura
a la que se toma la temperatura).

Modelo de regresin simple


En el modelo de regresin lineal simple, se
expresa yi como funcin lineal de xi.
yi = 0 + 1xi + i
donde:
yi = valor pronosticado de y para la observacin i.
0 = Ordenada en yi para la poblacin, representa el
valor promedio de yi cuando xi es igual a 0.
1 = Pendiente para la poblacin, representa el
cambio esperado en yi por unidad de cambio en x.
i = Error aleatorio en Y para la observacin i.

Variables de regresin
Las variables de regresin independientes
son las que representamos como los
valores que graficamos en el eje
horizontal (x).
Las variables de regresin dependientes
son las que representamos como los
valores que graficamos en el eje vertical
(y).

Diagramas de Dispersin
Consiste en representar los pares de
valores (xi , yi) como puntos en un
sistema de ejes cartesianos X y Y .

Diagramas de Dispersin

Relacin Lineal Positiva

Diagramas de Dispersin

Relacin Lineal Negativa

Diagramas de Dispersin

Relacin Parablica

Diagramas de Dispersin

Relacin Potencial (Fracciones)

Diagramas de Dispersin

Relacin Potencial

Diagramas de Dispersin

Relacin Exponencial

Diagramas de Dispersin

Sin relacin

Suposiciones para el Modelo de


Regresin Lineal
1. Linealidad.
2. Independencia de errores.
3. Normalidad.
4. Igual varianza (Homoscedasticidad).

Linealidad
La primera suposicin, linealidad,
establece que la relacin entre variables
es lineal. Las relaciones entre variables
pueden ser no lineales o sin relacin.

Independencia de errores
La segunda suposicin, independencia de
errores, requiere que los errores sean
independientes unos de otros. Esta
suposicin, es en especial importante
cuando los datos se recolectan los datos
a lo largo de un periodo de tiempo. En
esas situaciones, los errores para un
periodo especfico con frecuencia se
relacionan con los del periodo anterior.

Normalidad
La tercera suposicin, normalidad,
requiere que los errores se distribuyan
normalmente en cada valor de x, siempre
que la distribucin de los errores
alrededor de la recta de regresin en cada
nivel de x no sea en extremo diferente de
una distribucin normal, no habr efectos
serios en las inferencias acerca de la recta
de regresin y los coeficientes de
regresin.

Normalidad

Igual varianza
La cuarta suposicin, igual varianza o
homoscedasticidad, requiere que la
varianza de los errores sea constante
para todos los valores de x, es importante
para usar el mtodo de mnimos
cuadrados que determina los coeficientes
de regresin. Si hay desviaciones serias de
esta suposicin, se pueden aplicar
transformaciones de datos o mtodos de
mnimos cuadrados ponderados.

Anlisis de residual
Se utiliza para evaluar qu tan adecuado
es el modelo de regresin ajustado a los
datos.
El residual o error del valor estimado ei es
la diferencia entre los valores observados
(yi) y los valores pronosticados ( ) de la
variable dependiente para un valor dado
de xi.

Anlisis de residual
Grficamente, aparece un residuo en el
diagrama de dispersin como la distancia
vertical entre un valor observado de y y la
lnea de prediccin.
=

Evaluacin de las suposiciones


Linealidad. Para evaluar la linealidad, se
debe graficar los residuos en el eje vertical
contra los valores correspondientes de xi
de la variable independiente en el eje
horizontal. Si el modelo lineal es
apropiado para los datos, no habra un
patrn aparente de este grfico. Sin
embargo, si el modelo lineal no es
apropiado, habr una relacin entre los
valores x y los residuos e .

Linealidad

Evaluacin de las suposiciones


Independencia. Dicha autocorrelacin se
puede probar con el estadstico de DurbinWatson.

Evaluacin de las suposiciones


Independencia.
Si est presente un efecto positivo de
autocorrelacin, habr grupos de residuos con
el mismo signo y podr detectarse
rpidamente un patrn aparente. Si existe una
autocorrelacin negativa, los residuos
tendern a saltar hacia atrs y hacia delante,
de positivo a negativo, luego a positivo y as
sucesivamente. Este tipo de patrn se observa
rara vez en los anlisis de regresin.

Evaluacin de las suposiciones


Independencia.
El estadstico de Durbin-Watson mide la
correlacin entre cada residuo y el residuo
para el periodo de tiempo inmediatamente
anterior al periodo den inters.
D

(e e
i 2

i 1

2
i

Donde:
i 1
ei = Residuo en el periodo de tiempo i.

Evaluacin de las suposiciones


Independencia.
Cuando los residuos sucesivos estn
autocorrelacionados positivamente, el
valor de D se acercar a 0. Si los residuos
no se correlacionan, el valor de D se
aproximar a 2.

Evaluacin de las suposiciones


Independencia.
(Si existe una autocorrelacin negativa, D
ser mayor a 2 e incluso se podra acercar
a su mximo valor de 4)
En la tabla 8C (ITAM) se incluyen dos
valores para cada combinacin de (nivel
de significancia), n (tamao de la
muestra), y k (nmero de variables
independientes en el modelo).

Evaluacin de las suposiciones


Independencia.
El primer valor, dL representa el valor
crtico ms bajo. Si D se encuentra por
debajo de dL, se concluye que existe
evidencia de una autocorrelacion positiva
entre los residuos. En tal circunstancia, el
mtodo de los mnimos cuadrados es
inapropiado, y debera recurrirse a
mtodos alternativos.

Evaluacin de las suposiciones


Independencia.
El segundo valor, dU, representa el valor
crtico superior a D, por encima del cual se
concluira que no existe evidencia de una
autocorrelacin positiva entre los
residuos. Si D se encuentra entre dL y dU,
no se podr llegar a una conclusin
definitiva.

Evaluacin de las suposiciones

Normalidad.
Se puede evaluar la suposicin de
normalidad en los errores agrupando los
residuos dentro de la distribucin de
frecuencias y mostrando los resultados en
un histograma. Tambin es factible
evaluarla comparando los valores reales
contra los valores tericos de los residuos,
o construyendo una grfica de
probabilidad normal (Minitab), un

Evaluacin de las suposiciones

Normalidad.
diagrama de tallo y hojas o una grfica de
caja y bigote para los residuos. Es difcil
evaluar la suposicin de normalidad con
pocos datos.

Evaluacin de las suposiciones

Igual varianza o homoscedasticidad.


Para verificar si hay homoscedasticidad,
los residuos (y y ) se grafican contra los
valores ajustados de y (y ) o tambin se
puede verificar en una grfica de los
residuos (y y ) contra los valores x.

No Homocedasticidad

No Homocedasticidad

Homocedasticidad

Determinacin de la ecuacin de
regresin
Mtodo de Mnimos Cuadrados

Para evitar el juicio individual en la


construccin de rectas, parbolas, u otras
curvas de aproximacin en su ajuste a
colecciones de datos es necesario obtener una
definicin de la mejor recta de ajuste o mejor
parbola de ajuste, etc.
Para llegar a una posible definicin considrese
en la figura los puntos representativos de los
datos dados por (x1, y1), (x2, y2), ..., (xn, yn).

Determinacin de la ecuacin de
regresin

Mtodo de Mnimos Cuadrados


Como se indica en la figura, para un valor
dado de x por ejemplo: x1 habr una
diferencia entre el valor y1 y el
correspondiente valor de la curva C, se
denota esta diferencia por D1, que se
conoce a veces como desviacin, error o
residuo y puede ser positivo, negativo o
incluso 0 (cero). De la misma manera para
los valores de x2 hasta xn se obtienen las
desviaciones D2 hasta Dn .

Mtodo de Mnimos Cuadrados


Una medida de la bondad de ajuste de la
curva C a los datos dados viene
suministrada por la cantidad:
D12 + D22 + D32 +... Dn2
Definicin: De todas las curvas de
aproximacin a una serie de datos
puntuales, la curva que tiene la propiedad
de que la suma anterior es mnima se
conoce como la mejor curva de ajuste.

Mtodo de Mnimos Cuadrados


D12 + D22 + D32 +... Dn2 = mnimo
Una curva que presente esta propiedad se
dice que se ajusta a los datos por mnimos
cuadrados y se llama curva de mnimos
cuadrados.
As una recta con esta propiedad se llama
recta de mnimos cuadrados, una parbola
con esta propiedad se llama parbola de
mnimos cuadrados, etc.

Recta de Mnimos Cuadrados


La recta de aproximacin por mnimos
cuadrados de los puntos (x1, y1), (x2, y2),
..., (xn, yn) de nuestro conjunto de datos
tiene la ecuacin:
= 0 + 1
Donde, es el valor pronosticado de y
para la observacin i, las constantes b0 y
b1 son coeficientes de regresin.

Recta de Mnimos Cuadrados


Se determinan mediante el sistema de
ecuaciones:
n

y
i 1

x y
i 1

nb0 b1 xi
n

i 1
n

b0 xi b1 x
i 1

(1)

i 1

2
i

(2)

S-ar putea să vă placă și