Sunteți pe pagina 1din 13

Anlisis de Regresin

Captulo 4

-1

Propsito del Anlisis de Regresin




Regresin Lineal Simple

El Anlisis de Regresin se utiliza


principalmente para modelar relaciones
entre variables y para pronstico


Gerardo Heckmann
Universidad Nacional de Crdoba

Predice el valor de una variable dependiente


(de respuesta) basado en el valor de al menos
una variable independiente (explicativa)
Explica el efecto de las variables independientes
sobre las dependientes

Gerardo Heckmann , FCE - UNC

Modelo de Regresin Lineal Simple

Tipos de modelos de regresin


Relacin lineal positiva

Relacin NO lineal


Relacin lineal negativa

Sin relacin

Gerardo Heckmann , FCE - UNC

Variable
Dependiente
(Respuesta)
Gerardo Heckmann , FCE - UNC

Gerardo Heckmann, FCE - UNC


E

(Valores Observados
de Y) =

Error
Aleatorio

(continuacin)

Yi = 0 + 1 X i + i

i = Error Aleatorio

Yi = 0 + 1 X i + i
Recta de
Regresin
YX
Poblacional
(media condicional)

Regresin Lineal en la Poblacin

La ecuacin de regresin poblacional es una lnea


recta que describe la dependencia del valor promedio
(media condicional) de una variable sobre la otra
Pendiente
Poblacional

La relacin entre las variable es descripta


por una funcin lineal
El cambio en una variable causa el cambio
en la otra
Hay una dependencia de una variable en la
otra.

Gerardo Heckmann , FCE - UNC

Regresin Lineal en la Poblacin

Constante Poblacional

YX = 0 + 1 X i

Variable
Independiente
(Explicativa)

(Media Condicional)

X
Valor observado de Y
5

Gerardo Heckmann , FCE - UNC

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Regresin lineal en la muestra

-2

Regresin lineal en la muestra


(continuacin)

La recta de regresin muestral provee una

estimacin de la recta poblacional y pronsticos


del valor de Y

cuadrado de los residuos

Estimacin de la
pendiente

Estimacin de la
constante

Yi = b0 + b1 X i + ei

Residuo


Recta de regresin muestral


(Recta ajustada, Valor predicho)
7

2
i

i =1

Gerardo Heckmann , FCE - UNC

(Y Y ) = e


Y = b 0 + b1 X =

b0 y b 1 se obtienen encontrando los valores


de b0 y b1 que minimizan la suma del
i =1

b0 provee una estimacin de 0


b1 provee una estimacin de 1

Gerardo Heckmann , FCE - UNC

Interpretacin de la pendiente y
la constante

Regresin lineal en la muestra


(continuacin)

Yi = 0 + 1 X i + i

Yi = b0 + b1 X i + ei

b1

ei

1
YX = 0 + 1 X i

b0

0 = E(Y | X = 0) es el valor promedio de Y


cuando el valor de X es cero.

Y i = b0 + b1 X i

1 =

E (Y | X )
X

mide el cambio en el valor

promedio de Y como resultado de un cambio


unitario en X.

Valor Observado
Gerardo Heckmann , FCE - UNC

Gerardo Heckmann , FCE - UNC

Interpretacin de la pendiente y
la constante

Cmo se determinan los valores


de b0 y b1?

(continuacin)

b0 = E ( Y | X = 0 ) es el valor promedio

estimado de Y cuando el valor de X es cero.

E (Y | X )
b1 =
X

es el cambio estimado en

Hay mltiples rectas que podrn ajustar los


valores observados en un diagrama de
dispersin. Cul de todas elegir?
Dos posibilidades objetivas:


Estimar los parmetros por mxima verosimilitud




el valor promedio de Y como resultado de un




cambio unitario en X.

Gerardo Heckmann , FCE - UNC

Gerardo Heckmann, FCE - UNC


E

10

11

Necesitamos algunos supuestos sobre la distribucin


de los datos.

Estimar los parmetros por mnimos cuadrados.

Gerardo Heckmann , FCE - UNC

12

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Supuestos del modelo de


regresin lineal


Variacin de los errores alrededor


de la recta de regresin
f(e)

1. Normalidad


-3

Los valores de Y se distribuyen normalmente para


cada X
La distribucin del trmino de error es normal

Los valores de Y estn normalmente


distribuidos alrededor de la lnea de
regresin.
Para cada valor de X, la dispersin,
o varianza alrededor de la lnea, es
constante.

2. Homocedasticidad (Varianza Constante)


3. Independencia de los Errores

Y
X2

X1
X
Gerardo Heckmann , FCE - UNC

13

Recta de regresin estimada

Gerardo Heckmann , FCE - UNC

Estimacin de Mxima
Verosimilitud de 0 y 1

14

Estimacin de Mxima
Verosimilitud de 0 y 1
(continuacin)

Si las Y son normales podemos plantear la


funcin de verosimilitud:

l( 0 , 1 , 2 , y i ) =


1
2

1
2 2

( y i 0 1 xi )2

L( 0 , 1 , 2 ) =


Que tambin puede simplificarse tomando


logaritmo, antes de derivar para maximizar:

L( 0 , 1 , 2 , y i ) =

Ahora podemos generalizar para obtener la


distribucin conjunta de la muestra completa:
n
n
1
ln 2 ln 2
2
2
2 2

(y

0 1 xi )2

Para obtener los estimadores se deriva la


funcin respecto a cada uno de los
parmetros y se iguala a cero

1
1
1
ln 2 ln 2
(y i 0 1 xi )2
2
2
2 2

Gerardo Heckmann , FCE - UNC

15

Gerardo Heckmann , FCE - UNC

Estimacin de Mxima
Verosimilitud de 0 y 1

16

Estimacin de Mxima Verosimilitud


de 0 y 1

(continuacin)


(continuacin)

Recordar que reemplazamos los parmetros


por los estimadores al igualar a cero:

L
= 0 = ( yi b0 b1 xi )
0
L
= 0 = ( yi b0 b1 xi ) xi
1
Gerardo Heckmann , FCE - UNC

Gerardo Heckmann, FCE - UNC


E

Reordenando las dos ecuaciones anteriores


obtenemos las denominadas Ecuaciones
Normales:
(1)

y = nb b x
y x =b x +b x
0

i i

17

Gerardo Heckmann , FCE - UNC

2
i

(2)

18

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Estimacin de Mxima Verosimilitud


de 0 y 1

Estimacin de Mxima Verosimilitud


de 0 y 1

(continuacin)

(continuacin)

Dividiendo por n la primera tenemos:


(3)

Y = b0 + b1 X

-4

Dividiendo tambin por n la segunda y


restando la (3) multiplicada por X , tenemos:

yx

i i

Que nos indica que la recta de regresin


siempre pasar por el punto ( X , Y ) y que el
estimador de 0 es:

n
b1 =

b0 = Y b1 X
Gerardo Heckmann , FCE - UNC

19

XY = b1 (

2
i

X 2)

Cov ( x, y ) yi xi nXY
=
S x2
xi2 nX 2

Gerardo Heckmann , FCE - UNC

Estimacin de Mxima Verosimilitud


de 0 y 1

20

Estimacin por mnimos cuadrados


de 0 y 1

(continuacin)


El estimador de la varianza, Syx , se obtiene


derivando L respecto a 2 :

L
n
1
=0= 2 + 4
2
2 S yx 2 S yx

(y b
i

b1 xi ) 2

Los estimadores b0 y b1 tambin pueden


obtenerse encontrando los valores de b0 y b1
que minimizan la suma del cuadrado de los
errores:

i
i
i =1

Sabemos que:

2
yx

ei = yi b0 b1 xi

e
=

2
i

Gerardo Heckmann , FCE - UNC

21

Gerardo Heckmann , FCE - UNC

Regresin Lineal Simple:


Ejemplo
Suc.

Mt2

Ventas
Anuales
($1000)

1
2
3
4
5
6
7

1,726
1,542
2,816
5,555
1,292
2,208
1,313

3,681
3,395
6,653
9,543
3,318
5,563
3,760

Gerardo Heckmann , FCE - UNC

Gerardo Heckmann, FCE - UNC


E

22

Diagrama Scatter: Ejemplo


Ventas Anuales ($000)

Queremos examinar la
dependencia lineal de
las ventas anuales de
las sucursales con su
tamao, medido en
mt2. Se dispone de
informacin muestral
de 7 sucursales.
Encontrar la ecuacin
de la recta que ajusta
mejor los datos.

= ei2 = ( yi b0 b1 xi )2

i =1

12000
10000
8000
6000
4000
2000
0
0

1000

Salida de Excel
23

Gerardo Heckmann , FCE - UNC

2000

3000

4000

5000

6000

Mt2

24

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Ecuacin de la Regresin lineal


en la muestra: Ejemplo

Grfico de la ecuacin de
regresin estimada: Ejemplo
Ventas Anuales ($000)

Yi = b0 + b1 X i
= 1636.415 +1.487 X i
De la salida de Excel:

Constante
Var. X

-5

Coefic.
1636.414726
1.486633657

12000
10000
8000
6000
4000
2000
0
0

1000

2000

3000

4000

5000

6000

Mts.2

Gerardo Heckmann , FCE - UNC

25

Gerardo Heckmann , FCE - UNC

Interpretacin de resultados:
Ejemplo

26

Regresin lineal simple en Excel




Yi = 1636.415 + 1.487 X i

En Excel, usar Herramientas| Anlisis de


datos| regresin

La estimacin de la pendiente (1.487) significa que


por cada incremento de una unidad en X, se estima
un cambio promedio en Y de 1.487 unidades.
Microsoft Excel
Worksheet

El modelo estima que por cada incremento de un


metro cuadrado en el tamao de la sucursal, las
ventas esperadas anuales se pronostica crecern
en $1487.
Gerardo Heckmann , FCE - UNC

27

Gerardo Heckmann , FCE - UNC

Medida de variacin:
La suma de los cuadrados

28

Medida de variacin:
La suma de cuadrados
(continuacin)


SCT

SCR

SCE


Suma de
cuadrados =
total

Suma de
cuadrados +
explicada

SCT = suma de cuadrados total

Suma de
cuadrados
no explicada

SCR = suma de cuadrados de la regresin




Gerardo Heckmann, FCE - UNC


E

29

Variacin explicada, atribuible a la relacin entre X


eY

SCE = suma del cuadrado del error




Gerardo Heckmann , FCE - UNC

Medida de variacin de los valores de Yi alrededor


de la media de Y

Variacin atribuible a otros factores, distintos a los


de la relacin entre X eY

Gerardo Heckmann , FCE - UNC

30

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Medida de variacin:
La suma de cuadrados

-6

Diagramas de Venn y poder


explicativo de la regresin

(continuacin)

Variaciones en
el tamao de
los locales no
utilizadas para
explicar las
variaciones
en las ventas

SCE =
(Yi - Yi )2

SCT = (Yi - Y)2


_
SCR = (Yi - Y)2

_
Y

Ventas

Variaciones en las
ventas explicadas
por los tamaos o
variaciones en los
tamaos usadas
para explicar
variaciones en las
ventas (SSR)

Tamaos
X

Xi
Gerardo Heckmann , FCE - UNC

31

Variaciones en las
ventas explicadas
por el trmino de
Error (SSE)

Gerardo Heckmann , FCE - UNC

32

Medidas de Variacin
La suma de cuadrados: Ejemplo

La tabla de ANOVA en Excel

Salida Excel para locales


ANOVA

Grados de libertad
gl

Regresin

SC

CM

SCR

CMR
=SCR/p

Residuos

n-p-1 SCE

Total

n-1

Significaci
nF

ANOVA

CMR/CME

P-value del
Test F

Regression

30380456.12

30380456

Residual

1871199.595

374239.92

Total

32251655.71

df

CME
=SCE/(n-p-1)

SCT

MS

SS

GL Regresin (explicada)
GL Error (residuos)
GL Totales

Gerardo Heckmann , FCE - UNC

33

r2 =

SCE

0.000281201

SCT

SCR

Gerardo Heckmann , FCE - UNC

34

de cuadrados
SCR Suma
Regression
Sum ofRegresin
Squares
=
SCT
TotaldeSum
of Squares
Suma
cuadrados
Total

Ventas


Significance F

Diagramas de Venn y poder


explicativo de la regresin

El coeficiente de determinacin


F
81.17909

r2 =

Mide la proporcin de la variacin de Y que


es explicada por la variable independiente
X en el modelo de regresin

Tamaos
Gerardo Heckmann , FCE - UNC

Gerardo Heckmann, FCE - UNC


E

35

Gerardo Heckmann , FCE - UNC

SCR
SCR + SCE
36

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Coeficientes de determinacin (r 2) y
de correlacin (r)

-7

Error estndar de estimacin


n

Y r2 = 1, r = +1

Y r2 = 1, r = -1
^=b +b X
Y
i
0
1 i

^=b +b X
Y
i
0
1 i
X

SCE
=
n2

SYX =

i =1

n2

Yr2 = .8, r = +0.9

r2 = 0, r = 0

^=b +b X
Y
i
0
1 i

^=b +bX
Y
i
0
1 i

La desviacin estndar de la variacin de las


observaciones alrededor de la lnea de
regresin

Gerardo Heckmann , FCE - UNC

37

Gerardo Heckmann , FCE - UNC

38

Medidas de variacin:
Ejemplo de sucursales

Anlisis residual

Salida de Excel

R e g re ssi o n S ta tistic s
M u lt ip le R
0.9705572
R S q u a re
0 .9 4 1 9 8 1 2 9
A d ju s t e d R S q u a re 0 .9 3 0 3 7 7 5 4
S t a n d a rd E rro r
6 1 1 .7 5 1 5 1 7
O b s e rva t io n s
7

r2 = .94

(Y Y )

Propsitos



Examinar la linealidad
Evaluar violaciones de los supuestos

Anlisis grfico de los residuos




Plot de residuos vs. Xi , Yi y el tiempo

Syx

94% de la variacin anual en las ventas


puede ser explicada por la variabilidad en el
tamao de los locales, medida en mts2.
Gerardo Heckmann , FCE - UNC

39

Gerardo Heckmann , FCE - UNC

Anlisis Residual de linealidad

40

Residuos estandarizados
2

SRi =

ei
SYX 1 hi

donde
where

hi =

1
+
n

(X X )
( X X )
i

i =1


X
e

X
X

No Lineal
Gerardo Heckmann , FCE - UNC

Residuo dividido por su error estndar


Residuo estandarizado por la distancia al valor
medio de X
Nos permite estandarizar la magnitud de los
residuos en unidades que reflejan la variacin
alrededor de la recta de regresin.

Lineal

Gerardo Heckmann, FCE - UNC


E

41

Gerardo Heckmann , FCE - UNC

42

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Anlisis Residual de
Homocedasticidad

-8

Anlisis residual: Salida de Excel


para el ejemplo
Observaciones
1
2
3
4
5
6
7

Salida Excel

Y pronost.
4202.344417
3928.803824
5822.775103
9894.664688
3557.14541
4918.90184
3588.364717

Residuos
-521.3444173
-533.8038245
830.2248971
-351.6646882
-239.1454103
644.0981603
171.6352829

Plot Residuos

X
SR

X
SR

Heterocedasticidad

X
0

Homocedasticidad

1000

2000

3000

4000

5000

6000

Mtrs2
Gerardo Heckmann , FCE - UNC

43

Gerardo Heckmann , FCE - UNC

44

Anlisis Residual de
independencia

Anlisis residual de
independencia

Enfoque Grfico

El estadstico Durbin-Watson


No Independiente
e

 Independendiente

Tiempo

Tiempo

Patrn Cclico

(e e

Sin Patrn Particular

45

Si no, examinar el modelo


por autocorrelacin.

i =1

Gerardo Heckmann

46

Obtencin de los valores crticos


del Durbin-Watson

PHStat | regression | simple linear regression

i=2
2
i

Durbin-Watson en PHStat


i 1

D=

Los residuos se grafican contra el tiempo


para detectar cualquier autocorrelation
Gerardo Heckmann , FCE - UNC

Se usa cuando los datos son series de tiempo,


para detectar autocorrelacin (los residuos de un
perodo estn relacionados con los de otro
perodo)
Sirve para ver si se viol el supuesto de
independencia de los errores
n
Debe estar prximo a 2.
2

Tabla 13.4 Valores crticos de Durbin-Watson

Chequear la salida para Durbin-Watson

=.05
p=1

Gerardo Heckmann

Gerardo Heckmann, FCE - UNC


E

47

Gerardo Heckmann

p=2

dL

dU

dL

dU

15

1.08

1.36

.95

1.54

16

1.10

1.37

.98

1.54
48

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

-9

Inferencia sobre la pendiente:


Test t

Usando el Durbin-Watson
H0 :

No hay autocorrelacin (los errores son


independientes)
H1 : Hay autocorrelacin (los errores no son
independientes)
Inderterminado
Rechazar H0
Rechazar H0
(autocorrelacin
(autocorrelacin
No rech. H0
positiva)
negativa)
(no autocorrel.)

Test t para la pendiente poblacional

Hiptesis




Hay dependencia lineal entre X e Y ?


H0: 1 = 0
H1: 1 0

(ausencia dependencia lineal)


(dependencia lineal)

Test estadstico


t=

b1 1
donde
where Sb1 =
Sb1

dL

dU

4-dU

4-dL

Gerardo Heckmann

Local
1
2
3
4
5
6
7

Mts2
1,726
1,542
2,816
5,555
1,292
2,208
1,313

Vtas./
Ao
($000)
3,681
3,395
6,653
9,543
3,318
5,563
3,760

La pendiente es
1.487.

H0: 1 = 0
Salida Excel
H1: 1 0
Coef.
= .05
Constante 1636.4147
gl = 7 - 2 = 5
Mts2
1.4866
Valor(es) Crticos:
Rech.

.025

-2.5706 0 2.5706
51

b1 Sb1
Error Est.
451.4953
0.1650

t
P-value
3.6244 0.01515
9.0099 0.00028

Decisin:
Rechazar H0

Rech.

.025

Afecta el tamao del


local las ventas
anuales?

Conclusin:
Hay evidencia de que
el tamao del local
afecta las ventas.

Gerardo Heckmann , FCE - UNC

Inferencias sobre la pendiente:


Ejemplo intervalo de confianza

52

Inferencias sobre la pendiente:


Test F

Estimacin del intervalo de confianza para la


pendiente:

Test F para la pendiente poblacional

Hiptesis

b1 tn 2 Sb1

Salida Excel ejemplo sucursales


L. I. 95%
L.S. 95%
Constante 475.810926 2797.01853
1.06249037 1.91077694
Var. X

Conclusin: Hay una dependencia lineal significativa


entre ventas y tamao del local.

53

Hay dependencia lineal entre Y y X ?


H0: 1 = 0
H1: 1 0

(No hay dependencia lineal)


(Hay dependencia lineal)

Estadstico de prueba


El 95% de confianza, el intervalo para la pendiente es


(1.062, 1.911). No incluye al 0.

Gerardo Heckmann, FCE - UNC


E

50

Test Estadstico:

Yi = 1636.415 +1.487Xi

Gerardo Heckmann , FCE - UNC

X )2

Inferencia sobre la pendiente:


Test t

Ecuacin de
Regresin
Estimada:

Gerardo Heckmann , FCE - UNC

Gerardo Heckmann , FCE - UNC

Ejemplo: Sucursales
Datos de 7 sucursales:

(X
i =1

d . f . =n-2
n2
G.L.=
49

SYX
n

SSR
1
SSE
(n 2 )
Numerador g.l.=1, denominador g.l.=n-2
F =

Gerardo Heckmann , FCE - UNC

54

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Inferencias sobre la pendiente:


Ejemplo test F

Relacin entre el test t y el F




H0: 1 = 0
H1: 1 0
= .05
numerador
gl = 1
denominador
gl = 7 - 2 = 5

Hiptesis



H0: 1 = 0
H1: 1 0

(t )
n2

-10

(No hay dependencia lineal)


(Hay dependencia lineal)

= F1,n 2

Test:
De la salida de Excel

ANOVA
df
Regression
Residual
Total

1
5
6

Rech.
= .05

Gerardo Heckmann , FCE - UNC

55

Gerardo Heckmann , FCE - UNC

Propsito del anlisis de


correlacin

6.61

F1,n 2

SS
MS
F Significance F
30380456.12 30380456.12 81.179
0.000281
1871199.595 374239.919
32251655.71

Decisin: Rechazar H0
Conclusin:
Hay evidencia de que los
metros cuadrados afectan
las ventas anuales.
56

Propsito del anlisis de


correlacin
(continuacin)

El anlisis de correlacin se usa para medir la


fuerza de la asociacin entre dos variables
numricas (relacin lineal)



Solo se refiere a la fuerza de la relacin


No estn implicados efectos causales.

Gerardo Heckmann , FCE - UNC

57

El coeficiente de correlacin poblacional


(Rho) se usa para medir la fuerza de la
asociacin entre variables.
El coeficiente de correlacin muestral r es
una estimacin de y se usa para medir la
fuerza de la relacin lineal entre
observaciones muestrales.

Gerardo Heckmann , FCE - UNC

Ejemplos de observaciones para


diversos valores de r
Y

Caractersticas de y r





r = -1

r = -.6

r=0

Y


Gerardo Heckmann , FCE - UNC

r = .6

r=1

Gerardo Heckmann, FCE - UNC


E

58

No tienen unidad de medida


Varan entre -1 y 1
Mientras ms cercano a -1, mas fuerte la
relacin lineal negativa
Mientras ms cercano a 1, mas fuerte la
relacin lineal positiva
Mientras ms prximo a 0, mas dbil la
relacin lineal

X
59

Gerardo Heckmann , FCE - UNC

60

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

-11

Test de correlacin lineal




Hiptesis



Ejemplo Locales
Hay alguna
evidencia de
correlacin lineal
entre las ventas
anuales y la
superficie del local,
al nivel del .05 de
significacin?

Estadstico
t=


donde
where

1 r2
n2

( X X )(Y Y )
i

r = r2 =

i=1
n

( X X ) (Y Y )
2

i=1

Gerardo Heckmann , FCE - UNC

i=1

61

Regression Statistics
Multiple R
0.9705572
R Square
0.94198129
Adjus ted R Square 0.93037754
Standard E rror
611.751517
Observations
7

H0: = 0 (No hay asociacin)


H1: 0 (Hay Asociacin)
= .05
gl = 7 - 2 = 5

Gerardo Heckmann , FCE - UNC

Ejemplo Locales

62

Estimacin de valores medios


Intervalo de confianza para:

.9706
t=
=
= 9.0099
1 .9420
1 r 2
5
n2
Valor(es) crticos:
Rech.

Decisin:
Rechazar H0

.025

Conclusin:
Hay evidencias de una
relacin lineal al 5% de
significacin

-2.5706 0 2.5706
Gerardo Heckmann , FCE - UNC

El valor del estadstico t es


exactamente el mismo que
el del estadstico t para el
test del coeficiente de la
pendiente

Y | X = X

La media de Y dado un particular Xi


Error estndar
de estimacin

La amplitud del intervalo vara de acuerdo


a cuan distante de la media X est el Xi

( X X )2
1
Yi tn2 SYX
+ n i
n
( X i X )2

Rech.

.025

De la salida de Excel

H0: = 0 (sin correlacin)


H1: 0 (con correlation)

Valor t de una
tabla con gl=n-2
63

i =1

Gerardo Heckmann , FCE - UNC

Prediccin de valores
individuales

64

Estimacin por intervalo para


diferentes valores de X

Intervalo de prediccin para la respuesta


individual Yi ante un particular valor Xi

Intervalo para
la media de Y

Intervalo de
prediccin para un
valor individual Yi

La adicin de 1 incrementa la amplitud del


intervalo respecto al de la media de Y

1 ( X i X )2

Yi tn2 SYX 1+ + n
n
( X i X )2

i =1
Gerardo Heckmann , FCE - UNC

Gerardo Heckmann, FCE - UNC


E

65

Gerardo Heckmann , FCE - UNC

Un X dado
66

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Estimacin de valores medios:


Ejemplo
Intervalo de confianza para Y | X = X

Ejemplo locales
Datos de 7 locales:

Local

Mtr2

Ventas
Anual
($000)

1
2
3
4
5
6
7

1,726
1,542
2,816
5,555
1,292
2,208
1,313

3,681
3,395
6,653
9,543
3,318
5,563
3,760

Predecir las
ventas anuales
para un local con
2000 mts2.

Encontrar el intervalo de 95% de confianza para las ventas


promedio anuales de un local de 2000 mtrs2.

Prediccin Ventas Yi = 1636.415 +1.487Xi = 4610.45 ($000)

Modelo Regresin Estimado:

X = 2350.29

Intervalo de prediccin para Y:


Ejemplo

Gerardo Heckmann , FCE - UNC

Encontrar el intervalo de prediccin del 95% para las


ventas anuales de un local de 2000 mtrs2.

Prediccin Vtas.Yi = 1636.415 +1.487Xi = 4610.45 ($000)




1 ( X X )2
Yi tn2SYX 1+ + n i
= 4610.45 1687.68
n
2
(
X

X
)
i
69

Gerardo Heckmann, FCE - UNC


E

70

Estrategias para evitar caer en


las trampas

La despreocupacin por la falta de


cumplimiento de los supuestos subyacentes
No saber cmo evaluar los supuestos
No conocer las alternativas a los mnimos
cuadrados si no se cumple algn supuesto
Utilizar el modelo de regresin desconociendo
la materia de inters en el problema que se
modela.

Gerardo Heckmann , FCE - UNC

Hoja EXCEL

Gerardo Heckmann , FCE - UNC

Trampas del anlisis de


regresin

Chequear el confidence and prediction interval


for X=

Microsoft Excel
Worksheet

i =1

En Excel, usar PHStat | regression | simple


linear regression


tn-2 = t5 = 2.5706

Gerardo Heckmann , FCE - UNC

68

Estimacin de valores medios y prediccin


de valores individuales con PHStat

Intervalo de prediccin para un Y individual

tn-2 = t5 = 2.5706

i =1
67

SYX = 611.75

SYX = 611.75

1
( X X )2
Yi tn2 SYX
+ n i
= 4610.45 612.66
n
2
X

X
(
)
i

Yi = 1636.415 +1.487Xi

Gerardo Heckmann , FCE - UNC

X = 2350.29

-12

71

Comenzar con un scatter plot de X contra


Y para observar la posible relacin
Hacer anlisis residual para chequear los
supuestos.
Usar un histograma, diagrama de tallo y
hoja, o un grfico normal plot de los
residuos para descubrir posibles desvos de
la normalidad.

Gerardo Heckmann , FCE - UNC

72

Estadstica II Cat.

Anlisis de Regresin

Captulo 4

Estrategias para evitar caer en


las trampas

-13

Resumen

(continuacin)


Si hay violacin de algn supuesto, usar


mtodos alternativos (ej. Regresin curvilnea
o multiple)
Si no hay violacin de los supuestos se puede
trabajar con los tests de significacin de los
coeficientes y contruir intervalos.






Gerardo Heckmann , FCE - UNC

73

Se introdujeron los tipos de modelos de


regresin
Se discuti la estimacin de la ecuacin de
regresin lineal simple.
Se describieron medidas de variacin
Se enumeraron los supuestos del modelo de
regresin y de la correlacin
Se discuti el anlisis residual
Se trat la medicin de la autocorrelacin

Gerardo Heckmann , FCE - UNC

74

Resumen
(continuacin)



Inferencias sobre la pendiente


Correlacin midiendo la fuerza de la
asociacin
Estimacin de valores medios y prediccin de
valores individuales.
Posibles trampas en el anlisis y estrategias
recomendadas para evitarlas.

Gerardo Heckmann , FCE - UNC

Gerardo Heckmann, FCE - UNC


E

75

Estadstica II Cat.

S-ar putea să vă placă și