Sunteți pe pagina 1din 39

Ejemplo

altura (x)
cm.

peso (y)
Kgr.

162
158
167
151
162
168
167
153
152
173
161
187
148
152
158
161
161
163
165
165
166
167
168
167
171
173
173
188
188
192

63
52
78
49
71
62
68
48
56
67
50
76
38
60
62
68
69
70
55
65
55
53
68
69
81
78
69
90
88
85

A la derecha tenemos una posible manera de recoger


los datos obtenidos observando dos variables en
varios individuos de una muestra.

2
3
4
5
6

En cada fila tenemos los datos de un individuo

7
8
9

Cada columna representa los valores que toma una


variable sobre los mismos.

10
11
12
13

Las individuos no se muestran en ningn orden en


particular.

14
15
16
17

Dichas observaciones pueden ser representadas en


un DIAGRAMA DE DISPERSIN (scatterplot). En
ellos, cada individuos es un punto cuyas coordenadas
son los valores de las variables.

18
19
20
21
22
23

Nuestro objetivo ser intentar reconocer a partir del

24

mismo si hay relacin entre las variables, de qu tipo,


y si es posible predecir el valor de una de ellas
en funcin de la otra.

26

25

27
28
29
30

Luis Ojeda Silva

6/6/2013

31

Diagrama de dispersin o nube de


puntos

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de


dispersin.
Diagrama de dispersin de 30 pesos y alturas

Pesa 89 kgr..

100
90

Pesa 69 kgr.

70

Mide 162 cm.

Pesos

80

60
50
40
30

140

150

160

170

180

190

200

Altura
Luis Ojeda Silva

6/6/2013

Relacin entre variables.

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de


dispersin.
Diagrama de dispersin de 30 pesos y alturas
100
90

Pesos

80
70
60
50
40
30

140

150

160

170

180

190

200

Altura

Luis Ojeda Silva

6/6/2013

Estimacin de la recta de regresin


por mnimos cuadrados
Usando los datos de pesos y estaturas
C
peso (y)
Kgr.
63
52

2
3

B
altura (x)
cm.
162
158

2
3

10206
8216

26244
24964

4
5
6
7

167
151
162
168

78
49
71
62

4
5
6
7

13026
7399
11502
10416

27889
22801
26244
28224

8
9
10
11
12
13

167
153
152
173
161
187

68
48
56
67
50
76

8
9
10
11
12
13

11356
7344
8512
11591
8050
14212

27889
23409
23104
29929
25921
34969

14
15
16
17
18
19

148
152
158
161
161
163

38
60
62
68
69
70

14
15
16
17
18
19

5624
9120
9796
10948
11109
11410

21904
23104
24964
25921
25921
26569

165
165
166
167
168
167
171
173
173
188
188
192

55
65
55
53
68
69
81
78
69
90
88
85

20
21
22
23
24
25
26
27
28
29
30
31

9075
10725
9130
8851
11424
11523
13851
13494
11937
16920
6/6/2013
16544
16320

27225
27225
27556
27889
28224
27889
29241
29929
29929
35344
35344
36864

20
21
22
23
24
25
26
27
28
29
Luis Ojeda30
Silva
31

xi

yi

n
n

n X iYi X i Yi
i 1
i 1
1 i 1
2
n 2 n

n X i X i
i 1
i 1

sumatorias

Luis Ojeda Silva

6/6/2013

Luis Ojeda Silva

6/6/2013

Ajuste de la curva a los datos


altura (x) cm. Curva de regresin ajustada

Kgr.

100
80

peso (y)

60

Yi 86,65 0,915xi

40
20
0
140

150

160

170
altura (x)

Luis Ojeda Silva

6/6/2013

180

190

200

cm .

Interpretacin de la ecuacin de
regresin estimada
Cuando una persona obtiene una recta estimada de regresin se
enfrenta inmediatamente al problema de interpretar, en el
contexto de su inters, cada una de las componentes de la
ecuacin.
Interpretacin de la estimacin de la ordenada al origen

Lo primero que queremos destacar es que en la ecuacin


de regresin estimada Y X
i

A un valor de X = 0 corresponde un valor estimado


Luis Ojeda Silva

6/6/2013

Yi 0
8

Interpretacin de la ecuacin de regresin estimada

Lo que indica que es el valor de la prediccin para Y


0
cundo la variable independiente toma el valor cero. Dado lo
anterior es importante sealar que no tiene interpretacin
0
prctica en muchos problemas.
Tomemos los datos anteriores

Yi 86,65 0,915xi

Por lo que una interpretacin mecnica de la ecuacin nos


llevara a pensar que a una altura de 0 cm. Correspondera
un peso de -86,7 kgr.
Luis Ojeda Silva

6/6/2013

Interpretacin de la ecuacin de regresin estimada

Dicho esto surge inmediatamente una pregunta: Bajo que

condiciones es posible dar una interpretacin


prctica a 0 ?
Las dos condiciones ms que importantes son:
a) Debe ser fsicamente posible que X tome el valor cero.
b) Deben tenerse suficientes datos alrededor del valor X = 0
Nuestro ejemplo es de tal naturaleza que la primera condicin es imposible y por
lo tanto tambin lo es la segunda; en ese caso no tiene ningn sentido tratar de
interpretar 0 , aunque cabe decir que su valor sera mucho menor si se
hubiesen individuos con pesos menores.
Luis Ojeda Silva

6/6/2013

10

Interpretacin de la ecuacin de regresin estimada

Luego, algunas veces


slo es
un factor de ajuste que permite
representar la tendencia de los datos
(en el espacio de valores observados
para la variable independiente)
mediante un modelo de lnea recta.
Luis Ojeda Silva

6/6/2013

11

Interpretacin del estimador de la pendiente o


coeficiente de regresin

El estimador de la pendiente , tambin llamado


1
Coeficiente de Regresin Estimado, es de mucha ms
importancia que 0 , ya que nos indica la forma en
que estn relacionadas X e Y, en el sentido que mide
cunto y en qu direccin se modifican los valores de Y
cuando cambia X. Recurdese que estima la
1
pendiente de una recta, o sea el nmero de unidades que
cambia Y por cada unidad de cambio en X.
Consideremos nuestro ejemplo, en el cual la ecuacin
de regresin estimada es:

Yi 86,65 0,915xi
Luis Ojeda Silva

6/6/2013

12

Interpretacin del estimador de la pendiente o coeficiente de regresin

Yi 86,65 0,915xi
Usualmente se dice que a un incremento de un
cm. De altura corresponde un incremento de
0,951 kgr.. Si fuese negativa diramos que
1
hay un decremento en Y cuando X aumenta, lo
que correspondera a una correlacin negativa.

Luis Ojeda Silva

6/6/2013

13

Interpretacin del estimador de la pendiente o coeficiente de regresin

Ahora, bien hay que tener cuidado con este


tipo de afirmacin. Supngase que uno de los
integrantes del grupo la interpreta en el
sentido de que por cada cm. Que aumente la
altura su peso se incrementar 0,591kgr. Por
supuesto la situacin ha sido caricaturizada
para recalcar que la interpretacin es
absurda; sin embargo, este tipo de errores se
cometen con cierta frecuencia.
Luis Ojeda Silva

6/6/2013

14

Interpretacin del estimador de la pendiente o coeficiente de regresin

Aparte de la suposicin- en este caso


falsa- de que existe una relacin causal de
la estatura sobre el peso, tambin es
incorrecto pensar en trminos de un solo
individuo. Recurdese que una de las
suposiciones del modelo es que para cada
posible valor de X, Y es una variable
aleatoria con distribucin normal cuya
media es Y
X

Luis Ojeda Silva

6/6/2013

15

Interpretacin del estimador de la pendiente o coeficiente de regresin

Lo correcto entonces es decir que las


medias poblacionales de Y se incrementan
al aumentar X o, desde un punto de vista
pragmtico, que los individuos de
poblaciones con una diferencia de un cm.
en promedio difieren en peso por 0,591
kgr.
Luis Ojeda Silva

6/6/2013

16

Mtodos Inferenciales en Regresin Lineal


Simple: Una Idea
Existe una relacin lineal significativa para
propsitos de prediccin?
Si la respuesta es afirmativa
Cun apropiado es el ajuste lineal?

Podra un modelo polinomial ser un mejor


ajuste?
Luis Ojeda Silva

6/6/2013

17

Mtodos Inferenciales en Regresin Lineal


Simple: Una Idea
ANOVA

t-test

Enfoques

Luis Ojeda Silva

6/6/2013

18

ENFOQUE
ANOVA
Luis Ojeda Silva

6/6/2013

19

Particionando la variacin total


Y

( xi , yi )

yi
(no explicada)
(total)

yi y

Yi 0 1 X i

yi y
( xi , y i )

y i y
y

y
(explicada)

( x, y)

Modelo

xi

y 0

Particin de la variabilidad de la variable dependiente


Luis Ojeda Silva

6/6/2013

20

Particionando la variacin total


La variacin total es particionada en 2 componentes: la variacin
explicada (la cual es atribuible a la relacin entre X e Y postulada
por el modelo) y la variacin no explicada (la cual no es
respondida por la relacin matemtica ajustada entre X e Y).

Variacin Total = Variacin explicada


+
Variacin no explicada
La variacin explicada o
Suma de Cuadrados
debida a la Regresin es
obtenida de:

La variacin
total es
obtenida de:
n

SCT ( yi y )
i 1

Luis Ojeda Silva

La variacin no
explicada o la suma de
cuadrados del error est
dada por:

SCR ( y i y )
i 1

6/6/2013

SCE ( yi yi )
i 1

21

Planteamiento formal del problema


Hiptesis

H0: 1=0 (no est presente una regresin


lineal simple)
V/s H1:
simple)

10 (est presente una regresin lineal

Nivel de significacin:

Estadstica de prueba:

Luis Ojeda Silva

6/6/2013

F0

CMR
CME
22

Regin Crtica: Rechazar H0 ssi:

F0 F1-a,1,n-2
Clculos:

Decisin:

Luis Ojeda Silva

6/6/2013

23

Tabla ANOVA
Fuente de
variacin
Debido a la
regresin
(explicada)
Error (no
explicada)
total

Luis Ojeda Silva

Grados de
Libertad
1

Sumas de
cuadrados
SCR

Cuadrados
medios
CMR=SCR/1

Razn F
F0=CMR/CME
F1,n-2

n-2

SCE

n-1

SCT

CME=SCE/(n2)

6/6/2013

24

Docimando la relacin lineal por Anova

yi
n
SCT yi2 i 1
n
i 1
n

donde

n
yi
n
n
n
SCR ( y i y ) 2 0 yi 1 xi yi i 1
n
i 1
i 1
i 1

SCE = SCT - SCR

Luis Ojeda Silva

6/6/2013

25

Consideremos nuestro ejemplo de pesos y estaturas,


evaluemos las frmulas anteriores

19632
SCT 132989
30
Luego

SCT 4543,36666666667

19632
SCR 86,651*1963 0,915 * 329631
30
entonces

SCR 3032,816

Por diferencia: SCE = 1510,55

Luis Ojeda Silva

6/6/2013

26

CMR=SCR/1
Entonces CMR = 3032,82
F0=CMR/CME

CME=SCE/28
Entonces CME = 53,95

F0 = 56,22

Resumiendo los clculos, tenemos:


ANLISIS DE VARIANZA
Fuente de
Variacin
Regresin
Residuos
Total
Luis Ojeda Silva

Grados de
libertad
1
28
29

Promedio
de los
cuadrados
3032,81589 3032,81589
1510,55078
53,948242
4543,36667

Suma de
cuadrados

6/6/2013

56,2171403

27

El valor crtico F1-a,1,n-2


Est dado por

F0,95;1;28=4,196

Entonces, como F0 = 56,22 > 4,196


Se rechaza H0 al nivel de significacin a=0,05, y se
concluye que est presente una regresin lineal simple
hay una razn para creer que existe una relacin entre el
peso y la altura, Al nivel de significacin utilizado

Luis Ojeda Silva

6/6/2013

28

Estimacin de los parmetros verdaderos


de la regresin
Una vez que una significativa relacin entre X
e Y se ha establecido y ha sido verificado lo
apropiado del modelo de regresin lineal
simple ajustado, se utilizar la ecuacin de
regresin muestral para propsitos de
prediccin.

Luis Ojeda Silva

6/6/2013

29

Estimacin de la pendiente verdadera

Una Intervalo de confianza estimado al 100(1-a)%


de la pendiente verdadera 1

1 t

1 ;n 2
2

donde

s
1

se

2
( xi x )
i 1

y
Luis Ojeda Silva

6/6/2013

se CME

30

Estimacin de la pendiente verdadera

De nuestro ejemplo, tenemos que

1 0,915

se 7,345

n
2
( xi x )
i 1

1 ; n 2
2

60,194
t

0, 05
1
;30 2
2

t0,975; 28 2,0484

y
Luis Ojeda Silva

6/6/2013

31

Estimacin de la pendiente verdadera


Luego

7,345
s
0,1220
1
60,194

Luego, el intervalo de confianza viene dado por

0,915 2,0484 * 0,1220

0,915 0,2499
As, el Intervalo de Confianza al 95% para la
pendiente verdadera de la poblacin es:
1

( 0,665 ; 1,165 )
Luis Ojeda Silva

6/6/2013

32

Estimacin de la pendiente verdadera

El Intervalo de Confianza al 95% para la pendiente


verdadera de la poblacin se puede escribir
1
como:

0,665 <

Luis Ojeda Silva

1 < 1,165 )

6/6/2013

33

Estimacin de la pendiente verdadera

En la prctica, cuando slo construimos un intervalo de


confianza para estimar el parmetro, este puede caer o no
dentro del intervalo. Sin embargo, tenemos un nivel de
confianza de 1 a a que si caer. Obviamente si hemos
construido un I.C. del 95 por 100, decimos que la
probabilidad (confianza) es 0,95 de que el intervalo incluir
el parmetro que se estima. Es decir, si repetidamente
muestreamos y construimos tal intervalo una y otra vez
muchas veces a largo plazo. 95 por 100 de estos intervalos
cubrirn el parmetro desconocido y 5 por 100 de ellos no.
Ahora, puesto que 95 por 100 de los intervalos cubrirn el
parmetro; ordinariamente podemos comportarnos como si
cada uno de nuestros intervalos cubrirn el parmtero.
Luis Ojeda Silva

6/6/2013

34

Usando la ecuacin de regresin para


propsitos de prediccin
Muy frecuentemente el inters fundamental de un
anlisis de regresin se ubica en predecir el valor
esperado de Y para valores especficos de X. Es decir,
para una valor dado de X=Xg predecir con cierta
confiabilidad

Luis Ojeda Silva

y/Xg

6/6/2013

35

Estimacin de la respuesta media


verdadera y/X para un X dado
Una Intervalo de confianza estimado al 100(1-a)%
de la respuesta media verdadera y/X para un
valor particular de X (digamos Xg) est dada por:

Donde:

Yg t1a / 2,n2 s y g

Yg 0 1 xg
Luis Ojeda Silva

1 xg x

2
n
sx

s y g se
6/6/2013

36

Estimacin de la respuesta media


verdadera y/X para un X dado
Ejemplo: Se desea estimar con un 95% de confianza
la verdadera media de los pesos de los individuos con
altura de 160 cm.

Entonces, como:

Yg 86,65 0,915xg

Evaluando para xg=160


Luego,

Luis Ojeda Silva

Y160 59,7kgr.
6/6/2013

37

Estimacin de la respuesta media


verdadera y/X para un X dado

1 xg x

n
s x2

s y g se

Entonces, como:
Tenemos:

se= 7,345

2
x 166,23cm. sx 124,94cm.

t tabulado=2,0484
1 160 166.23
7,345

30
124.94

s y g

s 4,31
y

Luis Ojeda Silva

6/6/2013

38

Estimacin de la respuesta media


verdadera y/X para un X dado
Como
tenemos

Yg t1a / 2,n2 s y g
59,7 2,0484 * 4,31
59,7 8.829
(50,871 ; 68,53)

50,87 Y
Luis Ojeda Silva

68,53
X 160

6/6/2013

39

S-ar putea să vă placă și