Sunteți pe pagina 1din 39

Ejemplo

A la derecha tenemos una posible manera de recoger los datos obtenidos observando dos variables en varios individuos de una muestra.
En cada fila tenemos los datos de un individuo Cada columna representa los valores que toma una variable sobre los mismos. Las individuos no se muestran en ningn orden en particular.

altura (x) cm.


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

peso (y) Kgr. 63 52 78 49 71 62 68 48 56 67 50 76 38 60 62 68 69 70 55 65 55 53 68 69 81 78 69 90 88 85

Dichas observaciones pueden ser representadas en un DIAGRAMA DE DISPERSIN (scatterplot). En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables.

18 19 20 21 22 23

Nuestro objetivo ser intentar reconocer a partir del


mismo si hay relacin entre las variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de la otra.
Luis Ojeda Silva 6/23/2012

24 25 26 27 28 29 30 31

162 158 167 151 162 168 167 153 152 173 161 187 148 152 158 161 161 163 165 165 166 167 168 167 171 173 173 188 188 192

Diagrama de dispersin o nube de puntos


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin.
Diagrama de dispersin de 30 pesos y alturas
100 90 80

Pesa 89 kgr.. Pesa 69 kgr.


Mide 162 cm.
140 150 160 170 Altura

Pesos

70 60 50 40 30

180

190

200

Luis Ojeda Silva

6/23/2012

Relacin entre variables.


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin.
Diagrama de dispersin de 30 pesos y alturas
100 90 80

Pesos

70 60 50 40 30

140

150

160

170 Altura

180

190

200

Luis Ojeda Silva

6/23/2012

Estimacin de la recta de regresin por mnimos cuadrados


Usando los datos de pesos y estaturas
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Luis Ojeda 3 Silva 0 31 B a ltu r a (x ) cm . 162 158 167 151 162 168 167 153 152 173 161 187 148 152 158 161 161 163 165 165 166 167 168 167 171 173 173 188 188 192 C p e s o (y ) K g r. 63 52 78 49 71 62 68 48 56 67 50 76 38 60 62 68 69 70 55 65 55 53 68 69 81 78 69 90 88 85 D 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 E

xi

yi

10206 8216 13026 7399 11502 10416 11356 7344 8512 11591 8050 14212 5624 9120 9796 10948 11109 11410 9075 10725 9130 8851 11424 11523 13851 13494 11937 16920 6/23/2012 16544 16320

26244 24964 27889 22801 26244 28224 27889 23409 23104 29929 25921 34969 21904 23104 24964 25921 25921 26569 27225 27225 27556 27889 28224 27889 29241 29929 29929 35344 35344 36864

n n n X iYi X i Yi i =1 i =1 = i =1 1 2 n 2 n n X i X i i =1 i =1
n

sumatorias

Luis Ojeda Silva

6/23/2012

Luis Ojeda Silva

6/23/2012

Ajuste de la curva a los datos


altura (x) cm. Curva de regresin ajustada
100 Kgr. 80 60 peso (y) 40 20 0 140

= 86,65 + 0,915 x Y i i

150

160

170 altura (x) cm .

180

190

200

Luis Ojeda Silva

6/23/2012

Interpretacin de la ecuacin de regresin estimada


Cuando una persona obtiene una recta estimada de regresin se enfrenta inmediatamente al problema de interpretar, en el contexto de su inters, cada una de las componentes de la ecuacin. Interpretacin de la estimacin de la ordenada al origen Lo primero que queremos destacar es que en la ecuacin X = de regresin estimada Y
i 0 1 i

A un valor de X = 0 corresponde un valor estimado


Luis Ojeda Silva 6/23/2012

= Y i 0
8

Interpretacin de la ecuacin de regresin estimada

es el valor de la prediccin para Y Lo que indica que 0 cundo la variable independiente toma el valor cero. Dado lo anterior es importante sealar que no tiene interpretacin 0 prctica en muchos problemas.
Tomemos los datos anteriores

= 86,65 + 0,915 x Y i i

Por lo que una interpretacin mecnica de la ecuacin nos llevara a pensar que a una altura de 0 cm. Correspondera un peso de -86,7 kgr.
Luis Ojeda Silva 6/23/2012 9

Interpretacin de la ecuacin de regresin estimada

Dicho esto surge inmediatamente una pregunta: Bajo que

condiciones es posible dar una interpretacin ? prctica a 0


Las dos condiciones ms que importantes son: a) Debe ser fsicamente posible que X tome el valor cero. b) Deben tenerse suficientes datos alrededor del valor X = 0
Nuestro ejemplo es de tal naturaleza que la primera condicin es imposible y por lo tanto tambin lo es la segunda; en ese caso no tiene ningn sentido tratar de , aunque cabe decir que su valor sera mucho menor si se interpretar 0 hubiesen individuos con pesos menores.
Luis Ojeda Silva 6/23/2012

10

Interpretacin de la ecuacin de regresin estimada

Luego, algunas veces slo es 0 un factor de ajuste que permite representar la tendencia de los datos (en el espacio de valores observados para la variable independiente) mediante un modelo de lnea recta.
Luis Ojeda Silva 6/23/2012 11

Interpretacin del estimador de la pendiente o coeficiente de regresin

, tambin llamado El estimador de la pendiente 1 Coeficiente de Regresin Estimado, es de mucha ms importancia que , ya que nos indica la forma en 0 que estn relacionadas X e Y, en el sentido que mide cunto y en qu direccin se modifican los valores de Y estima la cuando cambia X. Recurdese que 1 pendiente de una recta, o sea el nmero de unidades que cambia Y por cada unidad de cambio en X.
Consideremos nuestro ejemplo, en el cual la ecuacin de regresin estimada es:

= 86,65 + 0,915 x Y i i
Luis Ojeda Silva 6/23/2012 12

Interpretacin del estimador de la pendiente o coeficiente de regresin

= 86,65 + 0,915 x Y i i
Usualmente se dice que a un incremento de un cm. De altura corresponde un incremento de fuese negativa diramos que 0,951 kgr.. Si 1 hay un decremento en Y cuando X aumenta, lo que correspondera a una correlacin negativa.

Luis Ojeda Silva

6/23/2012

13

Interpretacin del estimador de la pendiente o coeficiente de regresin

Ahora, bien hay que tener cuidado con este tipo de afirmacin. Supngase que uno de los integrantes del grupo la interpreta en el sentido de que por cada cm. Que aumente la altura su peso se incrementar 0,591kgr. Por supuesto la situacin ha sido caricaturizada para recalcar que la interpretacin es absurda; sin embargo, este tipo de errores se cometen con cierta frecuencia.
Luis Ojeda Silva 6/23/2012 14

Interpretacin del estimador de la pendiente o coeficiente de regresin

Aparte de la suposicin- en este caso falsa- de que existe una relacin causal de la estatura sobre el peso, tambin es incorrecto pensar en trminos de un solo individuo. Recurdese que una de las suposiciones del modelo es que para cada posible valor de X, Y es una variable aleatoria con distribucin normal cuya media es Y
X
Luis Ojeda Silva 6/23/2012 15

Interpretacin del estimador de la pendiente o coeficiente de regresin

Lo correcto entonces es decir que las medias poblacionales de Y se incrementan al aumentar X o, desde un punto de vista pragmtico, que los individuos de poblaciones con una diferencia de un cm. en promedio difieren en peso por 0,591 kgr.
Luis Ojeda Silva 6/23/2012 16

Mtodos Inferenciales en Regresin Lineal Simple: Una Idea


Existe una relacin lineal significativa para propsitos de prediccin? Si la respuesta es afirmativa Cun apropiado es el ajuste lineal? Podra un modelo polinomial ser un mejor ajuste?
Luis Ojeda Silva 6/23/2012 17

Mtodos Inferenciales en Regresin Lineal Simple: Una Idea


ANOVA

Enfoques

t-test

Luis Ojeda Silva

6/23/2012

18

ENFOQUE ANOVA
Luis Ojeda Silva 6/23/2012 19

Particionando la variacin total


Y

( xi , yi )
(no explicada)

yi
(total)

yi y i y y i ) ( xi , y

X = Y i 0 1 i

yi y
y
(explicada)

(x, y)

Modelo

y= 0

x
Luis Ojeda Silva 6/23/2012

xi

X
20

Particin de la variabilidad de la variable dependiente

Particionando la variacin total


La variacin total es particionada en 2 componentes: la variacin explicada (la cual es atribuible a la relacin entre X e Y postulada por el modelo) y la variacin no explicada (la cual no es respondida por la relacin matemtica ajustada entre X e Y).

Variacin Total = Variacin explicada


+ Variacin no explicada
La variacin explicada o Suma de Cuadrados debida a la Regresin es obtenida de:
n

La variacin total es obtenida de:


n

La variacin no explicada o la suma de cuadrados del error est dada por:

i y )2 SCT = ( yi y ) 2 SCR = ( y
i =1 i =1
Luis Ojeda Silva 6/23/2012

i )2 SCE = ( yi y
i =1
21

Planteamiento formal del problema


Hiptesis

H0: 1=0 (no est presente una regresin


lineal simple) V/s H1: simple)

10 (est presente una regresin lineal

Nivel de significacin: Estadstica de prueba:

F0 =

CMR CME
22

Luis Ojeda Silva

6/23/2012

Regin Crtica: Rechazar H0 ssi:

F0 F1-,1,n-2
Clculos:

Decisin:

Luis Ojeda Silva

6/23/2012

23

Tabla ANOVA
Fuente de variacin Debido a la regresin (explicada) Error (no explicada) total Grados de Libertad 1 Sumas de cuadrados SCR Cuadrados medios CMR=SCR/1 Razn F F0=CMR/CME
F1,n-2

n-2 n-1

SCE SCT

CME=SCE/(n2)

Luis Ojeda Silva

6/23/2012

24

Docimando la relacin lineal por Anova


donde

yi n SCT = yi2 i =1 n i =1
n

y i n n n i =1 i y )2 = + SCR = ( y y x y 0 i 1 i i n i =1 i =1 i =1
n

SCE = SCT - SCR

Luis Ojeda Silva

6/23/2012

25

Consideremos nuestro ejemplo de pesos y estaturas, evaluemos las frmulas anteriores

19632 SCT = 132989 30


Luego

SCT = 4543,36666666667

19632 SCR = 86,651*1963 + 0,915 * 329631 30


entonces

SCR = 3032,816

Por diferencia: SCE = 1510,55


26

Luis Ojeda Silva

6/23/2012

CMR=SCR/1 Entonces CMR = 3032,82 F0=CMR/CME CME=SCE/28 Entonces CME = 53,95 Resumiendo los clculos, tenemos:
ANLISIS DE VARIANZA Fuente de Variacin Regresin Residuos Total
Luis Ojeda Silva

F0 = 56,22

Grados de libertad 1 28 29

Suma de cuadrados

Promedio de los cuadrados 3032,81589 3032,81589 1510,55078 53,948242 4543,36667


6/23/2012

56,2171403

27

El valor crtico F1-,1,n-2


Est dado por

F0,95;1;28=4,196

Entonces, como F0 = 56,22 > 4,196 Se rechaza H0 al nivel de significacin =0,05, y se concluye que est presente una regresin lineal simple hay una razn para creer que existe una relacin entre el peso y la altura, Al nivel de significacin utilizado

Luis Ojeda Silva

6/23/2012

28

Estimacin de los parmetros verdaderos de la regresin


Una vez que una significativa relacin entre X e Y se ha establecido y ha sido verificado lo apropiado del modelo de regresin lineal simple ajustado, se utilizar la ecuacin de regresin muestral para propsitos de prediccin.

Luis Ojeda Silva

6/23/2012

29

Estimacin de la pendiente verdadera

Una Intervalo de confianza estimado al 100(1-)% de la pendiente verdadera 1

t 1

1 ; n 2 2

donde

s =
1

se 2 ( xi x ) i =1
n
y
6/23/2012

Luis Ojeda Silva

se = CME

30

Estimacin de la pendiente verdadera


De nuestro ejemplo, tenemos que

= 0,915 1
y

se = 7,345
1 2

n 2 ( xi x ) i =1

= 60,194
t = t0,975; 28 = 2,0484

1 ; n 2 2

0 , 05 1 ; 30 2 2

y
Luis Ojeda Silva 6/23/2012 31

Estimacin de la pendiente verdadera


Luego

7,345 s = = 0,1220 1 60,194

Luego, el intervalo de confianza viene dado por

0,915 2,0484 * 0,1220

0,915 0,2499
As, el Intervalo de Confianza al 95% para la pendiente verdadera de la poblacin es:
1

( 0,665 ; 1,165 )
Luis Ojeda Silva 6/23/2012 32

Estimacin de la pendiente verdadera

El Intervalo de Confianza al 95% para la pendiente verdadera de la poblacin se puede escribir 1 como:

0,665 <

1 < 1,165 )

Luis Ojeda Silva

6/23/2012

33

Estimacin de la pendiente verdadera

En la prctica, cuando slo construimos un intervalo de confianza para estimar el parmetro, este puede caer o no dentro del intervalo. Sin embargo, tenemos un nivel de confianza de 1 a que si caer. Obviamente si hemos construido un I.C. del 95 por 100, decimos que la probabilidad (confianza) es 0,95 de que el intervalo incluir el parmetro que se estima. Es decir, si repetidamente muestreamos y construimos tal intervalo una y otra vez muchas veces a largo plazo. 95 por 100 de estos intervalos cubrirn el parmetro desconocido y 5 por 100 de ellos no. Ahora, puesto que 95 por 100 de los intervalos cubrirn el parmetro; ordinariamente podemos comportarnos como si cada uno de nuestros intervalos cubrirn el parmtero.
Luis Ojeda Silva 6/23/2012 34

Usando la ecuacin de regresin para propsitos de prediccin


Muy frecuentemente el inters fundamental de un anlisis de regresin se ubica en predecir el valor esperado de Y para valores especficos de X. Es decir, para una valor dado de X=Xg predecir con cierta confiabilidad y/Xg

Luis Ojeda Silva

6/23/2012

35

Estimacin de la respuesta media verdadera y/X para un X dado


Una Intervalo de confianza estimado al 100(1-)% de la respuesta media verdadera y/X para un valor particular de X (digamos Xg) est dada por: Donde:

t Y g g 1 / 2 , n 2 s y
sy g = se
6/23/2012

+ x = Y g 0 1 g
Luis Ojeda Silva

1 (x g x ) + 2 n sx

36

Estimacin de la respuesta media verdadera y/X para un X dado Ejemplo: Se desea estimar con un 95% de confianza
la verdadera media de los pesos de los individuos con altura de 160 cm. Entonces, como:

= 86,65 + 0,915 x Y g g

Evaluando para xg=160 Luego,

= 59 ,7 kgr . Y 160
6/23/2012 37

Luis Ojeda Silva

Estimacin de la respuesta media verdadera y/X para un X dado


Entonces, como: Tenemos:

sy g = se

1 (x g x ) + 2 n sx

se= 7,345

2 s x = 166,23cm. x =124,94cm.

t tabulado=2,0484
sy g 1 (160 166 .23 ) = 7,345 + 30 124 .94
s =4,31
y
g

Luis Ojeda Silva

6/23/2012

38

Estimacin de la respuesta media verdadera y/X para un X dado


Como tenemos

t Y g g 1 / 2 , n 2 s y
59 ,7 2,0484 * 4,31 59 ,7 8.829
(50,871 ; 68,53)

50 ,87 Y
Luis Ojeda Silva

68,53
X 160
39

6/23/2012

S-ar putea să vă placă și