Documente Academic
Documente Profesional
Documente Cultură
A la derecha tenemos una posible manera de recoger los datos obtenidos observando dos variables en varios individuos de una muestra.
En cada fila tenemos los datos de un individuo Cada columna representa los valores que toma una variable sobre los mismos. Las individuos no se muestran en ningn orden en particular.
Dichas observaciones pueden ser representadas en un DIAGRAMA DE DISPERSIN (scatterplot). En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables.
18 19 20 21 22 23
24 25 26 27 28 29 30 31
162 158 167 151 162 168 167 153 152 173 161 187 148 152 158 161 161 163 165 165 166 167 168 167 171 173 173 188 188 192
Pesos
70 60 50 40 30
180
190
200
6/23/2012
Pesos
70 60 50 40 30
140
150
160
170 Altura
180
190
200
6/23/2012
xi
yi
10206 8216 13026 7399 11502 10416 11356 7344 8512 11591 8050 14212 5624 9120 9796 10948 11109 11410 9075 10725 9130 8851 11424 11523 13851 13494 11937 16920 6/23/2012 16544 16320
26244 24964 27889 22801 26244 28224 27889 23409 23104 29929 25921 34969 21904 23104 24964 25921 25921 26569 27225 27225 27556 27889 28224 27889 29241 29929 29929 35344 35344 36864
n n n X iYi X i Yi i =1 i =1 = i =1 1 2 n 2 n n X i X i i =1 i =1
n
sumatorias
6/23/2012
6/23/2012
= 86,65 + 0,915 x Y i i
150
160
180
190
200
6/23/2012
= Y i 0
8
es el valor de la prediccin para Y Lo que indica que 0 cundo la variable independiente toma el valor cero. Dado lo anterior es importante sealar que no tiene interpretacin 0 prctica en muchos problemas.
Tomemos los datos anteriores
= 86,65 + 0,915 x Y i i
Por lo que una interpretacin mecnica de la ecuacin nos llevara a pensar que a una altura de 0 cm. Correspondera un peso de -86,7 kgr.
Luis Ojeda Silva 6/23/2012 9
10
Luego, algunas veces slo es 0 un factor de ajuste que permite representar la tendencia de los datos (en el espacio de valores observados para la variable independiente) mediante un modelo de lnea recta.
Luis Ojeda Silva 6/23/2012 11
, tambin llamado El estimador de la pendiente 1 Coeficiente de Regresin Estimado, es de mucha ms importancia que , ya que nos indica la forma en 0 que estn relacionadas X e Y, en el sentido que mide cunto y en qu direccin se modifican los valores de Y estima la cuando cambia X. Recurdese que 1 pendiente de una recta, o sea el nmero de unidades que cambia Y por cada unidad de cambio en X.
Consideremos nuestro ejemplo, en el cual la ecuacin de regresin estimada es:
= 86,65 + 0,915 x Y i i
Luis Ojeda Silva 6/23/2012 12
= 86,65 + 0,915 x Y i i
Usualmente se dice que a un incremento de un cm. De altura corresponde un incremento de fuese negativa diramos que 0,951 kgr.. Si 1 hay un decremento en Y cuando X aumenta, lo que correspondera a una correlacin negativa.
6/23/2012
13
Ahora, bien hay que tener cuidado con este tipo de afirmacin. Supngase que uno de los integrantes del grupo la interpreta en el sentido de que por cada cm. Que aumente la altura su peso se incrementar 0,591kgr. Por supuesto la situacin ha sido caricaturizada para recalcar que la interpretacin es absurda; sin embargo, este tipo de errores se cometen con cierta frecuencia.
Luis Ojeda Silva 6/23/2012 14
Aparte de la suposicin- en este caso falsa- de que existe una relacin causal de la estatura sobre el peso, tambin es incorrecto pensar en trminos de un solo individuo. Recurdese que una de las suposiciones del modelo es que para cada posible valor de X, Y es una variable aleatoria con distribucin normal cuya media es Y
X
Luis Ojeda Silva 6/23/2012 15
Lo correcto entonces es decir que las medias poblacionales de Y se incrementan al aumentar X o, desde un punto de vista pragmtico, que los individuos de poblaciones con una diferencia de un cm. en promedio difieren en peso por 0,591 kgr.
Luis Ojeda Silva 6/23/2012 16
Enfoques
t-test
6/23/2012
18
ENFOQUE ANOVA
Luis Ojeda Silva 6/23/2012 19
( xi , yi )
(no explicada)
yi
(total)
yi y i y y i ) ( xi , y
X = Y i 0 1 i
yi y
y
(explicada)
(x, y)
Modelo
y= 0
x
Luis Ojeda Silva 6/23/2012
xi
X
20
i y )2 SCT = ( yi y ) 2 SCR = ( y
i =1 i =1
Luis Ojeda Silva 6/23/2012
i )2 SCE = ( yi y
i =1
21
F0 =
CMR CME
22
6/23/2012
F0 F1-,1,n-2
Clculos:
Decisin:
6/23/2012
23
Tabla ANOVA
Fuente de variacin Debido a la regresin (explicada) Error (no explicada) total Grados de Libertad 1 Sumas de cuadrados SCR Cuadrados medios CMR=SCR/1 Razn F F0=CMR/CME
F1,n-2
n-2 n-1
SCE SCT
CME=SCE/(n2)
6/23/2012
24
yi n SCT = yi2 i =1 n i =1
n
y i n n n i =1 i y )2 = + SCR = ( y y x y 0 i 1 i i n i =1 i =1 i =1
n
6/23/2012
25
SCT = 4543,36666666667
SCR = 3032,816
6/23/2012
CMR=SCR/1 Entonces CMR = 3032,82 F0=CMR/CME CME=SCE/28 Entonces CME = 53,95 Resumiendo los clculos, tenemos:
ANLISIS DE VARIANZA Fuente de Variacin Regresin Residuos Total
Luis Ojeda Silva
F0 = 56,22
Grados de libertad 1 28 29
Suma de cuadrados
56,2171403
27
F0,95;1;28=4,196
Entonces, como F0 = 56,22 > 4,196 Se rechaza H0 al nivel de significacin =0,05, y se concluye que est presente una regresin lineal simple hay una razn para creer que existe una relacin entre el peso y la altura, Al nivel de significacin utilizado
6/23/2012
28
6/23/2012
29
t 1
1 ; n 2 2
donde
s =
1
se 2 ( xi x ) i =1
n
y
6/23/2012
se = CME
30
= 0,915 1
y
se = 7,345
1 2
n 2 ( xi x ) i =1
= 60,194
t = t0,975; 28 = 2,0484
1 ; n 2 2
0 , 05 1 ; 30 2 2
y
Luis Ojeda Silva 6/23/2012 31
0,915 0,2499
As, el Intervalo de Confianza al 95% para la pendiente verdadera de la poblacin es:
1
( 0,665 ; 1,165 )
Luis Ojeda Silva 6/23/2012 32
El Intervalo de Confianza al 95% para la pendiente verdadera de la poblacin se puede escribir 1 como:
0,665 <
1 < 1,165 )
6/23/2012
33
En la prctica, cuando slo construimos un intervalo de confianza para estimar el parmetro, este puede caer o no dentro del intervalo. Sin embargo, tenemos un nivel de confianza de 1 a que si caer. Obviamente si hemos construido un I.C. del 95 por 100, decimos que la probabilidad (confianza) es 0,95 de que el intervalo incluir el parmetro que se estima. Es decir, si repetidamente muestreamos y construimos tal intervalo una y otra vez muchas veces a largo plazo. 95 por 100 de estos intervalos cubrirn el parmetro desconocido y 5 por 100 de ellos no. Ahora, puesto que 95 por 100 de los intervalos cubrirn el parmetro; ordinariamente podemos comportarnos como si cada uno de nuestros intervalos cubrirn el parmtero.
Luis Ojeda Silva 6/23/2012 34
6/23/2012
35
t Y g g 1 / 2 , n 2 s y
sy g = se
6/23/2012
+ x = Y g 0 1 g
Luis Ojeda Silva
1 (x g x ) + 2 n sx
36
Estimacin de la respuesta media verdadera y/X para un X dado Ejemplo: Se desea estimar con un 95% de confianza
la verdadera media de los pesos de los individuos con altura de 160 cm. Entonces, como:
= 86,65 + 0,915 x Y g g
= 59 ,7 kgr . Y 160
6/23/2012 37
sy g = se
1 (x g x ) + 2 n sx
se= 7,345
2 s x = 166,23cm. x =124,94cm.
t tabulado=2,0484
sy g 1 (160 166 .23 ) = 7,345 + 30 124 .94
s =4,31
y
g
6/23/2012
38
t Y g g 1 / 2 , n 2 s y
59 ,7 2,0484 * 4,31 59 ,7 8.829
(50,871 ; 68,53)
50 ,87 Y
Luis Ojeda Silva
68,53
X 160
39
6/23/2012