Documente Academic
Documente Profesional
Documente Cultură
Tema 8:
Introduccin
En este tema estudiamos cmo construir un modelo para representar y analizar la dependencia de una variable
X.
Si la variable
2.
ANOV A
La tcnica de ANOVA para un solo factor es la generalizacin del anlisis de 2 medias
a partir de 2 muestras independientes al caso de de los datos de la variable dependiente niveles o tratamientos de un factor siguiente tabla:
posibles modalidades,
X.
x1 y1,1 y2,1
. . .
x2 y1,2 y2,2
. . .
.. .
xk y1,k y2,k
. . .
yn1 ,1 y 1
es decir, si llamamos
yn2 ,2 y 2
ynk ,k y k
hiptesis de normalidad,
Yj
la variable
Y |X = xj : Y j N ( j , )
poblaciones normales.
con el factor
X.
En concreto resolveremos
el siguiente test:
Tema 8
Pgina: 1
H0 : 1 = 2 = = k (Y H1 : i = j / i = j (Y s
X)
X)
(porque sigue una dis-
estadstico F,
F
k
nj
nj
SCT OT AL =
j =1 i=1
(yi,j y ) =
j =1
nj (y j y ) +
j =1 i=1 SCEN T RE
(yi,j y j )2
SCDEN T RO
SCEN T RE :
haber relacin entre las variables en juego sera natural que esta fuente de variacin fuese relativamente importante frente a la total. Tambin llamada . esta suma de cuadrados queda justicada por la posible relacin de
se
SCDEN T RO : Suma las varianzas que hay dentro de cada uno de los k grupos. Tambin llama SCRESIDU AL o injusticada por la relacin de Y con X , puesto que todos los
individuos del mismo grupo son en principio homogneos y aun as se observa dispersin dentro del mismo grupo. Para calcular el estadstico F y resolver el test de hiptesis planteado, es usual construir la denominada Tabla ANOVA.
Tabla ANOVA
Siendo ANOVA
n = n1 + + nj + + nk
n k = (n 1) (k 1),
construimos la tabla
SC
CM
Estadstico F
F =
CMEN T RE CMDEN T RO
donde
CM
fuentes. El estadstico
residual, de modo que el grado de relacin entre las variables en juego est en funcin de la magnitud de
F. F
de la
El P-valor en esta prueba es el rea que queda a la derecha del estadstico distribucin de Snedecor, de forma que cuanto mayor sea la siguiente gura)
Tema 8
Pgina: 2
Fijado
Si Cuando se rechaza
P valor <
rechazamos
H0
H0
signica que al menos una pareja de medias son distintas y ese hecho es el causante de la relacin. Para detectar cual o cuales parejas de medias son distintas se lleva a cabo pruebas para la diferencia por parejas mediante intervalos de conanza o contrastes.
s ) I = (x z0.975 n
Fuente SC CM Estadstico F P-valor Entre 828.44 414.22 F = 42.93 1.5 107 Dentro 1775.22 9.647 Total 2603.66 Como P valor < ( = 0.05 o = 0.01) rechazamos H0 y concluimos que no podemos aceptar la hiptesis de no relacin aceptando que hay relacin entre el rendimiento y el tipo de criadero. Tiene que haber, por tanto, al menos una pareja de medias signicativamente distintas. Construimos los intervalos de las medias al nivel = 0.05
Criadero N Media Desviacin Tpica lmite inferior lmite superior A 77 2.873 1.087 2.63 3.11 B 74 7.488 3.592 6.6 8.36 C 36 6.056 4.610 4.55 7.55 A la vista de los intervalos obtenidos concluimos que las medias de los rendimientos de los criaderos B y C no son signicativamente distintas, pero stas S son signicativamente mayores que la media del rendimiento del criadero A.
3. Regresin Lineal Simple
Supongamos que muestra de tamao
(Y, X ) es una pareja de variables continuas y que se dispone de una n de datos por parejas (yi , xi ), con i = 1, , n. que sern usados
Tema 8
Pgina: 3
Y = ax + b +
donde, jado el valor
X=x
con
Y N (x , x ),
La variable
x = ax + b
x = Y
x.
ya considerada
N (0, )
se denomina
recoge todos los factores que inuyen en en el modelo. La expresin relaciona las
y = ax + b la denominamos Recta de Regresin y es una recta que medias tericas x de la variable Y con el valor x de la variable X .
b,
(xi , yi )i=1,...,n .
mnimos cuadrados
n 2
(a, b) =
i=1
donde y el
(ei )2 yi
Es decir, el procedimiento calcula cules han de ser los parmetros de la recta que hacen mnima la suma de todas las distancias verticales entre los puntos de la nube y las correspondientes ordenadas. Es, a modo intuitivo, la recta que pasa ms cerca de la nube de puntos, tal y como se aprecia en la siguiente gura.
b=y ax
b,
Tema 8
Pgina: 4
muestra; sin embargo, para no introducir nueva notacin, les seguiremos llamando
b,
denomina
recta de regresin muestral y puede ser usada para estimar valores medios
Y
cuando jamos el valor de la variable
ay y = ax + b se
de la variable
X.
SCT OT AL =
i=1
(yi y ) =
i=1
(yi f (xi )) +
i=1 SCRESIDU AL
(f (xi ) y )2
SCEXP LICADA
donde
SCEXP LICADA
X.
SCT OT AL
SCRESIDU AL
es funcional (muy improbable que ocurra nunca) y en la medida que se hace grande indicar falta de bondad de ajuste. Las dos guras siguientes indican dos situaciones muy distintas. La de la izquierda indica una situacin en donde la vara con
SCEXP LICADA ser mayor que cero puesto que f (xi ) i y la SCRESIDU AL tambin ser positiva puesto que hay puntos de la nube fuera
constante, en cuyo caso dicha constante es igual a y , por lo que n 2 ( f ( x ) y ) ser cero y por lo tanto toda la suma de cuadrados i i=1
de la recta de mnimos cuadrados, sin embargo la de la derecha plantea una situacin en la que
ser residual lo que indica ausencia total de relacin. El otro caso extremo es el que todos los puntos de la nube caen encima de la recta de regresin de manera que la relacin es funcional, es decir,
SCRESIDU AL = 0.
usuales en la prctica, los restantes casos se denominan de puede ser medida usando el Una medida de la R2 que se dene por
Determinacin
relacin estadstica que Coeciente de Determinacin. bondad del ajuste viene dada por el conocido Coeciente de
R2 = SCEXP LICADA ; SCT OT AL Y R2 [0, 1]
y = ax + b.
de Correlacin de Pearson
Coeciente
Tema 8
Pgina: 5
r = signo(a)
y tambin puede ser calculado haciendo
r=a
donde tpica
a es la pendiente de la recta ajustada por mnimos cuadrados, Sx es la desviacin de la muestra de X y Sy es la desviacin tpica de la muestra de Y .
H0 : Y H1 : Y
Para resolver este test se construye la siguiente tabla ANOVA para la regresin.
SC
g.l.
CM
Estadstico F
P-valor P-valor
1 n2 n1
en una distribucin
denominada de Snedecor y ser obtenido mediante software estadstico. Cuanto mayor sea el valor del estadstico ser el mayor es la variacin explicada frente a la residual y menor
Y Y
y y
X X
es signicativa) no es signica-
H0
tiva)
Tema 8
Pgina: 6
no es signicativa.
Tambin es posible llevar a cabo test de hiptesis sobre los coecientes de la recta
H0 : a = 0 (Y H1 : a = 0 (Y
Cuando se acepta
H0
cativamente distinta de cero por lo que la relacin entre el contrario, cuando rechazamos
Y Y
y y
H0 (P valor < )
signicativa. En este
cuando la
H0 : b = 0 H1 : b = 0
Cuando se acepta
H0
cativamente distinta de cero por lo que se acepta que la recta de regresin poblacional pasa por el origen de coordenadas. Cuando rechazamos se interpreta como el valor medio que toma la variable para
H0 (P valor < )
cuando la variable
signica toma el
que dicho coeciente es distinto de cero signicativamente. En este caso, este coeciente
valor cero, aunque habr muchas situaciones en las que el cero no ser un valor posible
usados en el ajuste de
ei = yi f (xi ) = yi (axi + b)
que marcan las diferencias entre los valores observados y los valores pronosticados por la recta. Del estudio de estos valores podemos detectar posibles alteraciones de los supuestos de partida que pudieran debilitar nuestras conclusiones. Concretamente, mediante el grco de los puntos
(ei , f (xi ))
Tema 8
Pgina: 7
ajustados o pronosticados, es posible chequear hiptesis o detectar situaciones anmalas. El siguiente grco nos ayudar a entender distintas situaciones que pueden presentarse:
De izquierda a derecha y de arriba a abajo, los grcos muestran las siguientes situaciones: 1. Es la situacin que visualizamos cuando el ajuste es correcto. Nube de puntos sin estructura alguna porque sta ha sido recogida en el ajuste realizado. Dispersin o varianza de los residuales constante a lo largo del eje anmalos o fuera de la nube. 2. El ajuste lineal no es adecuado porque los residuales marcan una estructura no lineal que deba haberse tenido en cuanta en el modelo de ajuste. Es decir, el modelo al cual debera haberse ajustado la nube de puntos es a uno de tipo cuadrtico. 3. La forma de la relacin es lineal pero no la que ha resultado del ajuste porque los residuales vuelven a mostrar dicha estructura. Es muy posible que la causa sea que unos pocos puntos muy inuyentes haya modicado sustancialmente el ajuste. 4. El ajuste adecuado es de tipo lineal porque los residuales no marcan ninguna estructura, sin embargo la dispersin de los puntos no es constante a lo largo del eje
X.
Ausencia de valores
X,
fuera as nuestras conclusiones se debilitan. 5. El ajuste lineal no es adecuado porque los residuales marcan una estructura no lineal que deba haberse tenido en cuanta en el modelo de ajuste y adems la varianza no es constante a lo largo del eje
X.
6. El ajuste lineal es adecuado pero se detectan residuales anmalos o atpicos que no son inuyentes.
del pecho de osos adultos Y=Chest.G con el peso X=Weight. La muestra de datos bivariados (xi , yi ) se representa en el siguiente diagrama de dispersin, en el que aparece tambin la recta de regresin o de mnimos cuadrados.
Tema 8
Pgina: 8
55
q q q q
q q
50
q q q
q q q q q q q q
q q q q q
45
q q q q
q q q q q q q q
q q q q q q
40
Chest.G
q q qq q qq q q q q q q q q q qq
35
q qq q q qq q q q qq q q q q q q q
q qq q q q q q qq q q q q q q qq q q qq q q qq q q q qq q q q q q q q q q q q q q qq q q q q
25
30
q q
20
100
200
300 Weight
400
500
Cuya expresin es
Chest.G = 0.071958 Weight + 22.485850
Esta expresin nos permite pronosticar, en media, valores de la variable Y=Chest.G para valores jos de X=Weight. Por ejemplo, si el valor de X=Weight es Weight=300, el valor medio de Y=Chest.G se estima mediante
Chest.G = 0.071958 300 + 22.485850 = 44.0732
Tambin sera posible, a partir de esta estimacin puntual, construir un intervalo de conanza para la citada media terica, cuestin que no abordamos en este curso. Para analizar la bondad del ajuste recurrimos al anlisis de la tabla ANOVA:
Tabla ANOVA
Fuente SC g.l. CM Estadstico F P-valor Explicada (Weight) 8985.0 1 8985.0 1970.39 P-valor=2.2e-16 Residual 643.7 141 4.5652 Total 9628.7 n 1 El P V alor = 2.2e 16 es menor que los niveles de signicacin usuales y permite rechazar H0 en el test: H0 : Chest.G no depende linealmente de Weight H1 : Chest.G SI depende linealmente de Weight y dicha relacin es altamente signicativa porque el P-valor es extremadamente pequeo.
Tema 8
Pgina: 9
Coeciente de determinacin
R2 = SCEXP LICADA 8985.0 = = 0.9331 SCT OT AL 9628.7
Es decir, ms del 93 % de la varianza de la variable Chest.G queda explicada por la relacin lineal descrita por la variable Weight.
Intervalos y test para los coecientes La conclusin a la que hemos llegado mediante el P-valor asociado al estadstico F es posible tambin alcanzarla mediante un test de hiptesis acerca de la pendiente de la recta de regresin.
H0 : a = 0 (Y NO depende linealmente de X) H1 : a = 0 (Y SI depende linealmente de X)
Dado que este caso, el P-valor asociado a esta prueba es menor que 2e 16 se sigue que rechazamos H0 y el coeciente a = 0.071958 hallado mediante el ajuste realizado es signicativamente distinto de cero. Pasa igual en el caso de la constante b del modelo, aunque este coeciente es de menor inters que la pendiente del modelo. Los intervalos de conanza al 95 % de conanza para ambos coecientes son los siguientes: I.C.(a) = (0.06875094, 0.0751643) e I.C.(b) = (21.77558429, 23.1961166). Observar que ninguno de ellos contiene el valor cero, por lo que las estimaciones a partir de la muestra halladas para a y b son signicativamente distintas de cero.
verticales de los puntos de la nube a la recta ajustada por los puntos, aparece en la siguiente tabla: Mnimo C25 Mediana C50 Mximo -5.93241 -1.23636 0.04537 1.15596 6.25913
q q q q
q q q q
q q q q q qq q
q q qq q
q q q q q q
Z.residuals.RegModel.1
residuals.RegModel.1
q q
q q
q q q q
q q q q q q
q q
q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q qq q q q q qq qq q q q q q q q q q q q q q q q q q q q
q q q q q qq q q q q q q q q q q q
q q q q q
q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q qq q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
q q q q q qq q q q q q q q q q q q q q q
q q q q q
q q
q q
q q
q q q
q q q
25
30
35
40
45
50
55
60
3 25
30
35
40
45
50
55
60
fitted.RegModel.1
fitted.RegModel.1
Tema 8
Pgina: 10
La grca anterior es el diagrama de dispersin de los residuales ei frente a los valores ajustados (0.071958 W eighti + 22.485850). En ella se muestra la recta de mnimos cuadrados a la que ajusta esta nube, que no puede ser otra que la recta y = 0 si el ajuste original es correcto. An as, aparecen residuales que aparentemente son grandes y que empeoran la bondad del ajuste, an sin ser inuyentes. La grca de la derecha es la misma salvo que los residuales se han tipicado (dividiendo cada valor por la desviacin tpica, puesto que la media es cero) para valorar si dichos residuales caen en un intervalo de alta probabilidad segn la escala normal. Puesto que la distribucin normal tipicada recoge una probabilidad del 0.95 entre los valores (1.96, 1.96), es usual considerar un residual mayor de lo normal cuando en cae fuera de dicho intervalo, es decir, cuando es mayor que 2 en valor absoluto.
4. Bibliografa
1. Temas 8 y 9 del texto Estadstica para Ciencias Agropecuarias. Autor: Di Riezo, J. A. 2. Tema 6 (seccin 1) y Tema 7 del texto
Tema 8
Pgina: 11