Sunteți pe pagina 1din 11

M.

Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

Tema 8:

Relaciones entre variables


1. Ob jetivos
Analizar relaciones entre variables, para un nico factor en el caso del ANOVA y una sola variable independiente, en el caso de Regresin. Conocer el signicado y saber interpretar las salidas de ordenador.

Introduccin
En este tema estudiamos cmo construir un modelo para representar y analizar la dependencia de una variable

(variable aleatoria dependiente, de naturaleza continua)

con una variable independientes

X.

Si la variable

es cualitativa (factor) el modelo de

relacin se llama de ANOVA y si es cuantitativa se llama de REGRESIN.

2.

ANOV A
La tcnica de ANOVA para un solo factor es la generalizacin del anlisis de 2 medias

a partir de 2 muestras independientes al caso de de los datos de la variable dependiente niveles o tratamientos de un factor siguiente tabla:

medias, cuando clasicamos cada uno

segn una de las

posibles modalidades,

X.

La informacin muestral que vamos a disponer la presentamos a continuacin en la

x1 y1,1 y2,1
. . .

x2 y1,2 y2,2
. . .


.. .

xk y1,k y2,k
. . .

yn1 ,1 y 1
es decir, si llamamos

yn2 ,2 y 2

ynk ,k y k

Al igual que en el caso de dos muestras, supondremos la

hiptesis de normalidad,

Yj

la variable

Y |X = xj : Y j N ( j , )

adems supondremos la llamada zas iguales en las

hiptesis de homocedasticidad, que supone varian-

poblaciones normales.

2.1. Test de hiptesis para el ANOVA


Nuestro objetivo ser desarrollar un test de hiptesis para contrastar la igualdad de las

medias, es decir, la independencia de

con el factor

X.

En concreto resolveremos

el siguiente test:

Tema 8

Pgina: 1

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

H0 : 1 = 2 = = k (Y H1 : i = j / i = j (Y s

no guarda relacin con guarda relacin con

X)

X)
(porque sigue una dis-

Para ello se usa un estadstico denominado tribucin denominada

estadstico F,

F
k

de Snedecor) a partir del desglose de la variacin total del

conjunto de los datos respecto a la media general en las siguientes componentes.

nj

nj

SCT OT AL =
j =1 i=1

(yi,j y ) =
j =1

nj (y j y ) +
j =1 i=1 SCEN T RE

(yi,j y j )2
SCDEN T RO

SCEN T RE :

indica la dispersin entre los grupos o de grupo a grupo, por lo que de

haber relacin entre las variables en juego sera natural que esta fuente de variacin fuese relativamente importante frente a la total. Tambin llamada . esta suma de cuadrados queda justicada por la posible relacin de

SCEXP LICADA puesto que Y con el factor X .

se

SCDEN T RO : Suma las varianzas que hay dentro de cada uno de los k grupos. Tambin llama SCRESIDU AL o injusticada por la relacin de Y con X , puesto que todos los

individuos del mismo grupo son en principio homogneos y aun as se observa dispersin dentro del mismo grupo. Para calcular el estadstico F y resolver el test de hiptesis planteado, es usual construir la denominada Tabla ANOVA.

Tabla ANOVA
Siendo ANOVA

n = n1 + + nj + + nk

n k = (n 1) (k 1),

construimos la tabla

Fuente Entre Dentro Total

SC

CM

Estadstico F

SCEN T RE SCDEN T RO SCT OT AL

CMEN T RE = CMDEN T RO CMT OT AL

SCEN T RE k1 SCDEN T RO = nk SCT OT AL = n1

F =

CMEN T RE CMDEN T RO

donde

CM

indica Cuadrados Medios y son estimaciones de la varianza segn las distintas

fuentes. El estadstico

computa la importancia relativa de la varianza explicada frente a la

residual, de modo que el grado de relacin entre las variables en juego est en funcin de la magnitud de

F. F
de la

El P-valor en esta prueba es el rea que queda a la derecha del estadstico distribucin de Snedecor, de forma que cuanto mayor sea la siguiente gura)

menor ser el P-valor (ver

Tema 8

Pgina: 2

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

Fijado

(nivel de signicacin), la regla de decisin va a ser la siguiente:

Si Cuando se rechaza

P valor <

rechazamos

H0

H0

para aceptar que hay relacin entre las variables en juego

signica que al menos una pareja de medias son distintas y ese hecho es el causante de la relacin. Para detectar cual o cuales parejas de medias son distintas se lleva a cabo pruebas para la diferencia por parejas mediante intervalos de conanza o contrastes.

Ejemplo 2.1 Una piscifactora cra tres especies de pescado comestible: A, B, C y se


quiere analizar si los rendimientos netos semanales (en miles de euros) son o no signicativamente distintos en los tres criaderos. A continuacin aparecen las salidas de ordenador del ANOVA para relacionar el rendimiento en funcin del tipo de criadero, es decir para aceptar una de las dos siguientes hiptesis:
H0 : A = B = C (El rendimiento no depende del criadero) H1 : Alguna pareja de medias es distinta (El rendimiento si depende del criadero)

s ) I = (x z0.975 n

Fuente SC CM Estadstico F P-valor Entre 828.44 414.22 F = 42.93 1.5 107 Dentro 1775.22 9.647 Total 2603.66 Como P valor < ( = 0.05 o = 0.01) rechazamos H0 y concluimos que no podemos aceptar la hiptesis de no relacin aceptando que hay relacin entre el rendimiento y el tipo de criadero. Tiene que haber, por tanto, al menos una pareja de medias signicativamente distintas. Construimos los intervalos de las medias al nivel = 0.05

Criadero N Media Desviacin Tpica lmite inferior lmite superior A 77 2.873 1.087 2.63 3.11 B 74 7.488 3.592 6.6 8.36 C 36 6.056 4.610 4.55 7.55 A la vista de los intervalos obtenidos concluimos que las medias de los rendimientos de los criaderos B y C no son signicativamente distintas, pero stas S son signicativamente mayores que la media del rendimiento del criadero A.
3. Regresin Lineal Simple
Supongamos que muestra de tamao

(Y, X ) es una pareja de variables continuas y que se dispone de una n de datos por parejas (yi , xi ), con i = 1, , n. que sern usados

para ajustar al siguiente modelo:

Tema 8

Pgina: 3

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

Y = ax + b +
donde, jado el valor

X=x
con

Y N (x , x ),
La variable

x = ax + b

x = Y

independiente del valor

x.
ya considerada

N (0, )

se denomina

Trmino de Perturbacin Aleatorio y


adems de la variable

recoge todos los factores que inuyen en en el modelo. La expresin relaciona las

y = ax + b la denominamos Recta de Regresin y es una recta que medias tericas x de la variable Y con el valor x de la variable X .

3.1. Estimacin de los parmetros de la recta de regresin


El siguiente punto consiste en estimar los parmetros experimentales

b,

mediante los datos y consiste en

(xi , yi )i=1,...,n .

El procedimiento que se sigue se denomina de minimizar la expresin siguiente:

mnimos cuadrados
n 2

(a, b) =
i=1
donde y el

(yi (axi + b)) =


i=1

(ei )2 yi

ei = yi (axi + b) se llama residual valor pronosticado f (xi ) = axi + b.

y es la diferencia entre el valor observado

Es decir, el procedimiento calcula cules han de ser los parmetros de la recta que hacen mnima la suma de todas las distancias verticales entre los puntos de la nube y las correspondientes ordenadas. Es, a modo intuitivo, la recta que pasa ms cerca de la nube de puntos, tal y como se aprecia en la siguiente gura.

Las soluciones a este problema son:

xy y x Cov (X, Y ) a = 2 = , 2 V ar(X ) x ( x)


Evidentemente, los valores para

b=y ax

hallados por el procedimiento anterior son

estimaciones de los verdaderos valores de

b,

ya que estos valores dependen de la

Tema 8

Pgina: 4

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

muestra; sin embargo, para no introducir nueva notacin, les seguiremos llamando

b,

de forma que la expresin hallada por el mtodo de mnimos cuadrados

denomina

recta de regresin muestral y puede ser usada para estimar valores medios
Y
cuando jamos el valor de la variable

ay y = ax + b se

de la variable

X.

3.2. Anlisis de la bondad del ajuste


Al igual que en los procedimientos de ANOVA, en la regresin tambin disociamos la varianza total en dos componentes, con el objetivo de analizar la bondad del ajuste realizado.

SCT OT AL =
i=1

(yi y ) =
i=1

(yi f (xi )+f (xi )y ) =


i=1

(yi f (xi )) +
i=1 SCRESIDU AL

(f (xi ) y )2
SCEXP LICADA

donde

f (xi ) es el valor esperado bajo la ecuacin de regresin; es decir, f (xi ) = axi + b


es la variacin debida a la relacin establecida entre las medias. Si sta

SCEXP LICADA
X.

absorbe casi toda la

SCT OT AL

indicar que hay una relacin lineal sugestiva entre Y y

SCRESIDU AL

es la suma de residuales al cuadrado, si sta es cero indicar que la relacin

es funcional (muy improbable que ocurra nunca) y en la medida que se hace grande indicar falta de bondad de ajuste. Las dos guras siguientes indican dos situaciones muy distintas. La de la izquierda indica una situacin en donde la vara con

SCEXP LICADA ser mayor que cero puesto que f (xi ) i y la SCRESIDU AL tambin ser positiva puesto que hay puntos de la nube fuera
constante, en cuyo caso dicha constante es igual a y , por lo que n 2 ( f ( x ) y ) ser cero y por lo tanto toda la suma de cuadrados i i=1

de la recta de mnimos cuadrados, sin embargo la de la derecha plantea una situacin en la que

f (xi ) es SCEXP LICADA =

ser residual lo que indica ausencia total de relacin. El otro caso extremo es el que todos los puntos de la nube caen encima de la recta de regresin de manera que la relacin es funcional, es decir,

SCRESIDU AL = 0.

usuales en la prctica, los restantes casos se denominan de puede ser medida usando el Una medida de la R2 que se dene por

Determinacin

relacin estadstica que Coeciente de Determinacin. bondad del ajuste viene dada por el conocido Coeciente de
R2 = SCEXP LICADA ; SCT OT AL Y R2 [0, 1]

Salvando los dos casos extremos, poco o nada

que representa la proporcin de varianza de mada

explicada por la recta de regresin esti-

y = ax + b.

de Correlacin de Pearson

Es tambin corriente usar como medida de la bondad del ajuste lineal el

Coeciente

que puede ser calculado haciendo la raz cuadrada del

coeciente de determinacin con el mismo signo que tenga la pendiente de la recta de

Tema 8

Pgina: 5

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

Figura 1: Variables relacionadas (izqda) y no relacionadas(dcha)

regresin muestral. Es decir,

r = signo(a)
y tambin puede ser calculado haciendo

SCEXP LICADA SCT OT AL Sx Sy

r=a
donde tpica

a es la pendiente de la recta ajustada por mnimos cuadrados, Sx es la desviacin de la muestra de X y Sy es la desviacin tpica de la muestra de Y .

3.3. Test de hiptesis para la regresin


Se contrasta la hiptesis nula de que la variable Y no depende de la variable independiente

, frente a la alternativa de que si depende.

H0 : Y H1 : Y

no depende linealmente de depende linealmente de

Para resolver este test se construye la siguiente tabla ANOVA para la regresin.

Fuente Explicada Residual Total donde

SC

g.l.

CM

Estadstico F

P-valor P-valor

SCEXP L SCRESI SCT OT AL

1 n2 n1

CMEXP L = SCEXP L CMRESI = SCRESI n2

CMEXP LICADA F = CMRESIDU AL

P valor es el rea que queda a la derecha del estadstico F F

en una distribucin

denominada de Snedecor y ser obtenido mediante software estadstico. Cuanto mayor sea el valor del estadstico ser el mayor es la variacin explicada frente a la residual y menor

P valor P valor < rechazamos H0 P valor


aceptamos (La relacin lineal entre (La relacin lineal entre

La Regla de decisin es la siguiente: Si Si

Y Y

y y

X X

es signicativa) no es signica-

H0

tiva)

Tema 8

Pgina: 6

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

3.4. Intervalos y contrastes sobre los coecientes de la recta de regresin


Los procedimientos de ajuste estiman los coecientes de la verdadera recta de regresin a partir de la muestra disponible. Estas estimaciones pueden ser usadas para construir intervalos de conanza para el verdadero valor de dichos coecientes. El intervalo, que nosotros no calculamos, podr ser obtenido mediante software estadstico y bsicamente observaremos en los mismos si el valor cero est o no contenido. Por ejemplo, si el intervalo para la pendiente de la recta de regresin contuviera al valor cero signicara que el valor ajustado por el procedimiento de mnimos cuadrados no es signicativamente distinto de cero y que la relacin lineal entre de regresin. Concretamente se contrasta: El primer contraste es sobre la pendiente de la recta de regresin.

no es signicativa.

Tambin es posible llevar a cabo test de hiptesis sobre los coecientes de la recta

H0 : a = 0 (Y H1 : a = 0 (Y
Cuando se acepta

no depende linealmente de X) si depende linealmente de X)

H0

se dice que la pendiente estimada por los datos no es signi-

cativamente distinta de cero por lo que la relacin entre el contrario, cuando rechazamos

Y Y

y y

tampoco lo es. Por

H0 (P valor < )

signica que dicho coeciente es

distinto de cero y por lo tanto hablamos de relacin entre variable

signicativa. En este

caso, este coeciente se interpreta como la variacin media de la variable

cuando la

vara en una unidad.

Tambin se realizan contrastes sobre el trmino constante de la recta de regresin:

H0 : b = 0 H1 : b = 0
Cuando se acepta

H0

se dice que la constante estimada por los datos no es signi-

cativamente distinta de cero por lo que se acepta que la recta de regresin poblacional pasa por el origen de coordenadas. Cuando rechazamos se interpreta como el valor medio que toma la variable para

H0 (P valor < )
cuando la variable

signica toma el

que dicho coeciente es distinto de cero signicativamente. En este caso, este coeciente

valor cero, aunque habr muchas situaciones en las que el cero no ser un valor posible

o ste se halle fuera del rango de valores observados de

usados en el ajuste de

mnimos cuadrados. En estos casos, este coeciente queda sin interpretar.

3.5. Anlisis de residuales


Los residuales en el ajuste que acabamos de realizar son los valores

ei = yi f (xi ) = yi (axi + b)
que marcan las diferencias entre los valores observados y los valores pronosticados por la recta. Del estudio de estos valores podemos detectar posibles alteraciones de los supuestos de partida que pudieran debilitar nuestras conclusiones. Concretamente, mediante el grco de los puntos

(ei , f (xi ))

es decir, el grco de residuales frente a los valores

Tema 8

Pgina: 7

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

ajustados o pronosticados, es posible chequear hiptesis o detectar situaciones anmalas. El siguiente grco nos ayudar a entender distintas situaciones que pueden presentarse:

De izquierda a derecha y de arriba a abajo, los grcos muestran las siguientes situaciones: 1. Es la situacin que visualizamos cuando el ajuste es correcto. Nube de puntos sin estructura alguna porque sta ha sido recogida en el ajuste realizado. Dispersin o varianza de los residuales constante a lo largo del eje anmalos o fuera de la nube. 2. El ajuste lineal no es adecuado porque los residuales marcan una estructura no lineal que deba haberse tenido en cuanta en el modelo de ajuste. Es decir, el modelo al cual debera haberse ajustado la nube de puntos es a uno de tipo cuadrtico. 3. La forma de la relacin es lineal pero no la que ha resultado del ajuste porque los residuales vuelven a mostrar dicha estructura. Es muy posible que la causa sea que unos pocos puntos muy inuyentes haya modicado sustancialmente el ajuste. 4. El ajuste adecuado es de tipo lineal porque los residuales no marcan ninguna estructura, sin embargo la dispersin de los puntos no es constante a lo largo del eje

X.

Ausencia de valores

X,

por lo que posiblemente se incumple la hiptesis de varianza constante y si

fuera as nuestras conclusiones se debilitan. 5. El ajuste lineal no es adecuado porque los residuales marcan una estructura no lineal que deba haberse tenido en cuanta en el modelo de ajuste y adems la varianza no es constante a lo largo del eje

X.

6. El ajuste lineal es adecuado pero se detectan residuales anmalos o atpicos que no son inuyentes.

Ejemplo 3.1 En el anlisis de regresin que sigue tratamos de relacional el dimetro

del pecho de osos adultos Y=Chest.G con el peso X=Weight. La muestra de datos bivariados (xi , yi ) se representa en el siguiente diagrama de dispersin, en el que aparece tambin la recta de regresin o de mnimos cuadrados.

Tema 8

Pgina: 8

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

55

q q q q

q q

50

q q q

q q q q q q q q

q q q q q

45

q q q q

q q q q q q q q

q q q q q q

40

Chest.G

q q qq q qq q q q q q q q q q qq

35

q qq q q qq q q q qq q q q q q q q

q qq q q q q q qq q q q q q q qq q q qq q q qq q q q qq q q q q q q q q q q q q q qq q q q q

25

30

q q

20

qq

100

200

300 Weight

400

500

Cuya expresin es
Chest.G = 0.071958 Weight + 22.485850

Esta expresin nos permite pronosticar, en media, valores de la variable Y=Chest.G para valores jos de X=Weight. Por ejemplo, si el valor de X=Weight es Weight=300, el valor medio de Y=Chest.G se estima mediante
Chest.G = 0.071958 300 + 22.485850 = 44.0732

Es decir, el valor 44.0732 es una estimacin de la media terica de Chest.G cuando


Weight=300

Tambin sera posible, a partir de esta estimacin puntual, construir un intervalo de conanza para la citada media terica, cuestin que no abordamos en este curso. Para analizar la bondad del ajuste recurrimos al anlisis de la tabla ANOVA:

Tabla ANOVA
Fuente SC g.l. CM Estadstico F P-valor Explicada (Weight) 8985.0 1 8985.0 1970.39 P-valor=2.2e-16 Residual 643.7 141 4.5652 Total 9628.7 n 1 El P V alor = 2.2e 16 es menor que los niveles de signicacin usuales y permite rechazar H0 en el test: H0 : Chest.G no depende linealmente de Weight H1 : Chest.G SI depende linealmente de Weight y dicha relacin es altamente signicativa porque el P-valor es extremadamente pequeo.

Tema 8

Pgina: 9

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

Coeciente de determinacin
R2 = SCEXP LICADA 8985.0 = = 0.9331 SCT OT AL 9628.7

Es decir, ms del 93 % de la varianza de la variable Chest.G queda explicada por la relacin lineal descrita por la variable Weight.

Intervalos y test para los coecientes La conclusin a la que hemos llegado mediante el P-valor asociado al estadstico F es posible tambin alcanzarla mediante un test de hiptesis acerca de la pendiente de la recta de regresin.
H0 : a = 0 (Y NO depende linealmente de X) H1 : a = 0 (Y SI depende linealmente de X)

Dado que este caso, el P-valor asociado a esta prueba es menor que 2e 16 se sigue que rechazamos H0 y el coeciente a = 0.071958 hallado mediante el ajuste realizado es signicativamente distinto de cero. Pasa igual en el caso de la constante b del modelo, aunque este coeciente es de menor inters que la pendiente del modelo. Los intervalos de conanza al 95 % de conanza para ambos coecientes son los siguientes: I.C.(a) = (0.06875094, 0.0751643) e I.C.(b) = (21.77558429, 23.1961166). Observar que ninguno de ellos contiene el valor cero, por lo que las estimaciones a partir de la muestra halladas para a y b son signicativamente distintas de cero.

Anlisis de residuales Una descripcin bsica de los residuales ei = Chest.Gi


(0.071958 W eighti + 22.485850), que no son otra cosa ms que las distancias

verticales de los puntos de la nube a la recta ajustada por los puntos, aparece en la siguiente tabla: Mnimo C25 Mediana C50 Mximo -5.93241 -1.23636 0.04537 1.15596 6.25913

q q q q

q q q q

q q q q q qq q

q q qq q

q q q q q q

Z.residuals.RegModel.1

residuals.RegModel.1

q q

q q

q q q q

q q q q q q

q q

q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q qq q q q q qq qq q q q q q q q q q q q q q q q q q q q

q q q q q qq q q q q q q q q q q q

q q q q q

q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q qq q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

q q q q q qq q q q q q q q q q q q q q q

q q q q q

q q

q q

q q

q q q

q q q

25

30

35

40

45

50

55

60

3 25

30

35

40

45

50

55

60

fitted.RegModel.1

fitted.RegModel.1

Tema 8

Pgina: 10

M. Iniesta Grado en Ciencia y Tecnologa de los Alimentos Universidad de Murcia

La grca anterior es el diagrama de dispersin de los residuales ei frente a los valores ajustados (0.071958 W eighti + 22.485850). En ella se muestra la recta de mnimos cuadrados a la que ajusta esta nube, que no puede ser otra que la recta y = 0 si el ajuste original es correcto. An as, aparecen residuales que aparentemente son grandes y que empeoran la bondad del ajuste, an sin ser inuyentes. La grca de la derecha es la misma salvo que los residuales se han tipicado (dividiendo cada valor por la desviacin tpica, puesto que la media es cero) para valorar si dichos residuales caen en un intervalo de alta probabilidad segn la escala normal. Puesto que la distribucin normal tipicada recoge una probabilidad del 0.95 entre los valores (1.96, 1.96), es usual considerar un residual mayor de lo normal cuando en cae fuera de dicho intervalo, es decir, cuando es mayor que 2 en valor absoluto.
4. Bibliografa

1. Temas 8 y 9 del texto Estadstica para Ciencias Agropecuarias. Autor: Di Riezo, J. A. 2. Tema 6 (seccin 1) y Tema 7 del texto

Ingenieras. Rosario Delgado de la Torre. Editorial Delta.


William Navidi. Editorial McGraw-Hill.

Probabilidad y Estadstica para Ciencias e Estadstica para ingenieros y cientcos.

3. Captulos 7 y 9 (seccin 1) del texto

Tema 8

Pgina: 11

S-ar putea să vă placă și