Sunteți pe pagina 1din 4

5.- ANLISIS DE LA VARIANZA MULTIVARIANTE.

Descripcin del modelo lineal general


(GLM) y del procedimiento MANOVA del SAS.
5.1.- Introduccin.
El anlisis de la varianza multivariante es una generalizacin del anlisis de la varianza univariante para
el caso de ms de una variable dependiente. Se trata de contrastar la significacin de uno o ms factores
(variables independientes) para el conjunto de variables independientes. El procedimiento del SAS
utilizado es el MANOVA.
5.2.- Anlisis de la varianza univariante (ANOVA) y modelo lineal general (GLM).
El anlisis de la varianza se realiza con los datos de un diseo experimental que responde a un
determinado modelo. Por ejemplo si el diseo experimental se defini para comparar las medias de los
dos niveles de un factor de variacin Tratamiento (T), el modelo sera: yij = + i + ij que sintetiza el
siguiente sistema de ecuaciones:
y11 = + 1 + 11
y12 = + 1 + 12
...
y1n1 = + 1 + 1n1

y21 = + 2 + 21
y22 = + 2 + 22
...
y2n2 = + 2 + 2n2
Podramos escribir este sistema de ecuaciones mediante la siguiente ecuacin matricial:
Y = X + , donde:
Y es el vector de observaciones (variable dependiente)
es el vector de parmetros (,1, 2)
X es la matriz de incidencias que relaciona las observaciones con los parmetros para dar lugar a
las ecuaciones:
110

110
.....

110
101

101
.....

101

es el vector de residuos.
Esta frmula del modelo se puede generalizar para cualesquiera parmetros incluidos en el vector de
parmetros , tanto los correspondientes a variables discretas (categoras o niveles de factores de
variacin categricos) como continuas (parmetros de regresin). Por eso, el modelo representado por
esta ecuacin se llama modelo lineal general (GLM).
La solucin de este sistema es: = (XX)-1 XY

Sin embargo, no se pueden obtener estimas independientes de los tres parmetros (,1 y 2). Se puede
estimar una combinacin lineal de estos parmetros; por ejemplo: = - 1, o bien = - 2; o
= 1 - 2. En general, se puede obtener un vector de soluciones L = L1 + L21 + (L1 L2)2, que es la
forma general de una funcin estimable para este modelo, en la que el vector de coeficientes de la funcin
estimables es: L = (L1, L2, L1-L2).
En el caso, frecuente, en que se quieran comparar los niveles del factor de variacin, 1 y 2
(tratamientos), el vector de coeficientes de la funcin estimable sera: L = (0, 1,-1).
El contraste de hiptesis correspondiente a esta funcin estimable se realizara calculando la suma de
cuadrados correspondientes al contraste L = 0: SC(H0: L = 0) = (L) (L(XX))1 L y la del error o
residual: SC(residual) = . Dividiendo ambas sumas de cuadrados por sus grados de libertad se
obtienen los correspondientes cuadrados medios (que son estimas de las correspondientes varianzas). El
cociente de dichos cuadrados medios nos da un valor de la variable F de Snedecor. Este valor se compara
con los valores de la tabla de valores F para los grados de libertad de numerador y denominador para
comprobar si es significativo o no.
5.3.- Anlisis de la varianza multivariante (MANOVA)
Es conceptualmente igual al univariante. Supongamos un caso sencillo con dos variables dependientes, un
factor de variacin categrico (variable independiente) con dos categoras o niveles y n1 y n2
observaciones por nivel. El modelo sera, en este caso:
y1ij = 1 + i + 1ij
y2ij = 2 + i + 2ij
o bien:
ykij = k + i + kij
siendo k = (1,2) e y1 e y2 son las dos variables y el factor de variacin categrico.
La expresin matricial de este modelo ser la frmula general Y = X + , donde
Y es el vector y 1 compuesto por los dos vectores de valores de las variables y1 e y2

y2

x1
, tambin compuesta por las matrices de incidencias correspondientes
x2

X es la matriz de incidencias
a las dos variables.

es el vector de errores , compuesto de los residuos de cada uno de los modelos de cada una de las
variables.
La hiptesis lineal general en este caso se escribe: LM = 0; donde M es una matriz que establece
relaciones lineales entre las variables. Si M es la matriz diagonal identidad, se estn utilizando las
variables originales.
Los contrastes de hiptesis en este caso se llevan a cabo con las matrices:
H = M(Lb)(L(XX))1(Lb)M, que corresponde a la suma de cuadrados y productos cruzados de las
dos variables, y
E = M(YY-b(XX)b)M, que corresponde a la suma de cuadrados y productos cruzados de los residuos.

Se pueden utilizar cuatro criterios para determinar la significacin de este contraste:

de Wilks: det(E)/det(H+E)

Traza de Pillai: traza de (H(H+E)-1)

Traza de Hottelling-Lawley: traza (E-1H)

Raiz mxima de Roy: mayor autovalor de E-1H

Ejemplo: En el trabajo de Fisher sobre la diferenciacin entre las caractersticas florales de las especies
virginica, versicolor y setosa del gnero Iris, se midieron cuatro variables: longitud y anchura de los
ptalos y de los spalos, con el fn e comprobar si existen realmente diferencias entre las especies en las
medidas de estas cuatro variables.
Datos en: FISHER.DAT
Programa en FISHER.SAS
Una aplicacin particular del MANOVA para comprobar si los valores de una serie de variables
permanecen constantes tras un determinado tratamiento:
Ejemplo: Se realizan tres medidas de parmetros sanguneos (concentracin de glucosa, presin sistlica
y presin diastlica) a 8 individuos, antes y despus de la aplicacin de un cierto frmaco. Se pretende
saber si dicho frmaco incide en los niveles de dichas variables.
Datos en: FARMA.DAT
Programa en FARMA.SAS
En el MANOVA, como en el ANOVA, cuando se trata de un diseo factorial o jerrquico, es necesario
saber cuales de los cuadrados medios resultan significativos al ser contrastados con el cuadrado medio
residual, para realizar el contraste adecuado (elegir el cuadrado medio de contraste adecuado para cada
factor).
Ejemplo: Se est estudiando el desgaste de los neumticos, para ello se toman medidas del desgaste a las
1000, 2000 y 3000 revoluciones. Como en el desgaste puede influir tambin el grado de conservacin del
asfalto (se estudian tres grados) y la presin de inflado (tres presiones), se quiere saber la influencia de
estos dos factores.
Datos y programa en: FACT.DAT

Ejercicio a realizar:
Se tienen los registros de produccin de 429 cabras de la raza Malaguea, obtenidos en el control de
rendimiento lechero. Las variables registradas son:
Produccin de kg leche por lactacin (produc).
Produccin de kg de protena por lactacin (protei).
Produccin de kg de casena por lactacin (casei).
Produccin de kg de grasa por lactacin (grass).
Produccin de kg de lactosa por lactacin (lacto).
Produccin de kg de casena por lactacin (alfa).
Produccin de casena por lactacin (beta).
Produccin de casena por lactacin (kappa).
Concentraciones en g por litro de leche de las ltimas seis variables (ppro, pcas, pgr, plac, palf, pbet,
pkap)
Los factores de variacin controlados son:
Raza, Rebao (gan), tipo de parto (nmero de cabritos nacidos vivos- tp), nmero de orden de parto o
lactacin (nlac), ao de parto (ao), mes de parto (mes).
El archivo de datos (en PRODUCCI.DAT est estructurado con el siguiente orden de campos:
Individuo, produc, protei, casei, grass, lacto, alfa, beta, kapa, raza, gan, tp, nlac, ao, mes, di, ppro, pcas,
pgras, plac, palf, pbet, pkap y esta.
(Los campos di y esta no se utilizarn).
Comprobar si los factores de variacin influyen significativamente en cada una y en el conjunto de las
variables.

S-ar putea să vă placă și