Documente Academic
Documente Profesional
Documente Cultură
Por esa costumbre, a veces muy mala, de copiar todo, ya se ha hecho comn que la gente mencione la
palabra data en vez de datos; la palabra data es totalmente vlida si reconocemos que es una palabra
latina para el plural de datos, en cuyo caso deberamos decir los data y no la data como comnmente se
dice; por cierto, el singular es datum (dato). Por otra parte, en la literatura inglesa data se usa como
plural y como singular (the data are y the data is), aunque muchos expertos explican que debe ser the
data are y the datum is; pero como dice alguien por ah And I have to be honest, I've never heard
anyone ask for a datum.
2
Peters (1987) y Walker (1929) atribuyen el uso inicial del trmino estadstica al profesor alemn
Gottfried Achenwall (1719-1772), quien us la palabra alemana Statistik en 1749, y la primera publicacin
de la palabra inglesa a John Sinclair (1754-1835) en 1791.
La palabra biometra, que literalmente significa medicin biolgica, ha sido usada en varios contextos
desde el siglo XIX (tales como demografa y, ltimamente, gentica cuantitativa) pero su uso para
significar la aplicacin de mtodos estadsticos a informacin biolgica aparentemente fue concebido
entre 1892 y 1901 por Karl Pearson, junto con el nombre Biometrika para la revista inglesa que ayud a
fundar; y fue publicada en el nmero inaugural de esta revista en 1901. La Seccin Biomtrica de la
Asociacin Americana de Estadstica fue establecida en 1938, sucesora del Comit sobre Biomtrica de
esa organizacin, y comenz a publicar el Biometrics Bulletin en 1945, el cual se transform en 1947 en
la revista Biometrics, una revista actualmente muy importante. Ms recientemente, el trmino biomtrica
ha sido ampliamente usado para referirse al estudio de caractersticas fsicas humanas (incluyendo
caractersticas faciales y de manos, huellas dactilares, perfiles de ADN y patrones retinales) para
propsitos de identificacin.
errores potenciales, asumiramos que no han ocurrido, pero existen otros aspectos
relacionados con exactitud que deben considerarse.
Es comn expresar la exactitud asociada con una medida de forma numrica. Si
reportamos que la longitud de un pez es 18 cm, estamos estableciendo el valor 18 (un
valor de una variable continua) como un estimado de la verdadera longitud del pez.
Este estimado se hace usando algn tipo de aparato de medicin (un vernier o un
ictimetro, por ejemplo). Si el aparato hubiera sido ms sofisticado y de mayor
exactitud, pudiramos haber declarado que la longitud era 18,3 cm o 18,32 cm. Cuando
se reportan valores de variables continuas, es importante designar la exactitud con la
cual se han hecho las mediciones. Por convencin, el valor 18 denota una medida en el
mbito de 17,5 a 18,49999; el valor 18,3 denota un mbito de 18,25000 a 18,34999 y el
valor 18,32 implica que el verdadero valor est dentro del mbito de 18,31500 a
18,32499. Es decir, el valor reportado es el punto medio del mbito implicado, y el
tamao de este mbito es designado por el ltimo lugar decimal en la medida. El valor
de 18 cm implica una habilidad para determinar la longitud dentro de un mbito de 1
cm, 18,3 cm implica un mbito de 0,1 cm y 18,32 cm implica un mbito de 0,01 cm. As,
reportar un valor de 18,0 implica mayor exactitud en la medicin que reportar un valor
de 18. Los dgitos en un nmero que denotan la exactitud de la medida se denominan
cifras significativas. As, 18 tiene dos cifras significativas, 18,0 y 18,3 tienen tres cifras
significativas y 18,00 y 18,32 tienen cuatro cifras significativas.
Cuando se trabaja con valores exactos de variables discretas, las
consideraciones precedentes no aplican. Es decir, es suficiente establecer que nuestro
pez tiene cuatro parsitos o 13 parsitos; el uso de 4,0 o 13,00 sera inapropiado
debido a que los valores envueltos son exactamente 4 y 13, no existen dudas acerca
de exactitud y cifras significativas.
Distribuciones de frecuencias
Cuando se recolectan y resumen grandes cantidades de datos, a menudo es til
reportar los datos en forma de una tabla de frecuencia. Tal tabla simplemente envuelve
una lista de todos los valores observados de la variable que est siendo estudiada y
cuantas veces cada valor es observado. Consideremos la tabulacin de la frecuencia
de ocurrencia de nidos de tilapia (Tilapia mossambica) en cuatro lagunas (A, B, C y D).
Esto se ilustra en la Tabla 1, donde se enlistan las lagunas y el nmero de nidos en
cada una de ellas.
Tabla 1. Nmero de nidos de tilapia (Tilapia mossambica) en cuatro lagunas.
Laguna Nmero de tilapias
A
56
B
60
C
46
D
49
Figura 2. Figura de barras para los datos de tilapia de la Tabla 1. Ejemplo de figura de
barras para datos nominales.
Una tabla de frecuencias de datos ordinales debe aparecer como en la Tabla 2,
la cual representa el nmero observado de peces sol (Lepomis macrochirus)
recolectados en cada una de cinco categoras, con cada categora representando un
grado de pigmentacin de piel. Se puede preparar una figura de barras (Figura 3) para
estos datos semejante a la preparada para datos nominales.
Tabla 2. Nmero de peces sol (Lepomis macrochirus) tabulado de acuerdo a la
cantidad de pigmentacin negra.
Clase de pigmentacin
1
2
3
4
5
Cantidad de
pigmentacin
No pigmentacin
Pigmentacin ligera
Pigmentacin moderada
Pigmentacin fuerte
Pigmentacin completa
Nmero de peces
13
68
44
21
8
Figura 3. Figura de barras para la pigmentacin del pez sol (Lepomis macrochirus) de
la Tabla 2. Ejemplo de figura de barras para datos ordinales.
Tabla 3. Frecuencia de ocurrencia de varios tamaos de camada de zorros.
Tamao de camada Frecuencia
1
10
2
27
3
22
4
4
5
1
La Tabla 5 muestra los datos de la Tabla 4 arreglados agrupando los datos en
clases de tamao. La figura de barras para esta distribucin aparece en la Figura 5. Tal
agrupamiento conlleva a la prdida de alguna informacin y es generalmente usada
solamente para hacer las tablas de frecuencia y las figuras de barras ms fciles de
leer, y no para clculos ejecutados en los datos. Se han creado varias reglas generales
para ayudar en decidir cuntas clases de datos deben agruparse razonablemente,
debido a que el uso de muy pocos grupos obscurecera la forma general de la
distribucin. Pero tales reglas o recomendaciones son slo guas aproximadas, y la
escogencia generalmente se deja al buen juicio, teniendo en mente que de 10 a 20
grupos son tiles para la mayora de los trabajos biolgicos.
Debido a que los datos continuos, al contrario de los datos discretos, pueden
tomar un nmero infinito de valores, esencialmente siempre se est tratando con una
distribucin de frecuencias tabulada por grupos. Si la variable de inters fuera un peso,
medido con una exactitud de 0,1 mg, una tabla de frecuencia de el nmero de pesos
medidos como 48,6 mg sera interpretado como el nmero de pesos agrupados entre
48,5500 y 48,6499 mg (aunque en una tabla de frecuencias este intervalo de clase
usualmente se escribe como 48,55 48,65). La Tabla 6 presenta la tabulacin de 130
determinaciones de la concentracin de fsforo en miligramos/gramo en hojas secas.
Para presentar esta distribucin de frecuencia grficamente, se puede preparar
un histograma5, el cual es el nombre dado a una figura de barras basada en datos
continuos. Esto se presenta en la Figura 6; ntese que ms que indicar el mbito sobre
el eje horizontal, se indica solamente el punto medio del mbito, un procedimiento que
produce una grfica menos congestionada. Ntese tambin que las barras adyacentes
en un histograma a menudo se tocan entre ellas para enfatizar la continuidad de la
escala de medicin, mientras que en las otras grficas discutidas anteriormente esto no
sucede.
El trmino histograma tiene races griegas, y hace referencia a un dibujo en forma de poste, y fue
publicado por primera vez por Karl Pearson en 1895.
10
Nmero de peces
Nmero de parsitos
observados
por pez
3
21
1
22
1
23
1
24
2
25
3
26
5
27
7
28
8
29
11
30
10
31
11
32
13
33
12
34
16
35
13
36
14
37
16
38
15
39
14
40
17
41
Nmero total de observaciones = 424
Nmero de peces
observados
18
23
17
19
18
19
21
18
13
10
14
9
10
8
5
4
1
2
1
0
1
Figura 5. Figura de barras para los datos de la Tabla 5. Ejemplo de una figura de barras
para datos en escala razn discretos agrupados.
Tabla 6. Concentracin de fsforo (mg/g) en hojas secas.
Concentracin de fsforo
Frecuencia
(nmero de determinaciones)
8.15-8.25
2
8.25-8.35
6
8.35-8.45
8
8.45-8.55
11
8.55-8.65
17
8.65-8.75
17
8.75-8.85
24
8.85-8.95
18
8.95-9.05
13
9.05-9.15
10
9.15-9.25
4
Frecuencia total = 130 (n)
12
8.2
8.3
8.4
8.5
8.6
8.7
8.8
8.9
9.0
9.1 9.2
Grficos de dispersin
Un grfico de dispersin muestra la relacin entre dos variables y se produce
graficando un par de medidas para cada unidad de muestra como un punto sobre la
grfica. Generalmente, el eje vertical (Y) representa la variable dependiente (variable
respuesta), mientras que el eje horizontal (X) indica la variable independiente (variable
predictora). Un uso tpico para un grfico de dispersin sera para desplegar
informacin acerca de dos observaciones relacionadas tales como la longitud y el peso,
el esfuerzo y el rendimiento o la relacin desovantes-reclutas. En muchos casos, las
presentaciones grficas se acompaan con coeficientes de regresin o correlacin que
representan medidas de la fortaleza de la relacin entre las variables.
Los grficos de dispersin son herramientas excelentes para explorar los datos.
Las relaciones entre variables pueden visualizarse y patrones pueden emerger a
medida que se construyen o manipulan las grficas. Los errores y valores extremos
(outliers) que influyen sobre los clculos estadsticos se detectan en grficos de
dispersin. En la Tabla 7 se muestran valores de longitud y peso de 16 ejemplares de la
ostra del Pacfico, Crassostrea gigas, y la Figura 9 muestra las grficas de dispersin
de la relacin entre el peso y la longitud para datos no transformados y transformados.
Tabla 7. Valores de longitud y peso de 16 ejemplares de la ostra del Pacfico,
Crassostrea gigas.
Longitud (mm) Peso (g) Longitud (mm) Peso (g)
24
4
89
80
35
18
95
86
38
9
99
100
45
13
105
120
49
29
110
90
55
25
121
152
65
38
129
195
75
58
147
241
Ya que estamos tratando aspectos relacionados con el anlisis de regresin
lineal, aprovechemos para introducir un aspecto relacionado con este anlisis que es
importante para el estudio de la biologa pesquera: la determinacin del coeficiente de
isometra.
Caso especial de regresin
El modelado de la relacin entre la longitud y el peso de una especie animal,
particularmente peces, ha sido considerado un anlisis rutinario cuyos resultados no
garantizan su publicacin en revistas cientficas, o ha sido considerado de poco valor.
Sin embargo, revisiones recientes de mtodos y el metanlisis de un gran nmero de
relaciones longitud-peso por Froese (2006), demuestran que un anlisis sinttico de
estas relaciones pueden proveer informacin ecolgica importante sobre la especie
14
Figura 9. Grficos de dispersin de la relacin entre peso (Y) y longitud (X) con (A)
datos no transformados y (B) luego de transformacin. El intercepto y la
pendiente en (A) se obtuvieron de la funcin P aLb , donde P peso (g ) y
L longitud total (mm ) , mientras que en (B) se obtuvieron de la ecuacin
lineal LnP Lna bLnL .
Tradicionalmente se ha utilizado la denominada ecuacin potencia para fijar la
relacin longitud-peso de peces. La ecuacin potencia es de tipo Y aX b , donde Y =
peso, X = longitud, a = intercepto o punto de corte y b = pendiente. Una forma ms
especfica de esta ecuacin es P aLb , donde P = peso y L = longitud. Ms all de
15
Intercept
X Variable 1
Coefficient
s
-4.53786
3.05734993
Standard
Error
t Stat
0.194305803 -23.3542173
0.070769517
43.201509
16
P-value
1.3022E-12
2.6653E-16
b b0
Sb
donde,
b = el valor de la pendiente, en este caso 3,057
b0 = es el valor contra el cual deseamos comparar b , en este caso 3
S b = error estndar de b , que en este caso es 0,070769517 (ver tabla arriba)
b b0
3,057 3
0,805
Sb
0,070769517
lo cual nos indica que t 0,805 ; a partir de este valor y los grados de libertad, en este
caso 14 ya que tenemos 16 valores menos las dos variables (gl = 16-2 = 14), vamos a
una tabla estadstica de valores t-Student y obtenemos el valor de P asociado con ese
valor de t. Tambin podemos obtener el valor de P ms directamente en Excel,
simplemente colocando en cualquier celda vaca los siguientes comandos
=DISTR.T(x;gl;colas), donde x = 0,805, gl = 14 y colas = 2; de tal forma que quedara
=DISTR.T(0,805;14;2), presionar enter y rinde P = 0,434278737 [si su Excel es en ingls,
los comandos son =TDIST(x,deg_freedom,tails)]. Debido a que P >> 0,05, no podemos
rechazar la hiptesis nula ( H 0 : b 3 ; H a : b 3 ), y concluimos que nuestra especie
crece isomtricamente. Por supuesto, podemos usar una prueba de una sola cola; es
decir, H 0 : b 3 y H a : b 3 o H a : b 3 , en cuyo caso el valor de P debe calcularse
como =TDIST(0,805,14,1), el cual rinde P = 0.217139368 y que es exactamente la
mitad del valor de P para dos colas.
Estudios observacionales
Los investigadores pesqueros conducen varios tipos de estudios que pueden
clasificarse en trminos generales como o bien mensurativos (observacionales) o bien
manipulativos (Hurlbert, 1984). En estudios observacionales, los datos se recolectan
tomando medidas sobre poblaciones o comunidades a intervalos temporales o
espaciales. A menudo, el objetivo de este tipo de estudio es observar algn proceso, tal
como la respuesta de una poblacin al cambio de una regulacin. Tal observacin es
pasiva, y el proceso puede no estar bajo el control del investigador. En algunos casos,
el proceso pudiera no ser bien entendido, de tal forma que el estudio debe ser a largo
plazo, requiriendo varios aos. Considrese, por ejemplo, un estudio a largo plazo de
un stock que declina de una especie de pez andromo. Existe incertidumbre sobre la
causa especfica de la disminucin, y por lo tanto ser necesario el monitoreo de varios
componentes de stock para identificar la causa y poder planificar una estrategia vlida
para rehabilitar el stock. Se deben recolectar datos sobre elementos de la pesquera (p.
ej., reclutamiento, crecimiento, mortalidad, desplazamiento, estructura de tamaos,
enfermedades y factor de condicin) que deben ser analizados e interpretados para
determinar cules factores pudieran estar envueltos. Las unidades de muestreo
pudieran ser peces individuales, grupos de peces (p. ej., edades o tamaos
especficas), o peces de diferentes tributarios que se mediran en puntos especficos.
Un ejemplo ms simple pudiera ser una comparacin de densidades de agallas
azules, Lepomis macrochirus, desovantes en hbitats con vegetacin y sin vegetacin
no manipulados. Tal experimento envolvera la observacin de la distribucin espacial
del uso de hbitat por el agalla azul durante perodos breves. Pudieran hacerse
comparaciones entre mltiples poblaciones, y se pudiera comprobar si existen
diferencias estadsticas. Un elemento crtico en los diseos de estudio es asegurar que
las rplicas sean verdaderamente independientes entre si.
Estudios manipulativos
El segundo tipo de estudio envuelve la manipulacin de alguna variable que
supuestamente afecta un proceso. Un tratamiento es una condicin manipulada que es
la base para las comparaciones. Esto requiere asignar diferentes tratamientos a
diferentes unidades experimentales. Una unidad experimental es la divisin ms
pequea del material experimental tal que cualesquiera dos unidades puedan recibir
diferentes tratamientos (Krebs, 1998). Adems de los tratamientos, un experimento
manipulativo requiere un grupo control, el cual es simplemente un conjunto de unidades
experimentales que no se manipula y sirve como una base para las comparaciones.
Todas las variables diferentes a las manipuladas deben mantenerse constantes para
eliminar los factores que pudieran confundir las respuestas de los tratamientos.
Considrese un bilogo quien trabaja en un criadero y desea evaluar la
respuesta del fitoplancton en lagunas de cultivo a tres diferentes concentraciones
(tratamientos) de un fertilizante fosfatado. Excepto por la adicin del fertilizante, todas
las lagunas son tratadas igualmente. El bilogo determina los tres niveles a ser usados
18
tanques (un tanque por dieta tratamiento), los tratamientos no estaran replicados
debido a que los peces en cada tanque podran estar respondiendo a diferencias en los
alimentos o a efectos extraos al tanque. Se requeriran mltiples tanques para cada
tratamiento para protegerse contra los efectos de los tanques.
Las unidades experimentales a los cuales se aplican los tratamientos
(incluyendo los controles) deben seleccionarse al azar de modo que se establezca
independencia entre los tratamientos. Los mtodos estadsticos asumen que las
observaciones son independientes y asignadas aleatoriamente. La aleatorizacin
cumple esa premisa y reduce los efectos de cualquier factor extrao en el experimento.
Estadstica y anlisis de datos
La estadstica envuelve hacer inferencias basadas en datos observados o
muestreados y, con un nivel de incertidumbre, formular decisiones acerca de esos
datos y la poblacin de la cual se toman los datos. La evaluacin de poblaciones de
peces, comunidades y hbitats sera imposible sin muestras (Hansen y col., 2007). Las
medidas tpicamente se toman sobre alguna variable (atributo) de los peces en la
muestra, y cualquiera inferencia acerca de esta variable en la poblacin se basa sobre
la muestra estadstica. En trminos estadsticos, las muestras se describen mediante
estadsticos descriptivos, tales como la media y la desviacin estndar de la muestra,
mientras que la estadstica inferencial se usa para generalizar las medidas de las
muestras a la poblacin. Los investigadores pesqueros usan tanto estadstica
descriptiva como inferencial.
Estadstica descriptiva
La estadstica descriptiva reduce un conjunto grande de medidas de una variable
a unas pocas medidas resumen que pueden desplegarse en forma grfica o numrica.
Las distribuciones de frecuencias y los histogramas son formas grficas comunes para
mostrar cmo se distribuye una variable. Una grfica de una distribucin de frecuencias
a menudo se aproxima a una distribucin en forma de campana (curva normal; Figura
10A) si el tamao de la muestra es grande. Por otra parte, un histograma de
frecuencias se parecer a pasos de una escalera con una proporcin de los datos
ocupando cada intervalo a lo largo del eje horizontal (Figura 10B). Una grfica de
probabilidades normal se observa como una relacin lineal (Figura 10C).
La distribucin normal muestra dos tipos importantes de estadsticos
descriptivos: 1) estadsticos de localizacin y 2) estadsticos de dispersin
(variabilidad). Los estadsticos de localizacin incluyen todas las medidas de tendencia
central; es decir, la tendencia de las medidas a amontonarse alrededor del centro de
una distribucin. Las tres medidas ms comunes de tendencia central son la media, la
mediana y el modo. La media de una muestra ( X ) es el promedio aritmtico de todas
las observaciones, la mediana es el punto medio de una distribucin ordenada
(ranqueada) y el modo es el valor que ocurre ms frecuentemente en la distribucin. La
media de la muestra es la medida de tendencia central ms usada y se expresa como
20
Figura 10. Una distribucin normal de longitudes de peces ilustrada como (A) una curva
suave a travs de los puntos medios de las clases de longitud y (B) un
histograma de frecuencias. El panel (C) muestra una grfica de
probabilidades en las que los datos se aproximan a una lnea recta.
Los estadsticos de dispersin caracterizan la dispersin de las medidas de la
muestra alrededor de un estadstico (p. ej., X ) usado para expresar la tendencia
central. Medidas comunes de dispersin son el mbito (rango), la varianza ( S 2 ) y la
desviacin estndar ( S o de ). El mbito es la medida de dispersin ms simple y
representa la diferencia entre la medida ms grande y la ms pequea en el conjunto
de datos. Por ejemplo, el mbito de longitudes en un conjunto de datos en el que la
21
menor longitud fue 231 mm y la mayor fue 456 mm sera 225 mm; el mbito no es 231456 mm. La varianza de una muestra de datos continuos se calcula como
S
(X
X )2
n 1
o como
S2
2
i
( X i ) 2
n 1
S2
(X
X )2
n 1
8650
1081,25
9 1
S2
22
1081, 25 32,88
Debido a que no podemos reportar una mayor precisin que la que reportamos
en nuestras medidas originales, entonces redondeamos la desviacin estndar a 33.
Tabla 10. Longitudes de nueve peces.
X
X
Xi
Xi X
( X i X )2
161
178
192
210
210
221
234
247
264
-52
-35
-21
-3
-3
8
21
34
51
2704
1225
441
9
9
64
441
1156
2601
(X
1917
X ) 2 8650
1917
213
9
Grados de libertad
Una definicin general de grados de libertad (gl) asociados con un estadstico
particular es el nmero de observaciones independientes en el conjunto de datos. Por
ejemplo, si calculamos la media y la desviacin estndar para 10 observaciones,
tenemos 9 gl ( gl n 1 ). Sabiendo el valor de cualesquiera 9 datos y la suma de las 10
medidas, podemos calcular el valor del dcimo valor. Por lo tanto, los grados de libertad
dependen del tamao de la muestra. Digamos, por ejemplo, que nuestra poblacin
consiste de 10.000 individuos y slo muestreamos 10 de ellos; la muestra slo tendra
9 gl y probablemente no representara la poblacin entera con exactitud. Sin embargo,
si obtenemos una muestra de 100 individuos, los gl aumentaran a 99, y la muestra
representara mejor la poblacin. Un aumento en los gl tiene consecuencias
importantes. Reduce el tamao del error estndar y el intervalo de confianza (se ver
ms adelante) y aumenta la sensibilidad de las pruebas estadsticas; si nuestro
estimado se compara con otro obtenido en un lugar o tiempo diferente, ms gl permiten
detectar diferencia menores entre los estimados. Consecuentemente, el valor de los gl
se usa en conjunto con el valor de una prueba estadstica para determinar el valor de
probabilidad.
Intervalos de confianza
La media muestral, X , muy rara vez ser igual a la verdadera media de la
poblacin. Por lo tanto, es prudente expresarla como un mbito de valores (p. ej.,
X 2,5 ) en forma de un intervalo de confianza (IC) expresado de la siguiente forma
Media IC X t n 1
23
Media IC X t n 1
S
33
213 2,306
213 25
n
9
S
n
S
X
LRC
59.19
69.41
59.45
66.86
59.63
68.08
61.51
69.3
59.35
66.36
72.15
25
SGA
12.76
22.47
13.85
22.71
19.6
21.34
15.27
16.2
16.41
18.44
27.09
Machos
Machos
Machos
Machos
Machos
Machos
Machos
Machos
Machos
Machos
Machos
Machos
69.26
71.34
69.32
74.28
69.69
72.51
68.1
67.34
69.54
70.21
71.3
76.62
24.31
32.63
22.17
27.54
22.81
25.82
23.13
24.09
23.86
26.03
28.23
29.89
Es desafortunado que se diga esto aqu; esto no es cierto, excepto que la poblacin sea muy pequea
o habite en un rea homognea, pocas veces los organismos se distribuyen aleatoriamente en su rea
de distribucin
27
Figura 12. Distribuciones espaciales bsicas: (A) uniforme ideal, (B) uniforme comn,
(C) contagiosa o amontonada y (D) aleatoria. Los patrones de dispersin
espacial corresponden a relaciones estadsticas entre la varianza y la media
de la poblacin. La distribucin uniforme (binomial positiva) tiene una
varianza menor que la media ( 2 ), la contagiosa (binomial negativa)
tiene una varianza mayor que la media ( 2 ) y la aleatoria (Poisson) tiene
una varianza aproximadamente igual a la media ( 2 ).
Hiptesis e inferencia estadstica
Una funcin importante del anlisis estadstico es hacer inferencias basadas en
informacin incompleta (es decir, muestras). Por lo tanto, la inferencia estadstica es el
proceso de alcanzar conclusiones acerca de una poblacin de la cual solamente se
tiene una, o varias, muestra. Por ejemplo, podramos creer que las tasas de
crecimiento de una especie en dos lagos son similares, pero sera imprctico medir la
edad y la longitud de todos los peces en ambas poblaciones para comprobar esta
premisa. Por lo tanto, recolectamos muestras de esas poblaciones para efectuar una
inferencia estadstica que describa exactamente las poblaciones. Por otra parte,
podramos desear comprobar si existe diferencia entre dos o ms medias. La inferencia
frecuentista es una forma comn de hacer este tipo de inferencia estadstica.
Los enfoques usados comnmente en el anlisis de datos incluyen los mtodos
frecuentistas7 clsicos as como tambin mtodos probabilsticos tales como los
procedimientos Bayesianos y de seleccin de modelos. La secuencia general en la
perspectiva clsica (frecuentista) es identificar el problema, recolectar los datos,
seleccionar el modelo, conducir el anlisis y obtener conclusiones.
La inferencia frecuentista usa pruebas estadsticas para determinar la
probabilidad de los datos dada una hiptesis nula ( H 0 ). La H 0 es una declaracin
que asegura, por ejemplo, que las medias muestrales no son diferentes o que un
tratamiento no tiene efecto. Se recolectan y comprueban datos para determinar cun
probable son los datos bajo la premisa de que la H 0 es cierta. Si los datos son
altamente improbables, a menudo definidos como 5% o menos, entonces la H 0 se
considera falsa.
Las estimaciones de probabilidades, tales la seleccin de modelos y los
procedimientos Bayesianos proveen perspectivas alternativas a la inferencia. Estas
perspectivas difieren de la inferencia frecuentista en que la probabilidad de un modelo
7
28
29
Esta alternativa se denomina una hiptesis de dos lados (no direccional), debido
a que establece la posibilidad que 1 2 y la posibilidad que 1 2 (dos colas).
Pudiramos tambin establecer una H 0 que especifique que 1 2 (en trminos
nulos, esto es equivalente a decir que 1 no es menor que 2 ), en cuyo caso la H a ,
1 2 , sera direccional, o de un lado.
La comprobacin formal de la H 0 tiene cinco componentes: H 0 , H a , prueba
estadstica, regin de rechazo (o regin crtica) y conclusin (Zar, 2006). Esta
perspectiva es descrita conceptualmente como prueba por contradiccin (no puede ser
simultneamente verdadera y falsa). Luego que se ha formulado las hiptesis, se
obtiene una muestra, se selecciona una prueba estadstica y se computa el valor de la
prueba a partir de los datos. La prueba estadstica sigue una distribucin estadstica
caracterstica, y la decisin de rechazar o no rechazar la H 0 se basa en esa prueba
estadstica y dependiendo si el valor calculado cae en la regin de rechazo (sobrepasa
el valor crtico).
No se puede probar que una H 0 sea cierta, pero podemos probar que es casi
cierta (es decir, cualquier efecto, si existe, no es importante). Supongamos que
deseamos determinar si una droga es segura para los peces. Nos preocupa que
pudiera aumentar los niveles de glucosa en plasma, lo cual indicara estrs.
Efectuamos el experimento, hacemos las mediciones apropiadas y efectuamos una
prueba estadstica (una prueba t) para comparar los niveles promedio de glucosa
plasmtica. Las hiptesis son: H 0 : exp erimental control y H a : exp erimental control . Si no
rechazamos la H 0 , no hemos probado que la droga no tenga efecto sobre la glucosa
en plasma, lo que hemos establecido es que la droga tiene cuando mucho un efecto
pequeo. Si rechazamos la H 0 , tenemos evidencia que la droga puede causar un
aumento potencialmente estresante de la glucosa plasmtica. Si nuestro nivel de
significacin estadstica nos indica que podemos rechazar la H 0 , entonces
concluimos que existe diferencia significativa entre los tratamientos; si nuestro nivel de
significacin estadstica no nos permite rechazar la H 0 , entonces concluimos que no
existe evidencia suficiente para rechazar la H 0 ; nunca debemos concluir que no
existe diferencia entre los tratamientos, porque estaramos comprobando la H 0 .
Nivel de significacin
Las pruebas de hiptesis (p. ej., t-Student, anlisis de varianza-Anova, y otras)
producen probabilidades estadsticas llamadas valores P que se usan para evaluar la
significancia de los resultados de las pruebas. Estos valores de P resultan de pruebas
estadsticas y estn influenciadas por el nmero de observaciones (tamaos de las
muestras), la variacin entre las observaciones y la magnitud de cualquier diferencia
entre las muestras. El nivel de significacin de una prueba estadstica es un concepto
frecuentista de comprobacin de hiptesis. El resultado de una prueba estadstica (el
valor de P) se considera significativo si es improbable que ocurriera por casualidad, tal
como se juzga por la evidencia estadstica. Un valor umbral (alfa, ) para evaluar la
30
Interpretacin
Ausencia de evidencia contra H 0
Moderada a sugestiva evidencia contra H 0 pero no
concluyente
Fuerte a moderada evidencia contra H 0
Convincente a fuerte evidencia contra H 0
Fuerte evidencia contra H 0
Cierta
Aceptar
Rechazar
Decisin correcta (
Error Tipo I ( )
31
1 )
Hiptesis Nula
Falsa
Error Tipo II ( )
Decisin correcta ( 1
)
Reservorio B
Tasa crecimiento
(g/semana)
5.4
7.0
7.0
7.8
7.6
6.4
7.4
6.8
5.4
7.0
6.2
7.6
7.3
6.9
6.9
7.0
6.6
6.5
6.8
7.2
7.6
7.1
32
5.4
5.1
5.9
6.5
6.4
5.2
5.3
6.3
6.5
7.4
7.0
6.7
6.7
6.9
7.1
6.8
33
Variable
ReservAA
ReservBB
N
30
30
W
0.9552
0.9112
P
0.2323
0.0160
Como se muestra en la Tabla 16 (Microsoft Excel > Data analysis > F-test twosample for variances, si su teclado es en ingls; si su teclado es en castellano Microsoft
Excel > Anlisis de datos > Prueba F para varianzas de dos muestras), no existe
diferencia significativa (P = 0,266) entre las varianzas de las muestras y concluimos
que la premisa de homogeneidad de varianzas se cumple (es decir, las varianzas son
homogneas). Si las varianzas fueran severamente heterogneas, existira una mayor
probabilidad de cometer un error Tipo I.
Tabla 16. Resultados de la prueba para la comprobacin de homogeneidad de
varianzas obtenidos en Excel para las tasas de crecimiento.
F-Test Two-Sample for
Variances
Variable 1
5.756666
Mean
667
0.388747
Variance
126
Observations
30
df
29
F
1.264620
Variable 2
6.886666
667
0.307402
299
30
29
34
P(F<=f) onetail
F Critical
one-tail
102
0.265655
45
1.860811
434
Debido a que las varianzas son homogneas, debemos usar la prueba t-Student
de muestras independientes asumiendo varianzas iguales, la cual usa las varianzas
agrupadas (si las varianzas hubieran sido diferentes, tendramos que usar la prueba tStudent de muestras independientes con varianzas separadas). La prueba ejecutada
en Excel rinde los siguientes resultados que se muestran en la Tabla 17.
Tabla 17. Resultados de la prueba t-Student obtenidos en Excel para las tasas
de crecimiento.
t-Test: Two-Sample Assuming Equal Variances
Variabl
Variabl
e1
e2
5.7566
6.8866
Mean
67
67
0.3887
0.3074
Variance
47
02
Observations
30
30
0.3480
Pooled Variance
75
Hypothesized Mean
Difference
0
df
58
7.4180
t Stat
2
2.91EP(T<=t) one-tail
10
1.6715
t Critical one-tail
53
5.81EP(T<=t) two-tail
10
2.0017
t Critical two-tail
17
La mayora, sino todos, los paquetes estadsticos incluyen resultados tanto para el caso de varianzas
homogneas como para el caso de varianzas heterogneas en la prueba t-Student de muestras
independientes y reportan una prueba para la comprobacin de la homogeneidad de varianzas.
36
estadstica probablemente seran correctas para los dos ltimos resultados debido a
que la importancia biolgica y la significacin estadstica concurren.
Sin embargo, confiar en valores de P para tomar decisiones acerca de los dos
primeros resultados pudiera ser costoso. El primer resultado sugiere que el efecto es
grande pero que el estimado es impreciso, tal vez debido a un pequeo tamao de
muestra o algn factor no controlado. El segundo es estadsticamente significativo pero
la importancia biolgica del aumento de la tasa de crecimiento es probablemente muy
pequea para garantizar el gasto de la fertilizacin. Dependiendo de los costos
relativos de la fertilizacin, la mejor decisin probablemente sera fertilizar bajo el
resultado A (no significativo estadsticamente) y no fertilizar bajo el resultado B
(estadsticamente significativo). Entender el efecto del tamao y la precisin es de igual
o mayor importancia para un bilogo que obtener un simple valor de P (significacin
estadstica). Usaremos SAS para estudiar ms a fondo este tpico.
Perspectivas estadsticas paramtricas y no paramtricas
Los estadsticos inferenciales para datos en escala intervalo y proporcin (o
razn) comnmente se conocen como pruebas paramtricas debido a que se usa para
proveer estimados (p. ej., media y desviacin estndar) de parmetros poblacionales
de una muestra. Los estadsticos inferenciales para datos nominales y ordinales se
denominan pruebas no paramtricas (Tabla 18). Debido a que parmetros tales como
la media y la desviacin estndar son inapropiados para datos nominales y ordinales,
las pruebas no paramtricas se restringen a situaciones que no requieren tales
estimados.
Los mtodos estadsticos paramtricos tales como la prueba t-Student y Anova
asumen que los datos se distribuyen normalmente. Los mtodos paramtricos trabajan
bien en muchas situaciones para las cuales el anlisis terico del proceso bajo estudio
o los datos existentes sugieren que los datos siguen una distribucin normal. Algunas
pruebas paramtricas pueden trabajar bien incluso cuando la premisa de normalidad no
se cumple (p. ej., la prueba de una muestra de Kolmogorov-Smirnov), pero pudiera
resultar en resultados menos confiables. Los datos no normales a menudo pueden
transformarse para proveer una distribucin que es apropiada para pruebas
paramtricas. Frecuentemente, sin embargo, no se puede asumir la normalidad.
Primero, la verdadera distribucin de la poblacin de la cual se toma la muestra pudiera
no ser normal. Segundo, pudieran estar presentes valores extremos (outliers) que si
son valores honestos y no errores garrafales, alteraran la varianza y llevaran a
interpretaciones errneas del anlisis. Tercero, la varianza de trmino de error pidiera
no ser la misma para todos los tratamientos, violando la premisa de homogeneidad.
Los mtodos paramtricos (p. ej., regresin, Anova) requieren homogeneidad de
varianzas y a menudo esta se viola en estudios de campo. Algunas pruebas
paramtricas, tales como Anova, son bastante robustas ante los efectos de datos no
normales (es decir, resistente a los errores en los resultados de las pruebas producidos
por alejarse de las premisas de la prueba), mientras que otros, tales como la regresin
lineal, pueden ser influenciados grandemente por un solo dato errneo.
38
Prueba no paramtrica
Prueba de Friedman (k muestras)
Prueba de Friedman (2 muestras)
Tau de Kendall
Prueba de Kruskal-Wallis
Prueba U de Mann-Whitney
Prueba de Wilcoxon
40
(X1 X 2 )
t
n1n2
n1 n 2
( n1 1) S12 (n 2 1) S 22
n1 n 2 2
d d
Sd / n
Sd
( d ) 2
n
n ( n 1)
Individuo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
46
48
46
51
49
43
47
43
45
58
60
58
64
61
54
59
55
56
N
50
50
W
0.9774
0.9824
P
0.4466
0.6550
Los cuales indican que tanto la longitud inicial (Longini) como la longitud final
(Longfin) se distribuyen normalmente (en ambos casos los valores de P >> 0,05; en
este
caso
la
hiptesis
nula
para
ambas
longitudes
es
H 0 : Los datos de longitud se distribuyen normalmente ). Ahora debemos determinar si las
varianzas de las dos muestras son iguales (es decir, debemos determinar si existe
homogeneidad de varianzas. Este anlisis se efecta en Excel como una prueba F de
dos muestras. Pero, al igual que con la prueba de normalidad, planteemos la hiptesis
nula primero:
H 0 Las varianzas de los datos de longitud son homogneas
Como se muestra en la Tabla 21 (Microsoft Excel > Data analysis > F-test twosample for variances, si su teclado es en ingls; si su teclado es en castellano Microsoft
Excel > Anlisis de datos > Prueba F para varianzas de dos muestras), no existe
diferencia significativa (P = 0,366) entre las varianzas de las muestras y concluimos
que la premisa de homogeneidad de varianzas se cumple (es decir, las varianzas son
homogneas). Si las varianzas fueran severamente heterogneas, existira una mayor
probabilidad de cometer un error Tipo I.
Tabla 21. Resultados de la prueba para la comprobacin de homogeneidad de
varianzas obtenidos en Excel.
F-Test Two-Sample for Variances
Variabl
Variabl
43
Mean
Variance
Observations
df
F
P(F<=f) onetail
F Critical
one-tail
e1
49.16
10.014
69
50
49
0.9065
92
0.3663
99
0.6221
65
e2
60.88
11.046
53
50
49
Tabla 22. Debido a que el estadstico t-Student calculado (136,43; no importa el signo)
es significativamente diferente del t-Student crtico de dos colas (2,0096), rechazamos
la hiptesis nula; las longitudes promedio de estos peces han cambiado
significativamente (la diferencia promedio no es cero). Ms an, podemos concluir que
ha ocurrido un aumento significativo en la longitud promedio debido a que el valor del
estadstico t-Student crtico para una cola (1,677) tambin fue excedido por el valor tStudent calculado (136,43).
Tabla 22. Resultados de la prueba t-Student de muestras apareadas obtenidos
en Excel.
t-Test: Paired Two Sample for Means
Variabl
e1
Mean
49.16
10.014
Variance
69
Observations
50
0.9836
Pearson Correlation
62
Hypothesized Mean
Difference
0
df
49
t Stat
-136.43
3.35EP(T<=t) one-tail
65
1.6765
t Critical one-tail
51
P(T<=t) two-tail
6.7E-65
2.0095
t Critical two-tail
75
Variabl
e2
60.88
11.046
53
50
44
Prueba U de Mann-Whitney
Qu pasa si se viola una premisa de una prueba paramtrica? Generalmente,
podemos asumir que la confiabilidad de esa prueba estara seriamente comprometida.
En tal situacin, podemos considerar dos opciones. Primera, y en el caso de ausencia
de normalidad, se podra lograr que los datos se distribuyan normalmente aplicando
una transformacin apropiada (mi experiencia me ha indicado que esto rara vez
funciona). De ser as, pudiera aplicarse la prueba paramtrica apropiada. La otra
opcin sera usar una prueba no paramtrica tal como la Prueba U de Mann-Whitney
en vez de una prueba t-Student de muestras independientes o la Prueba de Rangos de
Signo de Wilcoxon en vez de una prueba t-Student de muestras apareadas. Estas
pruebas son aplicables a datos cuantitativos cuando la no normalidad, la
heterogeneidad de varianzas y una pequea muestras representan un problema, as
como tambin a datos cualitativos en escala ordinal. La Prueba U de Mann-Whitney
comprueba si dos muestras independientes representan dos poblaciones con
diferentes medianas ( ) comparando los datos ordenados. Por lo general, los
conjuntos de datos pequeos tienen datos extremos y estos causan heterogeneidad de
varianzas; ordenar los datos elimina este efecto de los datos extremos. Las premisas
bsicas de la Prueba U de Mann-Whitney son (1) los datos estn en escala ordinal, (2)
cada muestra es una muestra aleatoria, (3) las observaciones son independientes y (4)
las dos muestras son independientes entre si. La hiptesis nula no direccional
comprueba que 1 2 ( H 0 : 1 2 ) y la hiptesis alternativa H 0 : 1 2 .
Veamos el siguiente ejemplo. Se desea comparar la calidad de hbitats
obtenidos de dos corrientes (A y B) ubicadas en reas geogrficas diferentes. Se
evaluaron en una escala de calidad de 0 a 10 (10 representa la mejor calidad) las
condiciones ambientales de 10 tributarios en cada corriente (Tabla 23). La hiptesis
nula establece que la calidad del hbitat es similar entre las dos corrientes (
H 0 : Calidad hbitat Corriente A Calidad hbitat Corriente B ). Los datos se muestran en
la tabla de abajo. Primero se ordenan (ranquean) los datos sin importar al grupo que
pertenezcan (a los valores que son iguales se les asigna el promedio de los ordenes
para los valores iguales), y se determina la suma de los ordenes separadamente para
cada grupo de muestras. Por ejemplo, slo hay un valor de calidad 9 (Ro A), y se le
asigna el orden 1; hay 2 valores de calidad 8 (ambos en el Ro A) que corresponderan
a la segunda (2) y tercera (3) posicin, cuyo promedio es 2,5 (2+3/2=2,5); hay 3 valores
de calidad 7 (uno en el Ro A y dos en el Ro B) que corresponderan a la cuarta (4),
quinta (5) y sexta (6) posicin, cuyo promedio es 5 (4+5+6/3); hay cuatro valores de
calidad 6 (dos en el Ro A y dos en el Ro B) que corresponderan a la sptima (7),
octava (8), novena (9) y dcima (10) posicin, cuyo promedio es 8,5 (7+8+9+10/4); y
as sucesivamente (no se preocupe, los paquetes estadsticos hacen todo esto
automticamente).
Ahora se calculan los valores U para cada grupo de la siguiente forma
45
U A n A nB
n A (n A 1)
A
2
U B n A nB
nB (nB 1)
B
2
Para la corriente A
U A 10.10
10(10 1)
87 68
2
U B 10.10
10(10 1)
123 32
2
y para la corriente B
Ro A
8
7
9
8
6
6
5
4
5
4
Orden
2,5
5
1
2,5
8,5
8,5
12,5
17
12,5
17
A 87
Ro B
7
7
6
5
6
4
5
4
4
3
Orden
5
5
8,5
12,5
8,5
17
12,5
17
17
20
B 123
Debe notarse que la prueba ejecutada en Statistix es, tal como se indica en la tabla de
resultados, la Prueba de Suma de Rangos de Wilcoxon, la cual es equivalente a la
Prueba U de Mann-Whitney.
Tabla 24. Valores crticos de U de Mann-Whitney.
Rank Sum
123.00
87.000
210.00
N
10
10
20
U Stat
68.000
32.000
Mean Rank
12.3
8.7
0.1832
47
1.346
0.1784
Missing Cases 0
Prueba Chi2
La Chi2 es una prueba no paramtrica comnmente usada, aplicable a datos
nominales. que provee una prueba de bondad de ajuste de frecuencias observadas en
una muestra a alguna frecuencia hipottica o esperada. Las premisas de la prueba son
que los datos deben ser asignables a categoras mutuamente excluyentes y que la
muestra es aleatoria y contiene observaciones independientes. Por ejemplo,
supongamos que sembramos 600 peces marcados con la tcnica A (corte de una
aleta), 300 marcados con la tcnica B (marcas tipo ancla) y 100 marcados con la
tcnica C (marcas electrnicas) al inicio del verano. Al final del verano recolectamos
una muestra de 60 peces en total, de los cuales 34 fueron marcados con la tcnica A,
20 con la tcnica B y 6 con la tcnica C. Deseamos saber si la distribucin de los tres
tipos de marca ( n 3 ) en la muestra al final del verano es diferente de la distribucin
inicial. Si es, entonces concluiramos que los tipos de marca afectan a los peces de
alguna forma (p. ej., alterando la supervivencia o capturabilidad) o que las tasas de
retencin varan entre los tipos de marca. La ecuacin general para el estadstico Chi 2
es
2
(O j E j ) 2
Ej
0,33
0,6(60)
0,3(60)
0,1(60)
36 18 6
A partir de una tabla de valores 2 (Tabla 26; abajo) se selecciona el valor para
0,05 y 2 grados de libertad ( gl n 1 , el cual sera 3 - 1 = 2) que es 5,99. Debido a
que el valor 2 calculado (0,33) no excede el valor de la tabla (5,99), no se puede
rechazar la hiptesis nula que establece que la proporcin al final del verano no difiere
de la proporcin al inicio del verano, y concluimos que el tipo de marca aplicada no
afecta diferencialmente la supervivencia o capturabilidad y que las tasas de retencin
de la marca fueron iguales. Los resultados obtenidos en el paquete Statistix se
presentan en la Tabla 27; observe que en este caso el valor 2 calculado es 0,31 (la
diferencia se debe al redondeo de los datos), pero se emite un valor de P asociado con
el resultado (0,8549); la conclusin es la misma que la anterior.
48
49
Case
1
Observed
Expected
Cell Chi-Sq
Observed
Expected
Cell Chi-Sq
Observed
Expected
Cell Chi-Sq
Overall Chi-Square
P-Value
Degrees of Freedom
Cases Included 6
634
320
106
1060
0.31
0.8549
2
Missing Cases 0
El Anova ejecutado en Excel produce los resultados de la Tabla 29. Note que el
valor del estadstico es F = 3,966 y el valor de P asociado con este valor es 0,01993,
por lo que se rechaza la hiptesis nula y se concluye que existen diferencias
significativas en las medias de condiciones corporales entre las categoras de longitud
estudiadas. Sin embargo, la debilidad de Excel es que no se pueden efectuar pruebas
Post Hoc para determinar cmo se diferencian las medias. Existen, no obstante, los QI
Macros que pueden obtenerse en la red por un mdico precio; estos son programas
desarrollados para efectuar ciertas funciones estadsticas en Excel. Tenga cuidado si
intenta bajarlos gratis, ya que muchas veces traen virus.
SQ QP PM SQ QP PM SQ QP PM
67 70 67 81 81 80 85 86 84
67 72 67 81 82 80 85 86 85
70 73 70 81 82 81 86 87 85
72 74 72 81 82 81 86 87 85
73 74 73 81 82 81 86 87 85
74 75 74 81 83 81 86 87 85
74 75 74 82 83 81 86 87 85
75 76 75 82 83 81 86 87 85
75 76 75 82 83 82 87 87 86
76 76 76 82 83 82 87 87 86
76 77 76 82 83 82 87 87 86
76 77 76 83 84 82 87 88 86
76 77 76 83 84 82 87 88 86
77 78 77 83 84 82 87 88 86
77 78 77 83 84 83 88 88 87
77 78 77 83 84 83 88 88 87
78 78 78 83 84 83 88 88 87
78 79 78 84 85 83 88 89 87
78 79 78 84 85 83 89 89 87
78 80 78 84 85 83 89 89 87
79 80 79 84 85 83 89 89 88
79 80 79 84 85 83 89 89 88
80 80 80 84 85 83 90 89 88
80 80 80 85 85 84 90 90 88
80 81 80 85 86 84 90 90 88
80 81 80 85 86 84 90 90 88
80 81 80 85 86 84 90 90 89
80 81 80 85 86 84 90 90 89
91 90 89
91 90
92 91
91 90 89
91 90
93 91
91 90 89
91 90
93 91
91 91 89
92 90
93 91
91 91 90
92 90
94 91
95 92
99 95
94 92
97 93
100 97
95 92
97 94
97
100
94
99
100
95
Tabla 29. Resultados del Anova de una va en Excel para los datos de
condiciones corporales representados por pesos relativos para tres categoras de
longitud de lucioperca americana (Sander vitreus).
52
Anova: Single
Factor
SUMMARY
Groups
Count
SQ
89
QP
106
PM
112
ANOVA
Source of
Variation
Su
m
736
6
903
4
945
1
Average
82.76404
494
85.22641
509
84.38392
857
Variance
31.22778
35
37.43396
23
43.04946
91
PSS
df
MS
F
value
F crit
298.9696
149.4848 3.966393 0.019
3.025448
083
2
041
97
93
266
11457.10
37.68783
205 304
57
11756.07
166 306
Between Groups
Within Groups
Total
DF
2
304
306
SS
299.0
11457.1
11756.1
MS
149.485
37.688
CV 7.29
F
3.97
Chi-Sq
2.48
N
112
106
89
Mean
84.384
85.226
82.764
P
0.0199
SE
0.5801
0.5963
0.6507
53
DF
2
1.09745
101.9
P
0.2893
Observe que los resultados y las conclusiones generales son bsicamente los
mismos anteriores, pero en este caso el anlisis reporta tres pruebas para comprobar
la homogeneidad de varianzas, aunque slo la prueba de Bartlett reporta un valor de P
para la comprobacin de la hiptesis nula. Es importante entender la hiptesis nula en
el caso de las pruebas para la comprobacin de la homogeneidad de varianzas, la
hiptesis nula establece que las varianzas son homogneas, mientras que la hiptesis
alternativa establece que existe heterogeneidad de varianzas, es decir
H 0 : Las varianzas son homogneas
Mean
85.226
84.384
82.764
Homogeneous Groups
A
AB
B
Alpha
0.05
Critical Q Value 3.314
There are 2 groups (A and B) in which the means
are not significantly different from one another
Ahora bien, cmo se interpretan los resultados de una prueba Post hoc? En
este caso observemos que existen dos letras a la derecha de los resultados (A y B,
debajo de la columna etiquetada Homogeneous Groups) y que la media de QP
(85,226) tiene a su derecha A, la media de PM (84,384) tiene AB y la media de SQ
(82,764) tiene B. La mejor forma de interpretar estos resultados es teniendo en cuenta
que las medias que comparten una misma letra no son estadsticamente diferentes; sin
embargo, en este caso la media de PM comparte tanto la letra A, lo cual la hace no
diferente de QP como la letra B, lo cual la hace no diferente de SQ; entonces, dnde
est la diferencia? Este es el tipo de resultados que no es fcil de interpretar, y lo nico
que se puede concluir es que la media de QP es diferente de la media de SQ, pero que
54
ambas no difieren de PM; esa es la razn por la cual la prueba de Anova indica que
existe una diferencia significativa. Cul otra combinacin de letras hubiera sido
posible en el contexto de este problema es decir, asumiendo que existen diferencias
significativas? La Tabla 32 presenta todas las combinaciones posibles de la prueba
Post hoc de Tukey para este ejemplo.
Tabla 32. Todas las combinaciones posibles de la prueba Post hoc de Tukey
para el ejemplo de los datos de condiciones corporales representados por pesos
relativos para tres categoras de longitud de lucioperca americana (Sander vitreus).
QP A
Resultado real
PM AB
SQ B
QP A
PM B
SQ C
Todas
difieren
las
N
112
106
89
W
0.9922
0.9921
0.9586
P
0.7781
0.8026
0.0063
que las dietas 1 y 4 comparten la letra B, y por lo tanto tampoco ellas difieren entre si
con respecto al peso ganado por los alevines de cachama. Por supuesto, basado en
estos resultados, las dietas 3 y 2 son mejores opciones que las dietas 1 y 4, ya que
aquellas (dietas 3 y 2) producen un mayor peso promedio en los alevines de cachama y
por lo tanto seran las dietas recomendadas.
En este caso de tamaos de muestra muy pequeos, es importante corroborar la
premisa de normalidad, en la Tabla 37 se muestran los resultados de la prueba de
Shapiro-Wilk para la comprobacin de normalidad obtenidos en Statistix. Ntese que
todas las distribuciones son normales (P > 0,05).
Tabla 35. Resultados del Anova de una va en Statistix para los datos de peso
ganado por 19 alevines de cachama (Colossoma macropomum) sometidos al efecto de
cuatro diferentes dietas.
One-Way AOV for: Dieta1 Dieta2 Dieta3 Dieta4
Source
Between
Within
Total
DF
3
15
18
SS
338.937
140.750
479.687
MS
112.979
9.383
CV 4.51
F
12.0
Chi-Sq
0.48
N
5
5
4
5
Mean
64.620
71.300
73.350
63.240
P
0.0003
DF
3
P
0.9243
21.8702
4.7
SE
1.3699
1.3699
1.5316
1.3699
Tabla 36. Prueba Post hoc de Tukey para los resultados del Anova de una va en
Statistix para los datos de peso ganado por 19 alevines de cachama (Colossoma
macropomum) sometidos al efecto de cuatro diferentes dietas.
Tukey HSD All-Pairwise Comparisons Test
Variable
Dieta3
Dieta2
Dieta1
Dieta4
Mean
73.350
71.300
64.620
63.240
Homogeneous Groups
A
A
B
B
Alpha
0.05
Critical Q Value 4.077
There are 2 groups (A and B) in which the means
57
N
5
5
4
5
W
0.9332
0.9439
0.9520
0.9903
P
0.6180
0.6936
0.7287
0.9806
59
RENDIMIENTO
7540
690
6820
-30
7390
540
7430
580
6950
100
7160
310
6850
0
6500
-350
7230
380
7080
230
7370
520
7410
560
7620
770
7190
340
7460
610
Std Error
4.35
0.0007
X
SX
donde,
60
Por lo tanto, t 350 / 80,4155872 4,35 (el cual es el valor obtenido por SAS; por
supuesto, el valor de S X debemos obtenerlo a travs de cualquier procedimiento
conveniente; en Excel es muy sencillo). Con este valor y los grados de libertad (gl)
buscamos en una tabla de valores de t el valor de P asociado con este t. Recuerde
que los valores de P en las tablas estadsticas vienen dados para las denominadas
pruebas de dos colas es decir, cuando lo que importa es que las medias sean
simplemente diferentes, no que sean menor o mayor lo cual sera el caso para una
prueba de una sola cola; en este caso el valor del estadstico t debe dividirse por dos.
Recuerde que la prueba t-Student es una prueba paramtrica, y por lo tanto requiere la
condicin de normalidad; sin embargo, no comprobamos normalidad, cmo
comprobaramos normalidad? Simplemente invocando PROC UNIVARIATE en SAS, o
en Statistix; efecte esta prueba.
Otro ejemplo
Los datos que se analizan en este caso representan valores de captura por
unidad de esfuerzo (CPUE en ind/hr; Tabla 40) obtenidos luego de modificar un arte de
pesca determinado. La CPUE promedio obtenida con el arte anterior era de 30, por lo
que estamos interesados en determinar si la modificacin mejora la eficiencia del arte
de pesca.
Tabla 40. Valores de CPUE (Ind/hr).
40
40
25
25
14
14
18
51
49
47
47
52
52
26
19
19
35
35
35
35
39
26
48
22
42
34
34
33
33
15
29
41
41
44
43
27
27
46
46
28
31
28
54
45
40
47
35
33
25
52
39
15
25
52
26
29
14
26
48
41
14
19
22
41
18
19
42
44
51
35
34
43
49
35
34
27
61
27 46 46 28 31 28 54 45
;
RUN;
PROC PRINT;
RUN;
PROC TTEST DATA= CPUE H0=30;
VAR CPUE;
RUN;
Lower CL
Upper CL Lower CL
Upper CL
N Mean
Mean
Mean Std Dev Std Dev Std Dev Std Err
44 31.449 34.864 38.278 9.2788
11.23
14.229
1.693
T-Tests
Variable
DF
t Value
Pr > |t|
CPUE
43
2.87
0.0063
TAREA t-Student 1
Las regulaciones gubernamentales establecen que la dosis estndar (potencia)
de una cierta preparacin biolgica sea 600 unidades de actividad por centmetro
cbico (UA/cc). Se prepararon 10 muestras de esta preparacin y se comprob la
potencia. Los valores se muestran en la Tabla 42.
Tabla 42. Valores de potencia de 10 muestras
590 595 592 596 593
591 590 590 599 590
62
B
Valor estndar
6850
6850
6850
6850
6850
6850
6850
6850
6850
6850
6850
7620
6950
7190
7460
6850
6850
6850
6850
Otra forma de efectuar una prueba t-Student de una muestra en Excel es usando
la opcin Descriptive Statistics de Data analysis. Usemos los mismos datos anteriores
para este proceso. Los colocamos linealmente y hacemos click en Data Analysis,
buscamos Descriptive Statistics, en Input Range resaltamos todos los valores y luego
marcamos Summary Statistics, Ok y obtenemos los valores que se muestran en la
Tabla 45 (en castellano es Anlisis de datos>Estadstica descriptiva>Rango de
entrada>Resumen de estadsticas>Aceptar).
Tabla 44. Resultados de la prueba t-Student de muestras apareadas como
sustituta de la prueba t-Student de una muestra.
t-Test: Paired Two Sample for Means
Mean
Variance
Observations
Pearson Correlation
Hypothesized Mean
Difference
df
t Stat
P(T<=t) one-tail
t Critical one-tail
P(T<=t) two-tail
t Critical two-tail
Variable 1
7200
97000
15
#DIV/0!
Variabl
e2
6850
0
15
0
14
4.352390
03
0.000331
464
1.761310
115
0.000662
928
2.144786
681
7200
80.415587
21
7230
#N/A
64
Standard
Deviation
Sample Variance
Kurtosis
Skewness
Range
Minimum
Maximum
Sum
Count
311.44823
97000
0.1550727
09
0.8019832
21
1120
6500
7620
108000
15
donde,
S X = error estndar de la media ( S /
X
SX
X = media de la muestra
7200 6850
4,35
80,41558721
PAC
210
2
66
85
445
286
118
218
180
278
261
168
397
221
101
10
290
215
318
5
241
Recuerde imprimir los datos y verificar que todo est bien; esto lo hacemos con
el siguiente comando
PROC PRINT;
RUN;
Luego hay que explorar los datos y comprobar si las muestras de mercurio de
los dos cuerpos de agua provienen de una poblacin normalmente distribuida (recuerde
que la prueba t-Student es una prueba paramtrica, y por lo tanto la normalidad est
implcita); esto lo hacemos con PROC UNIVARIATE
67
Observe que PROC TTEST produce varios estadsticos generales que no nos
interesan en este momento; por lo tanto, concentrmonos en el encabezado T-Tests y
notemos la tercera columna (Variances) en donde se lee Equal y Unequal; y en el
encabezado Equality of Variances. Esto es importante tenerlo en cuenta, ya que nos
permitir discernir cul prueba usaremos para nuestra conclusin. Los resultados del
encabezado Equality of Variances comprueban si las varianzas de los dos tratamientos
(en este caso Atlntico y Pacfico) son homogneas (NOTA: aunque la homogeneidad
de varianzas es una presuncin de la prueba t-Student, PROC TTEST provee
resultados para ambas opciones). Observe que t = 1.86 y P = 0.3407; por lo tanto, la
H 0 que establece que las varianzas son homogneas no puede ser rechazada
(observe que el P > 0,05) y por lo tanto asumimos que las varianzas son homogneas.
Ahora observe el encabezado T-Tests; all notamos resultados para las dos opciones
(Equal y Unequal variances). Debemos usar la opcin equal ya que demostramos que
las varianzas son homogneas. La prueba (t = 1,07; P = 0,2992) indica que no existen
diferencias significativas entre las concentraciones de mercurio en hgado de delfines
recolectados de los ocanos Atlntico y Pacfico (observe que ambas opciones, Equal y
Unequal, no son significativamente diferentes).
El programa SAS completo es el siguiente
68
DATA TTEST;
INPUT LUGAR$ MERCURIO;
CARDS; /*o DATALINES*/
ATL 264
ATL 300
ATL 85
ATL 445
ATL 286
ATL 118
ATL 218
ATL 180
ATL 278
ATL 261
ATL 168
PAC 210
PAC 2
PAC 397
PAC 221
PAC 101
PAC 10
PAC 290
PAC 215
PAC 318
PAC 5
PAC 241
;
PROC PRINT;
RUN;
PROC UNIVARIATE NORMAL;
VAR MERCURIO;
BY LUGAR;
RUN;
PROC TTEST;
CLASS LUGAR;
VAR MERCURIO;
RUN;
TAREA t-Student 2
Los datos mostrados en la Tabla 48 representan valores de captura por unidad
de esfuerzo (CPUE) en nmero de tilapias (Oreochromis mossambicus) por set de
redes de ahorque capturadas en las lagunas Santa Teresa 1 y Santa Teresa 2 del
sistema de lagunas de la Reserva Natural de Humacao, Puerto Rico. El sistema de
lagunas consiste en cinco lagunas de aguas salobres interconectadas.
Tabla 48. Valores de captura por unidad de esfuerzo (CPUE) en nmero de
tilapias (Oreochromis mossambicus) por set de redes de ahorque capturadas en las
lagunas Santa Teresa 1 y Santa Teresa 2 del sistema de lagunas de la Reserva Natural
de Humacao, Puerto Rico.
Laguna
SANTA TERESA 1
CPUE
Laguna
3
SANTA TERESA 2
69
CPUE
5
SANTA TERESA 1
SANTA TERESA 1
SANTA TERESA 1
SANTA TERESA 1
SANTA TERESA 1
SANTA TERESA 1
SANTA TERESA 1
SANTA TERESA 1
SANTA TERESA 1
7
6
2
9
11
13
8
10
2
SANTA TERESA 2
SANTA TERESA 2
SANTA TERESA 2
SANTA TERESA 2
SANTA TERESA 2
SANTA TERESA 2
SANTA TERESA 2
SANTA TERESA 2
SANTA TERESA 2
8
12
12
10
17
12
10
13
8
N
11
11
W
0.9521
0.9138
P
0.6714
0.2705
Ambos valores de P son mayores que 0,05, y por lo tanto no tenemos evidencia
suficiente para rechazar la hiptesis nula y asumimos que los datos se distribuyen
normalmente. Recuerde que la hiptesis nula para ambos conjuntos de valores, ocano
Atlntico y ocano pacfico, son H 0 : Las muestras se distribuyen normalmente .
70
Variable 2
182.7272
727
18312.81
818
11
10
71
Variable 2
182.7272
727
18312.81
818
11
las diferencias entre los valores que se calculan con el comando DIFERENCIA= ATL
PAC.
DATA TTEST;
INPUT ATL PAC;
DIFERENCIA = ATL - PAC;
CARDS;
264 210
300 2
85 397
445 221
286 101
118 10
218 290
180 215
278 318
261 5
168 241
;
Recuerde que lo primero que hay que hacer es imprimir los datos para verificar
que todo est bien; tambin revise LOG para asegurarse que no haya errores
(ERROR) o advertencias (WARNING).
PROC PRINT;
RUN;
73
ATL
PAC
264
300
85
445
286
118
218
180
278
261
168
210
2
397
221
101
10
290
215
318
5
241
DIFERENCIA
54
298
-312
224
185
108
-72
-35
-40
256
-73
Mean
Std Error t Value Pr > |t|
53.9090909
54.9408698
0.98
0.3496
74
Lower CL
Upper CL Lower CL
Upper CL
N
Mean
Mean
Mean Std Dev Std Dev Std Dev Std Err
11 -68.51 53.909 176.32
127.32 182.22
319.78 54.941
T-Tests
Difference
ATL - PAC
DF
10
t Value
0.98
Pr > |t|
0.3496
Tabla 54. Valores de longitud del caparazn, ancho de la cabeza y peso para
ejemplares de cangrejos machos y hembras.
Sexo Longitud del caparazon Ancho de la cabeza Peso
M
41
7.15
7.6
H
46.4
8.18
11
H
42.8
7.32
8.6
M
40
6.6
6.5
H
45
8.05
10.9
H
44
7.55
8.9
H
40
6.53
6.2
M
35
5.74
3.9
H
35.1
6.04
4.5
M
42.3
6.77
7.8
H
48.1
8.55
12.8
M
44
7.1
9
M
43
6.6
7.2
H
48
8.67
13.5
TAREA t-Student 4
Diez pacientes fueron sometidos inicialmente al efecto de una nueva droga que
controla una cierta enfermedad; meses despus los mismos pacientes fueron
sometidos a un placebo. Al final de cada experiencia se determin el grado de
resistencia a los tratamientos en una escala de 1 al 10, donde 1 es el menos resistente
y 10 el ms resistente. Los resultados se muestran en la Tabla 55. Se desea determinar
si existe diferencia en el grado de resistencia a los tratamientos entre la droga y el
placebo. Cul prueba t-Student sera apropiada en este caso? Efecte el anlisis
apropiado, compruebe las premisas de la prueba y reporte los valores de t y P
utilizados para tomar su decisin.
76
Droga
Placebo
10
10
77
Tabla 56. Tabla para efectuar una prueba Chi 2 asumiendo que la proporcin de
sexos es 50:50.
Observados (O)
Esperados (E)
O-E
(O E)2
(O E)2/E
De modo que el valor de Chi 2 es la suma total, es decir 13,34 (Chi 2 = 13,34).
NOTAS: Este total (*) siempre debe ser igual al total observado; este total siempre debe
ser cero (**) y la hiptesis nula era obvia aqu: nos dijeron que el nmero de mujeres y
hombres en la Facultad de Ciencias eran iguales, de modo que esperaramos el mismo
nmero de mujeres y hombres en la clase de microbiologa (***); de modo que
dividimos el nmero total de estudiantes de microbiologa en proporciones iguales (50%
y 50%) para obtener nuestros valores esperados. La hiptesis nula es
H 0 : Proporcin mujeres Proporcin hombres .
Ahora debemos comparar nuestro valor de Chi 2 con el Chi2 de una tabla con n
1 grados de libertad, donde n es el nmero de categoras, es decir, 2 en nuestro caso
(hembras y machos), por lo que tenemos solamente un grado de libertad. En la tabla de
valores Chi2 (Tabla 26) encontramos un valor crtico de 3,841 para P = 0,05. Si nuestro
valor calculado de Chi2 excede el valor crtico de la tabla, entonces tenemos que las
proporciones observadas se alejan significativamente de las esperadas. De hecho,
nuestro Chi2 calculado (13,34) excede incluso el valor tabulado de Chi 2 (10,83) para P =
0,01. Esto demuestra que las proporciones observadas se desvan de manera extrema
de las proporciones esperadas. Es posible que hubiramos obtenido este resultado por
casualidad una vez en 1000. Por lo tanto, podemos tener 99,9% de confianza que algo
lleva a un sesgo de la proporcin 1:1 entre los estudiantes de microbiologa pero, por
supuesto, los datos que tenemos no nos dicen cosa alguna con respecto a ese sesgo,
pudiera ser un resultado de auto seleccin o cualquiera otra razn.
78
Aunque los clculos para esta prueba son muy sencillos, veamos cmo se
ejecuta esta prueba en el paquete Statistix. Primero cree dos columnas, una para los
valores observados, digamos que la denominamos O, y otra para los valores
esperados, que la denominamos E. Vaya a Statistics > Association Tests > Multinomial
Tests, en Hypothesized Proportions indquele la columna E y en Observed Proportions
indquele la columna O> OK y deber obtener los resultados que se muestran en la
Tabla 57. Observe que los resultados son los mismos que los obtenidos a mano (con
detalles debidos al redondeo de los valores), pero Statistix emite el valor de P = 0,0003
asociado con el valor Chi2 = 13,33, por lo que no se requiere consultar la Tabla 26.
Tabla 57. Resultados de la prueba Chi 2 asumiendo que la proporcin de sexos
es 50:50 emitidos por Statistix.
Multinomial Test
Hypothesized Proportions Variable: EE
Observed Frequencies Variable:
OO
Category
1
2
Hypothesized
Proportion
0.50000
0.50000
Overall Chi-Square
P-Value
Degrees of Freedom
Observed
Frequency
80
40
Expected
Frequency
60.00
60.00
Chi-Square
Contribution
6.67
6.67
13.33
0.0003
1
Repitamos ahora el anlisis, pero sabiendo que 33,5% de todos los estudiantes
de la Facultad de Ciencias son hombres. En este caso, de los 120 estudiantes totales
40,2 son hombres, es decir, 120x33,5/100 = 40,2, mientras que 79,8 son mujeres, es
decir, 120x66,5/100 = 79,8 (Tabla 58).
Tabla 58. Tabla para efectuar una prueba Chi 2 asumiendo que la proporcin de
sexos es 66,5:33,5
Observados (O)
Esperados (E)
O-E
(O E)2
(O E)2/E
De modo que el valor de Chi 2 = 0,0015. NOTAS: Sabemos que el nmero total
observado es 120 (*), y como sabemos que 33,5% son machos, entonces el porcentaje
de hembras es 66,5%; este total siempre debe ser cero (**) y aunque los valores
observados deben ser nmeros enteros, los valores esperados pueden ser (y a
menudo deben ser) valores decimales (***). Ahora, en una tabla de Chi 2 vemos que
79
nuestros datos no se alejan de lo esperado, lo cual nos lleva a sospechar que existe
algn tipo de diseo para esto. En la mayora de los casos obtenemos valores
intermedios de Chi2, los cuales ni concuerdan fuertemente ni discrepan de lo esperado.
Entonces, concluimos que no hay razn para rechazar nuestra hiptesis nula.
Si ejecutamos esta prueba en Statistix, obtenemos los resultados que se
muestran en la Tabla 59. Obsrvese que el valor de Chi 2 = 0,00 y que P = 0,9691.
Hypothesized
Proportion
0.66500
0.33500
Overall Chi-Square
P-Value
Degrees of Freedom
Observed
Frequency
80
40
Expected
Frequency
79.80
40.20
Chi-Square
Contribution
0.00
0.00
0.00
0.9691
1
Hembras Machos
80
40
***60
***60
20
-20
19,5
-19,5
80
Total
120
*120
**0
0
( O E 0,5) 2
( O E 0,5) / E
2
380,25
6,338
380,25
6,338 12,676
Gametos
Ab
aB
ab
**AABb **AaBB
**AaBb
*AAbb **AaBb
*Aabb
**AaBb ***aaBB ***aaBb
*Aabb ***aaBb ****aabb
Todos estos genotipos caen en cuatro fenotipos, mostrados por los diferentes
asteriscos en la Tabla 53: **doble dominante AB, *dominante sencillo A, ***dominante
sencillo B y ****doble recesivo ab. Sabemos por la gentica mendeliana clsica que la
proporcin esperada de estos genotipos es 9:3:3:1. Supongamos que hemos
observado los contajes que se muestran en la Tabla 62.
81
Hypothesized
Proportion
0.56250
0.18750
0.18750
0.06250
Overall Chi-Square
P-Value
Degrees of Freedom
Observed
Frequency
40
20
16
4
Expected
Frequency
45.00
15.00
15.00
5.00
2.49
0.4773
3
Combinacin de categoras
82
Chi-Square
Contribution
0.56
1.67
0.07
0.20
Si observamos la Tabla 62, notamos que recolectamos justo los datos suficientes
para poder comprobar la proporcin 9:3:3:1. Si hubiramos contado 70 en vez de 80
moscas de la fruta, entonces nuestra menor categora esperada hubiera sido menos de
uno, y no pudiramos haber hecho la prueba como lo hicimos, ya que no cumpliramos
con una de las premisas de la prueba Chi 2, la cual es que no ms de un quinto de las
categoras esperadas debe ser menor que cinco. Sin embargo, si esto se presentara
an pudiramos hacer el anlisis, pero slo despus de combinar las menores
categoras y comprobar de nuevo contra una proporcin diferente. La Tabla 64 muestra
un ejemplo asumiendo que hemos usado 70 moscas de la fruta y obtenido los valores
observados de fenotipos.
Tabla 64. El mismo ejemplo de la Tabla 62, pero asumiendo que se han usado
70 moscas de la fruta en vez de 80.
AB
Ab
aB
Fenotipo
ab
Observados (O)
34
18
15
3
Esperados (E)
39,375 13,125 13,125 4,375
OE
-5,375 4,875
(O E)2
28,891 23,766
(O E)2/E
0,734 1,811
Combinado
(aB+ab)
18
17,5
0,5
0,25
0,014
Total
70
70
0
2,56
Una de nuestras categoras esperadas (ab) es menor que cinco, por lo que
tuvimos que combinar esta categora con una de las otras y luego hacer el anlisis
contra una proporcin esperadas de 9:3:4. Al igual que en el caso anterior, se suman
las tres categoras, es decir, 9+3+4 = 16, por lo que cada parte representa 4,375 y
9x4,375 = 39,375 y as para cada categora. Ahora, con slo tres categoras tenemos
dos grados de libertad; el resto del anlisis se hace igual que anteriormente y an no
tenemos razn para rechazar la hiptesis nula (Chi 2 calculado es 2,56). Pero observe
que en este caso la hiptesis nula es diferente a la anterior, la proporcin esperada en
este caso es 9:3:4 (doble dominante AB:dominante simple Ab:dominante simple
aB+doble recesivo ab).
Chi2 de doble clasificacin (tablas 2x2)
Supongamos que tenemos una poblacin de esporas de hongos que claramente
caen en dos categoras de tamao, grandes y pequeas. Incubamos estas esporas en
una placa de agar y contamos el nmero de esporas que germinan produciendo una
ramificacin sencilla o mltiple. Al contar obtenemos que de 120 esporas grandes 80
produjeron ramificaciones mltiples y 40 produjeron ramificaciones sencillas, y de 60
esporas pequeas 18 produjeron ramificaciones mltiples y 42 produjeron
ramificaciones sencillas. Podemos, por lo tanto, preguntarnos existe una diferencia
significativa en la forma que las esporas pequeas y grandes germinan? Para
83
responder esta pregunta usando un Chi2 procedemos a ordenar los datos tal como se
observa en la Tabla 65.
Se debe ahora decidir cul es la hiptesis nula a comprobar, pero no existe una
teora que nos indique una hiptesis nula obvia. Por ejemplo, no tenemos razn para
suponer que 55% o 75% o cualquier otro porcentaje de esporas grandes producirn
ramificaciones mltiples. Por lo tanto, la hiptesis nula ms prctica es asumir que
tanto las esporas grandes como las pequeas producirn 50% de ramificaciones
mltiples y 50% de ramificaciones sencillas. En otras palabras, comprobaremos la
proporcin 1:1:1:1. Luego, si nuestros datos no concuerdan con esta expectativa,
tendremos evidencia suficiente para deducir que el tamao de las esporas afecta el tipo
de germinacin.
Tabla 65. Valores de esporas grandes y pequeas y sus respectivas
ramificaciones.
Ramificacin
mltiple
Ramificacin sencilla
Total
42
60
82
180
Observado (O)
Esperado (E)
Observado (O)
Esperado (E)
Total columnas
Esporas grandes
80
a
40
c
120
Esporas pequeas
18
b
42
d
60
Total filas
98
(98 esperados)
82
(82 esperados)
180
Observado (O)
Esperado (E)
O-E
I(O E)I 0,5
(O E)2/E
Observado (O)
Esperado (E)
O-E
I(O E)I 0,5
(O E)2/E
Total columnas
Total filas
98
98
82
82
20,23
180
proporcin 1:1 con una probabilidad menor de 0,001. Pero si obtenemos 7 caras y 3
sellos en una prueba de 10 lanzamientos, sera completamente consistente con el azar,
es decir, no podramos rechazar la hiptesis nula de 1:1. La relacin es la misma (7:3),
pero los nmeros reales determinan el nivel de significacin en una prueba Chi 2; (2) las
categoras observadas deben tener nmeros enteros, pero las esperadas pueden tener
decimales; (3) siga las reglas sobre el nmero mnimo en las categora esperadas (es
decir igual o mayor que cinco); (4) recuerde la correccin de Yates cuando tenga un
solo grado de libertad.
TAREA Chi2 1
Supngase que usted planifica un experimento para comprobar el efecto de una
droga sobre un grupo de animales y establece la hiptesis que los animales que
reciben la droga sobrevivirn ms tiempo que los que no la reciben. Conduce el
experimento y obtiene los datos que se muestran en la Tabla 68. Ejecute una prueba
Chi2 para comprobar la hiptesis postulada y reporte una conclusin en el contexto del
ejercicio.
Tabla 68. Valores del efecto de una droga sobre un grupo de animales.
Muert
Vivo Total
Tratado
36
14
50
No tratado
30
25
55
Total
66
39
105
TAREA Chi2 2
Supongamos que realizamos el siguiente cruce mono hbrido en moscas de la
fruta: vg+ vg x vg+ vg, donde vg+ es el tipo salvaje y vg es el alelo para alas vestigiales.
Nuestra hiptesis es que no hay diferencia entre la proporcin observada y la
proporcin esperada de un cruce mono hbrido (es decir 3:1). Los resultados fueron los
siguientes:
Tipo salvaje (alas normales) = 750 moscas
Tipo vestigiales = 125 moscas
Total = 875 moscas
Estas son nuestras frecuencias observadas. La proporcin esperada en un cruce
mono hbrido es 3:1 (o salvaje y mutante). Aplique una prueba Chi 2 para
86
87
Figura 15. Relacin longitud nariz-ano vs ancho plvico para el caimn Alligator
mississipiensis. La lnea continua (crculos negros) representa los machos,
la lnea punteada (crculos blancos) a las hembras.
Veamos ahora cmo efectuar un Ancova en SAS utilizando los datos de PrietoMarquez y col. (2007). El programa es el siguiente
DATA CAIMANES;
INPUT SEXO$ NARIZANO ANCHOPELVICO;
CARDS;
89
ancho plvico para ambos sexos (ver Figura 15). Veamos que nos dicen los resultados
del programa SAS; es decir, los resultados del primer PROC GLM (Tabla 69)
Tabla 69. Resultados del primer PROC GLM en SAS.
Source
DF
Type III SS
Mean Square
F Value
Pr > F
NARIZANO
SEXO
1
0.00499277
1
33.94905462
33.94905462
88.05 <.0001
1
0.07911631
0.07911631
0.21 0.6537 NARIZANO*SEXO
0.00499277
0.01 0.9101
DF
NARIZANO
SEXO
Type III SS
1
Mean Square
F Value
Pr > F
41.38769082
41.38769082
110.76 <.0001
2.01580583
2.01580583
5.39 0.0267
libido del paciente. Al parecer, la libido de la pareja afecta la respuesta sexual del
paciente, por lo que se decidi efectuar un estudio para evaluar el efecto del nivel de la
libido de la pareja sobre la respuesta sexual del paciente. Para esto se estudi el efecto
de dos dosis de Viagra (nivel bajo y nivel alto) sobre la respuesta sexual de los
pacientes, utilizando como covariable el nivel de la libido de la pareja. Los resultados se
muestran en la Tabla 71.
Tabla 71. Respuesta sexual por efecto de un placebo y de dos dosis de Viagra.
Dsis
PLACEBO
PLACEBO
PLACEBO
PLACEBO
PLACEBO
PLACEBO
PLACEBO
PLACEBO
PLACEBO
BAJA
BAJA
BAJA
BAJA
BAJA
BAJA
BAJA
BAJA
ALTA
ALTA
ALTA
ALTA
ALTA
ALTA
ALTA
ALTA
ALTA
ALTA
ALTA
ALTA
ALTA
Lbido del
paciente
3
2
5
2
2
2
7
2
4
7
5
3
4
4
7
5
4
9
2
6
3
4
4
4
6
4
6
2
8
5
92
Lbido de la pareja
4
1
5
1
2
2
7
4
5
5
3
1
2
2
6
4
2
1
3
5
4
3
3
2
0
1
3
0
1
0
DF
DOSIS
Type III SS
16.84380342
Mean Square
8.42190171
F Value
2.42
Pr > F
0.1083
efecto que dosis bajas y/o altas de la droga. Sin embargo, como se indic arriba, se
piensa que la disposicin sexual de la pareja tiene un efecto significativo sobre la
respuesta sexual de un paciente que toma Viagra. Veamos ahora qu sucede cuando
incluimos en el anlisis el efecto del estado anmico sexual de la pareja (es decir, la
covariable). El programa SAS que efecta el anlisis es el siguiente
DATA VIAGRA;
INPUT DOSIS$ LIBIDOPACIENTE LIBIDOPAREJA;
CARDS;
PLACEBO
3
4
PLACEBO
2
1
PLACEBO
5
5
PLACEBO
2
1
PLACEBO
2
2
PLACEBO
2
2
PLACEBO
7
7
PLACEBO
2
4
PLACEBO
4
5
BAJA 7
5
BAJA 5
3
BAJA 3
1
BAJA 4
2
BAJA 4
2
BAJA 7
6
BAJA 5
4
BAJA 4
2
ALTA 9
1
ALTA 2
3
ALTA 6
5
ALTA 3
4
ALTA 4
3
ALTA 4
3
ALTA 4
2
ALTA 6
0
ALTA 4
1
ALTA 6
3
ALTA 2
0
ALTA 8
1
ALTA 5
0
;
PROC GLM DATA=VIAGRA;
CLASS DOSIS;
MODEL LIBIDOPACIENTE = DOSIS LIBIDOPAREJA;
RUN;
DF
DOSIS
Type III SS
25.18519421
Mean Square
F Value
12.59259710
94
4.14
Pr > F
0.0274
LIBIDOPAREJA
15.07574771
15.07574771
4.96
0.0348
95
Observemos
que
ahora
tenemos
el
trmino
de
interaccin
DOSIS*LIBIDOPAREJA que nos permite comprobar la hiptesis nula que establece que
no existen diferencias entre las pendientes de regresin de los tres niveles del
tratamiento DOSIS ( H 0 : a placebo a dosis baja a dosis alta ). Los resultados de este anlisis se
muestran en la Tabla 74.
Tabla 74. Resultados de PROC GLM usando el trmino de interaccin
LIBIDOPAREJA*DOSIS.
Source
DF
Type III SS
Mean Square
F Value
Pr > F
DOSIS
2
36.55755997
18.27877998
7.48 0.0030
LIBIDOPAREJA
1
17.18222420
17.18222420
7.03 0.0139
LIBIDOPAREJA*DOSIS
2
20.42659366
10.21329683
4.18 0.0277
Figura 16. Lneas de regresin para la relacin libido del paciente vs. lbido de la pareja
para cada dosis experimental. La lnea continua (crculos negros) representa
la dosis placebo, la lnea punteada (triangulos) representa la dosis baja y la
lnea rayada (crculos blancos) representa la dosis alta.
TAREA Ancova
96
LRC
59.19
69.41
59.45
66.86
59.63
68.08
61.51
69.3
59.35
66.36
72.15
69.26
71.34
69.32
74.28
69.69
72.51
68.1
67.34
69.54
70.21
71.3
76.62
SGA
12.76
22.47
13.85
22.71
19.6
21.34
15.27
16.2
16.41
18.44
27.09
24.31
32.63
22.17
27.54
22.81
25.82
23.13
24.09
23.86
26.03
28.23
29.89
97
98
-2
-1
-1
-1
0
Antes de ver los resultados, veamos algunos detalles del programa. En el primer
PROC se pide imprimir los datos (PROC PRINT; RUN; esto es opcional, slo se
recomienda para verificar que el programa est leyendo los datos correctamente). En
el segundo PROC (PROC UNIVARIATE NORMAL;) se verifica si los datos; es decir, la
variable mercurio (VAR MERCURIO;) se distribuye normalmente en cada cuerpo de
agua (BY LUGAR). En el PROC GLM se incluyen la prueba Post hoc de Tukey y el
comando para la comprobacin de homogeneidad de varianzas HOVTEST a travs de
la prueba de Levene (esta es la prueba por defecto de SAS si no se le indica una de las
pruebas disponibles; las pruebas disponibles son BAR, BARTLETT, BF, LEVENE y
OBRIEN; HOmogeneity of Variances TEST) (MEANS LUGAR / TUKEY HOVTEST;).
Recuerde, todos estos comandos pueden escribirse en minsculas o maysculas, o
una combinacin de ellas; se presentan en maysculas aqu para resaltarlas.
Finalmente, los ltimos comandos son los requeridos para las pruebas de contraste
deseadas. Ms adelante se explican estas pruebas de contraste. Veamos, ahora si, los
resultados.
Tabla 76. Resultados de la prueba de Anova de una va con contrastes.
------------------------------------------- LUGAR=ATL ------------------------------The UNIVARIATE Procedure
Variable: MERCURIO
Tests for Normality
Test
--Statistic---
-----p Value------
Shapiro-Wilk
W
0.95214 Pr < W
0.6714
Kolmogorov-Smirnov D
0.170424 Pr > D
>0.1500
Cramer-von Mises
W-Sq 0.043295 Pr > W-Sq >0.2500
99
Anderson-Darling
A-Sq 0.287417
--Statistic---
-----p Value------
Shapiro-Wilk
W
0.82332 Pr < W
0.0191
Kolmogorov-Smirnov D
0.278691 Pr > D
0.0179
Cramer-von Mises
W-Sq 0.152657 Pr > W-Sq 0.0192
Anderson-Darling
A-Sq 0.844399 Pr > A-Sq 0.0209
------------------------------------------- LUGAR=PAC ------------------------------The UNIVARIATE Procedure
Variable: MERCURIO
Tests for Normality
Test
--Statistic---
-----p Value------
Shapiro-Wilk
W
0.913823 Pr < W
0.2705
Kolmogorov-Smirnov D
0.216224 Pr > D
>0.1500
Cramer-von Mises
W-Sq 0.068897 Pr > W-Sq >0.2500
Anderson-Darling
A-Sq 0.428425 Pr > A-Sq >0.2500
The GLM Procedure
Class Level Information
Class
LUGAR
Levels
3
Values
ATL GM PAC
DF
2
Pr > F
Type III SS
Mean Square F Value Pr > F
137245.2727
68622.6364
4.37 0.0216
Sum of
Mean
DF
Squares
Square
2
30
4.7497E8 2.3748E8
7.3316E9 2.4439E8
F Value
0.97
Pr > F
0.3900
100
Model
Tukey Grouping
Mean
N LUGAR
A
338.27
11 GM
A
B A
236.64
11 ATL
B
B
182.73
11 PAC
101
DF
Contrast SS
Count
ATL
11
GM
11
PAC
11
ANOVA
Source of
Variation
Between
Groups
Su
m
260
3
372
1
201
0
Averag
e
236.63
64
338.27
27
182.72
73
Varian
ce
9825.4
55
19003.
02
18312.
82
SS
df
MS
F
P-value F crit
13724
68622. 4.3670 0.0216 3.315
5.3
2
64
4
48
83
47141
15713.
2.9
30
76
60865
8.2
32
Within Groups
Total
DF
2
30
32
SS
137245
471413
608658
MS
68622.6
15713.8
F
4.37
CV 49.64
Chi-Sq
1.21
Mean
338.27
P
0.0216
Homogeneous Groups
A
103
DF
2
4809.90
11.0
P
0.5459
ATL
PAC
236.64
182.73
AB
B
Alpha
0.05
Standard Error for Comparison
Critical Q Value 3.487
Critical Value for Comparison
There are 2 groups (A and B) in which the means
are not significantly different from one another.
Shapiro-Wilk Normality Test
Variable
ATL
GM
PAC
N
11
11
11
W
0.9521
0.8233
0.9138
53.451
131.81
P
0.6714
0.0191
0.2705
ATL GM PAC
Contrast Number 1
Contrast Coefficients: -2 1 1
Contrast
Scheffe's F
T-Statistic
SE (Contrast)
47.727
0.13
0.52
92.580
SS (Contrast)
P (Scheffe's F)
P (T-Statistic)
4176.1
0.8761
0.6100
SS (Contrast)
P (Scheffe's F)
P (T-Statistic)
80431
0.0941
0.0311
SS (Contrast)
P (Scheffe's F)
P (T-Statistic)
15984
0.6064
0.3212
SS (Contrast)
P (Scheffe's F)
P (T-Statistic)
56815
0.1814
0.0669
SS (Contrast)
P (Scheffe's F)
P (T-Statistic)
133069
0.0240
0.0067
Contrast Number 2
Contrast Coefficients: -1 -1 2
Contrast
Scheffe's F
T-Statistic
SE (Contrast)
-209.45
2.56
-2.26
92.580
Contrast Number 3
Contrast Coefficients: -1 0 1
Contrast
Scheffe's F
T-Statistic
SE (Contrast)
-53.909
0.51
-1.01
53.451
Contrast Number 4
Contrast Coefficients: -1 1 0
Contrast
Scheffe's F
T-Statistic
SE (Contrast)
101.64
1.81
1.90
53.451
Contrast Number 5
Contrast Coefficients: 0 1 -1
Contrast
Scheffe's F
T-Statistic
SE (Contrast)
155.55
4.23
2.91
53.451
104
2
6.3
6.6
6.5
6.4
6.5
5.7
3
4.7
4.1
5.0
4.6
5.1
5.0
4.0
4.3
5.5
4
6.0
5.8
5.6
5.7
5.4
5.1
Preguntas:
1.
2.
3.
4.
5.
6.
N Estacin
N
Estacin
N
Estacin N
286
3
496
5
411
7
121
669
3
798
5
1116
7
197
142
3
989
5
681
7
292
65
3
640
5
1281
7
208
304
3
931
5
1102
7
243
185
3
495
5
578
7
260
210
3
469
5
361
7
408
119
3
1160
5
309
7
168
254
3
1139
5
701
7
190
255
3
1072
5
1242
7
110
325
4
1065
6
207
8
207
703
4
1539
6
104
8
246
332
4
1174
6
153
8
468
265
4
880
6
283
8
435
351
4
2113
6
156
8
291
516
4
1172
6
386
8
246
350
4
1291
6
120
8
225
496
4
1054
6
262
8
200
600
4
1423
6
141
8
291
850
4
1030
6
294
8
174
15
15
15
15
1
5
1
5
Fuente
gl Significancia
Entre TRT
3
No
A
1
No
B
1
No
AxB
1
No
Dentro TRT 16
Total
19
A= Alcohol; B= Antihistamnico
15
20
15
20
17,
5
17,
5
Fuente
gl Significancia
Entre TRT
3
Si
A
1
Si
B
1
No
AxB
1
No
Dentro TRT 16
Total
19
A= Alcohol; B= Antihistamnico
ALCOHOL
NO
SI
NO 15
20
ANTIHISTAMNICO
SI
25
30
20
25
17,
5
27,
5
Fuente
gl Significancia
Entre TRT
3
Si
A
1
Si
B
1
Si
AxB
1
No
Dentro TRT 16
Total
19
A= Alcohol; B= Antihistamnico
Interaccin sinrgica
ALCOHOL
NO
SI
NO 15
20
ANTIHISTAMNICO
SI
15
30
15
25
17,
5
22,
5
Fuente
gl Significancia
Entre TRT
3
Si
A
1
Si
B
1
Si
AxB
1
Si
Dentro TRT 16
Total
19
A= Alcohol; B= Antihistamnico
25
18
20
19
Fuente
gl Significancia
Entre TRT
3
Si
A
1
Si
B
1
Si
AxB
1
Si
Dentro TRT 16
Total
19
A= Alcohol; B= Antihistamnico
112
17,
5
21,
5
Fuente
Entre TRT
A
B
25
15
20
20
gl Significancia
3
Si
1
No
1
No
113
2
0
2
0
AxB
1
Si
Dentro TRT 16
Total
19
A= Alcohol; B= Antihistamnico
114
2 16 15 15
2 15 15 15
;
RUN;
PROC GLM;
CLASS GRUPO;
MODEL TIEMPO1 TIEMPO2 TIEMPO3 = GRUPO;
REPEATED TIEMPO 3;
LSMEANS GRUPO/OUT=MEANS;
RUN;
PROC PRINT DATA=MEANS;
RUN;
GOPTIONS RESET=ALL;
SYMBOL11 C=BLUE V=STAR H=.8 I=J;
SYMBOL12 C=RED V=DOT H=.8 I=J;
AXIS1 LABEL=(A=90 'MEDIAS');
AXIS2 VALUE=('1' '2' '3') LABEL=('TIEMPO');
PROC GPLOT DATA=MEANS;
PLOT LSMEAN*_NAME_= GRUPO/VAXIS=AXIS1 HAXIS=AXIS2;
RUN;
QUIT;
16
15
14
13
12
11
10
1
TI EMPO
GRUPO
DF
Type III SS
Mean Square F Value Pr > F
1
155.0416667
155.0416667 3721.00 <.0001
0.0416667
Error
115
116
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
1
TI EMPO
GRUPO
DF
Type III SS
Mean Square F Value
15.0416667
0.84
0.395
6
107.9166667
17.9861111
Pr > FGRUPO
117
1 32 23 12
1 36 22 14
1 34 21 13
2 57 43 22
2 54 46 26
2 55 46 23
2 60 47 25
;
RUN;
PROC GLM;
CLASS GRUPO;
MODEL TIEMPO1 TIEMPO2 TIEMPO3= GRUPO;
REPEATED TIEMPO 3;
LSMEANS GRUPO/OUT=MEANS;
RUN;
PROC PRINT DATA=MEANS;
RUN;
GOPTIONS RESET=ALL;
SYMBOL11 C=BLUE V=STAR H=.8 I=J;
SYMBOL12 C=RED V=DOT H=.8 I=J;
AXIS1 LABEL=(A=90 'MEDIAS');
AXIS2 VALUE=('1' '2' '3') LABEL=('TIEMPO');
PROC GPLOT DATA=MEANS;
PLOT LSMEAN*_NAME_= GRUPO/VAXIS=AXIS1 HAXIS=AXIS2;
RUN;
QUIT;
60
50
40
30
20
10
1
TI EMPO
GRUPO
DF
1
6
Type III SS
Mean Square F Value Pr > F
2035.041667
2035.041667
343.15 <.0001
35.583333
5.930556
118
Adj Pr > F
Source
Type III SS Mean Square F Value Pr > F G - G H - F
TIEMPO
2 2830.333333 1415.166667 553.76 <.0001 <.0001 <.0001
TIEMPO*GRUPO
2
200.333333
100.166667
39.20 <.0001 0.0001 <.0001
Error(TIEMPO) 12
30.666667
2.555556
DF
119
60
50
40
30
20
10
1
TI EMPO
GRUPO
DF
1
6
Type III SS
Mean Square F Value Pr > F
2542.041667
2542.041667
628.96 <.0001
24.250000
4.041667
Trigo
0,188
-0,058
xxxxxxx
-0,280
-0,062
Trigo+agua
0,050
-0,138
xxxxxxxxxx
-0,540
-0,336
Trigo+agua+colorante
0,058
-0,082
xxxxxxxxxxxxxxxxxxxx
-0,260
-0,123
Trigo+agua+1080
-0,712
-1,280
xxxxxxxxxxxxxxxx
-0,894
-0,672
Trigo+agua+colorante+1080
-0,610
-0,830
xxxxxxxxxxxxxxxxxxxxxxxxxx
-0,837
-1,202
122
Figura 17.
residuales estudentizados generada por SAS.
Grfica de
El anlisis de la varianza
Debido a que las premisas de normalidad y homogeneidad de varianzas se
cumplen, podemos proceder a ejecutar el Anova directamente, ya que no necesitamos
hacer transformaciones. Los resultados de PROC GLM se muestran en la Tabla 82
(slo se muestran los resultados relevantes).
Tabla 82. Resultados del Anova de dos vas.
The GLM Procedure
Dependent Variable: CONSUMO
Sum of
124
Source
Model
Error
Corrected Total
DF
Squares
Mean Square F Value
9
3.13867500
0.34874167
8.98
10
0.38845100
0.03884510
19
3.52712600
Source
CARNADA
SEXO
CARNADA*SEXO
DF
Source
CARNADA
SEXO
CARNADA*SEXO
DF
R-Square
0.889868
Coeff Var
-45.72891
Pr > F
0.0010
Type I SS
Mean Square F Value Pr > F
2.76045350
0.69011337
17.77 0.0002
0.16056320
0.16056320
4.13 0.0694
4
0.21765830
0.05441457
1.40 0.3023
Type III SS
Mean Square F Value Pr > F
2.76045350
0.69011338
17.77 0.0002
0.16056320
0.16056320
4.13 0.0694
4
0.21765830
0.05441457
1.40 0.3023
Root MSE CONSUMO Mean
0.197092
-0.431000
Antes de ver los resultados, es importante plantear las hiptesis nulas. En este
tipo de anlisis existen cuatro hiptesis nulas, una para el modelo general, una para
cada variable y otra para el trmino de interaccin (adems de las hiptesis de
normalidad y homogeneidad de varianzas). Por lo tanto, las hiptesis nulas en este
caso son las siguientes
1. H 0 No hay diferencia s generales
2. H 0 X T X ATC X AT X ATCV X ATV
3. H 0 X Hembras X Machos
Los resultados muestran una prueba para las diferencias entre todas las medias
(Model; F = 8,98; df = 9,10; P < 0,001) y el porcentaje de variacin que puede ser
atribuido al efecto de los dos factores (o efectos) principales CARNADA y SEXO,
individualmente y en combinacin (R 2 = 0,889). Los resultados tambin ofrecen dos
particiones de la variacin entre las medias; Type I SS (sums of squares; suma de los
cuadrados), que generalmente se denominan sumas secuenciales de los cuadrados, y
no son de gran relevancia en el Anova factorial; y Type III SS, comnmente
denominados sumas parciales de los cuadrados, y constituyen las pruebas ms
125
apropiadas en el Anova factorial (obsrvese que los resultados de Type I SS y Type III
SS son iguales, esto se debe a que el diseo es balanceado).
Ahora podemos construir una tabla Anova estndar usando los datos de los
resultados de SAS (Tabla 83). De la variacin significativa entre todas las medias
(Model), un componente significativo puede ser atribuido a diferencias en la respuesta
de los cerdos salvajes al tipo de carnada (F = 17,77; df = 4,10; P < 0,0002). No hubo
diferencia significativa entre los sexos (F = 4,13; df = 1,10; P = 0,0694). Tampoco hubo
una interaccin significativa entre sexo y tipo carnada (F = 1,40; df = 4,10; P = 0,3023),
es decir, la respuesta diferencial de los cerdos salvajes al tipo de carnada fue similar
para hembras y machos.
Tabla 83. Resultados del Anova estndar para el ejemplo de los cerdos salvajes
Fuente
df
SS
MS
F
P
Modelo
9 3,1387 0,34870 8,98 0,0010
Carnada
4 2,7604 0,69010 17,77 0,0002
Sexo
1 0,1606 0,16060 4,13 0,0694
Carnada*Sexo 4 0,2177 0,05441 1,40 0,3023
Comparaciones multiples
La prueba post hoc de Tukey nos permite determinar cmo difieren realmente
los efectos de las carnadas (recuerde que este efecto fue significativo, mientras que
sexo, el otro factor principal no lo fue). Los resultados se muestran en la Tabla 84.
Tabla 84. Resultados de la prueba Post hoc de Tukey.
Tukey's Studentized Range (HSD) Test for CONSUMO
Means with the same letter are not significantly different
Tukey Grouping
Mean
A
-0.0530
4
A
A
-0.1018
4
A
A
-0.2410
4
B
B
B
CARNADA
T
ATC
AT
-0.8698
ATCV
-0.8895
ATV
Mean
SEXO
126
A
A
A
-0.34140
10
MACHO
-0.52060
10
HEMBRA
Sexo
Consumo
MACHO
0.188
MACHO
-0.058
HEMBRA
-0.28
HEMBRA
-0.062
MACHO
0.05
MACHO
-0.138
HEMBRA
-0.54
HEMBRA
-0.336
MACHO
0.058
MACHO
-0.082
HEMBRA
-0.26
HEMBRA
-0.123
MACHO
-0.712
MACHO
-1.28
HEMBRA
-0.894
HEMBRA
-0.672
MACHO
-0.61
MACHO
-0.83
HEMBRA
-0.837
HEMBRA
-1.202
DF
4
1
4
10
19
SS
2.76045
0.16056
0.21766
0.38845
3.52713
MS
0.69011
0.16056
0.05441
0.03885
F
17.77
4.13
1.40
P
0.0002
0.0694
0.3023
CV -45.73
Mean
Homogeneous Groups
128
T
ATC
AT
ATCV
ATV
-0.0530
-0.1018
-0.2410
-0.8697
-0.8895
A
A
A
B
B
Alpha
0.05
Standard Error for Comparison
Critical Q Value 4.655
Critical Value for Comparison
Error term used: Error, 10 DF
There are 2 groups (A and B) in which the means
are not significantly different from one another.
0.1394
0.4587
Homogeneous Groups
A
A
Alpha
0.05
Standard Error for Comparison 0.0881
Critical Q Value 3.153
Critical Value for Comparison 0.1965
Error term used: Error, 10 DF
There are no significant pairwise differences among the means.
129
AT
ATC
ATV
ATCV
Total
Macho
Count
Sum
2
0.13
2
-0.088
2
-0.024
2
-1.992
2
-1.44
0.065
0.0302
58
-0.044
0.0176
72
-0.012
-0.996
0.1613
12
-0.72
Count
Sum
2
-0.342
2
-0.876
Average
-0.171
0.0237
62
-0.438
0.0208
08
Count
Sum
4
-0.212
4
-0.964
Average
-0.053
0.0365
72
-0.241
0.0645
72
SS
0.1605
63
df
Average
Variance
0.0098
0.0242
10
-3.414
0.3414
0.2345
72
2
-2.039
1.0195
0.0666
13
10
-5.206
0.5206
0.1394
91
Hembra
Variance
2
-0.383
0.1915
0.0093
85
2
-1.566
-0.783
0.0246
42
Total
Variance
ANOVA
Source of
Variation
Sample
4
-0.407
0.1017
5
0.0171
35
0.8895
0.0771
08
4
-3.479
0.8697
5
0.0601
71
MS
0.1605
63
F
4.1334
22
P-value
0.0694
46
130
4
-3.558
F crit
4.9646
03
Columns
Interaction
Within
Total
2.7604
54
0.2176
58
0.3884
51
3.5271
26
4
4
10
0.6901
13
0.0544
15
0.0388
45
17.765
78
1.4008
09
0.0001
54
0.3022
68
3.4780
5
3.4780
5
19
T1
3852
3951
4083
3783
3727
3368
3279
T2
3784
3749
3681
3883
3657
3364
3217
T3
3963
3852
3795
3762
3844
3347
3236
131
T4
4365
4896
4865
4296
4184
3961
3678
T5
3526
3851
3365
3421
3871
3721
3278
DF
6
4
24
34
SS
1897834
2604883
971649
5474367
MS
316306
651221
40485
16.09
0.0000
CV 5.32
Obsrvese que el modelo indica que existe diferencia entre los tratamientos (F =
16,09; P < 0,0000), y nada indica sobre los bloques, debido a que no hay replicacin de
los bloques. Obsrvese tambin que la prueba de Tukey indica que existe aditividad, ya
que F = 7,33 y P < 0,0126. Es importante entender que en este caso la hiptesis nula
establece que no existe aditividad, H 0 : No existe aditividad , (ntese que la prueba dice
Tukey's 1 Degree of Freedom Test for Nonadditivity); debido a que P < 0,0126, se
rechaza la hiptesis nula y se concluye que existe aditividad.
Excel y SAS tienen procedimientos para este diseo. El procedimiento en SAS
es un poco ms engorroso, pero tiene la ventaja adicional que comprueba si existe
diferencia entre los bloques, adems de comprobar si existe no aditividad; mientras que
Excel tiene la ventaja que tambin comprueba si existe diferencia entre los bloques,
pero no comprueba si existe no aditividad.
132
DF
Type I SS
Mean Square F Value Pr > F
6
1897833.771
316305.629
7.81 <.0001
4
2604883.429
651220.857
16.09 <.0001
DF
Type I SS
Mean Square F Value Pr > F
6
1897833.771
316305.629
9.87 <.0001
4
2604883.429
651220.857
20.33 <.0001 YHAT*YHAT
234894.912
7.33 0.0126
T1
3852
3951
4083
T2
3784
3749
3681
T3
3963
3852
3795
134
T4
4365
4896
4865
T5
3526
3851
3365
D
E
F
G
3783
3727
3368
3279
3883
3657
3364
3217
3762
3844
3347
3236
4296
4184
3961
3678
3421
3871
3721
3278
135
Varian
ce
93952.
5
22361
0.7
32330
5.2
98518.
5
41048.
3
76766.
7
36931.
3
87492.
62
57622.
9
77387.
62
19848
9.9
57254.
14
F
7.8128
34
Pvalue
9.78E05
F crit
2.5081
89
Columns
Error
Total
26048
83
97164
9.4
54743
67
4
24
65122
0.9
40485.
39
16.085
33
1.57E06
2.7762
89
34
Recuerde que un Anova de dos vas puede ejecutarse con interacciones (tal
como el caso de los cerdos salvajes) y sin interacciones (podra ser irrelevante
comprobar si existe interaccin); la interaccin podra no ser significativa (tal como el
caso de los cerdos salvajes) o significativa (que lo veremos a continuacin), pero si uno
de sus factores no tiene replicacin, slo podr comprobar si existe diferencia entre los
niveles de cada factor y aplicar la prueba de Tukey para comprobar no aditividad. Si
existe aditividad (no hay interaccin), los resultados para la diferencia entre los factores
puede explicarse directamente y las conclusiones seran las obtenidas del Anova de
dos vas; si existe no aditividad (hay interaccin), entonces tendr que sentarse a
pensar qu hacer con sus datos.
TAREA Anova de dos vas 1
Tendencia temporal en el tamao de la camada de una tortuga marina
Colin Limpus, del Queensland National Parks and Wildlife Service de Australia,
ha estado recolectando datos sobre el anidamiento de tortugas marinas en las costas
de Queensland por muchos aos. Durante ese tiempo ha recolectado mucha
informacin sobre la tortuga hawksbill (pico de halcn), Eretmochelys imbricata, la cual
est en peligro de extincin y forrajea comnmente en arrecifes coralinos. Las playas
de anidamiento han sido continuamente monitoreadas cada noche durante la poca de
desove, y cada hembra desovante ha sido estudiada durante muchos aos. Los datos
obtenidos se muestran en la Tabla 93.
Los datos representan el nmero de huevos (Tamao) en un desove para
camadas sucesivas (Camada) de la misma hembra (Hembra) durante dos perodos
(Perodo) consecutivos. Colin estaba interesado en saber si el tamao de la camada de
la tortuga hawksbill variaba a medida que la temporada de desove avanzaba y si las
hembras y el tamao de la camada interactuaban. Establezca las H 0 pertinentes y, a
partir de los resultados, comprubelas. Existen diferencias significativas entre las
hembras?, existen diferencias significativas entre las camadas?, interactan hembra
y camada para afectar el nmero de huevos desovados? Compruebe las premisas.
Escriba un resumen conciso de los resultados, tal como aparecera en la seccin de
resultados de un artculo cientfico.
Tabla 93. Datos de tortugas anidadoras en las playas de Queensland, Australia.
Hembra Periodo Camada Tamao
XA
1
1
136
XA
1
2
200
136
XA
XA
XA
XA
XA
XA
XB
XB
XB
XB
XB
XB
XB
XB
XC
XC
XC
XC
XC
XC
XC
XC
XD
XD
XD
XD
XD
XD
XD
XD
XE
XE
XE
XE
XE
XE
XE
XE
1
1
2
2
2
2
1
1
1
1
2
2
2
2
1
1
1
1
2
2
2
2
1
1
1
1
2
2
2
2
1
1
1
1
2
2
2
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
133
129
142
145
123
119
111
105
107
113
110
108
108
114
192
191
164
188
184
200
175
190
111
121
111
122
112
118
111
121
138
132
123
200
137
129
124
130
Tabla 94. Valores de CPUE de camarn blanco, Litopenaeus schmitti, por mes y
estacin en el Golfo de Venezuela.
MES CPUE
NOV 0.59
NOV
2.2
NOV
0.8
DIC
4.1
DIC
7.6
DIC
9.47
DIC
7.27
DIC
2.72
ENE 1.86
ENE 4.04
ENE 5.25
ENE 3.13
ENE 3.18
ENE 3.73
FEB
0.05
FEB
0
FEB
0.14
FEB
1.07
MAR 1.35
MAR 1.45
MAR
2.4
MAR
2.1
MAR 0.11
ABR 0.07
ABR 0.14
ESTACIN
FRENTE
ARAJO
ARAJO
FRENTE
FRENTE
QUEBRADITA
QUEBRADITA
MARAGUAY
MARAGUAY
MARAGUAY
MARAGUAY
MARAGUAY
MARAGUAY
MARAGUAY
FRENTE
NORTE
FRENTE
FRENTE
NORTE
SUR
TUBO
TUBASON
BARRANCO
TIERRA
TUBASON
MES CPUE
ABR
0.9
ABR 0.04
MAY 0.48
MAY 0.29
JUN
4.52
JUN
5.75
JUN
3.27
JUN
1.7
JUN
1.85
JUL
0
JUL
0.53
JUL
0
JUL
0.5
AGO 0.11
AGO
0
AGO 0.38
AGO 0.57
AGO
0
SEP
0.22
SEP
0.03
SEP
0.14
OCT 0.52
OCT 0.58
OCT 0.95
OCT 0.38
ESTACIN
BARRANCO
FRENTE
FRENTE
FRENTE
TIERRA
TIERRA
TUBO
TUBO
TUBASON
VALVULA
MESETA
MESETA
BARRANCO
VALVULA
ARAJO
ARAJO
BARRANCO
QUEBRADITA
MARAGUAY
SUR
BARRANCO
VALVULA
AGUADAL
AGUADAL
AGUADAL
Los datos
Shale
Sandstone
27
49
24
Diseo
139
28
53
72
55
21
19
140
AXIS1 LENGTH=10 CM
VALUE=(H=1.2 FONT="ARIAL")
LABEL=NONE;
AXIS2 LENGTH=5 CM
VALUE=(H=1 FONT="ARIAL") LABEL=NONE;
PROC GPLOT DATA=RESIDUALES;
PLOT RESID*PRED / VREF=0 HAXIS=AXIS1 VAXIS=AXIS2;
RUN;
PROC UNIVARIATE NORMAL DATA=RESIDUALES;
VAR RESID;
RUN;
PROC SORT DATA=SUELOS;
BY TOPO SUELO;
PROC MEANS NOPRINT MEAN;
VAR FOSFORO;
BY TOPO SUELO;
OUTPUT OUT=RESUMEN MEAN=MNFOSFORO;
RUN;
GOPTIONS RESET=ALL;
SYMBOL1 COLOR=BLUE VALUE=DOT I=JOIN LINE=1 WIDTH=2;
SYMBOL2 COLOR=RED HEIGHT=1.2 VALUE=SQUARE I=JOIN LINE=41 WIDTH=2;
AXIS1 LENGTH=10 CM VALUE=(H=1 FONT="ARIAL")
LABEL=(H=1 A=0 FONT="ARIAL" "LOCALIZACION TOPOGRAFICA") OFFSET=(5 PCT);
AXIS2 LENGTH=5 CM VALUE=(H=1 FONT="ARIAL") ORDER=0 TO 160 BY 40
LABEL=(H=1 A=90 FONT="ARIAL" "FOSFORO EN SUELO (ppm)");
PROC GPLOT DATA=RESUMEN;
PLOT MNFOSFORO*TOPO=SUELO / HAXIS=AXIS1 VAXIS=AXIS2;
RUN;
DF
3
1
Type III SS
Mean Square F Value Pr > F
9693.79167
3231.26389
4.15 0.0235
17876.04167
17876.04167
22.98 0.0002
3
11390.79167
3796.93056
4.88 0.0135
Tests for Normality
Test
--Statistic---
-----p Value------
Shapiro-Wilk
W
0.985532 Pr < W
0.9725
Kolmogorov-Smirnov D
0.107291 Pr > D
>0.1500
Cramer-von Mises
W-Sq 0.037671 Pr > W-Sq >0.2500
Anderson-Darling
A-Sq 0.212613 Pr > A-Sq >0.2500
141
PROC TABULATE genera los resultados que se observan en la Tabla 96. Parece
haber grandes diferencias en el contenido de fsforo tanto entre localidades (TOPO)
como entre tipos de suelos (SUELO). Los suelos derivados de SHALE parecen tener
ms fsforo que los suelos derivados de arenas pedregosas (SANDSTONE); pero, es
este resultado significativo? Similarmente, los datos sugieren que existe diferencia en el
contenido de fsforo entre localidades; pero, es esto un resultado significativo? Ms
aun, las tendencias a travs de las localidades topogrficas parecen diferentes para los
dos tipos de suelo, de manera que podra anticiparse una interaccin significativa.
Tabla 96. Resultados generados por PROC TABULATE de SAS.
FOSFORO
Mean
N
TOPO
NORTE
SUR
VALLE
59.17
70.00
89.67
SUELO
SANDSTONE
SHALE
TOPO
6.00
6.00
6.00
35.92
12.00
90.50
12.00
SUELO
CUMBRE SANDSTONE
31.67
3.00
SHALE
36.33
3.00
NORTE
SANDSTONE
33.33
3.00
SHALE
85.00
3.00
SUR
SANDSTONE
51.00
3.00
SHALE
89.00
3.00
VALLE
SANDSTONE
27.67
3.00
SHALE
151.67
3.00
Residuales y normalidad
La grfica de los residuales se muestra en la Figura 19. La distribucin de los
residuales luce aceptable. No se observan desviaciones apreciables en los residuales.
Por su parte, el resultado de la prueba de Shapiro-Wilk indica que los residuales se
distribuyen normalmente (Shapiro-Wilk: W = 0,985532; Pr < W 0,9725).
142
143
La opcin SLICE del comando LSMEANS le indica a SAS comprobar los efectos
de la localidad topogrfica dentro de cada tipo de suelo. Los resultados de este anlisis
se muestran en la Tabla 97.
Tabla 97. Resultados del comando SLICE de SAS.
144
TOPO
FOSFORO
LSMEAN
SANDSTON CUMBRE
31.666667
SANDSTON NORTE
33.333333
SANDSTON SUR
51.000000
SANDSTON VALLE
27.666667
SHALE
CUMBRE
36.333333
SHALE
NORTE
85.000000
SHALE
SUR
89.000000
SHALE
VALLE
151.666667
SUELO*TOPO Effect Sliced by SUELO for FOSFORO
SUELO
SANDSTON
SHALE
Sum of
Squares
Mean Square F Value Pr > F
3
960.916667
320.305556
0.41 0.7468
3
20124
6707.888889
8.62 0.0012
DF
145
TOPO
SANDSTON
SANDSTON
SANDSTON
SANDSTON
SHALE
SHALE
SHALE
SHALE
FOSFORO
LSMEAN
LSMEAN
Number
CUMBRE
31.666667
NORTE
33.333333
SUR
51.000000
VALLE
27.666667
CUMBRE
36.333333
NORTE
85.000000
SUR
89.000000
VALLE
151.666667
1
2
3
4
5
6
7
Resumen de resultados
146
147
DF
1
3
3
16
23
SS
17876.0
9693.8
11390.8
12445.3
51406.0
MS
17876.0
3231.3
3796.9
777.8
F
22.98
4.15
4.88
Grand
63.208
P
0.0002
0.0235
0.0135
Mean
CV 44.12
148
B
B
B
B
B
B
B
C
C
C
C
C
C
C
C
C
C
B
C
C
D
D
E
E
A
A
B
B
C
C
D
D
E
E
99
100
101
108
112
105
107
94
97
86
87
98
99
99
101
94
94
Alguna
Mucha
Mucha
Mucha
No
No
No
Alguna
Alguna
Alguna
Mucha
Mucha
Mucha
L
L
L
L
C
C
C
C
C
C
C
C
C
34
31
36
33
32
26
26
34
41
40
23
26
32
Gen
CVB1
CVB2m
CVJ5
CVJ6
CVL1
CVL3
6Pgd
Aat-2
Acp-3
Adk-1
Ap-1
Est-1
Est-3
Lap-1
Lap-2
Mpi-2
Pgi
Pgm-1
Pgm-2
Sdh
Clase
ADN
ADN
AND
AND
AND
ADN
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
Proteina
FST
-0.005
0.116
-0.006
0.095
0.053
0.003
-0.005
0.016
0.041
0.016
0.066
0.163
0.004
0.049
0.006
0.058
-0.002
0.015
0.044
0.024
El FST tiene una distribucin terica que es altamente sesgada, de modo que los
datos fueron analizados con una prueba U de Mann-Whitney, cuyos resultados
obtenidos en Statistix se muestran en la Tabla 103.
Tabla 103. Resultados de la prueba U de Mann-Whitney aplicada en Statistix a
los valores de FST.
Wilcoxon Rank Sum Test for F by Clase
Clase
DNA
protein
Total
Rank Sum
60.500
149.50
210.00
N
6
14
20
U Stat
39.500
44.500
Mean Rank
10.1
10.7
0.7505
Missing Cases 0
152
0.165
0.8689
Sum of
Expected
Std Dev
Mean
N
Scores
Under H0
Under H0
Score
60.50
63.0
12.115236
10.083333
153
Proteina
14
149.50
147.0
12.115236
10.678571
Kruskal-Wallis Test
Chi-Square
DF
Pr > Chi-Square
0.0426
1
0.8365
Los resultados (Chi2 = 0,0426; P = 0,8365) indican que, al igual que con la
prueba U de Mann-Whitney, no se puede rechazar la hiptesis nula (es decir, no existe
evidencia suficiente para rechazar la hiptesis nula); cul es la conclusin entonces?
No existe evidencia suficiente que permita sugerir que la seleccin natural podra estar
afectando los polimorfismos protenicos.
El anlisis en Statistix produce los resultados que se muestran en la Tabla 105.
Observe los resultados y saque sus conclusiones.
Tabla 105. Resultados de la prueba de Kruskal-Wallis generados por Statistix.
Kruskal-Wallis One-Way Nonparametric AOV for F by Clase
Clase
DNA
protein
Total
Mean
Rank
10.1
10.7
10.5
Sample
Size
6
14
20
Kruskal-Wallis Statistic
P-Value, Using Chi-Squared Approximation
Parametric AOV Applied to Ranks
Source
DF
SS
MS
Between
1
1.488
1.4881
Within
18
662.512
36.8062
Total
19
664.000
F
0.04
0.0426
0.8365
P
0.8429
Missing Cases 0
154
CVL3 ADN
345
6Pgd Proteina 15
Aat-2 Proteina 16
Acp-3 Proteina 41
Adk-1 Proteina 16
Ap-1 Proteina 66
Est-1 Proteina 16
Est-3 Proteina 4
Lap-1 Proteina 49
Lap-2 Proteina 6
Mpi-2 Proteina 58
Pgi Proteina 2
Pgm-1 Proteina 15
Pgm-2 Proteina 44
Sdh Proteina 24
;
PROC UNIVARIATE NORMAL;
VAR FST;
BY TIPOMARCADOR;
RUN;
PROC GLM;
CLASS TIPOMARCADOR;
MODEL FST=TIPOMARCADOR;
MEANS TIPOMARCADOR/TUKEY WELCH HOVTEST;
RUN;
Ntese que el programa es el mismo que para un Anova de una va, pero en la
lnea de comandos MEANS se incluye el trmino WELCH, que es el que le indica a
SAS efectuar la correccin de Welch, adems se incluye la prueba Post hoc de Tukey y
la prueba de homogeneidad de varianzas (HOVTEST). Recurdese que la prueba de
Welch se efecta cuando se cumple la premisa de normalidad, pero la homogeneidad
de varianzas se viola (recurdese que se debe intentar corregir la heterogeneidad de
varianzas mediante transformaciones apropiadas. Ntese que el valor de probabilidad
de la prueba de Welch (P = 0,0131) es mayor que el valor de probabilidad del modelo
(P = 0,0001); es decir, el resultado de la prueba de Welch es menos confiable que el
resultado del modelo, esto se debe a la violacin de la premisa de homocedasticidad.
El resultado de la prueba de Welch es el que debe reportarse. La prueba de Tukey en
este caso es algo trivial, ya que al haber solamente dos niveles de la variable respuesta
(ADN y protena) y haber diferencias significativas, slo hay que observar cul es la
menor y/o mayor media.
Tabla 106. Resultados de PROC GLM con la prueba de Welch.
--------------------------------------- TIPOMARCADOR=ADN ---------------------------The UNIVARIATE Procedure
Variable: FST
Tests for Normality
Test
--Statistic--- -----p Value-----Shapiro-Wilk
W
0.949981 Pr < W
0.7401
Kolmogorov-Smirnov D
0.214812 Pr > D
>0.1500
Cramer-von Mises
W-Sq 0.035211 Pr > W-Sq >0.2500
155
Anderson-Darling
A-Sq 0.228039
Sum of
DF
Squares
Mean Square F Value Pr > F
1
103212.0381
103212.0381
31.74 <.0001
18
58532.7619
3251.8201
19
161744.8000
Source
Model
Error
Corrected Total
Source
TIPOMARCADOR
DF
Type III SS
Mean Square F Value
1
103212.0381
103212.0381
Pr > F
31.74 <.0001
156
H a : 1 2
Muestras dependientes
Cuando los datos se recolectan en los mismos sujetos, el anlisis correcto es
usando una prueba t-Student apareada (tambin llamada prueba t-Student de muestras
dependientes). En este caso, los sujetos se usan de una forma antes despus, o en
un diseo donde un tratamiento se administra inicialmente durante un determinado
tiempo, luego se aplica un perodo de descanso, y finalmente se administra un segundo
tratamiento (en orden aleatorio para cada sujeto). O se puede obtener los datos
medidos en el mismo sujeto en dos reas diferentes, tales como un tratamiento en un
ojo y otro tratamiento en el otro ojo (o brazo, pierna, etc.). En estos casos la medida de
inters es la diferencia entre la primera y segunda medida. Si la prueba se plantea para
dos colas, las hiptesis seran
H 0 : diferencia 0
Por qu es diferente?
Aplicar una prueba t-Student incorrecta a nuestros datos puede llevar a la
prdida de una diferencia significativa, aun existiendo esa diferencia. Veamos este
ejemplo. Consideremos los datos provistos en un artculo de Raskin y Unger (1978),
donde se usaron cuatro pacientes diabticos para comparar los efectos de regmenes
de insulina. Un tratamiento consisti de insulina y somatostatina (IS) y el otro
tratamiento consisti de insulina, somatostatina y glucagn (ISG). A cada sujeto
(paciente) se le aplic cada tratamiento con un perodo de descanso entre ellos. Los
valores obtenidos se muestran en la Tabla 107.
Tabla 107. Valores obtenidos mediante la aplicacin de dos tratamientos
insulnicos a cuatro pacientes diabticos.
157
Paciente
1
2
3
4
X
SX
Tratamiento
IS
ISG Diferencia
14
17
3
6
8
2
7
11
4
6
9
3
8,25 11,25
3
1,90
2
0,40
Un artculo publicado por Louis y col. (1984) analiz estos datos usando ambas
pruebas t-Student. La prueba correcta para estos datos es la prueba t-Student de
muestras apareadas, puesto que cada paciente se us dos veces. Sin embargo, es
muy comn que los investigadores comparen X 8,25 contra X 11,25 usando una
prueba t-Student de muestras independientes. Para ver cmo difieren estas dos
perspectivas, consideremos cmo se ejecutaran los dos anlisis en SAS.
Anlisis como grupos independientes
El programa SAS que ejecuta este anlisis se muestra abajo, y los resultados
se muestran en la Tabla 108. Slo se muestra parte de los resultados (recuerde que
esta es la prueba incorrecta para analizar estos datos).
DATA DIABETICO;
INPUT TRATAMIENTO $ UREA;
DATALINES;
IS 14
IS 6
IS 7
IS 6
ISG 17
ISG 8
ISG 11
ISG 9
;
ODS HTML;
PROC TTEST;
CLASS TRATAMIENTO;
VAR UREA;
RUN;
PROC BOXPLOT;
PLOT UREA*TRATAMIENTO;
RUN;
Statistics
Upper CL Lower CL
158
Upper CL
Variable TRATAMIENTO N
UREA
UREA
UREA
Mean
Mean Mean Std Dev Std Dev Std Dev Std Err
IS
4 2.1044 8.25 14.396 2.1879 3.8622
14.4 1.9311
ISG
4 4.8356 11.25 17.664 2.2836 4.0311
15.03 2.0156
Diff (1-2)
-9.83
-3 3.8302 2.5438 3.9476 8.6928 2.7914
T-Tests
Variances
Variable
Method
DF
t Value
Pr > |t|
UREA
UREA
Pooled
Equal
6
-1.07
0.3238
Satterthwaite Unequal
5.99
-1.07
0.3239
Equality of Variances
Variable
Method
UREA
Folded F
Num DF
3
Den DF
3
1.09
F Value
Pr > F
0.9455
La tabla muestra que las dos medias difieren por 3 (11,25 8,25) con un error
estndar de 2,7914. Puesto que la prueba de igualdad de varianzas indica que estas
son homogneas (P = 0,9455), entonces se utiliza los resultados de igual varianza
(pooled unequeal), el cual nos provee un P = 03238 y concluimos que no existe
diferencia entre las medias; es decir, no tenemos evidencia suficiente para rechazar la
hiptesis nula ( H 0 : 1 2 ). Es ms, los diagramas de caja muestran un gran
solapamiento entre los dos grupos (Figura 22).
El anlisis de muestras independientes NO es al anlisis correcto. Por cierto, la
Figura 22 es engaosa y no es la apropiada para una prueba t-Student de muestras
apareadas. Puesto que los datos de este ejemplo son apareados, se debe usar la
versin de la prueba t-Student de muestras apareadas.
Anlisis como grupos dependientes
El anlisis apropiado para estos datos es una prueba t-Student de muestras
apareadas. Los clculos para esta prueba se ejecutan con el siguiente programa en
SAS, y los resultados se muestran en la Tabla 109.
DATA DIABETICO;
INPUT IS ISG;
DATALINES;
14
17
6
8
7
11
6
9
ODS HTML;
PROC TTEST;
PAIRED IS*ISG;
RUN;
ODS HTML CLOSE;
159
17. 5
15. 0
U
R
E
A
12. 5
10. 0
7. 5
5. 0
IS
I SG
TRATAMI ENTO
Statistics
Upper CL Lower CL
Upper CL
Mean Mean Std Dev Std Dev Std Dev Std Err
-3 -1.701
0.4625 0.8165
3.0443 0.4082
T-Tests
Difference
IS - ISG
160
Los efectos de los factores son de dos tipos, fijos o aleatorios, dependiendo de
cmo se seleccionen los niveles de los factores que aparecen en el estudio. Por una
parte, se dice que un efecto es fijo si los niveles en el estudio representan todos los
posibles niveles del factor, o al menos todos los niveles para los cuales se harn
inferencias. Imaginemos un estudio en el cual se procesan porciones de frutas, tales
como pedacitos de manzanas, tratados con 5 diferentes preservantes (o conservantes),
y se determina lo que se denomina su tiempo til de anaquel (es decir, el tiempo que
puede permanecer a la venta). En este caso, los efectos de los 5 preservantes son fijos
si los 5 preservantes especficos son los nicos candidatos que pueden usarse como
preservativos (esto puede darse por regulaciones gubernamentales que slo permitan
usar cinco preservantes) y si las conclusiones del estudio se restringen a estos 5
compuestos. Se pueden examinar las diferencias entre los 5 compuestos para ver
cules son diferentes (o mejores o peores).
Por otra parte, los efectos de los factores son al azar si los niveles de los
factores que se usan en el estudio representan slo una muestra al azar de un
conjunto mayor de niveles potenciales. En el experimento del efecto de preservantes
sobre manzanas, los efectos de los preservantes se consideran al azar si existe
realmente una gran cantidad de preservantes potenciales. Slo 5 compuestos, sin
embargo, fueron seleccionados al azar para ser usados en el estudio. En estas
circunstancias, los efectos de los 5 compuestos usados en el estudio pudieran no ser
de inters particular para el investigador, excepto por la informacin que ellos contienen
acerca de la poblacin entera de preservativos.
Modelos mezclados
Un modelo mezclado es aquel que contiene efectos tanto fijos como aleatorios.
En el caso del experimento de las manzanas, donde se asignan 5 preservantes a 5
porciones de manzanas de cada una de n frutas, los efectos de los preservantes son
fijos; es decir, los 5 compuestos usados en el estudio son los nicos compuestos de
inters. Recordemos la premisa, sin embargo, que las n frutas fueron seleccionadas al
azar de un lote grande de frutas. Por lo tanto, preservante es un factor de tratamiento
con efectos fijos y fruta es un factor con efectos al azar.
Veamos este ejemplo. Se est interesado en comprobar la efectividad de varios
metales (nquel, hierro y cobre) para mantener unidos lingotes de una cierta
composicin qumica; la respuesta es la cantidad de presin requerida para romper el
enlace de dos piezas de material de un lingote unidos por uno de los metales. Los
datos se presentan en la Tabla 110.
Tabla 110. Valores de presin aplicada a cada lingote
Lingote Metal Presin
1
N
67.0
1
I
71.9
162
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
6
7
7
7
C
N
I
C
N
I
C
N
I
C
N
I
C
N
I
C
N
I
C
72.2
67.5
68.8
66.4
76.0
82.6
74.5
72.7
78.1
67.3
73.1
74.2
73.2
65.8
70.8
68.7
75.6
84.9
69.0
El programa SAS que analiza los datos con PROC MIXED es el siguiente
DATA ENLACE;
INPUT LINGOTE METAL$ PRESION;
DATALINES;
1
N
67.0
1
I
71.9
1
C
72.2
2
N
67.5
2
I
68.8
2
C
66.4
3
N
76.0
3
I
82.6
3
C
74.5
4
N
72.7
4
I
78.1
4
C
67.3
5
N
73.1
5
I
74.2
5
C
73.2
6
N
65.8
6
I
70.8
6
C
68.7
7
N
75.6
7
I
84.9
7
C
69.0
;
PROC MIXED;
CLASS LINGOTE METAL;
MODEL PRESION=METAL;
163
RANDOM LINGOTE;
RUN;
QUIT;
107.8
111.8
112.6
111.7
Num
Den
DF
DF
2
12
F Value
6.36
Pr > F
0.0131
Interpretacin
(1) Class Level Information reporta las variables en el comando CLASS y sus
niveles; (2) Fit Statistics muestra varios estadsticos que en este momento no son
importantes, estos estadsticos son importantes como criterio de seleccin de
estructuras de covarianzas apropiadas que veremos ms adelante; (3) Type 3 Tests of
Fixed Effects representa una tabla de ANOVA abreviada para el modelo estudiado,
incluye un F para comprobar la hiptesis nula H 0 : C I N con 2 grados de libertad
en el numerador y 12 grados de libertad en el denominador. El F = 6,36 es significativo
a P = 0,0131. Si las medias reales de METAL son iguales, entonces un valor de F tan
grande como 6,36 ocurrir menos de 131 veces en 10.000 por casualidad; o de otra
forma, si se repite el mismo experimento 10.000 veces, encontraremos los mismos
resultados 9.869 veces (10.000 131).
164
METAL
C
I
N
Standard
Estimate
Error
70.1857
75.9000
71.1000
1.7655
1.7655
1.7655
DF
t Value
12
12
12
39.75
42.99
40.27
Pr > |t|
<.0001
<.0001
<.0001
METAL
C
C
I
_METAL
I
N
N
Standard
Estimate
-5.7143
-0.9143
4.8000
Error
1.7214
1.7214
1.7214
12
12
12
DF
t Value
-3.32
-0.53
2.79
Pr > |t|
0.0061
0.6050
0.0164
Interpretacin
(1) Para el caso de diseos balanceados como este, las LSMeans son
simplemente los promedios de los tratamientos. Los valores de t que se reportan
simplemente sirven para determinar si los valores promedios (Estimate) difieren de
cero; en este caso todos difieren; (2) Las comparaciones apareadas se obtienen con la
opcin PDIFF. En las comparaciones apareadas se observan los estimados de las
diferencias y sus respectivos errores estndar, que en este caso es el mismo para
todos (1,7214). Los valores de t sirven para comprobar las diferencias entre cada par
de metales; hay diferencia entre hierro (I) y cobre (C) y entre hierro (I) y nquel (N), pero
no entre cobre (C) y nquel (N).
Se pueden estimar combinaciones lineales con la opcin ESTIMATE. Por
ejemplo, una combinacin lineal igual a la media del nquel, N . En primer lugar, se
debe expresar la media del nquel como una combinacin lineal de los parmetros del
modelo, para eso se escribe en el programa ESTIMATE 'MEDIA DE NIQUEL'
INTERCEPT 1 METAL 0 0 1; de igual forma, se puede estimar la combinacin lineal
para la diferencia entre las medias del cobre y el hierro escribiendo ESTIMATE 'COBRE
VS. HIERRO' METAL 1 -1 0. Finalmente, se pueden hacer contrastes entre las medias;
por ejemplo, se puede contrastar cobre vs. hierro mediante los siguientes comandos
CONTRAST 'COBRE VS. HIERRO' METAL 1 -1 0. Los resultados de todos estos
comandos se muestran en la Tabla 113.
Tabla 113. Resultados de los comandos ESTIMATE y CONTRAST.
165
Estimates
Standard
Label
Estimate
Error
DF t Value
MEDIA DE NIQUEL
71.1000
1.7655
12
COBRE VS. HIERRO
-5.7143
1.7214
12
Pr > |t|
40.27
<.0001
-3.32
0.0061
Contrasts
Num
Den
Label
DF
DF
COBRE VS. HIERRO
1
F Value Pr > F
12
11.02 0.0061
Obsrvese que los estimados para la media de nquel y la diferencia entre las
medias de cobre y hierro son los mismos que los obtenidos con la opcin LSMEANS
anterior. El valor de F = 11,02 obtenido en CONTRAST es el valor de t de ESTIMATE (3,322 = 11,02). Al igual que con LSMEANS, el contraste de cobre vs. hierro demuestra
que existe una diferencia significativa entre las medias de estos dos valores (P =
0,0061).
El programa SAS completo es el siguiente
DATA ENLACE;
INPUT LINGOTE METAL$ PRESION;
DATALINES;
1
N
67.0
1
I
71.9
1
C
72.2
2
N
67.5
2
I
68.8
2
C
66.4
3
N
76.0
3
I
82.6
3
C
74.5
4
N
72.7
4
I
78.1
4
C
67.3
5
N
73.1
5
I
74.2
5
C
73.2
6
N
65.8
6
I
70.8
6
C
68.7
7
N
75.6
7
I
84.9
7
C
69.0
;
PROC MIXED;
CLASS LINGOTE METAL;
MODEL PRESION=METAL;
RANDOM LINGOTE;
LSMEANS METAL/PDIFF;
ESTIMATE 'MEDIA DE NIQUEL' INTERCEPT 1 METAL 0 0 1;
ESTIMATE 'COBRE VS. HIERRO' METAL 1 -1 0;
166
Veamos ahora cmo hacer los clculos con PROC GLM. El denominado
procedimiento de modelos lineales generales (PROC GLM) fue el procedimiento de
SAS para analizar modelos mezclados antes del advenimiento de PROC MIXED,
aunque los cmputos bsicos de PROC GLM son para modelos de efectos fijos. El
PROC GLM usa muchos comandos similares a los usados por PROC MIXED, pero en
este ejemplo veremos algunas similitudes y diferencias entre los dos procedimientos. El
programa que analiza los mismos datos anteriores pero ahora con PROC GLM es el
siguiente:
DATA ENLACE;
INPUT LINGOTE METAL$ PRESION;
DATALINES;
1
N
67.0
1
I
71.9
1
C
72.2
2
N
67.5
2
I
68.8
2
C
66.4
3
N
76.0
3
I
82.6
3
C
74.5
4
N
72.7
4
I
78.1
4
C
67.3
5
N
73.1
5
I
74.2
5
C
73.2
6
N
65.8
6
I
70.8
6
C
68.7
7
N
75.6
7
I
84.9
7
C
69.0
;
PROC GLM;
CLASS LINGOTE METAL;
MODEL PRESION=LINGOTE METAL;
LSMEANS METAL/STDERR PDIFF;
ESTIMATE 'MEDIA DE NIQUEL' INTERCEPT 1 METAL 0 0 1;
ESTIMATE 'COBRE VS. HIERRO' METAL 1 -1 0;
CONTRAST 'COBRE VS. HIERRO' METAL 1 -1 0;
RANDOM LINGOTE;
RUN;
QUIT;
los dos procedimientos. En PROC MIXED slo se enuncian los efectos fijos en la parte
derecha del comando MODELO (MODEL PRESION=LINGOTE), pero en PROC GLM
se enuncian todos los efectos (MODEL PRESION=LINGOTE METAL), tanto los fijos
como los aleatorios, aunque PROC GLM no trata realmente los efectos aleatorios como
aleatorios. Las opciones en PROC GLM para inferencias al enunciar efectos aleatorios
son adaptaciones de los cmputos de los efectos fijos para este procedimiento. PROC
MIXED, por otra parte, fue concebido expresamente para modelos mezclados. Ya
veremos la diferencia en los resultados entre los dos procedimientos. Los comandos de
LSMEANS para los dos procedimientos son esencialmente los mismos, excepto que en
PROC GLM se necesita la opcin STDERR, lo cual es otra importante distincin entre
los procedimientos. Veremos que, a pesar de que los resultados de LSMEANS en
PROC GLM son los mismos que en PROC MIXED, sus errores estndares no son
iguales. Esto se debe a la naturaleza de efecto fijo inherente de PROC GLM.
La sintaxis para el comando ESTIMATE es la misma que para PROC MIXED y
los resultados tambin son los mismos, aunque esto no siempre es as. El comando
RANDOM representa otra gran diferencia entre los dos procedimientos, aunque tengan
la misma apariencia en este ejemplo. En PROC MIXED, incluir LINGOTE en el
comando RANDOM hace que todos los errores estndares y pruebas estadsticas
incorporen la informacin de que el efecto es aleatorio. Esto no es cierto para PROC
GLM. El comando RANDOM en PROC GLM (tal como se usa aqu) simplemente
computa los cuadrados promedios esperados para los trminos en MODEL y para las
combinaciones lineales en el comando CONTRAST. Los resultados ms importantes
se muestran en la Tabla 114.
Tabla 114. Resultados generados por PROC GLM.
The GLM Procedure
Class Level Information
Class
LINGOTE
METAL
Levels Values
7 1234567
3 CIN
DF
6
2
METAL
C
I
N
Pr > F
0.0076
Type III SS
Mean Square F Value Pr > F
268.2895238
44.7149206
4.31 0.0151
131.9009524
65.9504762
6.36 0.0131
PRESION
Standard
LSMEAN
Error
70.1857143
75.9000000
71.1000000
Pr > |t|
1.2172327
1.2172327
1.2172327
168
LSMEAN
Number
<.0001
<.0001
<.0001
1
2
3
DF
Parameter
MEDIA DE NIQUEL
COBRE VS. HIERRO
Contrast SS
Mean Square F Value Pr > F
1
114.2857143
114.2857143
11.02 0.0061
Standard
Estimate
Error t Value
71.1000000
1.21723265
-5.7142857
1.72142692
Pr > |t|
58.41
-3.32
<.0001
0.0061
Como podemos observar, en este caso los resultados nos llevan a las mismas
conclusiones por diferentes vas. No obstante, siempre es recomendable usar PROC
MIXED cuando se trata de analizar modelos mezclados, ya que este procedimiento
maneja correctamente los denominados trminos de error; si usamos PROC GLM
pudiramos obtener los resultados errneos y llegar a conclusiones equivocadas.
Veamos ahora el denominado anlisis de medidas repetidas. Los datos que se
analizan a continuacin corresponden a un estudio del efecto de la hormona tirosina y
su supresor tiouracilo sobre el aumento de peso de ratas de laboratorio. Se utiliz un
total de 27 ratas, 10 como grupo control, 7 para el grupo tirosina y 10 para el grupo
tiouracilo. Los datos corresponden al peso inicial de cada rata y sus respectivos pesos
durante 4 semanas luego de administrado el compuesto.
Este experimento es un ejemplo tpico de un ANOVA de medidas repetidas; es
decir, un experimento donde las medidas dentro de los sujetos (ratas en este caso) no
son independientes (las medidas se toman en la misma rata durante 4 semanas), lo
cual viola la premisa ms importante del ANOVA, la independencia o no correlacin. En
SAS es posible ejecutar un ANOVA de medidas repetidas tanto con PROC GLM como
con PROC MIXED, aunque los estadsticos recomiendan PROC MIXED, ya que ste
permite evaluar diferentes estructuras de covarianzas, tal como veremos. En PROC
GLM la forma de introducir los datos es menos convencional (en comparacin a como
lo hemos hecho anteriormente), pero ocupa menos espacio; mientras que en PROC
MIXED es ms convencional, pero ocupa mucho ms espacio (por supuesto, esto se
evita si usamos INFILE). En teora ambas opciones son correctas, aunque la tendencia
es a utilizar los denominados modelos mezclados, tales como los utilizados por PROC
MIXED; lo que si se considera incorrecto es utilizar diseos de ANOVA, tales como de
una va, para analizar datos correlacionados. Es bueno aclarar que si no se incluye
expresamente una estructura de covarianza en PROC MIXED, ste puede utilizarse
como un PROC GLM normal.
El primer programa utilizando PROC GLM comprueba el modelo MODEL P1 P2
P3 P4 P5 = DIETA / NOUNI; que simplemente examina si existe diferencia en el peso
ganado por las ratas entre las dietas utilizando los valores P1P5 (la opcin NOUNI le
indica a SAS que no efecte anlisis univariados); REPEATED MEDICIONES 5 /
PRINTE; le indica a SAS que se trata de un anlisis de medidas repetidas (de all
REPEATED) sobre 5 MEDICIONES (esta es una palabra de libre escogencia, es decir,
en vez de mediciones puede usarse cualquiera palabra que nos parezca relevante);
PRINTE le ndica a SAS que efecte algunos clculos, tales como la denominada
169
170
Variables
DF
Transformed Variates
Orthogonal Components
Criterion
9
Chi-Square
Pr > ChiSq
0.0004488
172.81086
9 0.0072565
110.4214
<.0001
<.0001
DF
Type III SS
Mean Square F Value
2
6638.65354
3319.32677
7.73
24
10300.20571
429.17524
Pr > F
0.0026
171
8
8
8
8
8
9
9
9
9
9
10
10
10
10
10
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
5
5
5
5
5
6
6
6
6
6
7
7
7
7
7
1
1
1
1
1
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
63
91
112
130
154
49
67
90
112
140
57
82
110
139
169
59
85
121
156
191
54
71
90
110
138
56
75
108
151
189
59
85
116
148
177
57
72
97
120
144
52
73
97
116
140
52
70
105
138
171
61
86
109
120
129
59
80
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
172
2
3
101
3
2
3
111
4
2
3
122
5
3
3
53
1
3
3
79
2
3
3
100
3
3
3
106
4
3
3
133
5
4
3
59
1
4
3
88
2
4
3
100
3
4
3
111
4
4
3
122
5
5
3
51
1
5
3
75
2
5
3
101
3
5
3
123
4
5
3
140
5
6
3
51
1
6
3
75
2
6
3
92
3
6
3
100
4
6
3
119
5
7
3
56
1
7
3
78
2
7
3
95
3
7
3
103
4
7
3
108
5
8
3
58
1
8
3
69
2
8
3
93
3
8
3
114
4
8
3
138
5
9
3
46
1
9
3
61
2
9
3
78
3
9
3
90
4
9
3
107
5
10
3
53
1
10
3
72
2
10
3
89
3
10
3
104
4
10
3
122
5
;
PROC PRINT;
RUN;
PROC GLM;
CLASS SUJETO DIETA MEDIDA;
MODEL PESO=DIETA MEDIDA DIETA*MEDIDA SUJETO(DIETA);
TEST H=DIETA E=SUJETO(DIETA);
CONTRAST 'LINEAL' MEDIDA -2 -1 0 1 2;
CONTRAST 'CUADRATICA' MEDIDA 2 -1 -2 -1 2;
CONTRAST 'CUBICA' MEDIDA -1 2 0 -2 1;
CONTRAST 'CUARTICA' MEDIDA 1 -4 6 -4 1;
RUN;
QUIT;
PROC MIXED;
173
Levels Values
10 1 2 3 4 5 6 7 8 9 10
3 123
5 12345
Sum of
DF
Squares
Mean Square F Value Pr > F
38
170008.5507
4473.9092
86.93 <.0001
96
4940.7086
51.4657
134
174949.2593
Source
DIETA
MEDIDA
DIETA*MEDIDA
SUJETO(DIETA)
DF
2
4
Contrast
LINEAL
CUADRATICA
CUBICA
CUARTICA
DF
1
Type III SS
Mean Square F Value Pr > F
6638.6535
3319.3268
64.50 <.0001
147539.3064
36884.8266
716.69 <.0001
8
6777.2470
847.1559
16.46 <.0001
24
10300.2057
429.1752
8.34 <.0001
Contrast SS
Mean Square F Value Pr > F
147449.5501
147449.5501 2865.01 <.0001
1
20.4188
20.4188
0.40 0.5303
1
0.3172
0.3172
0.01 0.9376
1
69.0204
69.0204
1.34 0.2497
Tests of Hypotheses Using the Type III MS for SUJETO(DIETA) as an Error Term
Source
DIETA
DF
Type III SS
Mean Square F Value Pr > F
2
6638.653545
3319.326772
7.73 0.0026
Lo primero que hay que notar es el formato en que se introducen los datos en
esta oportunidad, PROC MIXED requiere esta forma de introducir los datos
completamente distinta a como lo vimos en el anterior PROC GLM; observemos, no
obstante, que PROC GLM tambin puede ejecutarse con los datos introducidos de esta
forma. Los comandos TEST H=DIETA E=SUJETO(DIETA) instruye a SAS a usar los
cuadrados promedios de sujeto dentro de dieta [SUJETO(DIETA); es decir, 429.1752]
como el trmino de error correcto para calcular el valor de F que permite comprobar la
hiptesis de no diferencia entre dietas. Debido a que F = 7,73 y P = 0,0026, concluimos
174
que existe un efecto significativo debido a las dietas; no obstante, la naturaleza de ese
efecto no se conoce con este anlisis.
El programa con PROC MIXED que se encuentra en la parte final produce
resultados similares a los dados anteriormente. Notemos que en los comandos
REPEATED MEDIDA/ SUBJECT=SUJETO(DIETA) TYPE=CS R RCORR se us la
denominada simetra compuesta como estructura de covarianzas (TYPE=CS); como
veremos posteriormente, PROC MIXED ofrece la posibilidad de estudiar varias
estructuras de covarianzas, lo cual es una de sus mayores fortalezas, y decidir en base
a la mejor opcin. Los resultados ms importantes se muestran en la Tabla 117.
Tabla 117. Resultados del Anova de medidas repetidas generados por PROC
MIXED.
The Mixed Procedure
Class Level Information
Class
Levels Values
SUJETO
10 1 2 3 4 5 6 7 8 9 10
DIETA
3 123
MEDIDA
5 12345
Iteration History
Iteration
0
1
Evaluations
1
1
954.61029890
897.11333824
Criterion
0.00000000
897.1
901.1
901.2
903.7
Den
DF
24
12
F Value Pr > F
7.73 0.0026
96
247.85 <.0001
Tabla 118. Resultados del Anova de medidas repetidas con los comandos
LSMEAN DIETA/ADJUST=SMM.
Least Squares Means
Effect
DIETA
DIETA
DIETA
DIETA
1
2
3
Standard
Estimate
Error
105.84
106.94
91.8000
2.9298
3.5017
2.9298
DF
t Value
24
24
24
36.13
30.54
31.33
Pr > |t|
<.0001
<.0001
<.0001
Estimate
Error
DF t
176
PESO MEDIDA;
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
177
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
5
5
5
5
5
6
6
6
6
6
7
7
7
7
7
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
5
5
5
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
156
191
54
71
90
110
138
56
75
108
151
189
59
85
116
148
177
57
72
97
120
144
52
73
97
116
140
52
70
105
138
171
61
86
109
120
129
59
80
101
111
122
53
79
100
106
133
59
88
100
111
122
51
75
101
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
178
5
3
123
4
5
3
140
5
6
3
51
1
6
3
75
2
6
3
92
3
6
3
100
4
6
3
119
5
7
3
56
1
7
3
78
2
7
3
95
3
7
3
103
4
7
3
108
5
8
3
58
1
8
3
69
2
8
3
93
3
8
3
114
4
8
3
138
5
9
3
46
1
9
3
61
2
9
3
78
3
9
3
90
4
9
3
107
5
10 3
53 1
10 3
72 2
10 3
89 3
10 3
104 4
10 3
122 5
;
PROC PRINT;
RUN;
PROC GLM;
CLASS SUJETO DIETA MEDIDA;
MODEL PESO=DIETA MEDIDA DIETA*MEDIDA SUJETO(DIETA);
TEST H=DIETA E=SUJETO(DIETA);
CONTRAST 'LINEAL' MEDIDA -2 -1 0 1 2;
CONTRAST 'CUADRATICA' MEDIDA 2 -1 -2 -1 2;
CONTRAST 'CUBICA' MEDIDA -1 2 0 -2 1;
CONTRAST 'CUARTICA' MEDIDA 1 -4 6 -4 1;
RUN;
QUIT;
PROC MIXED;
CLASS SUJETO DIETA MEDIDA;
MODEL PESO= DIETA DIETA*MEDIDA;
REPEATED MEDIDA/ SUBJECT=SUJETO(DIETA) TYPE=CS R RCORR;
LSMEANS DIETA/ADJUST=SMM;
RUN;
QUIT;
Ejemplo
Un estudiante de biologa estaba interesado en determinar si el crecimiento en
peso de alevines de una especie de pez comercial usado en la acuicultura era afectado
por diferentes raciones alimenticias (dietas). Para eso diseo un experimento donde
coloc 12 alevines de pesos conocidos (Medida 1) en acuarios independientes (1
179
1
1
2
2
2
2
3
3
3
3
4
4
4
4
4
4
4
4
4
4
6.0
8.3
2.3
4.0
5.0
8.1
2.7
4.9
7.1
8.3
3
4
1
2
3
4
1
2
3
4
PESO MEDIDA;
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
181
3
3
3
3
1
1
1
1
2
2
2
2
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
4
4
4
1.2
4.6
7.7
10
1.9
4.2
6
8.3
2.3
4
5
8.1
2.7
4.9
7.1
8.3
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
;
PROC PRINT;
RUN;
PROC GLM;
CLASS SUJETO DIETA MEDIDA;
MODEL PESO=DIETA MEDIDA DIETA*MEDIDA SUJETO(DIETA);
TEST H=DIETA E=SUJETO(DIETA);
RUN;
QUIT;
PROC MIXED;
CLASS SUJETO DIETA MEDIDA;
MODEL PESO= DIETA DIETA*MEDIDA;
REPEATED MEDIDA/ SUBJECT=SUJETO(DIETA) TYPE=CS R RCORR;
RUN;
QUIT;
182
Source
DIETA
MEDIDA
DIETA*MEDIDA
SUJETO(DIETA)
DF
3
3
Type III SS
Mean Square F Value Pr > F
74.3233333
24.7744444
16.52 <.0001
449.0550000
149.6850000
99.79 <.0001
9
63.4916667
7.0546296
4.70 0.0011
8
72.4883333
9.0610417
6.04 0.0003
Tests of Hypotheses Using the Type III MS for SUJETO(DIETA) as an Error Term
Source
DIETA
DF
Type III SS
Mean Square F Value Pr > F
3
74.32333333
24.77444444
2.73 0.1135
The Mixed Procedure
Iteration History
Iteration
Evaluations
0
1
1
1
147.45838674
135.75178690
Criterion
0.00000000
135.8
139.8
140.2
140.7
Num
DF
DIETA
3
DIETA*MEDIDA
Den
DF
F Value
8
12
2.73 0.1135
24
28.48 <.0001
Pr > F
Existe otro diseo Anova que es muy til, el denominado Anova anidado.
Veamos algunos detalles de este diseo.
Anova anidado
A
A
N
N
C
185
C
C
C
A
Figura 23. Un diseo experimental anidado. Cinco parcelas de cada uno de tres
tratamientos (C = CERRADO, A = ABIERTO y N = CONTROL) fueron esparcidas al
azar en el rea de estudio, y en cada parcela se tomaron 6 plantas y se les determin
el porcentaje de fertilidad al final del experimento.
Tabla 121. Datos de un anlisis experimental sobre los efectos de insectos sobre la
fertilidad de plantas. Son 3 tratamientos (CONTROL, ABIERTO y CERRADO), cada uno
replicado en 5 parcelas (1 5). En cada parcela N = 6 plantas analizadas. TRT = tratamiento,
PAR = parcela, FER = fertilidad.
TRT
PAR
PLANTA
FER
TRT
PAR
PLANTA
FER
TRT
PAR
PLANTA
FER
CONTROL
82
ABIERTO
92
CERRADO
74
CONTROL
67
ABIERTO
80
CERRADO
76
CONTROL
73
ABIERTO
83
CERRADO
72
CONTROL
70
ABIERTO
77
CERRADO
71
CONTROL
83
ABIERTO
52
CERRADO
60
CONTROL
95
ABIERTO
73
CERRADO
74
CONTROL
79
ABIERTO
62
CERRADO
47
CONTROL
84
ABIERTO
97
CERRADO
71
CONTROL
70
ABIERTO
63
CERRADO
54
CONTROL
71
ABIERTO
77
CERRADO
56
CONTROL
67
ABIERTO
88
CERRADO
77
CONTROL
80
ABIERTO
77
CERRADO
66
CONTROL
90
ABIERTO
67
CERRADO
60
CONTROL
100
ABIERTO
64
CERRADO
88
CONTROL
65
ABIERTO
85
CERRADO
86
CONTROL
99
ABIERTO
83
CERRADO
84
CONTROL
84
ABIERTO
79
CERRADO
45
CONTROL
63
ABIERTO
88
CERRADO
48
CONTROL
75
ABIERTO
95
CERRADO
43
CONTROL
93
ABIERTO
93
CERRADO
53
CONTROL
99
ABIERTO
100
CERRADO
48
CONTROL
95
ABIERTO
80
CERRADO
79
CONTROL
92
ABIERTO
83
CERRADO
70
CONTROL
95
ABIERTO
76
CERRADO
45
CONTROL
38
ABIERTO
70
CERRADO
47
CONTROL
64
ABIERTO
62
CERRADO
44
CONTROL
80
ABIERTO
77
CERRADO
16
186
CONTROL
74
ABIERTO
80
CERRADO
43
CONTROL
87
ABIERTO
71
CERRADO
49
CONTROL
79
ABIERTO
87
CERRADO
55
El programa SAS que analiza los datos usando PROC GLM es el siguiente
(observe que al final del programa tambin se reporta el anlisis con PROC NESTED
que hace exactamente lo mismo, siempre y cuando el diseo sea completamente
balanceado, tal como en este caso).
DATA EJEMPLO;
INPUT TRATAMIENTO$ PARCELA PLANTA FERTILIDAD;
CARDS;
CONTROL
1
1
82
CONTROL
1
2
67
CONTROL
1
3
73
CONTROL
1
4
70
CONTROL
1
5
83
CONTROL
1
6
95
CONTROL
2
1
79
CONTROL
2
2
84
CONTROL
2
3
70
CONTROL
2
4
71
CONTROL
2
5
67
CONTROL
2
6
80
CONTROL
3
1
90
CONTROL
3
2
100
CONTROL
3
3
65
CONTROL
3
4
99
CONTROL
3
5
84
CONTROL
3
6
63
CONTROL
4
1
75
CONTROL
4
2
93
CONTROL
4
3
99
CONTROL
4
4
95
CONTROL
4
5
92
CONTROL
4
6
95
CONTROL
5
1
38
CONTROL
5
2
64
CONTROL
5
3
80
CONTROL
5
4
74
CONTROL
5
5
87
CONTROL
5
6
79
ABIERTO
1
1
92
ABIERTO
1
2
80
ABIERTO
1
3
83
ABIERTO
1
4
77
ABIERTO
1
5
52
ABIERTO
1
6
73
ABIERTO
2
1
62
ABIERTO
2
2
97
ABIERTO
2
3
63
ABIERTO
2
4
77
ABIERTO
2
5
88
ABIERTO
2
6
77
ABIERTO
3
1
67
187
ABIERTO
3
2
64
ABIERTO
3
3
85
ABIERTO
3
4
83
ABIERTO
3
5
79
ABIERTO
3
6
88
ABIERTO
4
1
95
ABIERTO
4
2
93
ABIERTO
4
3
100
ABIERTO
4
4
80
ABIERTO
4
5
83
ABIERTO
4
6
76
ABIERTO
5
1
70
ABIERTO
5
2
62
ABIERTO
5
3
77
ABIERTO
5
4
80
ABIERTO
5
5
71
ABIERTO
5
6
87
CERRADO
1
1
74
CERRADO
1
2
76
CERRADO
1
3
72
CERRADO
1
4
71
CERRADO
1
5
60
CERRADO
1
6
74
CERRADO
2
1
47
CERRADO
2
2
71
CERRADO
2
3
54
CERRADO
2
4
56
CERRADO
2
5
77
CERRADO
2
6
66
CERRADO
3
1
60
CERRADO
3
2
88
CERRADO
3
3
86
CERRADO
3
4
84
CERRADO
3
5
45
CERRADO
3
6
48
CERRADO
4
1
43
CERRADO
4
2
53
CERRADO
4
3
48
CERRADO
4
4
79
CERRADO
4
5
70
CERRADO
4
6
45
CERRADO
5
1
47
CERRADO
5
2
44
CERRADO
5
3
16
CERRADO
5
4
43
CERRADO
5
5
49
CERRADO
5
6
55
;
PROC PRINT;
RUN;
PROC GLM DATA=EJEMPLO;
CLASS TRATAMIENTO PARCELA;
MODEL FERTILIDAD=TRATAMIENTO PARCELA(TRATAMIENTO)/SS1;
TEST H=TRATAMIENTO E=PARCELA(TRATAMIENTO)/ HTYPE=1 ETYPE=1;
RUN;
PROC NESTED;
CLASS TRATAMIENTO PARCELA;
188
VAR FERTILIDAD;
RUN;
Levels
TRATAMIENTO
PARCELA
Values
3 ABIERTO CERRADO CONTROL
12345
Sum of
DF
Squares
Mean Square F Value
14
12790.33333
913.59524
5.73
75
11950.16667
159.33556
89
24740.50000
Pr > F
<.0001
Source
DF
Type I SS
Mean Square F Value Pr > F
TRATAMIENTO
2
7389.866667
3694.933333
23.19 <.0001
PARCELA(TRATAMIENTO)
12
5400.466667
450.038889
2.82 0.0030
Tests of Hypotheses Using the Type I MS for PARCELA(TRATAMIENTO) as an Error Term
Source
TRATAMIENTO
DF
Type I SS
Mean Square F Value Pr > F
7389.866667
3694.933333
8.21 0.0057
189
DF
Sum of
Squares
F Value
Total
89
24741
TRATAMIENTO
2
7389.866667
PARCELA
12
5400.466667
Error
75
11950
Pr > F
Error Term
En este punto es conveniente aclarar bien las cosas, ya que los anlisis nos
reportan varios valores de F y P. Observe que PROC GLM nos indica que para
TRATAMIENTO F = 23,19 y P < 0,0001, y que por lo tanto existen diferencias
significativas entre los tratamientos con respecto al porcentaje de fertilidad de las
plantas. Observe que para PARCELA tambin existen diferencias significativas (F =
2,82; P = 0,0030). Sin embargo, el resultado que nos interesa en este caso es el
relacionado con el efecto de los tratamientos en combinacin con las parcelas; para
eso observemos que PROC GLM y PROC NESTED nos dicen que para el efecto de los
tratamientos tomando como trmino de error PARCELA dentro de TRATAMIENTO, F =
8,21 y P = 0,0057, con lo que se demuestra que el efecto de los tratamientos no es
independiente de los sitios donde se coloquen las parcelas; en otras palabras, cuando
se haga un experimento de este tipo, es conveniente estudiar el efecto de los sitios, de
otra forma se corre con el riesgo de no poder reportar resultados confiables
estadsticamente.
Ms sobre Anova anidado.
Cundo usarlo?
Podemos usar un Anova anidado cuando tenemos una variable numrica
(medicin) y dos o ms variables categricas (nominales). Las variables categricas
estn anidadas, lo que significa que cada valor de una variable categrica (los
subgrupos) se halla en combinacin con un solo valor de la variable categrica superior
(los grupos). El Anova anidado es una extensin del Anova de una va en el cual cada
grupo se divide en subgrupos. En teora, estos subgrupos se escogen al azar a partir
de un juego de posibles subgrupos.
Por ejemplo, asumamos que estamos comprobando la hiptesis nula que las
ratas estresadas y no estresadas tienen la misma concentracin de glicgeno en sus
msculos gastrocnmicos. Si tenemos una jaula con ratas estresadas y otra con ratas
no estresadas y una medida de la concentracin de glicgeno de cada rata,
analizaramos los datos con un Anova de una va. Sin embargo, no sabramos si una
diferencia entre los niveles de glicgeno es debida a la diferencia en estrs o alguna
otra diferencia entre las jaulas; tal vez la jaula que contiene las ratas estresadas recibe
ms alimento, o es ms caliente, o tal vez contiene una rata malvada que usa sus
190
poderes ratunos de control mental para esclavizar a las otras ratas de la jaula y
obligarlas a atacar a los humanos (esto es un chiste entre bilogos, por supuesto).
Si, sin embargo, tenemos varias jaulas con ratas estresadas y varias jaulas con
ratas no estresadas, podramos determinar cuanta variacin hay entre las jaulas
y cuanta entre las ratas estresadas y no estresadas. Los grupos seran
estresadas vs no estresadas, y cada jaula con varias ratas seran los subgrupos;
cada nivel de glicgeno de una rata sera una observacin dentro de un
subgrupo.
El anterior constituye un ejemplo de un Anova anidado de dos niveles; los
grupos (estresadas vs no estresadas) seran un nivel, mientras que los
subgrupos (las diferentes jaulas) seran otro nivel. Si no estuviramos seguros
de la exactitud de nuestros valores de glicgeno obtenidos, pudiramos hacer
mltiples ensayos en cada rata. En ese caso tendramos un Anova anidado de
tres niveles, donde los niveles seran los grupos (estresadas vs no estresadas),
los subgrupos (jaulas) y los subsubgrupos (el juego de observaciones de niveles
de glicgeno de cada rata). Pudiramos tener tantos niveles como quisiramos o
necesitramos.
Observemos que si los subgrupos, subsubgrupos, etc., son distinciones con
algn inters, en vez de al azar, no deberamos usar un Anova anidado. Por ejemplo,
pudiramos desear dividir las ratas en subgrupos representados por sexo (hembras y
machos). Hembra y macho no son distinciones sin inters; pudiramos estar
interesados en saber si uno de los sexos es ms propenso a altos niveles de glicgeno.
En este caso deberamos usar un Anova de dos vas para analizar los datos en vez de
un Anova anidado.
Algunas veces la distincin puede ser sutil. Por ejemplo, digamos que medimos
el contenido de glicgeno en los msculos gastroctmicos izquierdo y derecho de cada
rata. Si pensramos que existe una diferencia consistente entre el msculo izquierdo y
el derecho, deberamos usar un Anova de dos vas para analizar izquierdo vs derecho y
estresadas vs no estresadas. Si, sin embargo, pensramos que cualquiera diferencia
entre los dos msculos de una rata individual se debe a una variabilidad al azar propia
de la tcnica utilizada, no una diferencia real entre los msculos izquierdo y derecho,
debemos utilizar un Anova anidado en donde msculos fuera un nivel. Considere lo
siguiente: si usted disecciona los msculos, los coloca en tubos etiquetados A y B y
luego olvida cul es el derecho y cul es el izquierdo, no tendra mayor importancia si
usted desea aplicar un Anova anidado; sera un desastre si pensara hacer un Anova de
dos vas. Entiende esto?
Finalmente, en ocasiones algunas limitaciones impiden que crucemos cada nivel
de un factor con cada nivel de otro factor. En estos casos nos vemos forzados a aplicar
lo que se conoce como diseo anidado. Se dice que tenemos un diseo anidado
cuando no todos los niveles de un factor ocurren dentro de cada nivel de otro factor. Un
ejemplo de esto sera si deseramos estudiar los efectos de diferentes mquinas y
diferentes operadores sobre una funcin particular, pero no podemos intercambiar
191
operadores entre las mquinas que ellos operan. En este caso, cada operador no est
cruzado con cada mquina, sino que slo opera una mquina.
El Anova anidado es til cuando tenemos ciertas limitaciones para combinar
todos los niveles de un factor con todos los niveles de otro factor. Estos diseos son
ms tiles cuando tenemos lo que se denomina una situacin de efectos aleatorios.
Cuando seleccionamos al azar los niveles de un factor en vez de seleccionarlos
intencionalmente, decimos que tenemos un modelo de efectos aleatorios. Un ejemplo
sera cuando seleccionamos lotes de una lnea de produccin y luego seleccionamos
unidades de los lotes. En este caso las unidades estn anidadas dentro de los lotes y el
efecto de cada factor es aleatorio.
Ejemplo
Tenemos cinco diferentes mquinas que producen la misma pieza y cada
mquina tiene dos operadores, uno para el turno del da y otro para el turno de la
noche. Tomamos cinco muestras de cada mquina para cada operador y obtenemos
los resultados que se muestran en la Tabla 123.
Tabla 123. Resultados obtenidos por dos operadores.
1
0.125
0.127
Operador da
0.125
0.126
0.128
0.124
0.128
Operador noche 0.127
0.126
0.129
Mquina
2
3
4
0.118 0.123 0.126
0.122 0.125 0.128
0.120 0.125 0.126
0.124 0.124 0.127
0.119 0.126 0.129
0.116 0.122 0.126
0.125 0.121 0.129
0.119 0.124 0.125
0.125 0.126 0.130
0.120 0.125 0.124
5
0.118
0.129
0.127
0.120
0.121
0.125
0.123
0.114
0.124
0.117
192
1
NOCHE 0.127
1
NOCHE 0.126
1
NOCHE 0.129
2
DIA
0.118
2
DIA
0.122
2
DIA
0.12
2
DIA
0.124
2
DIA
0.119
2
NOCHE 0.116
2
NOCHE 0.125
2
NOCHE 0.119
2
NOCHE 0.125
2
NOCHE 0.12
3
DIA
0.123
3
DIA
0.125
3
DIA
0.125
3
DIA
0.124
3
DIA
0.126
3
NOCHE 0.122
3
NOCHE 0.121
3
NOCHE 0.124
3
NOCHE 0.126
3
NOCHE 0.125
4
DIA
0.126
4
DIA
0.128
4
DIA
0.126
4
DIA
0.127
4
DIA
0.129
4
NOCHE 0.126
4
NOCHE 0.129
4
NOCHE 0.125
4
NOCHE 0.13
4
NOCHE 0.124
5
DIA
0.118
5
DIA
0.129
5
DIA
0.127
5
DIA
0.12
5
DIA
0.121
5
NOCHE 0.125
5
NOCHE 0.123
5
NOCHE 0.114
5
NOCHE 0.124
5
NOCHE 0.117
;
PROC GLM DATA=EJEMPLO;
CLASS MAQUINA OPERADOR;
MODEL PERFORMANCE=MAQUINA OPERADOR(MAQUINA)/SS1;
TEST H=MAQUINA E=OPERADOR(MAQUINA)/HTYPE=1 ETYPE=1;
RUN;
PROC NESTED;
CLASS MAQUINA OPERADOR;
VAR PERFORMANCE;
RUN;
193
Sum of
DF
Squares
Mean Square F Value
9
0.00032192
0.00003577
4.14
40
0.00034600
0.00000865
49
0.00066792
Source
DF
MAQUINA
4
OPERADOR(MAQUINA)
Pr > F
0.0008
Type I SS
Mean Square F Value Pr > F
0.00030332
0.00007583
8.77 <.0001
5
0.00001860
0.00000372
0.43 0.8249
DF
4
Type I SS
Mean Square F Value Pr > F
0.00030332
0.00007583
20.38 0.0027
The NESTED Procedure
of Total
Total
49 0.000668
0.000013631 0.000015861 100.0000
MAQUINA 4 0.000303
20.38 0.0027 OPERADOR 0.000075830 0.000007211 45.4637
OPERADOR 5 0.0000186
0.43 0.8249 Error 0.000003720 -0.000000986 0.0000
Error
40 0.000346
0.000008650 0.000008650 54.5363
194
datos utilizando PROC NESTED y PROC GLM y los resultados se muestran en la Tabla
125.
TITLE 'CONCENTRACION DE CALCIO EN HOJAS DE NABO'
'--MODELO ANIDADO AL AZAR';
TITLE2 'SNEDECOR & COCHRAN, ''STATISTICAL METHODS''' ', 1976, p. 286';
DATA NABOS;
DO PLANTA=1 TO 4;
DO HOJA=1 TO 3;
DO MUESTRA=1 TO 2;
INPUT CALCIO@@;
OUTPUT;
END;
END;
END;
CARDS;
3.28 3.09 3.52 3.48 2.88 2.80 2.46 2.44
1.87 1.92 2.19 2.19 2.77 2.66 3.74 3.44
2.55 2.55 3.78 3.87 4.07 4.12 3.31 3.31
;
PROC PRINT;
RUN;
PROC NESTED DATA=NABOS;
CLASS PLANTA HOJA;
VAR CALCIO;
RUN;
PROC GLM DATA=NABOS;
CLASS PLANTA HOJA;
MODEL CALCIO=PLANTA HOJA(PLANTA)/SS1;
TEST H=PLANTA E=HOJA(PLANTA)/HTYPE=1 ETYPE=1;
RUN;
Sum of
Error
Squares F Value Pr > F Term
DF
23
8
12
Variance Percent
Mean Square
Component of Total
10.270396
0.446539
0.532938 100.0000
7.560346
7.67 0.0097 HOJA
2.520115
0.365223 68.5302
2.630200 49.41 <.0001 Error
0.328775
0.161060 30.2212
0.079850
0.006654
0.006654 1.2486
The GLM Procedure
Source
PLANTA
HOJA(PLANTA)
DF
3
Type I SS
Mean Square F Value Pr > F
7.56034583
2.52011528
378.73 <.0001
8
2.63020000
0.32877500
49.41 <.0001
DF
3
Type I SS
Mean Square F Value Pr > F
7.56034583
2.52011528
7.67 0.0097
195
196
197
Estos comandos generan tres figuras: aguas altas vs. ao, aguas bajas vs. ao y
finalmente ambos niveles de agua con una lnea vertical que separa los dos lapsos
1962-1969 y 1970-1978.
En las grficas podemos observar que existe una aparente relacin lineal entre
los niveles de aguas altas y los aos, a medida que pasan los aos los niveles de
aguas altas se incrementan. Qu observa usted con relacin a los niveles de aguas
bajas? Ahora apliquemos PROC REG para estimar las lneas de regresin usando el
mtodo de los mnimos cuadrados. El siguiente programa calcula la lnea de regresin
entre las aguas altas y los aos
PROC REG DATA=AMAZONAS;
MODEL ALTO=ANO/CLM CLI;
PLOT ALTO*ANO/CONF95 PRED95;
PLOT STUDENT.*PREDICTED.;
PLOT STUDENT.*ANO;
PLOT STUDENT.*NPP.;
RUN;
27
26
PERI ODO
1962- 1969
1970- 1978
PERI ODO
1962- 1969
1970- 1978
25
24
1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978
ANO
Ej empl o de Anal i si s de Regr esi on
Sal udos a l a CI ENCI A
21
ALTO
BAJ O
20
19
18
17
16
1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978
ANO
Ej empl o de Anal i si s de Regr esi on
Sal udos a l a CI ENCI A
Figura 25. Representacin de aguas altas vs. ao, aguas bajas vs. ao y ambos
niveles de agua con una lnea vertical que separa los dos lapsos, 1962-1969 y 19701978.
199
Sum of
Mean
DF
Squares
Square F Value Pr > F
1
13.34912
13.34912
20.85 0.0004
15
9.60229
0.64015
16
22.95141
Root MSE
0.80010 R-Square
0.5816
Dependent Mean
26.12588 Adj R-Sq
0.5537
Coeff Var
3.06246
Parameter Estimates
Variable
Intercept
ANO
Estos
Parameter
Standard
DF
Estimate
Error t Value Pr > |t|
1
-330.21235
78.03319
-4.23
0.0007
1
0.18088
0.03961
4.57
0.0004
resultados
nos
dicen
que
la
lnea
de
regresin
es
de aguas altas estn realmente relacionados con los aos. Observemos ahora el valor
de R2 = 0,5816; este es el denominado coeficiente de determinacin y se interpreta
como: el 58,16% de la variacin en los niveles de aguas altas se explica por la lnea de
regresin obtenida por el mtodo de los mnimos cuadrados que incluye la variable
independiente ANO.
Observemos ahora los resultados que se muestran en la Tabla 127; en ella
observamos los valores de la variable dependiente para cada ao (Dependent
Variable), el valor promedio predicho por la ecuacin de regresin para cada ao
(Predicted Value Mean), los errores estndares predichos para cada ao (Std Error
Predict), los lmites de confianza promedios del 95% (95% CL Mean), los lmites de
confianza promedios predichos segn la lnea de regresin (95% CL Predict) y
finalmente los residuales para cada ao (Residual; observe que estos residuales no
son ms que la diferencia entre los valores reales y los valores generados por la
ecuacin de regresin, Dependent Variable Predicted Value Mean). Estos resultados
nos permiten saber por ejemplo, cul es el intervalo de confianza del 95% para el ao
1968; en la tabla observamos que este intervalo es 25,3174 y 26,2109 y decimos que
estamos 95% seguros que para el ao 1968 el nivel promedio de aguas altas del Ro
Amazonas est entre 25,3174 y 26,2109 m; lo mismo puede decirse para cada ao y
tambin para los lmites de confianza predichos.
Tabla 127. Valores predichos por el anlisis de regresin.
Output Statistics
Dependent Predicted Std Error
Obs Variable Value Mean Predict
95% CL Mean
1 25.8200 24.6788
0.3716 23.8868 25.4708
2 25.3500 24.8597
0.3384 24.1384 25.5811
3 24.2900 25.0406
0.3068 24.3866 25.6946
4 24.0500 25.2215
0.2773 24.6305 25.8125
5 24.8900 25.4024
0.2505 24.8684 25.9363
6 25.3500 25.5832
0.2275 25.0982 26.0682
7 25.2300 25.7641
0.2096 25.3174 26.2109
8 25.0600 25.9450
0.1981 25.5229 26.3671
9 27.1300 26.1259
0.1941 25.7123 26.5395
10 27.3600 26.3068
0.1981 25.8846 26.7289
11 26.6500 26.4876
0.2096 26.0409 26.9344
12 27.1300 26.6685
0.2275 26.1835 27.1535
13 27.4900 26.8494
0.2505 26.3154 27.3834
14 27.0800 27.0303
0.2773 26.4393 27.6213
15 27.5100 27.2112
0.3068 26.5572 27.8652
16 27.5400 27.3921
0.3384 26.6707 28.1134
17 26.2100 27.5729
0.3716 26.7809 28.3649
Ahora veamos las figuras generadas (Figura 26). La primera muestra la lnea de
regresin con todos sus lmites de confianza, la segunda muestra los residuales
estudentizados vs. valores predichos, la tercera muestra los mismos residuales por
ao. Al observar las figuras de los residuales no observamos tendencias evidentes en
sus distribuciones; por ejemplo, en forma de cono o trompeta (<, >) o en forma de ve
(v) o ve al revs () o lneas rectas, o lneas rectas inclinadas, etc. Finalmente, la ltima
201
figura muestra una lnea recta inclinada bien definida, lo cual indica que existe
normalidad. Por lo tanto, no tenemos evidencias que indiquen que las premisas del
anlisis de regresin hayan sido violadas.
Cur so de Est adi st i ca
Cur so de Est adi st i ca
ALTO = - 330. 21 +0. 1809 ANO
ALTO = - 330. 21 +0. 1809 ANO
30
2. 0
29
1. 5
28
N
N
17
17
Rsq
Rsq
0. 5816
0. 5816
Adj Rsq
Adj
Rsq
0. 5537
0. 5537
N
RMSE
RM
SE
17
0. 8001
N
0. 8001
Rsq
17
0. 5816
Rsq
Adj Rsq
0. 5816
0. 5537
Adj Rsq
RMSE
0. 5537
0. 8001
RMSE
0. 8001
1. 0
24
- 0.8 5
0.
0. 5
23
- 1. 0
22
0.0.60
- 1. 5
1962
- 0. 5
- 2. 0
0. 4
- 1. 0
24. 5
Pl ot
1964
1966
1968
1972
1974
1976
1978
ANO
25. 0
ALTO*ANO
25. 5
PRED*ANO
- 1. 5
0. 2
26. 0
26. 5
L95M*ANO
U95M*ANO
Pr edi ct ed Val ue
27. 0
L95*ANO
27. 5
U95*ANO
28. 0
- 2. 0
0. 0
1970
1962
0. 0
1964
0. 1
1966
0. 2
1968
0. 3
0. 4
1970
0.
5
ANO
1972
0. 6
1974
0. 7
1976
0. 8
0. 9
1978
1. 0
malo de
CumAnal
ul at i si
ves Dde
i st Regr
r i butesi
i on
EjNor
empl
on
Sal udos a l a CI ENCI A
Ej empl o de Anal i si s de Regr esi on
Sal udos a l a CI ENCI A
Figura 26. La primera grfica muestra la lnea de regresin con todos sus lmites de
confianza, la segunda muestra los residuales estudentizados vs. valores predichos, la
tercera muestra los mismos residuales por ao y la ltima muestra una lnea recta
inclinada bien definida, lo cual indica que existe normalidad.
Excel y Statistix efectan el mismo anlisis, pero con ciertas diferencias. Abajo
se muestran los resultados y grficas producidos por los dos programas si mayores
comentarios; observe estos resultados, compare con SAS y saque sus propias
conclusiones.
SUMMARY OUTPUT
Regression Statistics
0.762643
Multiple R
51
0.581625
R Square
12
Adjusted R
0.553733
Square
46
Standard Error 0.800095
202
58
17
Observations
ANOVA
d
f
Regressi
on
1
1
5
1
6
Residual
Total
SS
13.34911
765
9.602294
118
22.95141
176
Coefficie
nts
Intercept
X
Variable
1
Standard
Error
MS
13.349
12
0.6401
53
F
20.853
01
Significan
ce F
0.0003708
3
t Stat
P-value
Lower
95%
Upper
95%
Lower
95.0%
Upper
95.0%
330.2123
5
78.033189
79
4.2316
9
0.0007
25
496.5361
6
163.8885
5
496.5361
59
163.8885
5
0.180882
35
0.0396106
34
4.5665
1
0.0003
71
0.096454
29
0.265310
42
0.096454
29
0.265310
42
RESIDUAL OUTPUT
Observat
ion
Predicte
dY
24.67882
35
24.85970
59
25.04058
82
25.22147
06
25.40235
29
25.58323
53
7
8
9
10
11
25.76411
76
25.945
26.12588
24
26.30676
47
26.48764
Residuals
1.1411764
71
0.4902941
18
0.7505882
35
1.1714705
88
0.5123529
41
0.2332352
94
0.5341176
47
-0.885
1.0041176
47
1.0532352
94
0.1623529
Standard
Residuals
1.473076
0.632891
-0.96889
-1.51218
-0.66137
-0.30107
-0.68946
-1.14239
1.296155
1.359558
0.209572
203
16
71
26.66852
94
26.84941
18
27.03029
41
27.21117
65
27.39205
88
17
27.57294
12
12
13
14
15
41
0.4614705
88
0.6405882
35
0.0497058
82
0.2988235
29
0.1479411
76
1.3629411
76
0.595685
0.826897
0.064162
0.385733
0.190968
-1.75934
PROBABILITY
OUTPUT
Percentile
2.941176
47
8.823529
41
14.70588
24
20.58823
53
26.47058
82
32.35294
12
38.23529
41
44.11764
71
50
55.88235
29
61.76470
59
67.64705
88
73.52941
18
79.41176
47
85.29411
76
Y
24.0
5
24.2
9
24.8
9
25.0
6
25.2
3
25.3
5
25.3
5
25.8
2
26.2
1
26.6
5
27.0
8
27.1
3
27.1
3
27.3
6
27.4
9
204
91.17647
06
97.05882
35
27.5
1
27.5
4
Statistix
Unweighted Least Squares Linear Regression of Alto
Predictor
Variables
Coefficient
Std Error
205
Constant
Ano
-330.212
0.18088
R-Squared
Adjusted R-Squared
Source
Regression
Residual
Total
DF
1
15
16
Cases Included 17
0.5816
0.5537
SS
13.3491
9.6023
22.9514
78.0332
0.03961
-4.23
4.57
0.0007
0.0004
F
20.85
Missing Cases 0
206
P
0.0004
0.64015
0.80010
ID
CRIM
ASE
METROP
BLANCOS
GRADUADOS
AK
AL
AR
POBREZA
SOLTEROS
761
41.8
75.2
780
11.6
67.4
73.5
86.6
9.1
14.3
66.9
17.4
593
10.2
44.7
11.5
82.9
66.3
20
10.7
AZ
715
8.6
84.7
88.6
78.7
15.4
12.1
CA
1078
13.1
96.7
79.3
76.2
18.2
12.5
CO
567
5.8
81.8
92.5
84.4
9.9
12.1
CT
456
6.3
95.7
89
79.2
8.5
10.1
DE
686
82.7
79.4
77.5
10.2
11.4
FL
1206
8.9
93
83.5
74.4
17.8
10.6
GA
10
723
11.4
67.7
70.8
70.9
13.5
13
HI
11
261
3.8
74.7
40.9
80.1
9.1
IA
12
326
2.3
43.8
96.6
80.1
10.3
ID
13
282
2.9
30
96.7
79.7
13.1
9.5
IL
14
960
11.4
84
81
76.2
13.6
11.5
IN
15
489
7.5
71.6
90.6
75.6
12.2
10.8
208
KS
16
496
6.4
54.6
90.9
81.3
13.1
9.9
KY
17
463
6.6
48.5
91.8
64.6
20.4
10.6
LA
18
1062
20.3
75
66.7
68.3
26.4
14.9
10.9
MA
19
805
3.9
96.2
91.1
80
10.7
MD
20
998
12.7
92.8
68.9
78.4
9.7
12
ME
21
126
1.6
35.7
98.5
78.8
10.7
10.6
MI
22
792
9.8
82.7
83.1
76.8
15.4
13
MN
23
327
3.4
69.3
94
82.4
11.6
9.9
MO
24
744
11.3
68.3
87.6
73.9
16.1
10.9
MS
25
434
13.5
30.7
63.3
64.3
24.7
14.7
MT
26
178
24
92.6
81
14.9
10.8
NC
27
679
11.3
66.3
75.2
70
14.4
11.1
ND
28
82
1.7
41.6
94.2
76.7
11.2
8.4
NE
29
339
3.9
50.6
94.3
81.8
10.3
9.4
NH
30
138
59.4
98
82.2
9.9
9.2
NJ
31
627
5.3
100
80.8
76.7
10.9
9.6
NM
32
930
56
87.1
75.1
17.4
13.8
NV
33
875
10.4
84.8
86.7
78.8
9.8
12.4
NY
34
1074
13.3
91.7
77.2
74.8
16.4
12.7
OH
35
504
81.3
87.5
75.7
13
11.4
OK
36
635
8.4
60.1
82.5
74.6
19.9
11.1
OR
37
503
4.6
70
93.6
81.5
11.8
11.3
PA
38
418
6.8
84.8
88.7
74.7
13.2
9.6
RI
39
402
3.9
93.6
92.6
72
11.2
10.8
SC
40
1023
10.3
69.8
68.6
68.3
18.7
12.3
SD
41
208
3.4
32.6
90.2
77.1
14.2
9.4
TN
42
766
10.2
67.7
82.8
67.1
19.6
11.2
11.8
TX
43
762
11.9
83.9
85.1
72.1
17.4
UT
44
301
3.1
77.5
94.8
85.1
10.7
10
VA
45
372
8.3
77.5
77.1
75.2
9.7
10.3
VT
46
114
3.6
27
98.4
80.8
10
11
WA
47
515
5.2
83
89.4
83.8
12.1
11.7
10.4
WI
48
264
4.4
68.1
92.1
78.6
12.6
WV
49
208
6.9
41.8
96.3
66
22.2
9.4
WY
50
286
3.4
29.7
95.9
83
13.3
10.8
DC
51
2922
78.5
100
31.8
73.1
26.4
22.1
209
AR
3
593
10.2 44.7 82.9 66.3 20
10.7
AZ
4
715
8.6
84.7 88.6 78.7 15.4 12.1
CA
5
1078 13.1 96.7 79.3 76.2 18.2 12.5
CO
6
567
5.8
81.8 92.5 84.4 9.9
12.1
CT
7
456
6.3
95.7 89
79.2 8.5
10.1
DE
8
686
5
82.7 79.4 77.5 10.2 11.4
FL
9
1206 8.9
93
83.5 74.4 17.8 10.6
GA
10
723
11.4 67.7 70.8 70.9 13.5 13
HI
11
261
3.8
74.7 40.9 80.1 8
9.1
IA
12
326
2.3
43.8 96.6 80.1 10.3 9
ID
13
282
2.9
30
96.7 79.7 13.1 9.5
IL
14
960
11.4 84
81
76.2 13.6 11.5
IN
15
489
7.5
71.6 90.6 75.6 12.2 10.8
KS
16
496
6.4
54.6 90.9 81.3 13.1 9.9
KY
17
463
6.6
48.5 91.8 64.6 20.4 10.6
LA
18
1062 20.3 75
66.7 68.3 26.4 14.9
MA
19
805
3.9
96.2 91.1 80
10.7 10.9
MD
20
998
12.7 92.8 68.9 78.4 9.7
12
ME
21
126
1.6
35.7 98.5 78.8 10.7 10.6
MI
22
792
9.8
82.7 83.1 76.8 15.4 13
MN
23
327
3.4
69.3 94
82.4 11.6 9.9
MO
24
744
11.3 68.3 87.6 73.9 16.1 10.9
MS
25
434
13.5 30.7 63.3 64.3 24.7 14.7
MT
26
178
3
24
92.6 81
14.9 10.8
NC
27
679
11.3 66.3 75.2 70
14.4 11.1
ND
28
82
1.7
41.6 94.2 76.7 11.2 8.4
NE
29
339
3.9
50.6 94.3 81.8 10.3 9.4
NH
30
138
2
59.4 98
82.2 9.9
9.2
NJ
31
627
5.3
100
80.8 76.7 10.9 9.6
NM
32
930
8
56
87.1 75.1 17.4 13.8
NV
33
875
10.4 84.8 86.7 78.8 9.8
12.4
NY
34
1074 13.3 91.7 77.2 74.8 16.4 12.7
OH
35
504
6
81.3 87.5 75.7 13
11.4
OK
36
635
8.4
60.1 82.5 74.6 19.9 11.1
OR
37
503
4.6
70
93.6 81.5 11.8 11.3
PA
38
418
6.8
84.8 88.7 74.7 13.2 9.6
RI
39
402
3.9
93.6 92.6 72
11.2 10.8
SC
40
1023 10.3 69.8 68.6 68.3 18.7 12.3
SD
41
208
3.4
32.6 90.2 77.1 14.2 9.4
TN
42
766
10.2 67.7 82.8 67.1 19.6 11.2
TX
43
762
11.9 83.9 85.1 72.1 17.4 11.8
UT
44
301
3.1
77.5 94.8 85.1 10.7 10
VA
45
372
8.3
77.5 77.1 75.2 9.7
10.3
VT
46
114
3.6
27
98.4 80.8 10
11
WA
47
515
5.2
83
89.4 83.8 12.1 11.7
WI
48
264
4.4
68.1 92.1 78.6 12.6 10.4
WV
49
208
6.9
41.8 96.3 66
22.2 9.4
WY
50
286
3.4
29.7 95.9 83
13.3 10.8
DC
51
2922 78.5 100
31.8 73.1 26.4 22.1
;
PROC PRINT;
RUN;
PROC INSIGHT DATA=CRIMEN;
SCATTER CRIM METROP POBREZA SOLTEROS*CRIM METROP POBREZA SOLTEROS;
RUN;
210
QUIT;
2922
CRI M
82
100. 0
METROP
24. 0
26. 4
POBREZA
8. 0
22. 1
SOLTEROS
8. 4
211
3000
DC
2000
FL
1000
OK
AR
W
IYD
MT
VT
NE
IA
SD
OR I N
KS
KY
MS
WI
WV
ND
ME
IL
NV
MI TX
DE AZ
CO
OH WA
PA
AL
TN
GM
AO
NC
AK
MN
HI
VA
UT
CA
NY
MD
LA
SC
NM
MA
NJ
RI
CT
NH
0
20
30
40
50
60
70
80
90
100
METROP
3000
DC
2000
FL
1000
AK
CT
IL
MA
DE
CO
NM
GA
ORW
IAN
NH
VT
ME ND
10
11
MI
AZ
NC
NJ
RI
VA NE
I A UT
MN
HI
CA
NY
MD
NV
AL
TX
MO
LA
SC
TN
OAR
K
OKS
H
PA
WY
WI I D
KY
SD
MS
WV
MT
0
8
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
POBREZA
3000
DC
2000
FL
1000
ND
CANY
SC
I L MD
NV
MA TNAL
MI
TX
MO
GA
AZ
NC DE
NJ
AR OK
CO
W
A
RH
KSCT KYI N OO
PA
RI
I A NE MUT
N VA
WI WY
HI I D
SD
W
V
MT
NH
ME VT
LA
NM
AK
MS
0
8
10
11
12
13
14
15
16
SOLTEROS
212
17
18
19
20
21
22
23
51
51
Analysis of Variance
Sum of
Mean
Source
DF
Squares
Square F Value
8170480
2723493
82.16 <.0001
Error
33149
Corrected Total
50
9728475
Root MSE
182.06818
R-Square
213
Pr > F
47
0.8399
Model
1557995
Dependent Mean
612.84314
Coeff Var
29.70877
Adj R-Sq
0.8296
t Value
Pr > |t|
Parameter Estimates
Variable
Parameter
Standard
DF
Estimate
Error
Intercept
1 -1666.43592
METROP
1
7.82893
POBREZA
1
17.68024
SOLTEROS
1
132.40805
147.85196
-11.27
<.0001
1.25470
6.24
<.0001
6.94093
2.55
0.0142
15.50322
8.54
<.0001
-----Highest-----
Obs
Value
25
18
39
47
35
Obs
1.15170
1.29348
1.58964
2.61952
3.76585
1
214
14
13
12
9
51
Boxplot
3
26
1
2
16
1
1 000123
0 5566788
0 1111333344
-0 4433210
-0 9976655555
-1 31100
-1 87
2
-2
-2
-3
-3 6
1
----+----+----+----+
0
|
6
7
|
+-----+
*--+--*
|
|
+-----+
|
10
7
10
|
215
ESTADO
MS
LA
RI
WA
OH
WI
CO
MI
AZ
UT
-3.57079
-1.83858
-1.68560
-1.30392
-1.14833
-1.12934
-1.04495
-1.02273
-0.86991
-0.85205
ESTADO
MO
MD
NE
SC
KS
IL
ID
IA
FL
DC
0.82117
1.01299
1.02887
1.03034
1.07672
1.15170
1.29348
1.58964
2.61952
3.76585
1 -3.57079
50
2.61952
51
3.76585
CRIM
434
1206
2922
METROP
POBREZA
30.7
24.7
93.0
17.8
100.0
26.4
216
SOLTEROS
14.7
10.6
22.1
------Highest-----
Obs
0.0200613
0.0241210
0.0242659
0.0276638
0.0287552
Value
38
6
22
17
5
Obs
0.165277
0.180200
0.191012
0.260676
0.536383
2
15
1
32
51
Imprimamos ahora todos los leverages en orden alfabtico y ver a que estados
corresponden los valores extremos. El programa es el siguiente y los resultados se
muestran en la Tabla 134.
PROC SORT DATA=CRIMENESRES;
BY LEV;
RUN;
PROC PRINT DATA=CRIMENESRES(FIRSTOBS=1 OBS=51);
VAR LEV ESTADO;
RUN;
LEV
0.02006
0.02412
0.02427
0.02766
0.02876
0.02925
0.03083
0.03136
0.03209
0.03223
0.03381
ESTADO
NC
WI
IN
OR
OH
MO
MN
IL
AL
KS
AZ
217
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
0.03518
0.03744
0.03844
0.03943
0.04270
0.04536
0.04540
0.04649
0.04719
0.04914
0.04996
0.05680
0.06022
0.06136
0.06185
0.06270
0.06277
0.06397
0.06449
0.06747
0.07151
0.07217
0.07309
0.07621
0.07647
0.08167
0.08268
0.08511
0.08514
0.08538
0.09114
0.09478
0.09983
0.10220
0.13626
0.16528
0.18020
0.19101
0.26068
0.53638
WA
MI
UT
SC
VA
GA
NH
TX
DE
NE
NY
RI
PA
CO
NM
HI
IA
TN
MA
OK
NV
ND
MD
SD
CA
ID
CT
WY
ME
AR
KY
NJ
MT
FL
VT
LA
WV
MS
AK
DC
Obs
47
48
49
50
51
ESTADO
LA
WV
MS
AK
DC
CRIM
1062
208
434
761
2922
METROP
75.0
41.8
30.7
41.8
100.0
POBREZA
26.4
22.2
24.7
9.1
26.4
SOLTEROS
14.9
9.4
14.7
14.3
22.1
Como podemos ver, DC es una observacin que tiene tanto un gran residual
como un gran leverage. Tales puntos son potencialmente los ms influyentes. Podemos
efectuar una grfica que muestre los leverages vs los residuales al cuadrado y observar
los datos que estn muy cercanos a partir de estas dos medidas. Esta es una forma
rpida de chequear observaciones potencialmente influyentes y outliers al mismo
tiempo. Ambos tipos de puntos son de gran importancia para nosotros. El programa es
el siguiente y la grfica se muestra en la Figura 29.
PROC SQL;
CREATE TABLE CRIMENESRES5 AS SELECT *, R**2/SUM(R) AS RSQUARED FROM
CRIMENESRES;
QUIT;
GOPTIONS RESET=ALL;
AXIS1 LABEL=(R=0 A=90);
SYMBOL1 POINTLABEL=("#ESTADO") FONT=SIMPLEX VALUE=NONE;
PROC GPLOT DATA=CRIMENESRES5;
PLOT LEV*RSQUARED/VAXIS=AXIS1;
RUN;
QUIT;
219
0. 6
DC
0. 5
0. 4
0. 3
0. 2
AK
MS
WV
LA
VT
0. 1
M
NJT
KY
WE
M
YCTAR
ID
CA
SD
D
NV
O
K
M
AND M
TN
HI
NM
CO
PA
NY
NE
D
E
TX
G
NH
A
VA UT
SC
IO
IIH
L WA
MR
N MAZ
O MKS
O
IAL
N
W
NC
FL
I A RI
0. 0
0
10
11
12
13
14
15
16
RSQUARED
ESTADO
MS
DC
CRIM
434
2922
METROP
30.7
100.0
POBREZA
24.7
26.4
SOLTEROS
14.7
22.1
ESTADO
FL
LA
MS
DC
CD
CRIM
0.17363 1206
0.15926 1062
0.60211
434
3.20343 2922
METROP
93.0
75.0
30.7
100.0
POBREZA
17.8
26.4
24.7
26.4
SOLTEROS
10.6
14.9
14.7
22.1
ESTADO
FL
LA
MS
DC
DFFIT
CRIM
0.88382 1206
-0.81812 1062
-1.73510
434
4.05061 2922
METROP
93.0
75.0
30.7
100.0
POBREZA
17.8
26.4
24.7
26.4
SOLTEROS
10.6
14.9
14.7
22.1
Estos resultados tambin nos indican que DC es el valor con mayor influencia.
Las medidas anteriores son medidas generales de influencia. Podemos tambin
considerar medidas de influencia ms especficas que evalan cmo cada coeficiente
cambia eliminando la observacin. Esta medida se denomina DFBETA y se crea para
cada una de las variables independientes. Veamos cmo podemos obtener estas
medidas con SAS. En SAS debemos usar los comandos ODS OUTPUT
OUTSTATISTICS para producer los DFBETA para cada una de las variables
independientes. Los nombres para cada nueva variable creada los escoge SAS
automticamente y comienzan con DFB_. Los comandos necesarios son los siguientes
y los resultados se muestran en la Tabla 139.
PROC REG DATA=CRIMEN;
MODEL CRIM=METROP POBREZA SOLTEROS/INFLUENCE;
ODS OUTPUT OUTPUTSTATISTICS=CRIMENESDFBETAS;
ID ESTADO;
221
RUN;
QUIT;
-------------------DFBETAS------------------ESTADO
Intercept
METROP
POBREZA
AK
AL
AR
AZ
CA
CO
CT
DE
FL
GA
-0.0156
0.0006
0.0670
0.0520
-0.0073
0.0298
-0.0334
0.0004
-0.0334
0.0333
-0.1062
0.0124
-0.0687
-0.0948
0.0126
-0.0371
-0.1202
0.0056
0.6418
0.0317
SOLTEROS
-0.1313
0.1452
0.0553
-0.0275
0.1753
-0.1053
-0.0309
0.0012
0.0088
-0.0036
0.1939
-0.1385
0.0745
0.0302
-0.0114
0.0052
0.5959
-0.5606
0.0643
-0.0912
Vemos que el DFB_SOLTEROS para Alaska (AK) es 0,1452, lo cual significa que
al ser incluida esta variable en el anlisis, aumenta el coeficiente para SOLTEROS en
0,1452 errores estndares. Debido a que la inclusin de una observacin pudiera
contribuir a aumentar o disminuir un coeficiente de regresin, los DFBETA pueden ser
positivos o negativos. Un DFBETA cuyo valor exceda 2 / n amerita una investigacin
ms profunda. En este ejemplo nos preocuparemos con valores absolutos mayores a
2 / 51 0, 280056 .
Podemos graficar los tres valores de DFBETA contra el ID de cada estado, y
aadir una lnea en 0,280056 y -0,280056 para ayudarnos a ver las observaciones
potencialmente problemticas. Eso lo logramos con los siguiente comandos, y la
grfica se muestra en la Figura 30.
DATA CRIMENESDFBETAS1;
SET CRIMENESDFBETAS;
RENAME HATDIAGONAL=LEV;
RUN;
PROC SORT DATA=CRIMENESDFBETAS1;
BY LEV;
PROC SORT DATA=CRIMENESRES;
BY LEV;
RUN;
DATA CRIMENESBETAS2;
MERGE CRIMENESRES CRIMENESDFBETAS1;
BY LEV;
RUN;
GOPTIONS RESET=ALL;
SYMBOL1 V=CIRCLE C=RED;
SYMBOL2 V=PLUS C=GREEN;
SYMBOL3 V=STAR C=BLUE;
AXIS1 ORDER=(1 51);
AXIS2 ORDER=(-1 TO 3.5 BY 0.5);
PROC GPLOT DATA=CRIMENESBETAS2;
222
3. 0
2. 5
2. 0
1. 5
1. 0
0. 5
0. 0
- 0. 5
- 1. 0
1
51
ID
223
DC
3
MS
1
FL
FL
CO
AR
AL AZCA CT
AL
ALARAZ COCTDE
AK AR
COCT
AK
0
WV DC
VT
IL
ME
E
MAMDM
TN
MO
RI SC
G
NJ NMNV
MT
VAVTWAW
I
NYO
GA
AHI I DI LI NKSKY
O M
OH
HOKO
SC
NHNJ
TNTXUTVA
Y
IM
W
NY
OR
RPA
MN
NM
TNCND
KYLAMA MEM
SCSD
WII WVW
W
VAVTW
NE
NJ NMNV
PA
I
D
SD
TN
A
M
O
UT
KS
NV
TX
M
I
ND
PA
WY
YDC
GA II A
NE
O
H
W
A
A
LA MD
SD
IA
WV
ID
RI
FL
MS
MS
LA
-1
0
10
20
30
40
50
60
ID
Figura 31. Valores de DFBETA mostrando valores extremos asociados con sus
respectivos estados.
Imprimamos ahora las observaciones con DFB_SOLTEROS mayores que el
valor de corte. Veremos, una vez ms, que DC es la observacin ms problemtica.
Los comandos que ejecutan la accin son los siguientes; los resultados se muestran en
la Tabla 140.
PROC PRINT DATA=CRIMENESBETAS2;
WHERE ABS(DFB_SOLTEROS)>2/SQRT(51);
VAR DFB_SOLTEROS ESTADO CRIM METROP POBREZA SOLTEROS;
RUN;
DFB_
SOLTEROS
-0.5606
-0.5680
3.1391
ESTADO
FL
MS
DC
1206
434
2922
CRIM
METROP
93.0
30.7
100.0
17.8
24.7
26.4
POBREZA
SOLTEROS
10.6
14.7
22.1
En la Tabla 141 se resumen las reglas generales que se usan para estas
medidas con la finalidad de identificar observaciones que merecen un escrutinio
detallado (k = nmero de variables independientes, n = nmero de observaciones).
224
Tabla 141. Reglas generales que se usan para identificar observaciones que
merecen un escrutinio detallado (k = nmero de variables independientes, n = nmero
de observaciones).
Medida
Leverage
Cooks D
ABS(DFITS)
ABS(DFBETA)
Valor
>(2k+2)/n
>4n
>2 k /n
>2/ n
Sum of
Mean
DF
Squares
Square F Value Pr > F
3
8170480
2723493
82.16 <.0001
47
1557995
33149
50
9728475
Root MSE
182.06818 R-Square
0.8399
Dependent Mean
612.84314 Adj R-Sq
0.8296
Coeff Var
29.70877
Parameter Estimates
Variable
Parameter
Standard
DF
Estimate
Error
Intercept
1 -1666.43592
METROP
1
7.82893
POBREZA
1
17.68024
SOLTEROS
1
132.40805
t Value
Pr > |t|
147.85196
-11.27
<.0001
1.25470
6.24
<.0001
6.94093
2.55
0.0142
15.50322
8.54
<.0001
225
Sum of
Mean
DF
Squares
Square F Value Pr > F
3
3098767
1032922
39.90 <.0001
46
1190858
25888
49
4289625
Root MSE
160.89817 R-Square
0.7224
Dependent Mean
566.66000 Adj R-Sq
0.7043
Coeff Var
28.39413
Parameter Estimates
Variable
Parameter
Standard
DF
Estimate
Error
Intercept
1 -1197.53808
METROP
1
7.71233
POBREZA
1
18.28265
SOLTEROS
1
89.40078
t Value
180.48740
1.10924
6.13596
17.83621
Pr > |t|
-6.64
<.0001
6.95
<.0001
2.98
0.0046
5.01
<.0001
--Statistic---
-----p Value------
Shapiro-Wilk
W
0.984776 Pr < W
0.7619
Kolmogorov-Smirnov D
0.079695 Pr > D
>0.1500
Cramer-von Mises
W-Sq 0.062627 Pr > W-Sq >0.2500
Anderson-Darling
A-Sq 0.362635 Pr > A-Sq >0.2500
227
600
400
R
e
s
i
d
u
a
l
200
- 200
- 400
-3
-2
-1
Estimate
100% Max
413.2115
99%
413.2115
95%
232.9490
90%
192.0894
75% Q3
123.5553
50% Median
-7.4183
25% Q1
-126.0600
10%
-185.5590
5%
-223.8014
1%
-371.0036
0% Min
-371.0036
La regla para los quantiles es que los valores que excedan 3 veces el primero y
tercer quantil son valores sospechosos. El primer quantil (Q1) es -126,0600 y el tercer
quantil (Q3) es 123,5553; lo que indica que cualquier valor mayor a 3*-126,0600 (378,18) o 3*123,5553 (370,6659) seran dudosos. Observamos que no existe ningn
228
valor por encima de -378,18, mientras que existe un valor (413,211) superior a
370,6659. Esto tambin se observa en el QQPLOT. En base a estos resultados,
podemos asumir que los residuales del modelo se acercan a la distribucin normal.
Una de las principales premisas del anlisis de regresin es la homogeneidad de
varianzas de los residuales. Si el modelo ajusta satisfactoriamente los datos, no
debera haber patrn alguno cuando se grafican los residuales contra los valores fijos.
Si la varianza de los residuales no es constante, entonces se dice que existe
heteroscedasticidad (heterogeneidad). Existen mtodos grficos y no grficos para
detectar heteroscedasticidad. Un mtodo grfico comnmente usado es la grfica que
representa los residuales contra los valores fijados (predichos). Los comandos de abajo
calculan la ecuacin de regresin estudiada y produce la figura de los residuales
estudentizados vs. valores predichos (Figura 33).
PROC REG DATA=CRIMEN;
MODEL CRIM=METROP POBREZA SOLTEROS/CLM CLI;
WHERE ESTADO NE "DC";
PLOT STUDENT.*PREDICTED.;
PLOT STUDENT.*NPP.;
RUN;
QUIT;
CRI M = - 1197. 5 +7. 7123 METROP +18. 283 POBREZA +89. 401 SOLTEROS
3
N
50
Rsq
0. 7224
Adj Rsq
0. 7043
1
RMSE
160. 9
-1
-2
-3
0
100
200
300
400
500
600
700
800
900
1000
1100
1200
Pr edi ct ed Val ue
Chi-Square
6.07
Pr > ChiSq
0.7328
230
QUIT;
231
NE
29
339
3.9
50.6 94.3 81.8 10.3 9.4
NH
30
138
2
59.4 98
82.2 9.9
9.2
NJ
31
627
5.3
100
80.8 76.7 10.9 9.6
NM
32
930
8
56
87.1 75.1 17.4 13.8
NV
33
875
10.4 84.8 86.7 78.8 9.8
12.4
NY
34
1074 13.3 91.7 77.2 74.8 16.4 12.7
OH
35
504
6
81.3 87.5 75.7 13
11.4
OK
36
635
8.4
60.1 82.5 74.6 19.9 11.1
OR
37
503
4.6
70
93.6 81.5 11.8 11.3
PA
38
418
6.8
84.8 88.7 74.7 13.2 9.6
RI
39
402
3.9
93.6 92.6 72
11.2 10.8
SC
40
1023 10.3 69.8 68.6 68.3 18.7 12.3
SD
41
208
3.4
32.6 90.2 77.1 14.2 9.4
TN
42
766
10.2 67.7 82.8 67.1 19.6 11.2
TX
43
762
11.9 83.9 85.1 72.1 17.4 11.8
UT
44
301
3.1
77.5 94.8 85.1 10.7 10
VA
45
372
8.3
77.5 77.1 75.2 9.7
10.3
VT
46
114
3.6
27
98.4 80.8 10
11
WA
47
515
5.2
83
89.4 83.8 12.1 11.7
WI
48
264
4.4
68.1 92.1 78.6 12.6 10.4
WV
49
208
6.9
41.8 96.3 66
22.2 9.4
WY
50
286
3.4
29.7 95.9 83
13.3 10.8
DC
51
2922 78.5 100
31.8 73.1 26.4 22.1
;
PROC PRINT;
RUN;
PROC INSIGHT DATA=CRIMEN;
SCATTER CRIM METROP POBREZA SOLTEROS*CRIM METROP POBREZA SOLTEROS;
RUN;
GOPTIONS RESET=ALL;
AXIS1 LABEL=(R=0 A=90);
SYMBOL1 POINTLABEL=("#ESTADO") FONT=SIMPLEX VALUE=NONE;
PROC GPLOT DATA=CRIMEN;
PLOT CRIM*METROP=1/VAXIS=AXIS1;
PLOT CRIM*POBREZA=1/VAXIS=AXIS1;
PLOT CRIM*SOLTEROS=1/VAXIS=AXIS1;
RUN;
QUIT;
PROC REG DATA=CRIMEN;
MODEL CRIM=METROP POBREZA SOLTEROS;
OUTPUT OUT=CRIMENESRES(KEEP=ID ESTADO CRIM METROP POBREZA SOLTEROS R LEV CD
DFFIT) RSTUDENT=R H=LEV COOKD=CD DFFITS=DFFIT;
RUN;
QUIT;
PROC UNIVARIATE DATA=CRIMENESRES PLOTS PLOTSIZE=30;
VAR R;
RUN;
PROC SORT DATA=CRIMENESRES;
BY R;
RUN;
PROC PRINT DATA=CRIMENESRES(OBS=10);
VAR ESTADO R;
RUN;
PROC PRINT DATA=CRIMENESRES(FIRSTOBS=42 OBS=51);
VAR ESTADO R;
232
RUN;
PROC PRINT DATA=CRIMENESRES;
VAR R CRIM METROP POBREZA SOLTEROS;
WHERE ABS(R)>2;
RUN;
PROC UNIVARIATE DATA=CRIMENESRES PLOTS PLOTSIZE=30;
VAR LEV;
RUN;
PROC SORT DATA=CRIMENESRES;
BY LEV;
RUN;
PROC PRINT DATA=CRIMENESRES(FIRSTOBS=1 OBS=51);
VAR LEV ESTADO;
RUN;
PROC PRINT DATA=CRIMENESRES;
VAR ESTADO CRIM METROP POBREZA SOLTEROS;
WHERE LEV>0.156;
RUN;
PROC SQL;
CREATE TABLE CRIMENESRES5 AS SELECT *, R**2/SUM(R) AS RSQUARED FROM
CRIMENESRES;
QUIT;
GOPTIONS RESET=ALL;
AXIS1 LABEL=(R=0 A=90);
SYMBOL1 POINTLABEL=("#ESTADO") FONT=SIMPLEX VALUE=NONE;
PROC GPLOT DATA=CRIMENESRES5;
PLOT LEV*RSQUARED/VAXIS=AXIS1;
RUN;
QUIT;
PROC PRINT DATA=CRIMEN;
WHERE ESTADO="DC" OR ESTADO="MS";
VAR ESTADO CRIM METROP POBREZA SOLTEROS;
RUN;
PROC PRINT DATA=CRIMENESRES;
WHERE CD>(4/51);
VAR ESTADO CD CRIM METROP POBREZA SOLTEROS;
RUN;
PROC PRINT DATA=CRIMENESRES;
WHERE ABS(DFFIT)>(2*SQRT(3/51));
VAR ESTADO DFFIT CRIM METROP POBREZA SOLTEROS;
RUN;
PROC REG DATA=CRIMEN;
MODEL CRIM=METROP POBREZA SOLTEROS/INFLUENCE;
ODS OUTPUT OUTPUTSTATISTICS=CRIMENESDFBETAS;
ID ESTADO;
RUN;
QUIT;
DATA CRIMENESDFBETAS1;
SET CRIMENESDFBETAS;
RENAME HATDIAGONAL=LEV;
RUN;
PROC SORT DATA=CRIMENESDFBETAS1;
BY LEV;
PROC SORT DATA=CRIMENESRES;
BY LEV;
233
RUN;
DATA CRIMENESBETAS2;
MERGE CRIMENESRES CRIMENESDFBETAS1;
BY LEV;
RUN;
GOPTIONS RESET=ALL;
SYMBOL1 V=CIRCLE C=RED;
SYMBOL2 V=PLUS C=GREEN;
SYMBOL3 V=STAR C=BLUE;
AXIS1 ORDER=(1 51);
AXIS2 ORDER=(-1 TO 3.5 BY 0.5);
PROC GPLOT DATA=CRIMENESBETAS2;
PLOT DFB_METROP*ID=1 DFB_POBREZA*ID=2 DFB_SOLTEROS*ID=3/OVERLAY HAXIS=AXIS1
VAXIS=AXIS2 VREF=-0.28 0.28;
RUN;
GOPTIONS RESET=ALL;
AXIS1 LABEL=(R=0 A=90);
SYMBOL1 POINTLABEL=("#ESTADO") FONT=SIMPLEX VALUE=NONE;
PROC GPLOT DATA=CRIMENESBETAS2;
PLOT DFB_METROP*ID DFB_POBREZA*ID DFB_SOLTEROS*ID/OVERLAY VAXIS=AXIS1 VREF=0.28 0.28;
RUN;
QUIT;
PROC PRINT DATA=CRIMENESBETAS2;
WHERE ABS(DFB_SOLTEROS)>2/SQRT(51);
VAR DFB_SOLTEROS ESTADO CRIM METROP POBREZA SOLTEROS;
RUN;
PROC REG DATA=CRIMEN;
MODEL CRIM=METROP POBREZA SOLTEROS;
RUN;
QUIT;
PROC REG DATA=CRIMEN;
MODEL CRIM=METROP POBREZA SOLTEROS;
WHERE ESTADO NE "DC";
RUN;
QUIT;
PROC REG DATA=CRIMEN;
MODEL CRIM=METROP POBREZA SOLTEROS;
WHERE ESTADO NE "DC";
OUTPUT OUT=CRIMENESRES1 RESIDUAL=R;
RUN;
QUIT;
PROC UNIVARIATE NORMAL DATA=CRIMENESRES1;
VAR R;
QQPLOT R / NORMAL (MU=EST SIGMA=EST);
RUN;
QUIT;
PROC REG DATA=CRIMEN;
MODEL CRIM=METROP POBREZA SOLTEROS/CLM CLI;
WHERE ESTADO NE "DC";
PLOT STUDENT.*PREDICTED.;
PLOT STUDENT.*NPP.;
RUN;
QUIT;
PROC REG DATA=CRIMEN;
234
Regresin mltiple 2
En la sesin anterior vimos cmo determinar problemas con nuestro modelo de
regresin una vez que lo hemos encontrado. Ahora veremos cules son los pasos para
encontrar el mejor modelo que ajuste nuestros datos. En esta parte usaremos otros
datos (pueden usarse los anteriores, pero prefiero la diversidad) relacionados con
captura por unidad de esfuerzo (CPUE; nmero de ind/juego de redes de ahorque).
Queremos saber si algunas variables fisicoqumicas y biolgicas pueden predecir la
CPUE de rbalo (Centropomus undecimalis) en el sistema de lagunas de la Reserva
Natural de Humacao, Puerto Rico. Las variables son las siguientes: ROB (CPUE de
rbalo), SAB (CPUE de sbalo; Megalops atlanticus), TIL (CPUE de tilapia; tilapia
Mozambique, Oreochromis mossambicus y tilapia pecho rojo, Tilapia rendalli), SEC
(transparencia al disco de Secchi en m), TAG (temperatura del agua en C), OD
(oxgeno disuelto en mg/l), SAL (salinidad en UPS), PRO (profundidad en m), VIE
(velocidad del viento en nudos), PRE (presin baromtrica en mmHg), TAI (temperatura
del aire en C), PRC (precipitacin en pulgadas), JUT (CPUE de juveniles de tilapia) y
CAM (CPUE de camarones Palaemonetes sp.). Los datos se muestran en la Tabla 148.
Tabla 148. Valores de CPUE y variables fisicoqumicas.
ROB
SAB
TIL
SEC
TAG
OD
SAL
PRO
VIE
PRE
TAI
PRC
JUT
0.67
0.33
2.67
0.21
27.6
1.63
4.97
0.69
1.39
26.1
763.7
0.75
23
1.33
0.21
27.6
1.63
4.97
0.69
10
1.80
27.2
762.9
0.75
23
0.67
0.82
27.3
3.38
3.46
0.82
11
27.8
763.2
14
29
2.33
1.33
1.67
0.24
29.2
3.05
5.68
0.44
0.15
27.2
762.2
131.25
0.17
0.18
27.5
2.71
9.99
0.23
0.91
28.3
762.7
13.7
18.7
0.33
1.67
0.21
29.5
2.65
10.10
0.29
0.05
26.7
762.5
37.4
0.33
3.67
4.33
0.51
28.9
3.42
3.88
0.51
15
27.8
761.4
24
0.33
0.23
29.2
4.59
8.21
0.27
0.03
28.3
761.8
21.7
0.17
0.17
0.30
28.7
4.26
3.43
0.48
2.11
28.3
761.1
0.33
1.67
0.33
27.8
3.86
4.03
0.46
0.03
28.3
761.1
0.33
1.67
0.43
29.1
4.16
1.72
0.70
26.7
760
0.33
0.30
28.7
4.37
2.58
0.50
0.03
26.7
760
0.33
27.8
3.86
4.03
0.46
0.25
27.2
761.1
0.67
1.67
2.33
0.99
25.5
4.03
2.80
1.10
10
0.28
25
764.4
0.25
243.75
4.5
0.75
25.3
0.05
2.10
0.80
25.6
763.6
0.33
0.67
0.33
25.4
5.04
11.90
1.10
11
0.81
25
765.3
0.25
12.5
235
CAM
0.17
0.35
25.8
5.40
12.00
1.20
12
0.03
25.6
765.9
0.33
0.33
0.52
25.7
7.40
6.30
1.00
0.02
24.4
765
0.83
1.17
1.10
24.6
5.84
3.30
1.50
25
763.8
112.75
5.5
7.5
0.51
25.4
3.02
2.60
0.60
0.97
25.6
764.2
0.5
130
0.17
0.83
0.85
26.9
5.00
3.80
0.90
0.58
25
763.1
112.75
1.4
7.4
0.52
24.3
3.61
3.00
0.70
12
25
763.3
0.5
130
0.33
1.67
0.34
25.1
8.26
11.40
1.30
10
23.9
762.1
0.33
0.67
0.32
25.7
8.03
11.40
0.90
0.48
23.9
761.4
0.25
12.5
0.17
0.5
0.44
25.5
7.03
7.60
1.10
0.38
23.3
761.2
4.25
1.17
0.38
28.6
4.86
11.70
1.50
10
26.1
763.9
0.25
2.8
0.40
27.3
2.34
11.80
1.30
10
0.28
25.6
763.3
0.5
0.17
2.17
0.37
27.7
3.87
7.70
1.20
25.6
765.1
4.25
0.17
0.67
0.98
28.0
7.02
4.60
0.98
10
0.15
25
764.1
49.25
0.5
1.17
8.33
0.45
29.1
7.53
3.60
0.60
0.41
25
762.7
0.25
42.5
0.17
0.40
28.2
9.31
9.90
1.50
1.30
25.6
762
0.25
8.67
0.33
28.6
8.55
10.10
1.20
25
762.2
3.33
0.35
29.4
5.66
7.42
0.90
0.03
25.6
762.1
4.25
1.6
0.80
29.2
4.99
4.60
1.20
0.10
26.1
762.9
49.25
0.33
7.83
1.10
28.9
5.78
3.30
0.70
10
0.20
25.6
763
0.25
42.5
8.17
0.35
29.1
6.13
10.30
1.20
10
25.6
761.9
22.25
8.83
0.30
27.8
4.02
10.30
1.15
1.78
25.6
761.8
0.17
21.3
0.67
0.5
0.30
27.5
5.06
7.40
0.90
10
26.1
762.7
0.5
0.17
3.833
1.10
27.9
3.48
4.50
1.10
10
0.31
26.1
764.3
56.5
0.67
0.70
26.7
4.98
3.60
0.70
11
25.6
764.1
2.5
83.25
0.69
1.39
26.1
763.7 0.75
4.97
0.69
10
1.8
27.2
762.9 0.75
3.46
0.82
11
27.8
763.2 14
5.68
0.44
0.15
27.2
762.2 1
9.99
0.23
0.91
28.3
762.7 13.7
10.1
0.29
0.05
26.7
762.5 1
3.88
0.51
15
27.8
761.4 0
8.21
0.27
0.03
28.3
761.8 0
236
0.17
0.33
0.33
0.33
0
0.67
0
0.33
0.17
0.33
0
1
0
0
0.33
0.33
0.17
0
1
0.5
0.17
0.5
0.17
0
0
0
0
0
0.17
0
0
1.67
4
1
1.67
7
0
1
0
0
0
4
1.67 2.33
243.75
9
4.5
0
0
0.67
12.5
0
2
5
0
0.33
0
0.83 1.17
112.75
5.5
7.5
130
0.17 0.83
112.75
1.4
7.4
130
0
1.67
5
0
0.67
12.5
0
0.5
4.25
0
1.17
0.25
0
2.8
0
0.17 2.17
4.25
0
0.67
49.25
1.17 8.33
42.5
0
6
0.25
0
8.67
0
0
3.33
4.25
0
1.6
49.25
0.33 7.83
42.5
0.3
28.7
4.26
3.43
0.48
2.11
28.3
761.1 0
0.33
27.8
3.86
4.03
0.46
0.03
28.3
761.1 0
0.43
29.1
4.16
1.72
0.7
26.7
760
0.3
28.7
4.37
2.58
0.5
0.03
26.7
760
0.33
27.8
3.86
4.03
0.46
0.25
27.2
761.1 0
0.99
25.5
4.03
2.8
1.1
10
0.28
25
764.4 0.25
0.75
25.3
0.05
2.1
0.8
25.6
763.6 0
0.33
25.4
5.04
11.9
1.1
11
0.81
25
765.3 0.25
0.35
25.8
5.4
12
1.2
12
0.03
25.6
765.9 0
0.52
25.7
7.4
6.3
0.02
24.4
765
1.1
24.6
5.84
3.3
1.5
25
763.8 0
0.51
25.4
3.02
2.6
0.6
0.97
25.6
764.2 0.5
0.85
26.9
3.8
0.9
0.58
25
763.1 0
0.52
24.3
3.61
0.7
12
25
763.3 0.5
0.34
25.1
8.26
11.4
1.3
10
23.9
762.1 0
0.32
25.7
8.03
11.4
0.9
0.48
23.9
761.4 0.25
0.44
25.5
7.03
7.6
1.1
0.38
23.3
761.2 0
0.38
28.6
4.86
11.7
1.5
10
26.1
763.9 0
0.4
27.3
2.34
11.8
1.3
10
0.28
25.6
763.3 0
0.37
27.7
3.87
7.7
1.2
25.6
765.1 0
0.98
28
7.02
4.6
0.98
10
0.15
25
764.1 0
0.45
29.1
7.53
3.6
0.6
0.41
25
762.7 0.25
0.4
28.2
9.31
9.9
1.5
1.3
25.6
762
0.33
28.6
8.55
10.1
1.2
25
762.2 0
0.35
29.4
5.66
7.42
0.9
0.03
25.6
762.1 0
0.8
29.2
4.99
4.6
1.2
0.1
26.1
762.9 0
1.1
28.9
5.78
3.3
0.7
10
0.2
25.6
763
237
0.25
0
0
0.67
0.17
0
0
22.25
0
21.3
0
0.5
0
56.5
0.67
83.25
8.17
0.35
29.1
6.13
10.3
1.2
10
25.6
761.9 0
8.83
0.3
27.8
4.02
10.3
1.15
1.78
25.6
761.8 0.17
0.5
0.3
27.5
5.06
7.4
0.9
10
26.1
762.7 0
3.833 1.1
27.9
3.48
4.5
1.1
10
0.31
26.1
764.3 0
26.7
4.98
3.6
0.7
11
25.6
764.1 2.5
0.7
;
PROC PRINT;
RUN;
PROC REG;
CP: MODEL ROB=SEC TAG OD SAL PRO VIE PRC TAI PRE JUT CAM/SELECTION=CP;
ADJRSQ: MODEL ROB=SEC TAG OD SAL PRO VIE PRC TAI PRE JUT CAM/SELECTION=ADJRSQ;
FORWARD: MODEL ROB=SEC TAG OD SAL PRO VIE PRC TAI PRE JUT
CAM/SELECTION=FORWARD;
BACKWARD: MODEL ROB=SEC TAG OD SAL PRO VIE PRC TAI PRE JUT
CAM/SELECTION=BACKWARD;
STEPWISE: MODEL ROB=SEC TAG OD SAL PRO VIE PRC TAI PRE JUT
CAM/SELECTION=STEPWISE;
RUN;
En cada MODEL se le instruye a SAS ejecutar PROC REG usando todas las
variables independientes con un tipo de SELECTION determinado; CP = Mallows C(p);
ADJRSQ= R2 ajustado; FORWARD = en donde se va introduciendo una variable
independiente a la vez, si cualquiera variable no se ajusta al modelo es eliminada y no
vuelve a ser probada; BACKWARD = en esta opcin se introducen todas las variables
independientes inicialmente y se van extrayendo una a una, al igual que FORWARD,
una vez que una variable sale no vuelve a ser probada; finalmente STEPWISE =
probablemente la mejor opcin, ya que permite la entrada y salida mltiple de variables.
Recuerde que en regresin mltiple el mejor modelo tiene sentido en presencia de las
dems variables es decir, una vez que el mejor modelo es escogido tiene que
aceptarse como est, usted no puede seleccionar las variables y correr una regresin
mltiple sencilla con ellas, ya que no conseguir la misma precisin (trataremos de ver
esto ms adelante).
Tabla 149. Resultados de todos los mtodos de seleccin.
The REG Procedure
Model: CP
Dependent Variable: ROB
C(p) Selection Method
Number in
Model
4
2
3
C(p)
0.0365
0.3264
0.5226
R-Square
0.3894
0.3021
0.3388
Variables in Model
SEC TAI JUT CAM
SEC CAM
SEC TAI CAM
238
3
3
5
3
3
5
5
4
5
4
4
5
5
5
4
4
3
4
4
4
3
3
4
4
3
4
4
4
4
4
4
5
6
4
4
5
5
6
4
5
4
4
6
5
5
4
6
5
4
5
5
6
4
6
6
0.6240
1.2623
1.2874
1.4058
1.5192
1.6008
1.6704
1.6710
1.7619
1.8534
1.8567
1.9140
1.9694
1.9796
1.9936
2.0224
2.0375
2.0437
2.0694
2.0712
2.0741
2.0949
2.1861
2.2089
2.2768
2.3365
2.3778
2.4600
2.4683
2.4988
2.5765
2.6116
2.8147
2.8386
2.8739
2.8992
2.9019
2.9193
2.9366
2.9411
2.9618
2.9865
3.0165
3.0919
3.1352
3.1415
3.1470
3.1520
3.1927
3.1957
3.2227
3.2286
3.2361
3.2383
3.2519
0.3368
0.3238
0.4046
0.3209
0.3186
0.3982
0.3968
0.3561
0.3949
0.3524
0.3524
0.3918
0.3907
0.3905
0.3496
0.3490
0.3080
0.3485
0.3480
0.3480
0.3073
0.3068
0.3457
0.3452
0.3031
0.3426
0.3418
0.3401
0.3399
0.3393
0.3377
0.3777
0.4142
0.3324
0.3317
0.3718
0.3718
0.4121
0.3304
0.3710
0.3299
0.3294
0.4101
0.3679
0.3670
0.3262
0.4074
0.3667
0.3252
0.3658
0.3652
0.4058
0.3243
0.4056
0.4053
239
4
5
4
6
5
6
4
4
5
5
6
4
5
5
6
6
6
6
5
6
6
4
5
6
5
6
5
5
5
5
6
5
4
5
5
4
5
5
5
5
5
5
6
6
4
6
5
6
5
5
4
5
4
3.2738
3.2796
3.2856
3.2860
3.3108
3.3631
3.3904
3.3928
3.3975
3.4093
3.4197
3.4471
3.4608
3.4771
3.5008
3.5120
3.5175
3.5377
3.5396
3.5633
3.5748
3.5960
3.6233
3.6341
3.6460
3.6463
3.6544
3.6544
3.6654
3.7068
3.7230
3.7527
3.7535
3.7707
3.7748
3.7842
3.7892
3.7939
3.8007
3.8036
3.8145
3.8392
3.8466
3.8499
3.8675
3.8743
3.8854
3.8888
3.9589
3.9638
3.9798
3.9833
3.9864
0.3235
0.3641
0.3233
0.4046
0.3634
0.4030
0.3212
0.3211
0.3617
0.3614
0.4019
0.3200
0.3604
0.3601
0.4002
0.4000
0.3999
0.3995
0.3588
0.3990
0.3987
0.3170
0.3571
0.3975
0.3566
0.3973
0.3565
0.3565
0.3562
0.3554
0.3957
0.3545
0.3138
0.3541
0.3540
0.3132
0.3537
0.3536
0.3535
0.3534
0.3532
0.3527
0.3932
0.3931
0.3115
0.3927
0.3518
0.3924
0.3503
0.3502
0.3092
0.3498
0.3091
240
0.3196
0.3170
0.3097
0.3081
0.3077
0.3060
0.3052
0.3028
0.3024
0.3011
0.3009
0.2997
0.2977
0.2975
0.2972
0.2964
0.2945
0.2942
0.2935
0.2931
0.2912
0.2912
0.2912
0.2909
0.2908
0.2903
0.2897
0.2894
0.2880
0.2877
0.2870
0.2868
0.2861
0.2861
0.2859
0.2851
0.2844
0.2842
0.2837
0.2829
0.2828
0.2826
0.2825
0.2825
0.2822
0.2819
0.3894
0.4046
0.3982
0.3968
0.4142
0.3949
0.4121
0.4101
0.3918
0.3907
0.3905
0.4074
0.4058
0.4056
0.4053
0.4046
0.4030
0.4208
0.4203
0.4019
0.4185
0.4184
0.4002
0.4000
0.3999
0.3995
0.3990
0.3987
0.3975
0.3973
0.4150
0.4148
0.3777
0.4142
0.3957
0.4134
0.4129
0.4127
0.3388
0.3932
0.3931
0.4113
0.3561
0.4113
0.3927
0.3924
Variables in Model
241
3
7
7
7
7
5
5
6
8
7
5
4
4
7
7
7
8
7
7
6
7
8
7
7
4
7
5
4
7
4
5
5
4
4
6
7
6
7
5
7
8
5
8
7
8
7
8
8
4
5
7
4
7
7
7
0.2815
0.2814
0.2814
0.2805
0.2803
0.2794
0.2794
0.2791
0.2791
0.2785
0.2785
0.2784
0.2783
0.2782
0.2774
0.2771
0.2770
0.2763
0.2762
0.2761
0.2758
0.2758
0.2757
0.2755
0.2752
0.2752
0.2749
0.2746
0.2741
0.2741
0.2739
0.2735
0.2735
0.2735
0.2731
0.2729
0.2728
0.2725
0.2725
0.2721
0.2721
0.2719
0.2716
0.2714
0.2714
0.2712
0.2711
0.2710
0.2709
0.2706
0.2704
0.2704
0.2702
0.2701
0.2700
0.3368
0.4104
0.4104
0.4096
0.4095
0.3718
0.3718
0.3900
0.4270
0.4080
0.3710
0.3524
0.3524
0.4077
0.4071
0.4069
0.4253
0.4062
0.4061
0.3875
0.4058
0.4243
0.4057
0.4056
0.3496
0.4053
0.3679
0.3490
0.4044
0.3485
0.3670
0.3667
0.3480
0.3480
0.3849
0.4034
0.3847
0.4031
0.3658
0.4028
0.4214
0.3652
0.4210
0.4022
0.4209
0.4020
0.4206
0.4205
0.3457
0.3641
0.4013
0.3452
0.4012
0.4011
0.4010
242
5
8
7
7
8
8
8
7
5
5
0.2698
0.2697
0.2695
0.2690
0.2690
0.2686
0.2684
0.2681
0.2678
0.2675
0.3634
0.4195
0.4007
0.4002
0.4189
0.4186
0.4185
0.3995
0.3617
0.3614
SEC
SEC
SEC
SEC
SEC
SEC
SEC
SEC
SEC
SEC
Variable
Sum of
Mean
DF
Squares
Square
1
1.12234
1.12234
38
9.17304
0.24140
39
10.29538
F Value Pr > F
4.65 0.0375
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
PRO
0.77949
-0.48321
0.21024
0.22410
3.31842
1.12234
13.75 0.0007
4.65 0.0375
Sum of
Mean
DF
Squares
Square
2
1.70742
0.85371
37
8.58796
0.23211
39
10.29538
F Value Pr > F
3.68 0.0349
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
0.91505
SEC
-0.46831
PRO
-0.37508
0.22313
0.29496
0.23006
243
Sum of
Mean
DF
Squares
Square
3
3.33338
1.11113
36
6.96200
0.19339
39
10.29538
F Value Pr > F
5.75 0.0026
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
0.86333
SEC
-0.96394
PRO
-0.23153
CAM
0.00463
0.20445
0.31891
0.21575
0.00160
Sum of
Mean
DF
Squares
Square
4
3.66645
0.91661
35
6.62893
0.18940
39
10.29538
F Value Pr > F
4.84 0.0033
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
0.95018
0.21267
3.78074 19.96 <.0001
SEC
-0.91373
0.31787
1.56499
8.26 0.0068
PRO
-0.31955
0.22359
0.38684
2.04 0.1618
JUT
-0.03180
0.02398
0.33307
1.76 0.1934
CAM
0.00446
0.00158
1.50274
7.93 0.0079
Bounds on condition number: 1.56, 21.359
-----------------------------------------------------------------------------------Forward Selection: Step 5
Variable TAI Entered: R-Square = 0.3918 and C(p) = 1.9140
244
Analysis of Variance
Source
Model
Error
Corrected Total
Variable
Sum of
Mean
DF
Squares
Square
5
4.03421
0.80684
34
6.26117
0.18415
39
10.29538
F Value Pr > F
4.38 0.0035
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
-2.02837
2.11813
0.16888
0.92 0.3450
SEC
-0.90403
0.31351
1.53122
8.31 0.0068
PRO
-0.10054
0.26949
0.02563
0.14 0.7114
TAI
0.10701
0.07572
0.36776
2.00 0.1667
JUT
-0.04208
0.02474
0.53290
2.89 0.0981
CAM
0.00487
0.00159
1.73209
9.41 0.0042
Bounds on condition number: 1.9248, 40.225
------------------------------------------------------------------------------------Forward Selection: Step 6
Variable PRE Entered: R-Square = 0.4121 and C(p) = 2.9193
Analysis of Variance
Source
Model
Error
Corrected Total
Variable
Sum of
Mean
DF
Squares
Square
6
4.24240
0.70707
33
6.05298
0.18342
39
10.29538
F Value Pr > F
3.85 0.0050
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept -49.15763
SEC
-0.94166
PRO
-0.18106
TAI
0.11541
PRE
0.06164
JUT
-0.04733
CAM
0.00449
44.28715
0.22599
1.23 0.2750
0.31488
1.64043
8.94 0.0052
0.27937
0.07704
0.42 0.5214
0.07598
0.42317
2.31 0.1383
0.05785
0.20820
1.14 0.2944
0.02518
0.64829
3.53 0.0690
0.00163
1.39549
7.61 0.0094
245
Analysis of Variance
Source
Model
Error
Corrected Total
Variable
Sum of
Mean
DF
Squares
Square
7
4.33280
0.61897
32
5.96258
0.18633
39
10.29538
F Value Pr > F
3.32 0.0090
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept -41.94112
SEC
-0.73316
SAL
0.02456
PRO
-0.30150
TAI
0.12394
PRE
0.05168
JUT
-0.05227
CAM
0.00470
45.82339
0.15610
0.84 0.3669
0.43627
0.52623
2.82 0.1026
0.03526
0.09040
0.49 0.4911
0.33044
0.15513
0.83 0.3684
0.07755
0.47587
2.55 0.1199
0.06004
0.13806
0.74 0.3958
0.02635
0.73335
3.94 0.0559
0.00167
1.47951
7.94 0.0082
Variable
Number
Entered
Vars In
PRO
SEC
CAM
JUT
TAI
PRE
SAL
1
2
3
4
5
6
7
Partial
Model
R-Square R-Square
0.1090
0.0568
0.1579
0.0324
0.0357
0.0202
0.0088
0.1090
0.1658
0.3238
0.3561
0.3918
0.4121
0.4208
C(p)
7.8260
7.0307
1.2623
1.6710
1.9140
2.9193
4.4874
F Value
4.65
2.52
8.41
1.76
2.00
1.14
0.49
Pr > F
0.0375
0.1209
0.0063
0.1934
0.1667
0.2944
0.4911
Sum of
Mean
DF
Squares
Square
11
4.43481
0.40316
28
5.86056
0.20931
39
10.29538
246
F Value
1.93
Pr > F
0.0791
Variable
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
SEC
TAG
OD
SAL
PRO
VIE
PRC
TAI
PRE
JUT
CAM
-43.49941
-0.86139
0.02951
-0.00672
0.01721
-0.25637
0.00688
-0.07224
0.09700
0.05366
-0.04736
0.00484
59.62301
0.11141
0.53 0.4717
0.51223
0.59192
2.83 0.1038
0.07024
0.03693
0.18 0.6776
0.05185
0.00352
0.02 0.8977
0.04116
0.03660
0.17 0.6790
0.35702
0.10793
0.52 0.4787
0.03966
0.00630
0.03 0.8635
0.13730
0.05794
0.28 0.6029
0.11626
0.14571
0.70 0.4111
0.07733
0.10076
0.48 0.4935
0.02957
0.53678
2.56 0.1205
0.00182
1.47959
7.07 0.0128
DF
Model
Error
Corrected Total
Variable
10
29
Sum of
Squares
Mean
Square
4.43130
0.44313
5.86408
0.20221
39
10.29538
F Value
Pr > F
2.19
0.0486
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
SEC
TAG
SAL
PRO
VIE
PRC
TAI
PRE
JUT
CAM
-46.22131
-0.86901
0.02737
0.01632
-0.26067
0.00657
-0.07121
0.10420
0.05704
-0.04770
0.00485
54.85203
0.14358
0.71 0.4063
0.50015
0.61044
3.02 0.0929
0.06711
0.03363
0.17 0.6864
0.03989
0.03385
0.17 0.6854
0.34940
0.11255
0.56 0.4616
0.03891
0.00576
0.03 0.8672
0.13473
0.05648
0.28 0.6012
0.10042
0.21770
1.08 0.3080
0.07157
0.12842
0.64 0.4320
0.02895
0.54886
2.71 0.1102
0.00178
1.49868
7.41 0.0109
247
Analysis of Variance
Source
DF
Model
Error
Corrected Total
Variable
9
30
Sum of
Squares
Mean
Square
4.42554
0.49173
5.86984
0.19566
39
10.29538
F Value
2.51
Pr > F
0.0281
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
SEC
TAG
SAL
PRO
PRC
TAI
PRE
JUT
CAM
-49.69857
-0.84871
0.02518
0.01830
-0.26402
-0.07147
0.10949
0.06154
-0.04817
0.00489
50.00526
0.19327
0.99 0.3282
0.47755
0.61800
3.16 0.0857
0.06477
0.02957
0.15 0.7002
0.03751
0.04659
0.24 0.6291
0.34314
0.11584
0.59 0.4477
0.13252
0.05691
0.29 0.5936
0.09385
0.26628
1.36 0.2526
0.06532
0.17366
0.89 0.3537
0.02835
0.56495
2.89 0.0996
0.00174
1.55397
7.94 0.0085
DF
Model
Error
Corrected Total
Variable
8
31
Sum of
Squares
Mean
Square
4.39597
0.54950
5.89941
0.19030
39
10.29538
F Value
2.89
Pr > F
0.0159
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
SEC
SAL
PRO
PRC
TAI
PRE
JUT
CAM
-43.05893
-0.81036
0.02167
-0.27241
-0.07511
0.12863
0.05306
-0.05149
0.00479
46.34996
0.16424
0.86 0.3601
0.46081
0.58852
3.09 0.0885
0.03599
0.06899
0.36 0.5515
0.33774
0.12380
0.65 0.4261
0.13037
0.06317
0.33 0.5687
0.07880
0.50707
2.66 0.1127
0.06072
0.14530
0.76 0.3890
0.02666
0.71000
3.73 0.0626
0.00169
1.52470
8.01 0.0081
248
DF
Model
Error
Corrected Total
Variable
7
32
Sum of
Squares
Mean
Square
4.33280
0.61897
5.96258
0.18633
39
10.29538
F Value
3.32
Pr > F
0.0090
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept -41.94112
SEC
-0.73316
SAL
0.02456
PRO
-0.30150
TAI
0.12394
PRE
0.05168
JUT
-0.05227
CAM
0.00470
45.82339
0.15610
0.84 0.3669
0.43627
0.52623
2.82 0.1026
0.03526
0.09040
0.49 0.4911
0.33044
0.15513
0.83 0.3684
0.07755
0.47587
2.55 0.1199
0.06004
0.13806
0.74 0.3958
0.02635
0.73335
3.94 0.0559
0.00167
1.47951
7.94 0.0082
Sum of
Mean
DF
Squares
Square
6
4.24240
0.70707
33
6.05298
0.18342
39
10.29538
F Value Pr > F
3.85 0.0050
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept -49.15763
SEC
-0.94166
PRO
-0.18106
TAI
0.11541
PRE
0.06164
JUT
-0.04733
CAM
0.00449
44.28715
0.22599
1.23 0.2750
0.31488
1.64043
8.94 0.0052
0.27937
0.07704
0.42 0.5214
0.07598
0.42317
2.31 0.1383
0.05785
0.20820
1.14 0.2944
0.02518
0.64829
3.53 0.0690
0.00163
1.39549
7.61 0.0094
249
DF
Model
Error
Corrected Total
Variable
5
34
Sum of
Squares
Mean
Square
F Value
4.16536
0.83307
6.13002
0.18029
39
10.29538
4.62
Pr > F
0.0025
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept -42.23538
SEC
-0.99410
TAI
0.14114
PRE
0.05149
JUT
-0.04550
CAM
0.00485
42.61164
0.17712
0.98 0.3286
0.30170
1.95751 10.86 0.0023
0.06423
0.87066
4.83 0.0349
0.05522
0.15679
0.87 0.3576
0.02480
0.60671
3.37 0.0754
0.00152
1.84332 10.22 0.0030
Sum of
Mean
DF
Squares
Square
4
4.00857
1.00214
35
6.28680
0.17962
39
10.29538
F Value Pr > F
5.58 0.0014
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
-2.52743
1.62195
0.43616
SEC
-0.93916
0.29534
1.81639
TAI
0.12325
0.06118
0.72897
JUT
-0.04150
0.02438
0.52036
CAM
0.00505
0.00150
2.04414
2.43 0.1282
10.11 0.0031
4.06 0.0517
2.90 0.0976
11.38 0.0018
250
OD
VIE
TAG
PRC
SAL
PRO
PRE
10
9
8
7
6
5
4
0.0003
0.0006
0.0029
0.0061
0.0088
0.0075
0.0152
0.4304
0.4299
0.4270
0.4208
0.4121
0.4046
0.3894
C(p)
10.0168
8.0443
6.1856
4.4874
2.9193
1.2874
0.0365
F Value
0.02
0.03
0.15
0.33
0.49
0.42
0.87
Pr > F
0.8977
0.8672
0.7002
0.5687
0.4911
0.5214
0.3576
Sum of
Mean
DF
Squares
Square
1
1.12234
1.12234
38
9.17304
0.24140
39
10.29538
F Value Pr > F
4.65 0.0375
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
PRO
0.77949
-0.48321
0.21024
0.22410
3.31842
1.12234
13.75 0.0007
4.65 0.0375
Sum of
Mean
DF
Squares
Square
2
1.70742
0.85371
37
8.58796
0.23211
39
10.29538
F Value Pr > F
3.68 0.0349
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
251
Intercept
0.91505
SEC
-0.46831
PRO
-0.37508
0.22313
0.29496
0.23006
DF
Model
Error
Corrected Total
Variable
3
36
Sum of
Squares
Mean
Square
3.33338
1.11113
6.96200
0.19339
39
10.29538
F Value
5.75
Pr > F
0.0026
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
0.86333
SEC
-0.96394
PRO
-0.23153
CAM
0.00463
0.20445
0.31891
0.21575
0.00160
Sum of
Mean
DF
Squares
Square
2
3.11067
1.55533
37
7.18471
0.19418
39
10.29538
F Value Pr > F
8.01 0.0013
Parameter
Standard
Estimate
Error Type II SS F Value Pr > F
Intercept
0.70858
SEC
-1.08928
CAM
0.00502
0.14524
0.29736
0.00156
252
No other variable met the 0.1500 significance level for entry into the model.
Summary of Stepwise Selection
Variable Variable Number Partial
Model
Step Entered
Removed
Vars In R-Square R-Square C(p) F Value
1
PRO
1
0.1090 0.1090 7.8260 4.65 0.0375
2
SEC
2
0.0568 0.1658 7.0307 2.52 0.1209
3
CAM
3
0.1579 0.3238 1.2623 8.41 0.0063
4
PRO
2
0.0216 0.3021 0.3264 1.15 0.2904
Pr > F
Modelo
Y = B0 + B1SEC + B2TAI + B3JUT + B4CAM
Y = B0 + B1SEC + B2TAI + B3JUT + B4CAM
Y = B0 + B1PRO + B2SEC + B3CAM + B4JUT +B5TAI + B6PRE + B7SAL
Y = B0 + B1SEC + B2TAI + B3JUT + B4CAM
Y = B0 + B1SEC + B2CAM
NOTA: Obsrvese que todos los signos de los coeficientes son positivos (+) por
razones de conveniencia y facilidad; en realidad los signos de cada coeficiente para
cada modelo son los dados por los resultados (observe PARAMETER ESTIMATE para
cada caso). En realidad, en este caso, donde se busca un mejor modelo, los signos no
importan, ya que al comprobar las premisas (lo veremos ms adelante) a partir del
mejor modelo el programa estima el signo real de cada coeficiente.
Entonces, cul es el mejor modelo?; todas las opciones tienen SEC y CAM por
lo tanto, estas dos variables definitivamente formaran parte de un mejor modelo; JUT y
TAI estn en todas, excepto en STEPWISE, mientras que PRE y SAL slo estn en
FORWARD por lo tanto, estas dos ltimas no deberan estar en el mejor modelo,
mientras que JUT y TAI deberan estar. Finalmente, nuestro mejor modelo ser
ROB= B0 + B1SEC + B2CAM + B3JUT + B4TAI
253
193.6
191.4
191.1
190.6
189.5
188.8
188.5
185.7
186.0
185.6
184.1
184.6
184.1
183.2
182.4
181.9
181.9
181.0
180.6
20.212
19.758
19.490
19.386
18.869
18.356
18.507
17.267
17.221
17.062
16.959
16.881
16.817
16.385
16.235
16.106
15.928
15.919
15.376
los datos. La mejor forma de considerar la no independencia de los datos y sus efectos
sobre la interpretacin se muestra en la Tabla 152.
Tabla 152. Consecuencias para la interpretacin de experimentos de la no
independencia entre las rplicas (dentro de los tratamientos) o entre los tratamientos.
No
independencia
dentro
de
tratamientos
Correlacin positiva
e2 inestimada dentro de las muestras
Valores de F excesivos
Aumento del error Tipo I
Diferencias espurias detectadas
Correlacin negativa
e2 sobrestimada dentro de las muestras
Valores de F muy pequeos
Aumento del error Tipo II
Diferencias reales no detectadas
257
Figura 34. Transformacin raz cuadrada de los datos. (a) Las varianzas y las
medias del nmero de animales por cuadrata de muestras en 10 sitios; (b) las
varianzas y las medias luego de su transformacin a X 1 .
Transformacin logartmica de tasas, proporciones, concentraciones y
otros tipos de datos
Muchos tipos de datos, particularmente aquellos que son proporciones de dos
variables, son grandemente sesgados a la derecha. En tales distribuciones, donde la
media es grande la varianza es muy grande. Tales datos a menudo se distribuyen
lognormalmente. Consideremos, por ejemplo, las medidas de la proporcin entre el
nmero de presas comidas por predador en parcelas de algunos hbitats. Ambos
componentes de la proporcin son variables. La proporcin no puede, sin embargo, ser
menor que cero (lo cual ocurre cuando no se come presa alguna). Puede ser muy
grande cuando unos pocos predadores son masivamente voraces en algunas parcelas.
No existe lmite terico al nmero de presas comidas. Como resultado, en reas donde
los predadores son individualmente muy voraces o activos, se observarn valores
promedios grandes de la proporcin y parcelas ocasionales tendrn valores muy
grandes. Donde la media es ms pequea (debido a que existe menos presas o porque
los predadores son menos activos o eficientes) es poco probable que parcelas
258
individuales tengan valores grandes. Por lo tanto, las varianzas aumentarn muy
radicalmente a medida que las medias aumenten, llevando a una marcada
heterogeneidad de varianzas.
Esta situacin puede discernirse en una grfica de las desviaciones estndares
contra las medias (Figura 35a). Si la grfica es aproximadamente lineal, transformar
todos los datos a escala logartmica usualmente remueve la heterogeneidad de
varianzas. En el caso ilustrado los datos son concentraciones de clorofila por peso de
hojas. Esto es, en esencia, una proporcin de dos variables aunque convertida a
concentracin por gramo. La concentracin y el peso varan de hoja a hoja. Hojas
pequeas pueden tener muy grandes concentraciones aunque la media sea muy
pequea. Estas son distribuciones sesgadas. Las desviaciones estndares se
relacionan a las medias de forma razonablemente lineal. La transformacin a los
logaritmos naturales ( ln X ; Figura 35b) removi cualquier traza de relacin entre las
varianzas y las medias, removiendo as la heterogeneidad de varianzas.
Existen dos cosas relacionadas con las transformaciones logartmicas que
merecen ser mencionadas. Primero, no hay diferencia en el efecto de las
transformaciones de acuerdo a la base del logaritmo usado. Todos los logaritmos en
una base son un mltiplo constante de aquellos en cualquiera otra base. As que, en
escala transformada la relacin entre la desviacin estndar y la media es constante
cualquiera sea la base. Sin embargo, es importante reportar que transformacin
logartmica se us con la finalidad que otros puedan comparar sus resultados con los
suyos.
El segundo aspecto tiene que ver con qu hacer cuando alguno de los datos
tenga el valor cero. El logaritmo de cero es menos infinito, por lo tanto es una
costumbre aadir una pequea cantidad (1 o 0,1) a los valores antes de la
transformacin. El problema con esto es que la transformacin ya no es
necesariamente estrictamente monotnica. Pueden haber cambios en el orden relativo
de las medias de muestras que dependen de la magnitud de los datos y el tamao de
la constante aadida a ellos.
Transformacin arco-seno de porcentajes y proporciones
Cuando los datos son porcentajes o proporciones a menudo se distribuyen
binomialmente. Como resultado, las varianzas son ms grandes cuando las medias se
encuentran cerca de 0,5 (o 50%) que cuando las medias son pequeas o grandes
(cerca de 0,1-10%- o 0,9-90%). Esto lleva a heterogeneidad de varianzas cuando las
medias son diferentes.
Un ejemplo de porcentaje de cubierta de plantas se muestra en la Figura 36a.
En reas con una cubierta promedio de aproximadamente 50%, la varianza entre las
cuadratas es mayor que en cualquiera otra parte. En este caso, la transformacin
apropiada es aquella que esparza los datos hacia el extremo del posible mbito de
valores (es decir, cerca de cero o uno para proporciones o 0 y 100 para porcentajes).
259
Figura 36. Transformacin arco-seno de datos. (a) Las varianzas y las medias
del porcentaje de cubierta de plantas en muestras de cinco sitios; (b) las varianzas y las
medias luego de la transformacin a sen 1 X / 100 .
Esto es particularmente cierto cuando los datos estn balanceados (es decir, los
tamaos de las muestras son todos iguales) y cuando las muestras son relativamente
grandes. Relativamente grandes es uno de esos trminos encantadoramente vagos,
pero tener ms de cinco tratamientos con tamaos de muestras de aproximadamente
seis parece satisfactorio a partir de simulaciones. Experimentos grandes y
balanceados, particularmente con grandes muestras en cada tratamiento, no causan
problemas de interpretacin de un anlisis con varianzas heterogneas. Para pequeos
experimentos con heterogeneidad de varianzas, la mejor recomendacin es efectuar el
anlisis de todas, todas. Si no existen diferencias significativas entre los tratamientos,
esta es una conclusin vlida para muestras balanceadas. Es vlido porque la
heterogeneidad de varianzas lleva al aumento de la probabilidad de cometer un error
261
Tipo I. Por lo tanto, si no existen diferencias significativas entre las medias, no se puede
cometer un error Tipo I, el cual es rechazar errneamente una hiptesis nula que es
cierta.
El nico problema ocurre cuando existen pequeas muestras con varianzas
heterogneas y sus medias difieren de acuerdo al anlisis de varianza. Esto podra ser
un resultado errneo y debe ser tratado con cautela. La mejor prctica sera tratarlo
como un experimento piloto y usarlo para planificar una prueba ms grande y confiable.
Escoger analizar los datos con una prueba no paramtrica (tal como la prueba de
Kruskal-Wallis) no resolvera el problema causado por la heterogeneidad de varianzas.
Recuerde que la nica premisa que no deben cumplir las pruebas no paramtricas es
la normalidad, pero las premisas de homogeneidad de varianzas e independencia
tambin aplican en estas pruebas.
Normalidad de los datos
La premisa que establece que los datos se deben distribuir normalmente no es
muy importante, incluso cuando se tengan pequeaas muestras. El anlisis de varianza
es robusto ante la no normalidad, en otras palabras, sus resultados e interpretaciones
no se ven afectados porque los datos sean no normales. De nuevo, esto es
particularmente cierto cuando los experimentos son grandes (existen muchos
tratamientos) y/o las muestras de cada tratamiento son grandes. Esto tambin es
cierto cuando las muestras estn balanceadas. Si se anticipa que los datos pudieran
provenir de distribuciones altamente sesgadas, la transformacin logartmica remover
el sesgo y har los datos mucho ms normalmente distribuidos. Por lo tanto, la
transformacin podra ser apropiada incluso si las varianzas no son altamente
heterogneas.
Tareas adicionales
TAREA t-Student 5 y posible Anova de varias vas
Dos tesistas de la Facultad de Bioanlisis de LUZ estaban interesadas en
determinar el nivel de aflatoxinas10 en hojuelas de maz (mejor conocidas como corn
flakes) vendidas en Maracaibo, y constatar si existan diferencias en el nivel de
aflatoxinas entre las dos marcas ms conocidas (1 y 2). Para eso, obtuvieron en
supermercados seleccionados al azar 16 cajas del producto de ambas marcas y
efectuaron los anlisis correspondientes, obteniendo la concentracin de aflatoxinas en
g / Kg . Los resultados se muestran en la Tabla 153.
Tabla 153. Concentracin de aflatoxinas
10
262
Marca Lote
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
Muestr
a
A
B
C
D
A
B
C
D
A
B
C
D
A
B
C
D
Muestr
a
A
B
C
D
A
B
C
D
A
B
C
D
A
B
C
D
Concentracin
( g / Kg )
3.5
4.8
3.3
5.5
7.3
5.8
8.1
6.5
5.2
6.7
5.6
5.8
8.0
7.6
9.1
6.3
1. Existen evidencias que demuestren que las dos marcas comerciales difieren
con respecto a sus niveles de aflatoxinas?, es decir existe una marca mejor con
respecto a la concentracin de este metabolito? 2. Son estas evidencias conclusivas
para inferir que existe o no existe diferencia entre las dos marcas? Por qu o por qu
no? 3. De existir diferencia entre las dos marcas con respecto a sus niveles de
aflatoxinas, se debera prohibir la venta de la marca con mayor nivel de aflatoxinas?
Por qu o por qu no? Reporte todos los resultados que considere necesario para
soportar sus conclusiones. Utilice cualquier fuente que considere pertinente, pero
recuerde que la Internet a veces da sorpresas; solo confe en las pginas web con
extensin .edu (es decir, instituciones educativas).
Este material se extrajo de muchos libros, a continuacin se presentan algunos
de esos libros
Referencias
Brown, M. L., Allen, M. S. and Beard, Jr. T. D. 2013. Data management and statistical
techniques. Chapter 2 in Zale, A. V., Parrish, D. L. and Sutton, T. M. editors.
Fisheries techniques. American Fisheries Society, Bethesda, Maryland, USA.
Elliot, A. C. and Woodward, W. A. 2010. SAS Essentials. Mastering SAS for research.
Josey-Bass A Wiley Imprint, San Francisco, California, USA.
Gotelli, N. J. and Ellison, A. M. 2004. A primer of ecological statistics. Sinauer
Associates, Inc. Publishers, Sunderland, Massachusetts, USA.
263
Johnson, D. E. 1998. Applied multivariate methods for data analysts. Duxbury Press,
Pacific Grove, California, USA.
Krebs, C. J. 1989. Ecological methodology. Harper Collins Publishers, New York, New
York, USA.
Littell, R. C., Milliken, G. A., Stroup, W. W. and Wolfinger, R. D. 1996. SAS System for
mixed models. SAS Institute Inc., Cary, North Carolina, USA.
Louis, T. A., Lavori, P. W., Bailer, J. C. and Polansky, M. 1984. Crossover and self
controlled designs in clinical research. The New England Journal of Medicine
310:24-31.
Montgomery, D. C. 2001. Design and analysis of experiments. John Wiley & Sons, Inc.,
Hoboken, New Jersey, USA.
Myers, R. H. 1990. Classical and modern regression with applications. Second edition.
Duxbury Press, Belmont, California, USA.
Prieto-Mrquez, A., Gignac, P. M. and Joshi, S. 2007. Neontological evaluation of pelvic
skeletal attributes purported to reflect sex in extinct non-avian archosaurs.
Journal of Vertebrate Paleontology 27: 603-609.
Raskin, P. and Unger, R. H. 1978. Hyperglucagonemia and its suppression: importance
in the metabolic control of diabetes. The New England Journal of Medicine
299:433-436.
Sokal, R. R. and Rohlf, F. J. 1995. Biometry. Third edition. W. H. Freeman and
Company, New York, New York, USA.
Underwood, A. J. 1997. Experiments in ecology. Their logical design and interpretation
using analysis of variance. Cambridge University Press, Cambridge, UK.
Zar, J. H. 2010. Biostatistical analysis. Fifth edition. Pearson Prentice Hall, Upper
Saddle River, New Jersey, USA.
Zolman, J. F. 1993. Biostatistics. Experimental design and statistical inference. Oxford
University Press, New York, New York, USA.
264