Documente Academic
Documente Profesional
Documente Cultură
ERRNVPHGLFRVRUJ
Editores literarios Autores
Mnica Balzarini Mnica Balzarini
Julio Di Rienzo Julio Di Rienzo
Margot Tablada Margot Tablada
Laura Gonzalez
Cecilia Bruno
Mariano Crdoba
Walter Robledo
Fernando Casanoves
Balzarini, Mnica
Introduccin a la bioestadstica : aplicaciones con Infostat / Mnica Balzarini ; Julio
Alejandro Di Rienzo ; Margot Tablada ; edicin a cargo de Mnica Balzarini ; Julio Alejan-
dro Di Rienzo ; Margot Tablada. - 1a ed. - Crdoba : Brujas, 2011.
394 p. ; 24x16 cm.
ISBN 978-987-591-251-9
1. Bioestadstica. I. Di Rienzo, Julio Alejandro II. Tablada, Margot III. Balzarini, Mnica,
ed. IV. Di Rienzo, Julio Alejandro, ed. V. Tablada, Margot, ed. VI. Ttulo
CDD 570.151 95
www.editorialbrujas.com.ar publicaciones@editorialbrujas.com.ar
Tel/fax: (0351) 4606044 / 4691616- Pasaje Espaa 1485 Crdoba - Argentina.
Prlogo
Este libro tiene un doble propsito: presentar principios y conceptos bsicos de la
Bioestadstica que consideramos necesarios para comprender trabajos de
investigacin y desarrollo en Agronoma y, por otro lado, ilustrar cmo pueden
usarse herramientas estadsticas clsicas para efectuar anlisis de datos en
problemas comunes de las Ciencias Agropecuarias. Los anlisis se realizan con
soporte computacional usando el software estadstico InfoStat desarrollado por
nosotros en la Facultad de Ciencias Agropecuarias de la Universidad Nacional de
Crdoba (Di Rienzo et al., 2008). InfoStat permite realizar una amplia gama de
anlisis estadsticos y la versin estudiantil y su Manual de Usuario (Balzarini et al.,
2008) pueden obtenerse gratuitamente (www.InfoStat.com.ar). No obstante, el
objetivo de la obra no est focalizado en el manejo del software sino en la
presentacin comentada, ms que formal, de conceptos tericos (que subyacen los
procedimientos de anlisis de datos) y en la ilustracin de estrategias de anlisis e
interpretacin de resultados, con distintas aplicaciones de herramientas
bioestadsticas en problemas de la Agronoma usando archivos que se encuentran
disponibles en la carpeta de datos de InfoStat.
Los autores
Qu es la Bioestadstica?
La Bioestadstica es una rama de la Estadstica que se ocupa de problemas
planteados dentro de las Ciencias Biolgicas como es la Agronoma. Debido a que
las cuestiones a investigar, cuando se trabaja con personas, animales, plantas u
otros organismos vivos, son de naturaleza muy variada, la Bioestadstica es una
disciplina en constante desarrollo. Incluye no slo el anlisis estadstico de datos
biolgicos sino tambin el uso de numerosos procedimientos o algoritmos de
clculo y computacin para el anlisis de patrones y la construccin de modelos que
permitan describir y analizar procesos de naturaleza aleatoria.
iii
La Bioestadstica tambin suele denominarse Biometra para hacer alusin a que el
centro de atencin est puesto en la medicin de aspectos biolgicos; el nombre
proviene de las palabras griegas "bios" de vida y "metron" de medida. La
Biostadstica es una disciplina aplicada ya que comprende el desarrollo y aplicacin
de mtodos y de tcnicas de anlisis cuantitativo para extraer informacin biolgica
de conjuntos de datos obtenidos desde la experimentacin o el muestreo.
iv
tales como promedios y porcentajes. Este tipo de Estadstica demogrfica es an
hoy de gran importancia para la sociedad y en la mayora de los pases est a cargo
de instituciones oficiales, como es el caso del Instituto Nacional de Estadstica y
Censos (INDEC) en Argentina. No obstante, la Estadstica experimental es
conceptualmente diferente a la Estadstica demogrfica; fue desarrollada desde
diversas motivaciones, por fsicos y astrnomos para concluir a partir de datos que
inevitablemente acarreaban errores de medicin y por biometristas, formados en
las Ciencias Biolgicas y en Matemtica Aplicada, para explicar la variabilidad debida
a diferencias entre individuos, a diferencias entre parcelas de ensayos donde se
cultivan plantas, entre animales, digamos ms generalmente entre las unidades
biolgicas en estudio. Numerosas tcnicas estadsticas que impactaron fuertemente
la generacin de conocimiento en Ciencias Biolgicas, de la Salud y del Ambiente
fueron desarrolladas para la investigacin en Gentica de Poblaciones, en Gentica
Cuantitativa y en la Evaluacin de Cultivares, como son los trabajos de Wright,
Pearson y Fisher, de claro corte agronmico.
v
ndice de contenidos
ANLISIS EXPLORATORIO DE DATOS ................................................................................ 1
MOTIVACIN ............................................................................................................................ 1
CONCEPTOS TERICOS Y PROCEDIMIENTOS ..................................................................................... 2
Poblacin y muestra ......................................................................................................... 8
Tcnicas de muestreo ..................................................................................................... 11
Muestreo aleatorio simple (MAS) .............................................................................................12
Muestreo aleatorio estratificado ..............................................................................................12
Muestreo por conglomerados ..................................................................................................13
Muestreo sistemtico ...............................................................................................................13
Estadstica descriptiva .................................................................................................... 14
Frecuencias y distribuciones de frecuencias .............................................................................15
Tablas de distribuciones de frecuencias ...................................................................................15
Grficos de distribuciones de frecuencias .................................................................................23
Grficos para dos variables .......................................................................................................29
Grficos multivariados ..............................................................................................................31
Medidas resumen .....................................................................................................................38
Moda, mediana y media ...........................................................................................................39
Cuantiles y percentiles ..............................................................................................................44
Varianza y desviacin estndar .................................................................................................46
Coeficiente de variacin ............................................................................................................49
Covarianza y coeficiente de correlacin....................................................................................50
NOTACIN ............................................................................................................................. 52
DEFINICIONES ......................................................................................................................... 53
APLICACIN............................................................................................................................ 56
Anlisis exploratorio de datos de agricultura de precisin ............................................ 56
EJERCICIOS ............................................................................................................................. 67
VARIABLES ALEATORIAS Y PROBABILIDADES ................................................................. 71
MOTIVACIN .......................................................................................................................... 71
CONCEPTOS TERICOS Y PROCEDIMIENTOS ................................................................................... 72
El azar ............................................................................................................................. 72
Espacio muestral ............................................................................................................ 74
Probabilidad ................................................................................................................... 75
Distribuciones de variables aleatorias............................................................................ 81
Parmetros de la distribucin ........................................................................................ 86
DEFINICIONES ......................................................................................................................... 90
NOTACIN ............................................................................................................................. 92
APLICACIN............................................................................................................................ 93
ndice de contenidos
ii
ndice de contenidos
iii
ndice de contenidos
iv
ndice de contenidos
Independencia ........................................................................................................................326
EJERCICIOS ........................................................................................................................... 328
ANLISIS DE EXPERIMENTOS CON VARIOS CRITERIOS DE CLASIFICACIN .................... 331
MOTIVACIN ........................................................................................................................ 331
CONCEPTOS TERICOS Y PROCEDIMIENTOS ................................................................................. 332
Ms de un criterio de clasificacin ............................................................................... 332
Estructuras en los datos ............................................................................................... 333
Diseo en Bloques Completos al Azar .......................................................................... 337
Analisis de la varianza para un DBCA .....................................................................................340
Aplicacin ..................................................................................................................... 342
DBCA para evaluar pas de penetrmetros ............................................................................342
Diseo con estructura factorial de tratamientos (Bifactorial) ..................................... 345
Modelo aditivo para un diseo bifactorial bajo un DCA .....................................................346
Aplicacin ..................................................................................................................... 347
DCA Bifactorial para evaluar efecto riego e insecticida ..........................................................347
Arreglos factoriales con interaccin ...................................................................................349
Aplicacin ..................................................................................................................... 351
DCA con estructura bifactorial de tratamientos .....................................................................351
Aplicacin ..................................................................................................................... 353
Ensayo para comparar calidad de embalaje ...........................................................................353
Otros caminos por recorrer en la modelacin estadstica ............................................ 357
EJERCICIOS ........................................................................................................................... 362
REDES DE ENSAYOS COMPARATIVOS ........................................................................... 363
MOTIVACIN ........................................................................................................................ 363
CONTEXTO DEL PROBLEMA ...................................................................................................... 364
ANAVA A DOS CRITERIOS DE CLASIFICACIN Y BIPLOT ................................................................ 366
APLICACIN.......................................................................................................................... 369
Red de ensayos de Trigo ............................................................................................... 369
REFERENCIAS ............................................................................................................... 377
NDICE DE PALABRAS CLAVE ........................................................................................ 379
v
Anlisis exploratorio de
datos
Elena Margot Tablada
Mariano Crdoba
Mnica Balzarini
Motivacin
Experimentar la Agronoma desde la bsqueda de informacin nos permite
comprender desarrollos cientficos y tecnolgicos en su lenguaje. Leer y comunicar
artculos sobre Ciencias Agropecuarias involucra saberes relacionados a entender y
crear distintos tipos de representacin de informacin. Las herramientas
bioestadsticas que conforman el ncleo conceptual denominado Estadstica
Descriptiva o Anlisis Exploratorio de Datos, constituyen preciados instrumentos
para organizar, representar y analizar informacin naturalmente variable como la
proveniente de procesos biolgicos.
2
Anlisis exploratorio de datos
Los datos son la materia prima de los anlisis estadsticos de cualquier tipo y ms
an de los anlisis estadsticos exploratorios o descriptivos; son valores asociados a
caractersticas que el investigador observa o mide sobre varios casos o unidades de
anlisis. El anlisis estadstico apunta a estudiar la variabilidad de las caractersticas
de inters relevadas sobre cada unidad de anlisis a travs de los datos que las
representan. Dichas caractersticas se conocen como variables ya que se supone
pueden asumir distintos valores sobre distintas unidades de estudio.
3
Anlisis exploratorio de datos
No todas las variables que se relevan son luego analizadas estadsticamente como
variable respuesta o variable de inters. Algunas variables se relevan simplemente
para clasificar a los individuos en grupos (variables o factores de clasificacin)
mientras que otras (covariables) se miden porque pueden relacionarse con la
variable de inters y por tanto su variacin sirve para comprender mejor la variacin
de la variable de inters.
Las variables respuestas pueden ser obtenidas desde unidades de anlisis que se
encuentran bajo condiciones a las que fueron expuestas intencionalmente (estudios
experimentales) o bajo condiciones en las que no hubo ningn tipo de intervencin
por parte del investigador y por tanto se registran u observan los valores de la
variable tal cual se dan en la realidad (estudios observacionales). En los primeros, el
investigador modifica las condiciones y decide bajo qu valores de stas desea
registrar la respuesta.
4
Anlisis exploratorio de datos
5
Anlisis exploratorio de datos
Cada unidad de anlisis que forma parte de un estudio, manifestar una respuesta a
la condicin bajo la que se encuentra y esta respuesta ser relevada como un valor
de la variable de estudio. As, la variable asumir un valor, dentro de sus valores
posibles, para cada unidad de anlisis.
En las variables de naturaleza cuantitativa dicho valor ser un nmero que puede
ser interpretado como tal, mientras que en variables de naturaleza cualitativa el
valor ser una categora. Si los valores posibles de una variable cuantitativa son
nmeros enteros y provienen de un proceso de conteo, la variable se dice de tipo
discreta. Por ejemplo: cantidad de frutos por planta, nmero de yemas por estaca,
cantidad de insectos por trampa o nmero de cras por parto. Si los valores que
puede asumir una variable cuantitativa corresponden potencialmente a cualquier
valor, por supuesto en el rango de variacin de la misma, la variable se dice
continua. Las variables continuas surgen a partir de procesos de medicin como
pueden ser pesadas o determinaciones de longitudes, tiempos, reas y volmenes.
Por ejemplo: rendimiento de soja en qq/ha, longitud de espigas de trigo en
centmetros, aumento de peso en kilogramos, dimetro de granos de maz en
milmetros, temperatura mxima diaria en grados centgrados son variables que
6
Anlisis exploratorio de datos
Cuando la variable es cualitativa, los valores posibles son categoras o clases en las
que pueden clasificarse las unidades de anlisis de manera excluyente; es decir cada
unidad pertenece a una y slo una de las clases o categoras de la variable. Para este
tipo de variables, es importante tambin que las clases sean exhaustivas es decir
que cubran todas las clases posibles en las que puede asignarse una unidad de
anlisis. Por ejemplo, si la variable cualitativa es mximo nivel de estudio alcanzado
por el encargado del establecimiento, los valores de la variable deberan ser
analfabeto o ninguno, primario, secundario, terciario, universitario y posgrado. Si
cuando se operacionaliza la variable, es decir cuando se decide cuantas categoras
tendr para el estudio de inters, se establecen las categoras primario, secundario
y universitario, no se sabr qu valor asignar a la variable en establecimientos
donde el encargado tenga estudios terciarios o de posgrado.
7
Anlisis exploratorio de datos
variable nominales son: sexo (hembra/macho), resultados del tacto que se realiza a
una vaca (preada/vaca), tenencia de la tierra (alquilada/prestada/
propia/usurpada/otra), tipo de labranza (convencional/directa/reducida). En el caso
particular de variables nominales con dos categoras, como los dos primeros
ejemplos, tambin suele usarse el nombre de variables binarias o dicotmicas.
Poblacin y muestra
8
Anlisis exploratorio de datos
9
Anlisis exploratorio de datos
La muestra es una parte del todo, es la parte que ser analizada unidad por
unidad para finalmente inferir o especular el comportamiento de la
variable de inters en la poblacin. Por lo tanto, es importante conseguir
una buena muestra.
10
Anlisis exploratorio de datos
Tcnicas de muestreo
11
Anlisis exploratorio de datos
El muestreo aleatorio simple se lleva a cabo de manera tal que todas las unidades
que componen la poblacin tengan igual probabilidad de ser elegidas para
conformar una muestra. Este muestreo puede hacerse con o sin reposicin.
12
Anlisis exploratorio de datos
Muestreo sistemtico
En este muestreo se establece una regla para la forma en que se eligen las unidades
de anlisis. La regla hace referencia a la cantidad de unidades que no sern elegidas
pero que se presentan entre dos unidades que sern seleccionadas. El muestreo
comienza eligiendo al azar una unidad de anlisis y a partir de dicha eleccin habr
k unidades disponibles que no se seleccionarn. De este modo, las unidades que
conforman la muestra son elegidas cada k unidades. El procedimiento suele ser
usado para el monitoreo de plagas en un cultivo. Si la unidad de muestreo es un
metro lineal de surco el muestreo sistemtico de k pasos igual a 80 permitir
13
Anlisis exploratorio de datos
identificar las unidades de muestreo sobre las que se harn las mediciones. Se
comienza desde un punto elegido al azar dentro del lote y cada 80 pasos se
registran las observaciones en un metro lineal de surco.
Estadstica descriptiva
14
Anlisis exploratorio de datos
Una tabla de frecuencias organiza los datos de manera tal que en una columna de
la tabla aparecen los valores de la variable, segn el tipo de variable, y en sucesivas
columnas se muestran diferentes tipos de frecuencias asociadas a esos valores
(frecuencias absolutas, frecuencias relativas, frecuencias absolutas acumuladas y
frecuencias relativas acumuladas). Veamos algunos ejemplos de distribuciones de
frecuencias y su presentacin a travs de tablas.
15
Anlisis exploratorio de datos
16
Anlisis exploratorio de datos
A diferencia de una tabla de frecuencias para una variable discreta, los valores
registrados para la variable (que tericamente pueden ser muchos y todos distintos
por ser continua) han sido agrupados en intervalos de clase cuyos lmites se indican
con LI=lmite inferior y LS=lmite superior. En cada intervalo de clase se han
contabilizado o agrupado para el clculo de frecuencias aquellos datos
comprendidos entre los lmites de dicho intervalo.
Se puede observar que el lmite superior de una clase tiene el mismo valor que el
lmite inferior de la clase siguiente, sin embargo un dato coincidente con dicho valor
ser incluido en uno de los dos intervalos segn se definan los lmites de cada
intervalo como cerrados o abiertos; en este ejemplo, los lmites superiores son
cerrados y los inferiores abiertos, por tanto un valor exactamente igual a un LS ser
incluido en el primero de los dos intervalos que tengan este valor como lmite.
17
Anlisis exploratorio de datos
Tanto en el Cuadro 1.1 como en el Cuadro 1.2, la primera columna solo enumera las
clases, sin tener significado estadstico. La columna MC o marca de clase, para una
variable discreta es directamente un valor de la misma, mientras que en una
variable continua contiene el valor medio del intervalo de clase. La MC para tablas
de variables continuas que debe interpretarse como un valor que representa a
todos los valores incluidos en cada intervalo de clase. La MC es calculada como la
suma de los lmites de cada intervalo dividida por 2.
Como puede observarse los nombres de los diferentes tipos de frecuencias son los
mismos sin importar el tipo de variable. FA es la frecuencia absoluta e indica las
veces que se registr cada valor de la variable discreta, o la cantidad de datos que
hay en cada intervalo de clase de la variable continua. Las FA responden a
preguntas del tipo: qu cantidad de unidades de anlisis asumieron un valor o
valores en un intervalo de clase determinado? (respuesta: 1 unidad, 5 unidades,
etc.), qu cantidad de cabezas de ajo tienen un peso aproximado entre 36 g y 49 g?
(respuesta: 182 cabezas). La suma de todas las FA debe coincidir con el total de
datos, es decir con el tamao poblacional si se est analizando una poblacin entera
o con el tamao muestral si el estudio se realiza a partir de una muestra.
18
Anlisis exploratorio de datos
Tanto las FA como las FR, pueden ser acumuladas (FAA y FRA, respectivamente)
permitiendo conocer, por ejemplo, la cantidad de lotes con 10 o menos aos de
agricultura continua (19 lotes) o con ms de 10 aos (50 19 = 31 plantas), o el
porcentaje de cabezas de ajo con peso menor o igual a 91 g (el 99%).
Cuadro 1.3. Frecuencias de las categoras de la variable migracin en una zona rural
19
Anlisis exploratorio de datos
Estado sanitario
Tratamiento Sanos Enfermos Total
No vacunados 29 71 100
Vacunados 144 56 200
Total 173 127 300
El Cuadro 1.4 contiene en las filas a las clases (no vacunados y vacunados) de una
variable cualitativa nominal y en las columnas a las clases (sano o enfermo) de otra
variable cualitativa nominal. En las celdas aparecen las frecuencias absolutas, o
cantidad de unidades de anlisis, bajo cada condicin.
20
Anlisis exploratorio de datos
Cuadro 1.5. Frecuencias relativas al total de unidades de anlisis (animales) segn el tipo de
tratamiento que recibe y su estado sanitario
Estado sanitario
Tratamiento Sanos Enfermos Total
No vacunados 0,10 0,24 0,33
Vacunados 0,48 0,19 0,67
Total 0,58 0,42 1,00
21
Anlisis exploratorio de datos
En el caso de este ejemplo sera de inters presentar las frecuencias relativas por
fila. Esto es, la proporcin de animales sanos y la proporcin de animales enfermos
en relacin al total de animales no vacunados (total de la fila 1) y en relacin al total
de animales vacunados (total de la fila 2). Estas proporciones obtenidas en relacin
a los totales de las filas se denominan perfiles filas y permiten conocer la
distribucin de las categoras de la variable columna (variable respuesta) en cada
categora de la variable fila (variable de clasificacin). Los perfiles filas en los
animales no vacunados y en los vacunados, se muestran en el Cuadro 1.6.
Cuadro 1.6. Frecuencias relativas de animales sanos o enfermos segn hayan sido o no
vacunados
Estado sanitario
Tratamiento Sanos Enfermos Total
No vacunados 0,29 0,71 1,00
Vacunados 0,72 0,28 1,00
Total 0,58 0,42 1,00
22
Anlisis exploratorio de datos
10 0,25
8 0,20
Frecuencia absoluta
Frecuencia relativa
6 0,15
4 0,10
2 0,05
0 0,00
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Nmero de flores Nmero de flores
Figura 1.1. Frecuencias absolutas y frecuencias relativas del nmero de flores por planta
Otro grfico que podra utilizarse para observar frecuencias absolutas de una
variable es el grfico de densidad de puntos.
23
Anlisis exploratorio de datos
10
Nmero de flores/planta
7
24
Anlisis exploratorio de datos
240 720
210 630
180 540
150 450
120 360
90 270
60 180
30 90
0 0
8 22 36 50 64 77 91 105 119 8 22 36 50 64 77 91 105 119
Peso (g) Peso (g)
(a) (b)
0,4 1,00
0,3 0,75
frec. rel. acumulada
frecuencia relativa
0,2 0,50
0,1 0,25
0,0 0,00
8 22 36 50 64 77 91 105 119 8 22 36 50 64 77 91 105 119
Peso (g) Peso (g)
(c) (d)
25
Anlisis exploratorio de datos
1,00
0,80
Distribucin emprica
0,60
0,40
0,20
0,00
0 20 39 59 79 98 118 138 157
Valores observados
Figura 1.4. Grfico de distribucin emprica de la variable pesos (en g) de cabezas de ajo
blanco.
26
Anlisis exploratorio de datos
Figura 1.5. Grfico de sectores para las frecuencias relativas de animales sanos y enfermos
segn el tratamiento aplicado.
27
Anlisis exploratorio de datos
1,00
0,29 0,72
Enfermos
0,75 Sanos
0,71
Proporcin
0,50
0,25 0,28
0,00
No vacunados (n=100) Vacunados (n=200)
Tratamiento
Figura 1.6. Grfico de barras apiladas para las frecuencias relativas de animales sanos y
enfermos segn el tratamiento aplicado.
En los grficos anteriores, como en todo grfico, hay que ser cuidadoso
de no mostrar informacin engaosa. Para ello, la mayor cantidad de
informacin debe estar en el grfico.
28
Anlisis exploratorio de datos
Los ejes de un grfico deben siempre tener nombres (aunque consideremos que es
obvia la informacin que el eje contiene). Las unidades de medida deben estar
explicitadas; los mnimos y mximos de los ejes deben ser seleccionadas
criteriosamente para no magnificar ni minimizar diferencias y para que el valor
inicial y final del eje sea un nmero entero de rpida lectura. Por ejemplo, aunque
igualmente se puedan representar rendimientos en una escala que va desde 8,3 a
28,35 qq/ha, resulta ms fcil de visualizar la grfica si stos se muestran en un eje
cuyo mnimo es 0 y mximo 30 qq/ha. El uso de decimales de ms (o de menos)
puede dificultar la lectura de la grfica. La cantidad de ticks o marcas sobre cada
eje no debe ser demasiada pero tampoco escasa y debe estar asociada a la
variacin en la serie de valores que se grafica. Los tamaos, los colores y la
simbologa usada para representar la informacin deben permitir diferenciar datos
que son distintos. Cuando existen ms de una serie grfica es importante incorporar
leyendas claras.
Los grficos de dispersin muestran los valores de una variable en el eje X y los
valores de la otra variable en el eje Y. Si se piensa que los valores de una de las
variables dependen de los valores de la otra, se las denomina variable dependiente
y variable independiente, respectivamente. En estos casos la variable dependiente o
29
Anlisis exploratorio de datos
24
20
Permetro (cm)
16
12
8
5 35 65 95 125
Peso (g)
Figura 1.7. Grfico de dispersin entre permetro (cm) y peso (g) de cabezas de ajo blanco.
2,5
Rendimiento (Tn/ha)
2,0
1,5
1,0
0,5
0,0
Bajo Loma Media Loma Alta
Zona
Figura 1.8. Grfico de barras entre rendimiento de soja (tn/ha) y zona productiva de
un lote en produccin.
30
Anlisis exploratorio de datos
Grficos multivariados
Los grficos presentados hasta este momento son grficos uni o bivariados ya que
permiten visualizar la distribucin de una variable o la distribucin dos variables. En
este ltimo caso, puede resultar de inters analizar la distribucin conjunta de las
dos variables o analizar la distribucin de una de las dos condicionada a niveles
fijados para la otra variable, es decir para determinados valores de la segunda
variable.
31
Anlisis exploratorio de datos
El siguiente grfico fue construido con datos del archivo [Salinidad] (Figura 1.9). Las
variables, sobre un conjunto de 45 macetas fueron biomasa de la planta que crece
en esa maceta, pH, zinc, potasio y salinidad del suelo usado como sustrato. Al
observar las principales correlaciones, pareciera que la biomasa se correlaciona
positivamente con el pH (es decir a medida que aumenta el pH, aumenta la
biomasa) y negativamente con el zinc (es decir a medida que aumenta el zinc,
disminuye la biomasa).
Biomasa
pH
Salinidad
Zinc
Potasio
Figura 1.9. Matriz de diagramas de dispersin para las variables biomasa, pH, salinidad, zinc
y potasio.
32
Anlisis exploratorio de datos
MO(%)
P-disp (ppm)
Escurrimiento (%)
MO(%)
Escurrimiento (%)
P-disp (ppm)
Nitratos (ppm)
Prdida de suelo (tn/ha)
C (mg/ha)
LC SD
Figura 1.10. Grfico de estrellas para las variables materia orgnica (MO), C, nitrato (NO3),
fsforo disponible (P-dis), escurrimiento y prdida de suelo evaluados en sistemas de siembra
directa (SD) y labranza convencional (LC).
El grfico de la Figura 1.10 fue construido con datos del archivo [Estrellas]. Las
variables analizadas fueron medidas durante 10 aos y corresponden a los
contenidos promedio de materia orgnica (MO), carbono (C), fsforo disponible (P-
disp.), nitratos (NO3), prdida de suelo y escurrimiento de un lote dividido en dos
33
Anlisis exploratorio de datos
partes, una bajo un sistemas de siembra directa (SD) y la otra utilizando labranza
convencional (LC). Se observa que el contenido de MO, C, P-disp, NO3 es ms alto
en SD, mientras las prdidas de suelo y escurrimiento son mayores con LC.
El siguiente grfico fue construido con datos del archivo [Protenas] (Figura 1.11). La
base de datos contiene datos estadsticos para distintos pases europeos referidos
al porcentaje de la dieta proteica de sus habitantes que proviene del consumo de
carne de cerdo, carne de vaca, huevos, leches, frutas y vegetales, embutidos,
cereales, frutos secos y pescado, vale decir 9 variables.
Los grficos Biplot siempre se inspeccionan primero sobre el eje CP1 (y luego sobre
el CP2). El valor de las CP no es importante como tal, ya que estas son ndices cuya
escala depende de la combinacin particular de variables que representen. El valor
del eje solo es importante para identificar qu observaciones tienen mayores
34
Anlisis exploratorio de datos
valores positivos y cules ms negativos. Esto implica que esas unidades de anlisis
son las ms diferentes (las ms opuestas). Unidades de anlisis con valores de CP
parecidos, son ms parecidas entre s que unidades con valores ms distantes y por
tanto ms alejados en el plano de representacin. El parecido implica similitud de
todo el perfil de variables, es un parecido en sentido multivariado. Los vectores que
representan las variables surgen del centro de la grafica y se puede inferir que: 1)
vectores que van para el mismo lado del grafico, es decir con ngulos agudos
conformados entre ellos, sugieren variables correlacionadas positivamente; 2)
vectores que oponen su sentido, es decir que tienden a formar ngulos llanos,
sugieren variables correlacionadas negativamente y 3) vectores que forman ngulos
rectos, sugieren variables no correlacionadas. Los vectores de variables que se
dirigen hacia valores altos de la CP indican que esa variable asume valores altos en
las unidades de anlisis que tienen tambin los valores ms altos para la
componente. Anlogamente se concluye respecto a los vectores que tienen valores
bajos de la componente. Luego, el Biplot de componentes principales permite:
A partir del ndice CP1 (que representa un 44,5% de la variabilidad total contenida
en la base de datos), se observa que los pases (unidades de anlisis) Yugoslavia,
Albania, Bulgaria, Rumania (parecidos entre ellos en cuanto a las fuentes proteicas
usadas) son diferentes de Irlanda, Dinamarca y Alemania O. Estas diferencias se
deben principalmente a que los mencionados primeros consumen ms cereales y
frutos secos, mientras que Irlanda, Dinamarca y Alemania O., tienen mayores
consumos de huevos, leche y carnes. A partir del ndice CP2 (que representa un
18,2% de la variabilidad total), se observa que Portugal y Espaa se diferencian del
35
Anlisis exploratorio de datos
resto de los pases; las variables de mejor representacin sobre ese eje son el
consumo de pescado, frutas y vegetales y embutidos. Consecuentemente, se infiere
que en Portugal y Espaa los consumos de protenas va estas fuentes alimenticias
son mayores que en los otros pases.
Usualmente, los grficos biplot del ACP representan bien la estructura de la tabla de
datos cuando la suma de los porcentajes de variabilidad explicados por cada eje es
mayor al 60 o 70%.
5,00
Pescado
Portugal
Frutas yVegetales
Embutidos Espaa
2,50
Grecia
Noruega FrutosSecos
Francia Polonia
CP 2 (18,2%)
Dinamarca AlemaniaE
Huevos Blgica Italia
0,00 AlemaniaO Suecia Rusia
CarneVacunaP.Bajos Inglaterra
Hungra
Rumania Yugoslavia
Irlanda Finlandia Suiza Checosl
Austria Bulgaria
Leche Albania
CarneCerdo Cereal
-2,50
-5,00
-5,00 -2,50 0,00 2,50 5,00
CP 1 (44,5%)
36
Anlisis exploratorio de datos
El siguiente Biplot de ACM se realiz con el archivo [Autos] (Figura 1.12). Los datos
corresponden a una encuesta realizada a la entrada de un negocio de ventas de
autos, donde se le pregunta a cada cliente cul es el origen del auto que
actualmente tiene (Europeo/Japons/Americano), cual es su estado civil
(soltero/casado/casado con hijo), el tipo de propiedad de la vivienda
(dueo/alquila), el tipo de auto (sport/familiar/trabajo), gnero (hombre/mujer),
tamao del auto (Chico/Grande) y cantidad de ingresos en el hogar (ingreso
1/ingreso 2).
37
Anlisis exploratorio de datos
hombre. Mientras que se opone a este perfil de unidad de anlisis (cliente) el de las
personas casada-hijo, con auto grande, con dos ingresos en el hogar, que son
mujeres y usan autos familiares y de origen americano. As el grafico permite, de
manera muy rpida identificar los principales tipos de cliente que tiene la empresa
para orientar mejor sus estrategias de venta.
1,8
Grande
1,1 Soltero-hijo
American
Ingreso1
Eje 2
-1,0
-1,0 -0,3 0,4 1,1 1,8
Eje 1
Medidas resumen
38
Anlisis exploratorio de datos
10
8
Frecuencia absoluta
0
0 1 2 3 4 5 6 7 8 9 10
Nmero de flores
Figura 1.13. Grfico de barras para la variable nmero de flores por planta.
Todos los valores de una variable no estn igualmente distribuidos dentro del rango
de variacin; esto es, los valores se presentan con diferentes frecuencias. Al valor
que aparece con mayor frecuencia se lo denomina modo o moda. Una distribucin
puede tener ms de un valor modal.
39
Anlisis exploratorio de datos
40
Anlisis exploratorio de datos
Figura 1.14. Grfico de una funcin de densidad con simetra (a), asimetra derecha (b) y
asimetra izquierda (c).
El nmero de flores por planta presenta una distribucin con leve asimetra
a la izquierda
41
Anlisis exploratorio de datos
0,4
0,3
frecuencia relativa
0,2
0,1
0,0
8 22 36 50 64 77 91 105 119
Peso (g)
Figura 1.15. Histograma de frecuencias relativas de pesos (en g) de cabezas de ajo blanco
Observemos que en este caso no es tan directo ubicar en el grfico los valores de las
medidas resumen como lo fue para la variable discreta. Esto se debe al
agrupamiento de los datos en intervalos de clase.
42
Anlisis exploratorio de datos
1,00
0,75
frec. rel. acumulada
0,50
0,25
0,00
8 22 36 50 64 77 91 105 119
Peso (g)
Figura 1.16. Aproximacin del valor de la mediana del peso (en g) de cabezas de ajo blanco
utilizando el polgono de frecuencias relativas acumuladas
El valor calculado de la mediana es 37,6 g. Vemos que a travs del mtodo grfico
se logra una buena aproximacin. La mediana tambin puede obtenerse creando
una lista de todos los valores en anlisis, que muestre a los mismos de menor a
mayor y seleccionar el valor posicionado en el medio de la lista (o el promedio de
los dos valores posicionados en el medio de la lista si el nmero de valores listados
es par).
43
Anlisis exploratorio de datos
Cuantiles y percentiles
1,0
0,9
0,8
0,7
frec. rel. acumulada
0,6
0,5
0,4
0,3
0,2
0,1
0,0
8 18 28 38 48 58 69 79 89 99 109 119
Peso (g)
Figura 1.17. Aproximacin de los cuantiles 0,30 y 0,70 de la distribucin del peso (g) de
cabezas de ajo blanco utilizando el polgono de frecuencias relativas acumuladas
44
Anlisis exploratorio de datos
En el polgono de FRA de los pesos de las cabezas de ajo (Figura 1.17), se muestra la
aproximacin para los cuantiles 0,30 y 0,70. El cuantil 0,30 es 29 g y el cuantil 0,70
es 49 g. Estos valores indican que en la muestra de datos, una proporcin de 0,30
son cabezas con peso menor o igual a 29 g. De forma similar, una proporcin de
0,70 corresponden a cabezas con pesos de hasta 49 g.
45
Anlisis exploratorio de datos
Medidas resumen
125
Resumen peso
n 707,00
Media 40,77 100
Mn 7,70
Mx 119,40 75
Peso (g)
Mediana 37,60
P(05) 17,20
50
P(25) 27,90
P(50) 37,60
P(75) 52,50 25
P(95) 72,60
0
Figura 1.18. Distribucin del peso (en g) de cabezas de ajo blanco utilizando un grfico box-
plot. Se acompaa con las medidas resumen que se pueden ubicar en el grfico
Hemos visto que un conjunto de datos tiene una distribucin y que se pueden
obtener medidas para caracterizarla. De las medidas presentadas solo el rango nos
da idea de la variacin de los datos. Sin embargo, estudiar la variacin de los datos
es uno de los aspectos de fundamental importancia en Bioestadstica. Por ello,
analizaremos otras medidas que permitan explorar variacin. Veamos el siguiente
ejemplo.
Podemos ver que las distribuciones tienen similares medias, cercanas a los 4000
kg/ha para cada cultivar. Si usamos slo la media como medida resumen para
caracterizar la distribucin de valores, concluiramos que los cultivares muestran
iguales rendimientos. Sin embargo, la Distribucin 1 presenta mayor dispersin, los
46
Anlisis exploratorio de datos
3000 3250 3500 3750 4000 4250 4500 4750 5000 3000 3250 3500 3750 4000 4250 4500 4750 5000
Rendimiento (kg/ha) Rendimiento (kg/ha)
Distribucin 1 Distribucin 2
Distribucin 3
Figura 1.19.Distribuciones de rendimientos de tres cultivares de trigo (kg/ha) con diferente
dispersin
47
Anlisis exploratorio de datos
necesario calcular el estadstico sumando los cuadrados de los desvos ms que los
desvos puros. Pero esto conlleva a cambiar la magnitud en la que se obtiene la
informacin. Por ejemplo, en las distribuciones anteriores, las varianzas se
expresaran en (kg/ha)2, lo cual carece de sentido prctico. Por ello, para expresar la
variabilidad en la unidad de medida original se obtiene la raz cuadrada de la
varianza, a la que se denomina desvo o desviacin estndar (medida tambin
conocida como desviacin tpica)
48
Anlisis exploratorio de datos
1750 1300
1040
1250
910
1000
780
750 650
Sin fertilizante Con fertilizante Pergamino Cordoba Oliveros Balcarce
Tratamiento Localidad
Coeficiente de variacin
Esta es una medida que tambin permite estudiar la dispersin de los datos. Si bien
la desviacin estndar es muy til para comparar la dispersin de dos o ms
distribuciones, el problema se presenta cuando se desea comparar distribuciones
de variables medidas en diferentes magnitudes. Por ejemplo, podemos estar
interesados en determinar si el peso de las cabezas de ajo es ms variable que el
permetro. El peso expresado en (g) y el permetro expresado en (cm) no admiten
comparacin.
49
Anlisis exploratorio de datos
157
100,00
80,00
Y
Y1
60,00
40,00
0 20,00
13,00 17,25 21,50 25,75 30,00 14,00 17,64 21,29 24,93 28,58
X X1
Figura 1.21. Grficos de dispersin indicando relacin directa entre las variables (izquierda) y
relacin inversa (derecha)
50
Anlisis exploratorio de datos
Comentarios
En este captulo hemos presentado conceptos y mtodos estadsticos para
investigar el comportamiento de diferentes tipos de variables a travs del estudio
de un conjunto de datos que pueden ser poblacionales o muestrales y provenir de
distintos tipos de estudio (experimentales u observacionales). Se pone de
manifiesto que el tipo de herramienta estadstica a usar es altamente dependiente
del tipo de variable que se estudie y de cmo se ha decidido registrar sus valores.
51
Anlisis exploratorio de datos
Notacin
Variables
Medidas resumen
52
Anlisis exploratorio de datos
Definiciones
Una variable es una caracterstica, propiedad o atributo, con respecto a la cual los
elementos de una poblacin difieren de alguna forma.
53
Anlisis exploratorio de datos
Dada una muestra aleatoria y1, y2,....., yn, el rango muestral se define como
r = y(n) - y(1) , donde y(n) e y(1) corresponden a los valores mximo y mnimo en la
muestra respectivamente.
54
Anlisis exploratorio de datos
Yi 156 , ya que: Y i
nY
i 1 i 1
As una vez que se conocen 5 de los 6 valores, el sexto no es necesario ya que puede
ser determinado porque conocemos que la suma debe ser 156. Por ejemplo si los
valores fueran: 25, 29, 27, 24 y 26, el sexto valor no tiene libertad de variar slo
puede ser 25.
Dada una muestra aleatoria y1, y2,....., yn con varianza muestral S2, la desviacin
estndar muestral se define como: DE S S 2 .
Dada una muestra aleatoria y1, y2,....., yn con media Y y desviacin estndar S, el
coeficiente de variacin muestral se define como: S
CV 100 .
Y
Si x1, x2,....., xn conforman una muestra aleatoria de una variable X e y1, y2,....., yn
conforman una muestra aleatoria de una variable Y, la covarianza muestral entre X
e Y es una funcin de los desvos, de cada xi respecto a la media muestral X , y de
los desvos de cada yi respecto a la media muestral Y , que tiene la siguiente
expresin:
1 n
Cov ( X , Y ) ( xi X )( yi Y ) .
n 1 i1
55
Anlisis exploratorio de datos
Aplicacin
Anlisis exploratorio de datos de agricultura de precisin
56
Anlisis exploratorio de datos
Estrategia de anlisis
Supondremos que el objetivo de anlisis es estudiar el lote del cual se tomaron los
datos y por tanto nuestra poblacin objeto de estudio est conformada por todos lo
pixeles o puntos que conforman el rea del lote. Si bien se dispone de un conjunto
de muchos datos porque se han relevado con instrumentos de agricultura de
precisin, estos conforman una muestra (n=7577) porque no corresponden a todos
los sitios que conforman el lote. El tamao muestral es grande por lo que estaremos
en muy buenas condiciones para realizar anlisis estadsticos. En una primera etapa
57
Anlisis exploratorio de datos
Resultados
Medidas Resumen: para obtener las medidas resumen de los datos del archivo [CE]
se utiliza el software estadstico InfoStat. Eligiendo el Men Estadsticas y
seleccionando el submen Medidas resumen, se abre la ventana Medidas resumen y
se eligen las variables que se desea analizar (CEa 30, CEa 90, altimetra, Rto_Sj y
Rto_Tg). Para continuar, se acciona el botn Aceptar y activaremos las siguientes
medidas: nmero de observaciones (n), Media, desviacin estndar (D.E),
coeficiente de variacin (CV), valor mnimo (Mn), valor mximo (Mx), Mediana,
cuantil 0,25 o primer cuartil (Q1) y cuantil 0,75 o tercer cuartil (Q3). Dejamos la
presentacin de los resultados por defecto en forma horizontal. Accionamos el
botn Aceptar y se obtiene la salida que se muestra en el siguiente cuadro.
58
Anlisis exploratorio de datos
Cuadro 1.7. Salida de InfoStat. Medidas Resumen para los datos del archivo CE
A partir de las medidas resumen, se puede observar que la CEa no cambia mucho
entre los 30 y 90 cm de profundidad; que la altimetra es un variable con poca
variacin relativa como pone en evidencia el bajo CV; que la variable rendimiento
de soja, a pesar de tener un menor desvo estndar que la variable rendimiento de
trigo muestra mayor variacin relativa, pudiendo concluir que los rendimientos de
trigo son levemente ms uniformes entre sitio y sito del lote, que los de soja. Para
todas las variables medidas, la similitud encontrada entre media y mediana sugiere
que las distribuciones de frecuencias podran considerarse como simtricas. Si bien
se observaron rendimientos de trigo entre 1,91 tn/sitio y 5,68, la mayora de stos
(el 75%) se encontr entre 3,26 y 4,14 tn/sitio, con un 25% de los valores de
rendimiento menores a 3,26 (Q1 o P(25)) y un 25% mayores a 4,14 (Q3 o P(75)).
59
Anlisis exploratorio de datos
para cada variable. Aqu se muestran solo las tablas de frecuencias para las variables
CEa 30 y Rto_Sj (Cuadro 1.8 y Cuadro 1.9).
Cuadro 1.8. Salida de InfoStat. Tablas de Frecuencias para la variable rendimiento de soja
(Rto_Sj) del archivo CE
60
Anlisis exploratorio de datos
Para la variable CEa 30 un 47,3% de los datos son menores a 28,9 mS/m. Valores de
CEa 30 entre 19,5 y 38,3 mS/m son ms frecuentes mientras que valores menores a
19,5 mS/m o mayores a 38,3 mS/m son menos frecuentes de encontrar dentro del
lote. El nmero total de observaciones es de n=7577.
61
Anlisis exploratorio de datos
Q1-15RI y Q1-3RI y los superiores entre Q3 + 1,5RI y Q3 + 3RI. Los valores extremos
aparecen por debajo de Q1-3RI y por encima de Q3 + 3RI.
62
Anlisis exploratorio de datos
70
0,30
60
frecuencia relativa
0,24
CEa 30 (mS/m)
0,18 50
0,12 40
0,06 30
0,00 20
10
15
20
24
29
34
38
43
48
52
57
62
67
CEa 30 (mS/m) 10
0,30 70
60
frecuencia relativa
0,24
CEa 90 (mS/m)
0,18 50
0,12 40
0,06 30
0,00 20
8
12
17
21
26
30
35
39
44
48
52
57
61
10
CEa 90 (mS/m)
0,30 148
146
frecuencia relativa
0,24
144
0,18
Altimetra (m)
142
0,12
140
0,06 138
0,00 136
133,3
134,6
135,8
137,1
138,3
139,6
140,8
142,1
143,3
144,6
145,8
147,1
148,3
134
132
Altimetra (m)
0,30 3,5
frecuencia relativa
0,24 3,0
Rto_Sj (Tn/ha)
0,18 2,5
0,12 2,0
0,06 1,5
0,00 1,0
0,9
1,0
1,2
1,4
1,5
1,7
1,9
2,0
2,2
2,3
2,5
2,7
2,8
3,0
3,1
0,5
Rto_Sj (Tn/ha)
0,30 7
frecuencia relativa
0,24 6
Rto_Tg (Tn/ha)
0,18 5
0,12 4
0,06 3
0,00 2
1,5
1,9
2,3
2,7
3,0
3,4
3,8
4,2
4,5
4,9
5,3
5,7
6,1
1
Rto_Tg /Tn/ha)
Figura 1.22. Histograma de frecuencias relativas (izquierda) y grfico de cajas (derecha) para
las variables CEa 30, CEa 90, Altimetra, Rto_Sj y Rto_Tg. Archivo CE.
63
Anlisis exploratorio de datos
1,00 1,00
Distribucin emprica
Distribucin emprica
0,75 0,75
0,50 0,50
1,00 1,00
Distribucin emprica
Distribucin emprica
0,75 0,75
0,50 0,50
0,25 0,25
Rto_Tg (Tn/ha)
Rto_Sj (Tn/ha)
0,00 0,00
1,0 1,5 2,0 2,5 3,0 1,5 2,5 3,5 4,5 5,5
Valores observados Valores observados
Figura 1.23. Grficos de la distribucin emprica para las variables CEa 30, CEa 90, Altimetra,
Rto_Sj y Rto_Tg. Archivo CE.
64
Anlisis exploratorio de datos
Figura 1.24. Matriz de diagramas de dispersin para las variables CEa 30, CEa 90, Altimetra,
Rto_Sj y Rto_Tg. Archivo CE.
65
Anlisis exploratorio de datos
CEa 90
9,00
4,50 Rto_Tg
CEa 30
Altimetra
CP 2 (23,3%)
Rto_Sj
0,00
-4,50
-9,00
-9,00 -4,50 0,00 4,50 9,00
CP 1 (34,0%)
Conclusin
Las medidas resumen y los grficos permitieron observar los valores relevados de
las 5 variables cuantitativas de manera ms fcil que la que se lograra observando
directamente el archivo de datos. Por ahora, hemos podido explorar la base de
datos, analizar las distribuciones de las variables, visualizar algunas interesantes
correlaciones, detectando que el rendimiento de soja, y el de trigo, se correlacionan
con la CEa medida a los 30 cm de profundidad, ms que con la altimetra. Por tanto,
se podra presuponer que los rendimientos de futuros cultivos en ese lote podran
copiar o mapearse segn los patrones de variacin espacial de Cea 30.
66
Anlisis exploratorio de datos
Ejercicios
Ejercicio 1.1: En el cultivo de la papa (Solanum tuberosum L.), el hongo Phytophtora infestans
(Mont) de Bary, produce la enfermedad Tizn Tardo. sta afecta no solo al rendimiento sino
tambin a la calidad de los tubrculos, ya que produce manchas oscuras en la piel y en el
interior de los mismos. Una de las estrategias de control consiste en aplicar fungicida.
En una zona con condiciones ambientales favorables para la presentacin del patgeno, se
plantea hacer un ensayo trabajando con la variedad de papa Spunta, susceptible a la
enfermedad, para comparar el efecto de dos fungicidas (F1 y F2) y, posiblemente,
recomendar el uso de alguno de ellos.
Tambin se obtuvo el rendimiento por parcela (kg/ha) de tubrculos comerciales (con peso
igual o mayor a 60 g) y de tubrculos semilla (peso menor a 60 g).
Las determinaciones se hicieron sobre los surcos centrales de las parcelas para evitar efectos
de bordura y arrastre del fungicida.
67
Anlisis exploratorio de datos
Ejercicio 1.2: Los tcnicos de una regin de productores de cabras desean identificar las
condiciones de manejo que ms afectan a la produccin de leche. Para ello, cuentan con
planillas de 400 productores que contienen datos de los diferentes establecimientos. Como
punto de partida del anlisis, deciden estudiar la asociacin entre el manejo nutricional y la
produccin de leche. Resuelven considerar a las variables en la siguiente forma:
Manejo nutricional: usa verdeos, usa suplementos, usa verdeos y suplementos, no usa
verdeos ni suplementos.
Produccin promedio de leche: alta (1,5 kg/da o superior), media (de 1 a 1,49 kg/da) y baja
(menor a 1 kg/da).
Uno de los tcnicos (Tcnico 1) propone seleccionar al azar 100 productores y clasificarlos
segn lo especificado para cada variable. Otro tcnico (Tcnico 2) piensa que primero
deberan separar las planillas segn el tipo de manejo y luego elegir al azar 25 productores
de cada tipo de manejo clasificndolos segn la produccin de leche, teniendo tambin un
total de 100 productores.
Las diferentes metodologas propuestas por los tcnicos implican diferencias en las
conclusiones que se obtendran? Para reflexionar sobre esto:
a) Construya la tabla de contingencia que obtendra cada tcnico proponiendo
frecuencias absolutas razonables cuando no disponga del dato para completar
la tabla.
b) Analice qu informacin podr obtenerse en cada tabla.
c) Con cada metodologa (Tcnico 1 vs Tcnico 2): se obtienen muestras de
diferentes poblaciones o la poblacin es siempre la misma?
68
Anlisis exploratorio de datos
Nov 2010 300 Nov 2010 291 Dic 2010 298 Ene 2011 310 Ene 2011 320
Nov 2010 300 Dic 2010 291 Dic 2010 298 Ene 2011 312 Ene 2011 320
Nov 2010 300 Dic 2010 291 Dic 2010 300 Ene 2011 312 Ene 2011 323
Nov 2010 302 Dic 2010 291 Dic 2010 302 Ene 2011 312 Ene 2011 323
Nov 2010 302 Dic 2010 300 Dic 2010 302 Ene 2011 312 Ene 2011 323
Nov 2010 302 Dic 2010 295 Dic 2010 302 Ene 2011 313 Ene 2011 323
Nov 2010 300 Dic 2010 295 Dic 2010 302 Ene 2011 318 Ene 2011 325
Nov 2010 296 Dic 2010 300 Dic 2010 305 Ene 2011 318 Ene 2011 325
Nov 2010 294 Dic 2010 300 Dic 2010 305 Ene 2011 318 Ene 2011 325
Nov 2010 291 Dic 2010 300 Ene 2011 310 Ene 2011 318 Ene 2011 330
69
Variables aleatorias y
probabilidades
Mnica Balzarini
Cecilia Bruno
Motivacin
Hemos usado el trmino variable para referirnos a una caracterstica de inters en
un estudio donde se realizan mediciones. Las mediciones realizadas de la
caracterstica varan de unidad a unidad y el valor que asumen en cada una de ellas
no puede ser predicho con certeza. Si bien la medicin de la caracterstica tiene un
valor esperado, existe una componente de azar que hace a estas mediciones no
determinsticas. Tales variables son conocidas como variables aleatorias e
interpretadas como un mecanismo que relaciona un resultado del estudio con un
valor numrico. Las variables aleatorias, por definicin estn ntimamente asociadas
al concepto de probabilidad, trmino que intuitivamente mencionamos a diario y
que es posible calcular. Se puede decir que el descubrimiento de mtodos rigurosos
para calcular probabilidades ha tenido un profundo efecto en la sociedad moderna.
La probabilidad es la medida de nuestro grado de incertidumbre, esto es, el grado
de nuestra ignorancia dada una situacin. En un universo determinista, donde se
conocen todas las condiciones que determinan un evento, no hay probabilidades.
Variables aleatorias y probabilidades
72
Variables aleatorias y probabilidades
En 1800 se deca que la palabra azar no significaba nada, o bien que designaba una
idea del vulgo que sealaba la suerte o la falta de ley, de manera que deba
quedar excluida del pensamiento de la gente ilustrada (Hacking I. , 1991). Todo
suceso derivaba de una serie anterior de condiciones, lo cual era la principal
creencia del determinismo o pensamiento determinstico.
La lgica del azar fue fuertemente influenciada por filsofos franceses e ingleses.
Entre la Revolucin Industrial y la Revolucin Francesa las leyes estadsticas
desplazaron el determinismo de las ciencias naturales. Peirce (1839-1914) crea en
el azar absoluto y en un universo en el que las leyes de la naturaleza, en el mejor de
los casos son aproximadas y evolucionan segn procesos fortuitos.
El azar ya no era la esencia de la falta de ley sino que estaba en el centro de todas
las leyes de la naturaleza y de toda inferencia inductiva racional. Reducir el mundo a
una cuestin de probabilidades, es sin duda, una posicin extrema, tanto como
pensar que todo est dado y determinado. No obstante la domesticacin del azar
abri caminos para que las probabilidades y las leyes estadsticas entraran a nuestro
mundo.
73
Variables aleatorias y probabilidades
Espacio muestral
Las variables aleatorias son usadas para describir los resultados de un estudio
experimental u observacional. Para el propsito del anlisis de datos las clasificamos
en cuantitativas y cualitativas y a las primeras en discretas y continuas dependiendo
de los posibles valores que la variable pueda asumir (contable o no).
74
Variables aleatorias y probabilidades
Este segundo evento est constituido por ms puntos muestrales y por tanto ser
ms probable de ocurrir.
Probabilidad
Cuando es finito (el nmero de puntos muestrales es contable) se puede dar una
definicin de probabilidad, que se desarroll originariamente estudiando los juegos
de azar. Esta se conoce como el concepto clsico de probabilidad:
75
Variables aleatorias y probabilidades
nA
P(A) = P(observar una semilla germinada) = = 600 / 1000 = 0,6
N
Es claro que estamos usando el concepto de frecuencia de ocurrencia de un evento
y entonces surge la pregunta: Qu diferencia existe entre el concepto de
frecuencia relativa y el de probabilidad? Si bien la analoga es fundamental, las
frecuencias se entienden como probabilidades slo cuando N tiende a infinito. Si el
nmero de veces que se repite un experimento no tiende a infinito, entonces
hablaremos de frecuencia relativa y diremos que sta aproxima una probabilidad.
76
Variables aleatorias y probabilidades
Se dice que dos eventos son mutuamente excluyentes si cada uno est formado por
puntos muestrales distintos, es decir no existe ningn punto muestral en la
interseccin de los subconjuntos que representan los eventos.
77
Variables aleatorias y probabilidades
Variable aleatoria
Definiremos a una variable aleatoria como una funcin que asocia a cada elemento
del espacio muestral un nmero real. El tipo de espacio muestral determina el
tipo de variable aleatoria
78
Variables aleatorias y probabilidades
Entre las variables discretas es importante distinguir al menos dos subtipos muy
comunes en estudios biolgicos: las proporciones que provienen de conteos que no
puede superar el nmero de elementos evaluados y los conteos no acotados o sin
denominador natural. Ejemplo de una variable discreta expresada como proporcin
es el nmero de semillas germinadas en cajas de Petri con 25 semillas cada caja; los
resultados se expresan como proporciones porque existe un denominador natural:
la cantidad de semillas por caja. Ejemplo de variable discreta obtenida por un
conteo (no acotado) es el nmero de pstulas de roya por m2 de cultivo.
79
Variables aleatorias y probabilidades
Una vez que se tiene un modelo terico para la distribucin de valores de la variable
de inters, es fcil calcular probabilidades.
80
Variables aleatorias y probabilidades
Hemos visto a una variable aleatoria como un descriptor de eventos aleatorios que
tiene asociada una funcin para asignar probabilidades a esos eventos. La funcin
de distribucin de probabilidad de una variable aleatoria discreta y la funcin de
densidad de una variable aleatoria continua denotada como f(.) contienen
exhaustivamente toda la informacin sobre la variable. La distribucin de una
variable aleatoria, independientemente del tipo de variable, puede representarse
tambin por su funcin de distribucin, denotada como F(y). Esta funcin asigna a
cada valor de la variable un valor entre 0 y 1 que indica la probabilidad de que la
variable, observada para un caso particular, asuma un valor menor o igual al valor
en que se est evaluando la funcin. Por ejemplo, si F(30)=0,60 diremos que 0,60 es
la probabilidad de que la variable se realice en un caso de anlisis particular con el
valor de 30 o con valor menor a 30.
=,(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2),
(3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4),
(5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
Si se quiere estudiar la variable aleatoria y=suma de los puntos en los dos dados, el
espacio muestral de esta variable tendr como elementos las sumas posibles
81
Variables aleatorias y probabilidades
y f(y) F(y)
2 f(2) = 1/36 F(2) = f(2) = 1/36
3 f(3) = 2/36 F(3) = f(2) + f(3) = 1/36 + 2/36 = 3/36
4 f(4) = 3/36 F(4) = f(2) + f(3) + f(4) = 1/36 + 2/36 + 3/36 = 6/36
5 f(5) = 4/36 F(5) = f(2) + f(3) + f(4) + f(5)= 1/36 + 2/36 + 3/36 +
4/36= 10/36
6 f(6) = 5/36 F(6) = f(2) + f(3) + f(4) + f(5) + f(6) = 1/36 + 2/36 + 3/36
+ 4/36 + 5/36= 15/36
7 f(7) = 6/36 F(7) = f(2) + f(3) + f(4) + f(5) + f(6) + f(7) = 1/36 + 2/36 +
3/36 + 4/36 + 5/36 + 6/36 = 21/36
8 f(8) = 5/36 F(8) = f(2) + f(3) + f(4) + f(5) + f(6) + f(7) + f(8) = 1/36 +
2/36 + 3/36 + 4/36 + 5/36 + 6/36 + 5/36= 26/36
9 f(9) = 4/36 F(9) = f(2) + f(3) + f(4) + f(5) + f(6) + f(7) + f(8) + f(9)=
1/36 + 2/36 + 3/36 + 4/36 + 5/36 + 6/36 + 5/36 + 4/36=
30/36
10 f(10) = 3/36 F(10) = f(2) + f(3) + f(4) + f(5) + f(6) + f(7) + f(8) + f(9) +
f(10) = 1/36 + 2/36 + 3/36 + 4/36 + 5/36 + 6/36 + 5/36 +
4/36 + 3/36= 33/36
11 f(11) = 2/36 F(11) = f(2) + f(3) + f(4) + f(5) + f(6) + f(7) + f(8) + f(9) +
f(10) + f(11) = 1/36 + 2/36 + 3/36 + 4/36 + 5/36 + 6/36 +
5/36 + 4/36 + 3/36 + 2/36= 35/36
12 f(12) = 1/36 F(12) = f(2) + f(3) + f(4) + f(5) + f(6) + f(7) + f(8) + f(9) +
f(10) + f(11) + f(12) = 1/36 + 2/36 + 3/36 + 4/36 + 5/36 +
6/36 + 5/36 + 4/36 + 3/36 + 2/36 + 1/36= 36/36= 1
As, se tiene que:
a) F(y) = 0 para valores de y < 2 g) F(y) = 21/36 para 7 y < 8
b) F(y) = 1/36 para 2 y < 3 h) F(y) = 26/36 para 8 y < 9
82
Variables aleatorias y probabilidades
Para una variable aleatoria continua pensaremos que los datos son observaciones
de una variable aleatoria con funcin de densidad f(.). La funcin de densidad
permite asignar probabilidades a eventos definidos en trminos de intervalos:
83
Variables aleatorias y probabilidades
Por ejemplo, para la variable aleatoria rendimiento de soja en qq/ha, esta funcin
podra darnos la probabilidad de que en un lote particular donde se releva el
rendimiento, ste asuma un valor entre 30 y 35 qq/ha. Luego, para cualquier valor
de la variable, el histograma provee una estimacin (aproximacin) de f(IC), es decir
la probabilidad de que Y asuma un valor en el intervalo de clase IC. Si el nmero de
datos es grande el histograma representa una aproximacin buena de la funcin de
densidad terica.
Para una variable continua esta funcin se puede visualizar utilizando un grfico de
dispersin con los posibles valores de Y en el eje de las abscisas y la probabilidad
acumulada correspondiente a cada valor de Y en el eje de las ordenadas.
84
Variables aleatorias y probabilidades
0,30
0,25
frecuencia relativa
0,20
0,15
0,10
0,05
0,00
0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000
produccin de leche/lactancia (l)
1,0
0,9
0,8
Distribucin emprica
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000
produccin de leche/lactancia(l)
85
Variables aleatorias y probabilidades
Parmetros de la distribucin
86
Variables aleatorias y probabilidades
La varianza de una variable aleatoria, denotada por Var(.) o la letra griega Sigma al
E(Y c) E(Y ) c
E(Y c) E(Y ) c
87
Variables aleatorias y probabilidades
V (Y ) 0
V (aY c) a2V (Y ) , dado que a y c son nmeros reales y que la varianza de una
constante es cero, es decir, V(c)=0.
V (Y X) V (Y ) V (X) 2Cov(Y , X)
88
Variables aleatorias y probabilidades
Comentarios
En este Captulo hemos presentado el concepto de variable aleatoria y el de
distribucin de valores de una variable aleatoria. La necesidad de definir
matemticamente las funciones que describen la distribucin de probabilidad de
variables aleatorias proviene del hecho de centrar nuestro inters en fenmenos
que no se pueden predecir con exactitud, fenmenos de naturaleza variables donde
la componente de azar est siempre presente. Podemos decir que al cuantificar
fenmenos aleatorios, hay un valor esperado o un conjunto de valores que con
mayor frecuencia se espera que ocurran; no obstante la variable tambin puede
asumir valores alejados del valor esperado. La varianza es una medida de la
incertidumbre asociada a la dispersin de los valores de la variable en torno a su
valor esperado.
89
Variables aleatorias y probabilidades
Definiciones
Se llama punto muestral o evento elemental a cada uno de los elementos del
conjunto y ser denotado genricamente como.
90
Variables aleatorias y probabilidades
nA
P(A) lim
N N.
91
Variables aleatorias y probabilidades
La esperanza de una variable aleatoria continua Y, con funcin de densidad f(.), es:
E (Y ) y f (y) dy
-
y -
2
V (Y ) 2 f (y)d(y)
-
donde = E(Y) y f(.) la funcin de densidad.
Notacin
P(A) probabilidad del evento A
92
Variables aleatorias y probabilidades
Aplicacin
Anlisis de datos de velocidad del tiempo
Estrategias de Anlisis
93
Variables aleatorias y probabilidades
1,0 1,0
0,9 0,9
0,8 0,8
Distribucin emprica
Distribucin emprica
0,7 0,7
0,6 0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0,0 0,0
16 18 20 22 24 26 28 30 36 38 40 42 44 46 48 50 52 54 56
Velocidad del viento (km/h) Velocidad del viento (km/h)
Figura 2.3: Grfico de la distribucin emprica de la velocidad del viento (km/h) en dos zonas
de un establecimiento agrcola, denominadas zona sur (izquierda) y zona norte (derecha)
Conclusin
Se recomendara la zona norte como aquella con mejores aptitudes en cuanto a la
velocidad del viento para poder utilizar la energa elica para extraer agua.
94
Variables aleatorias y probabilidades
Ejercicios
Ejercicio 2.1: Supongamos que se toma una muestra aleatoria con reposicin de tamao n=2
a partir del conjunto {1,2,3} y se produce el siguiente espacio muestral con 9 puntos
muestrales:
={(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)}
Supongamos adems que definimos la variable aleatoria Y=suma de los dos nmeros, que
conforma un nuevo espacioconforman el punto muestral y que estamos interesados en los
siguientes eventos de este segundo espacio muestral:
El evento A conformado por los puntos muestrales cuya suma sea un nmero par, es decir,
A={(1,1),(1,3),(2,2),(3,1),(3,3)}. P(A)= 5/9.
El evento B conformado por los puntos muestrales cuya suma sea un nmero impar, siendo
B={(1,2),(2,1),(2,3),(3,2)} y P(B)=4/9.
Preguntas:
a) Los eventos A y B, son mutuamente excluyentes?
b) Cul es la probabilidad de que ocurra A o B?
c) Cul es la probabilidad de que ocurra B o C? Representar tabularmente a
F(Y).
Ejercicio 2.2: Sclerotium cepivorum es el agente que causa la pudricin blanca de la cebolla.
Este patgeno se encuentra en el suelo. Con el objetivo de determinar si existen hongos con
potencial antagnico en un lote que se cultivaran con cebolla, se recolectaron muestras de
suelo a partir de la cual se contabilizaron e identificaron esclerocios. Los esclerocios son
estructuras vegetativas de los hongos fitopatgenos que actan como una forma de
resistencia permaneciendo durante largos periodos de tiempo en el suelo, pueden tener
diferentes formas y tamaos segn la especie. El siguiente grfico muestra la distribucin de
frecuencia de las especies de hongos identificados: 1-Alternaria sp., 2- Alternaria radicina, 3-
Fusarium sp., 4-Fusarium roseum, 5-Gliocladium sp., 6-Mucor sp., 7-Penicillium spp., 8-
Rhizoctonia sp., 9-Rhizopus sp. y 10-Sclerotium cepivorum.
95
Variables aleatorias y probabilidades
0,30
0,25
0,25
0,22
Frecuencia relativa
0,20
0,18
0,16
0,15
0,10
0,07
0,06
0,05
0,02
0,01 0,02 0,01
0,00
1 2 3 4 5 6 7 8 9 10
especies de hongos fintopatgenos
Ejercicio 2.3: Se cuenta con datos de rendimiento de lotes de girasol de dos zonas
pertenecientes a la regin girasolera argentina. Los datos pertenecen a una
campaa y estn expresados en qq/ha. Una zona es el Sur Oeste de la provincia de
Buenos Aires (SO) y la otra zona el Centro de la provincia de Buenos Aires (CBA).
En la siguiente figura se muestra la funcin de distribucin emprica de la
produccin de girasol en cada una de las zonas. Usaremos las FRA de este grfico
para aproximar probabilidades. Estas han sido calculadas con ms de 1000 datos
por zona.
96
Variables aleatorias y probabilidades
1,0
SO
0,9 CBA
0,8
Frecuencia relativa acumulada
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0 5 10 15 20 25 30 35 40 45 50
Rendimiento (qq/ha)
97
Modelos probabilsticos
Fernando Casanoves
Motivacin
Cuando estudiamos una variable aleatoria, es de inters calcular probabilidades
sobre la ocurrencia de ciertos valores. Por ejemplo, podramos estimar la
probabilidad de obtener un rendimiento de maz superior a 100 qq/ha, de tomar
100 semillas y que no germinen ms de 90, o de tomar una muestra de insectos con
golpes de red y capturar menos de 20 insectos. Para ello, podemos usar un modelo
de distribucin para realizar clculos probabilsticos. Para la eleccin del modelo nos
preguntamos qu funcin de probabilidad podra describir bien la variable de
inters. La distribucin emprica puede ser usada para suponer un modelo, o bien se
seleccionar el modelo desde un conjunto de modelos tericos. La naturaleza de la
variable, es decir si es discreta o continua, y las condiciones en que se realiza el
experimento son determinantes para la seleccin de un modelo probabilstico. En
este captulo se desarrollan los conceptos terico-prcticos necesarios para el
clculo de probabilidades bajo un modelo probabilstico.
Modelos probabilsticos
Distribucin Normal
100
Modelos probabilsticos
0,30
0,40
Frecuencia relativa
Frecuencia relativa
0,25
0,30
0,20
0,15
0,20
0,10
0,10
0,05
0,00 0,00
0,50 0,20
Frecuencia relativa
Frecuencia relativa
0,40 0,15
0,30
0,10
0,20
0,05
0,10
0,00 0,00
101
Modelos probabilsticos
Ajuste: Normal(17,193;10,742)
0,25
0,20
Frecuencia relativa
0,15
0,10
0,05
0,00
6 8 10 12 14 16 18 20 22 24 26 28
Permetro
Figura 3.2. Histograma de frecuencias relativas para la variable permetro de cabezas de ajo
(Archivo Ajoblanc.idb).
2
1 y
1
f ( y) e 2
2
donde (que puede asumir valores entre menos infinito e infinito) y (que puede
asumir valores entre cero e infinito) son los parmetros que caracterizan a la
distribucin normal (debido a que y e son constantes).
102
Modelos probabilsticos
0,14
0,12
0,10
Densidad
0,08
0,06
0,04
0,02
0,00
10 15 20 25 30 35 40
Produccin de leche (l/da)
Figura 3.3. Funciones de densidad normales con la misma varianza pero distintas medias
(1 = 25 y 2 = 30)
103
Modelos probabilsticos
104
Modelos probabilsticos
0,30
0,25
0,20
Densidad
0,15
0,10
0,05
0,00
20 22 24 26 28 30 32 34 36 38 40
Produccin de leche (l/da)
Figura 3.6. Funciones de densidad normales con la misma media pero distintas varianzas
( 1 = 9 y 22 = 2)
2
105
Modelos probabilsticos
Funcin de densidad
Normal(60;49): p(evento)=0,6859
0,06
Densidad 0,05
0,03
0,02
0,01
0,00
30 40 50 60 70 80 90
Rendimiento (q/ha)
Figura 3.7. Funcin de densidad normal para el rendimiento de un hbrido de maz con la
probabilidad del evento [50 Y 65] representado por el rea sombreada.
2
65 1 y 60
1
P( 50 Y 65 ) = e 2 7
dy
50 7 2
nuestro problema particular como una normal con media 0 y varianza 1, que es la
Normal para la cual las probabilidades se han calculado y tabulado. Para ello
usamos una transformacin llamada estandarizacin que nos permite llevar
cualquier distribucin normal a una nica distribucin denominada Normal
Estndar. La funcin estandarizacin tiene la siguiente forma:
106
Modelos probabilsticos
Y
Z
2
50 60
Z1 1, 4286
49
65 60
Z2 0,7143
49
107
Modelos probabilsticos
Funcin de densidad
Normal(0;1): p(evento)=0,6859
0,40
0,30
Densidad
0,20
0,10
0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z
Figura 3.8. Funcin de densidad normal estndar con la probabilidad del evento
[-1,4286 Z 0,7143] representado por el rea sombreada.
P [ Z 0,7143 ] - P [Z -1,4286 ]
0,30 0,30
Densidad
Densidad
0,20 0,20
0,10 0,10
0,00 0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z Z
Figura 3.9. Funciones de densidad normal estndar con la probabilidad del evento
[Z -1,4286] (izquierda) y [Z 0,7143] (derecha) representados por el rea sombreada.
108
Modelos probabilsticos
55 60
Z 0,7143
49
Funcin de densidad
Normal(0;1): p(evento)=0,2375
0,40
0,30
Densidad
0,20
0,10
0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z
Figura 3.10. Funcin de densidad normal estndar con la probabilidad del evento [Z -
0,7143] representado por el rea sombreada.
65 60
Z 0,7143
49
109
Modelos probabilsticos
0,30 0,30
Densidad
Densidad
0,20 0,20
0,10 0,10
0,00 0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z Z
Funcin de densidad
Normal(0;1): p(evento)=0,2375
0,40
0,30
Densidad
0,20
0,10
0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z
Figura 3.11. Funciones de densidad normal estndar con la probabilidad del evento [- Z
] (izquierda), [Z 0,7143] (derecha) y [Z 0,7143] (abajo) representados por el rea
sombreada.
110
Modelos probabilsticos
Aplicacin
Manejo de plantaciones
Estrategia de anlisis
Figura 3.12. Ventana de dilogo para graficar funciones de densidad normal con media 60 y
varianza 144.
111
Modelos probabilsticos
Funcin de densidad
Normal(60;144): p(evento)=0,2023
0,035
0,030
0,025
Densidad
0,020
0,015
0,010
0,005
0,000
0 20 40 60 80 100 120
Z
Figura 3.13. Funcin de densidad normal para los dimetros de rboles con la probabilidad
del evento [Y 70] representado por el rea sombreada.
70 60
Z 0,8333
144
Para responder a la segunda pregunta, cul ser el dimetro mnimo para cortar el
rbol si se quiere remover el 30% de los rboles, debemos encontrar el valor de la
variable por encima del cual se encuentra el 30% de los dimetros, es decir el
percentil 70 de la distribucin de los dimetros. Usando el calculador de
probabilidades y cuantiles de InfoStat (men ESTADSTICAS PROBABILIDADES Y
CUANTILES) aparece una ventana de dilogo donde se deben ingresar los
parmetros de inters.
112
Modelos probabilsticos
Figura 3.14. Ventana de dilogo para calcular probabilidades y cuantiles de una funcin de
densidad normal para obtener el cuantil 0,70 de una distribucin normal con media 60 y
varianza 144. Resultado: 66,29
Distribucin Binomial
113
Modelos probabilsticos
Por ejemplo, al tirar una moneda al aire y observar el resultado este puede ser cara
o cruz. Si se considera xito a la cara, y la moneda es balanceada, es fcil deducir
que la probabilidad de xito es p = 0,5. Si tiramos la misma moneda 20 veces y
podemos pensar que cada tirada (ensayo) es independiente, podramos calcular
probabilidades sobre la variable aleatoria Y= nmero de caras, podemos asumir a Y
n y
(1- )n- y si y 0 ,1,..., n
f ( y; n, ) y
0 en caso contrario
20
p Y 12 = 0,512 (1- 0,5) 20-12 =0,1201
12
114
Modelos probabilsticos
115
Modelos probabilsticos
Aplicacin
Plagas cuarentenarias
Estrategia de anlisis
116
Modelos probabilsticos
Luego, se nos pide calcular probabilidad de encontrar al menos una planta con la
presencia de la plaga, es decir, P [Y 1].
P *Y 1+ = P *Y > 0] =1 - P [Y < 1] = 1 P [Y = 0]
117
Modelos probabilsticos
As, la P [Y = 2] = 0,07561
118
Modelos probabilsticos
Se puede resaltar que por ser la distribucin binomial una distribucin para
variables aleatorias provenientes de conteos puede asumir como valores los
nmeros naturales incluido el cero (es decir, 0Yn). As, a diferencia de una
variable aleatoria continua donde P [Y < Y] = P [Y Y], en una variable discreta, la P
[Y = Y] es distinta de cero.
119
Modelos probabilsticos
Distribucin Poisson
As, la distribucin Poisson puede usarse para modelar el nmero de insectos sobre
una planta, o en un golpe de red, el nmero de manchas defectuosas en un
mosaico, o en un metro cuadrado de piso, el nmero de colmbolos en 100 g de
suelo, o en 1000 cm3 de suelo o, el nmero de coliformes en 1 ml de agua, etc.
120
Modelos probabilsticos
y e-
si y 0,1, 2,...
f ( y, ) y !
0 en caso contrario
121
Modelos probabilsticos
122
Modelos probabilsticos
123
Modelos probabilsticos
Aplicacin
Embalaje de manzanas
En una planta de embalaje de manzanas las frutas pasan por una cinta
transportadora para su revisin. Las manzanas con manchas, picaduras y,
magulladuras, etc. son derivadas para la produccin de jugos. En un establecimiento
de embalaje se retiran de la cinta en promedio 15 manzanas por minuto. Cada
empleado puede retirar un mximo de 20 manzanas por minuto. Cul es la
probabilidad de que un empleado alcance a retirar todas las manzanas defectuosas?
Estrategia de anlisis
124
Modelos probabilsticos
125
Modelos probabilsticos
Ejercicios
Ejercicio 3.1: La cantidad de microorganismos que tiene un mililitro de leche es la que
determina su calidad. Un establecimiento lcteo recibe diariamente leche con un promedio
de bacterias de 75 UFC/ml. La leche 70 UFC/ml o menos se usa para consumo fresco, la leche
con ms de 85 se usa para fabricar leche en polvo, y la leche con calidad intermedia se usa
para fabricar quesos. Si la empresa recibe 300000 l por da, qu cantidad de litros se usan
para consumo fresco, queso y leche en polvo?
Ejercicio 3.3: Un establecimiento de produccin de leche tiene vacas que producen 25 l por
2
da, con una varianza de 9 l . Si el tambo cuenta con 120 vacas y el productor desea
incrementar en un 30% su rodeo, y si asumimos que la produccin de las terneras ser
similar a la de sus madres, qu produccin debe tener una vaca para que su hija forme
parte del rodeo?
126
Distribucin de
estadsticos muestrales
Elena Margot Tablada
Motivacin
En numerosas situaciones deseamos utilizar los resultados del anlisis de datos
muestrales para elaborar conclusiones que puedan ser extendidas a la poblacin de
la que proviene la muestra. A este proceso inductivo se lo denomina Inferencia
Estadstica.
Vemos que inferir acerca de una poblacin en base a lo observado en solo una de
las posibles muestras, implica riesgo: el riesgo de concluir errneamente por haber
Distribucin de estadsticos muestrales
Distribucin de estadsticos
Hemos sealado que el estudio de una muestra se realiza con el fin de concluir
sobre la poblacin de la cual sta proviene. A los fines de presentar conceptos
tericos de distribucin en el muestreo, haremos un muestreo cuyos resultados
podamos visualizar fcilmente. Supongamos que contamos con la poblacin de
valores de la variable cantidad de insectos observados sobre cada una de 5 trampas.
Caractericemos la distribucin de la variable y veamos si al trabajar con muestras,
128
Distribucin de estadsticos muestrales
1,00
0,75
Frecuencia relativa
0,50
0,25
0,00
1 3 5 7 9
Nmero de insectos
129
Distribucin de estadsticos muestrales
Tabla 4.1: Valores que conforman las muestras y medias muestrales, de 10 muestras de
tamao n=2 obtenidas en un muestreo con reposicin desde una poblacin de trampas de
insectos (N=5)
Cules son todas los valores posibles para la media muestral cuando de la
poblacin de trampas se extraen muestras de tamao n=2, usando un muestreo con
reposicin?
130
Distribucin de estadsticos muestrales
Dado que tenemos todos los posibles valores de la media muestral, podemos
Y f( y )
0,25
1 1/25= 0,04
0,20
2 2/25= 0,08
0,15
3 3/25= 0,12
f(x)
5 5/25= 0,20
0,05
6 4/25= 0,16
0,00
7 3/25= 0,12 1 2 3 4 5 6 7 8 9
8 2/25= 0,08 Y
9 1/25= 0,04
Figura 4.2: Distribucin de la variable aleatoria nmero promedio de insectos por trampa en
muestras de tamao n=2 con reemplazo
131
Distribucin de estadsticos muestrales
La distribucin seala que son ms probables (ms frecuentes) los valores de media
distribucin:
y = 5 = y y2 = 4
Vemos que:
2 8
=4=
2
=
y
n 2
2
A la raz cuadrada de y :
2
se la denomina error estndar (EE).
n n
2
La igualdad y2 , se verifica con muestras obtenidas en poblaciones infinitas
n
o desde poblaciones finitas en las que se hace muestreo con reemplazo.
132
Distribucin de estadsticos muestrales
2 N n
un factor de correccin, de modo que y2 , con N=tamao de la
n N 1
poblacin.
Dado que la media muestral vara de muestra de muestra, sera importante poder
identificar un modelo de probabilidad que represente a la distribucin de la variable
133
Distribucin de estadsticos muestrales
media muestral, ya que con ello podramos calcular errores en los que se podra
incurrir cuando se usan las medias muestrales para realizar inferencia estadstica.
Medidas resumen
Resumen peso
n 1000,00
Media 3135,68
D.E. 148,30
Var(n) 21970,02
CV 4,73
Mn 2652,25
Mx 3562,90
2600 2800 3000 3200 3400 3600
Peso de pollos a faena (g)
Observemos que los valores de peso se encuentran entre 2652,25 g y 3562,9 g. Por
redondeo, la esperanza de la distribucin es = 3136 g y la varianza es 2=21970 g2;
el coeficiente de variacin corresponde a un 5%.
134
Distribucin de estadsticos muestrales
Figura 4.4. rea (probabilidad) de pesos de pollos a la faena entre 2845 g y 3426 g
Los valores 2845 g y 3426 g han sido obtenidos considerando la desviacin estndar
de la poblacin (148,22 g), de modo que a una distancia de 290,51 g (esto es, 1,96
148,22 g) hacia ambos lados de la media (0 sea, entre 3136 g - 290,51 g=2845 g y
3136 g + 290,51 g=3426 g), encontramos un 95% de los valores de la distribucin.
Esto indica que valores de peso menores a 2845 g o superiores a 3426 g son poco
probables, ya que ocurriran solo en un 5% del total de pollos.
135
Distribucin de estadsticos muestrales
Siguiendo un anlisis similar al que hemos presentado para los datos de la poblacin
de pollos, y dado que no alimentaramos a todos los pollos con el suplemento sino a
una muestra de ellos, a travs de lo que obtengamos en una muestra elegida al
azar:
Figura 4.5. Ventana de dilogo con el archivo faena y el acceso a la aplicacin Remuestreo
136
Distribucin de estadsticos muestrales
Como resultado del muestreo se generar una tabla que contendr la identificacin
de cada muestra, el tamao muestral y la media de cada muestra (Figura 4.7).
Figura 4.7. Tabla generada con las medias de 100 muestras de tamao n=5
137
Distribucin de estadsticos muestrales
Para hacer los muestreos con los diferentes tamaos de muestra debemos repetir el
procedimiento de la aplicacin tantas veces como tamaos muestrales vayamos a
utilizar. Obtendremos tantas tablas nuevas, como diferentes tamaos muestrales
usemos.
Con los datos de cada muestreo, podemos graficar las diferentes distribuciones
empricas mediante histogramas. Al construir un histograma tenemos disponible
una opcin que permite ajustar la distribucin a distintos modelos de probabilidad.
Obtenido un histograma, pediremos un ajuste Normal (Figura 4.8).
138
Distribucin de estadsticos muestrales
presentacin, se han modificado atributos de los grficos (como los ejes, entre
otros), usando opciones de la ventana de Herramientas grficas que acompaa a
cada grfico.
3000 3050 3100 3150 3200 3250 3300 3000 3050 3100 3150 3200 3250
Media Media
3050 3100 3150 3200 3250 3050 3100 3150 3200 3250
Media Media
139
Distribucin de estadsticos muestrales
tal como esperaramos, puesto que y = ; esto ocurre porque las frecuencias de
aquellas medias muestrales que son menores que estn en equilibrio con las
frecuencias de los valores que son mayores que . Sin embargo las distribuciones no
son iguales.
Por otro lado, a mayor tamao muestral, mejora el ajuste a la distribucin normal.
140
Distribucin de estadsticos muestrales
141
Distribucin de estadsticos muestrales
2600 2800 3000 3200 3400 3600 3050 3083 3117 3150 3183 3217 3250
Variable Variable
Figura 4.10: Distribucin de la variable peso a faena (izquierda) y peso promedio a faena en
muestras con n=30(derecha). El rea sombreada en cada distribucin corresponde a valores
(en gramos) entre los cuantiles 0,05 y 0,95
142
Distribucin de estadsticos muestrales
Figura 4.11: Distribuciones de las variables peso a faena (color oscuro) y peso promedio a
faena, en muestras con n=30 (color claro). Las reas sombreadas corresponden a valores (en
gramos) entre los cuantiles 0,05 y 0,95 de cada distribucin
143
Distribucin de estadsticos muestrales
La desviacin estndar es una medida del error del muestreo (de la variacin en la
muestra); el error estndar (EE) es una medida de la variacin del estimador (en
este caso, la media muestral) que permite cuantificar el error de estimacin
(variacin entre las estimaciones).
148, 22
de 30 pollos. Esto es: error de estimacin= 53,7 1,96* EE 1,96* luego:
n
2
1,96 148, 22 2
n (5, 41) 29,3 30 pollos
53,7
144
Distribucin de estadsticos muestrales
Cmo se distribuyen los valores de la varianza muestral? Dado que tenemos todos
los posibles valores de la varianza muestral (S2) para las muestras de tamao n=2,
podemos tabular y graficar la distribucin de la variable aleatoria varianza
muestral.
145
Distribucin de estadsticos muestrales
0,4
S2 f( S 2 )
0,3
Frecuencia relativa
0 5/25= 0,20
2 8/25= 0,32
0,2
8 6/25= 0,24
18 4/25= 0,16 0,1
32 2/25= 0,08
0,0
0 2 8 18 32
Varianzas muestrales
Figura 4.12. Distribucin de la variable aleatoria varianza del nmero de insectos por trampa
en muestras de tamao n=2
S 2 2 = 8
Este resultado indica que la varianza muestral puede utilizarse para estimar la
varianza poblacional.
146
Distribucin de estadsticos muestrales
(n 1) S 2
distribucin de los valores de S2, sino sobre el estadstico 2 , de modo
2
que obtenidas las varianzas para cada tamao de muestra es necesario calcular los
valores de este estadstico. Esto puede realizarse utilizando la opcin Frmulas del
men Datos, del programa InfoStat, cuando se conoce un valor para 2.
(n 1) S 2
2 , para cada tamao de muestra utilizado, con el ajuste de la
2
correspondiente distribucin Chi-cuadrado.
147
Distribucin de estadsticos muestrales
0,38
0,38
frecuencia relativa
frecuencia relativa
0,25
0,25
0,13 0,13
0,00 0,00
1000 12500 24000 35500 47000 58500 70000 0 2 4 6 8 10 12 14
Varianza Estadstico Chi-cuadrado
0,38
0,38
frecuencia relativa
frecuencia relativa
0,25
0,25
0,13 0,13
0,00 0,00
2000 14000 26000 38000 50000 62000 0 5 10 15 20 25 30
Varianza Estadstico Chi-cuadrado
0,38
0,38
frecuencia relativa
frecuencia relativa
0,25
0,25
0,13 0,13
0,00 0,00
4000 15200 26400 37600 48800 60000 0 5 10 15 20 25 30 35 40
Varianza Estadstico Chi-cuadrado
0,38
0,38
frecuencia relativa
frecuencia relativa
0,25
0,25
0,13 0,13
0,00 0,00
9000 14200 19400 24600 29800 35000 10 15 20 25 30 35 40 45 50
Varianza Estadstico Chi-cuadrado
2 2
Figura 4.13. Histogramas de la distribucin del estadstico S (izquierda) y del estadstico ,
con el correspondiente ajuste (derecha).
148
Distribucin de estadsticos muestrales
Para calcular la probabilidad de que una variable distribuida como una Chi-cuadrado
con grados de libertad sea menor o igual a un cierto valor, se utiliza la tabla de la
distribucin acumulada. Cada fila de la tabla corresponde a una distribucin Chi-
cuadrado para n-1 grados de libertad, de modo que segn sea el tamao muestral
nos ubicaremos en una de las filas. En dicha fila buscaremos el valor de x (o el valor
aproximado) y leeremos la probabilidad acumulada hasta x, en la cabecera de la
columna en la que se encuentra x. Por ejemplo si X se distribuye como una 2 con 5
grados de libertad entonces: P (X 3,99) = F (3,99) = 0,45.
Comentarios
149
Distribucin de estadsticos muestrales
Notacin
Media de la distribucin de las medias de muestras de tamao n: y
Varianza de la distribucin de las medias de muestras de tamao n: y
2
(n 1) S 2
Estadstico Chi-cuadrado:
2
2
Distribucin del estadstico 2 : 2 n21
150
Distribucin de estadsticos muestrales
Definiciones
converge en distribucin a una N(0,1). Se dice entonces que Z posee una distribucin
asintticamente normal.
Nota: Cuando se dice que una variable con distribucin Fn(.) converge en distribucin a una
distribucin G(.), cuando n tiende a infinito, se quiere indicar que > 0 n0 tal que |Fn (yx) - G(yx)|
< yx si n>n0.
151
Distribucin de estadsticos muestrales
Ejercicios
Ejercicio 4.1: En una poblacin de plantas de una especie ornamental la variable aleatoria
altura se distribuye en forma aproximada a una normal con media 30 cm y desviacin
estndar 6 cm.
152
Distribucin de estadsticos muestrales
Ejercicio 4.3: En un criadero de semillas se est probando una nueva variedad de maz que
saldr a la venta si en una muestra de 50 parcelas experimentales el desvo estndar de su
rendimiento no supera los 23 kg/ha.
a) Cul es la probabilidad de que esto ocurra si la verdadera desviacin
estndar es 20?
b) Cul es el valor por debajo del cual est el 99% de los valores posibles
de desviaciones estndar muestrales basadas en muestras de tamao 30, si
la verdadera desviacin estndar es 20?
153
Estimacin de parmetros
y contraste de hiptesis
Julio A. Di Rienzo
Motivacin
La toma de decisiones basada en criterios estadsticos se fundamenta en el
conocimiento de la forma en que se distribuyen las variables aleatorias. Por
ejemplo, para establecer la aptitud de una localidad-regin para un cultivo se
consideran, entre otras cosas, el rgimen de lluvias y de temperaturas. Estas
consideraciones contemplan explcita o implcitamente el clculo de probabilidad de
la ocurrencia de eventos que, ya sea por exceso y/o por defecto, hacen fracasar una
cosecha. Cuando esta probabilidad es grande se concluye que, para las demandas
del cultivo en cuestin, la localidad-regin no es apta o lo es marginalmente. El
clculo de esas probabilidades implica conocer la funcin de distribucin de la
variable (aleatoria) objeto de estudio. Esta funcin est caracterizada por
parmetros que en la prctica son desconocidos. El propsito de este captulo es
discutir la problemtica de la estimacin de parmetros, su confiabilidad y
contrastar hiptesis sobre ellos.
Estimacin de parmetros y contraste de hiptesis
Esta funcin se puede visualizar utilizando un grfico de dispersin con los valores
de milimetraje en el eje X y la probabilidad acumulada correspondiente en el eje Y
(Figura 5.1). En esta figura puede leerse la probabilidad antes mencionada, y
tambin que por debajo de 1200 mm ocurren casi todas las precipitaciones, por lo
tanto ser muy poco probable la ocurrencia de precipitaciones mayores a 1200 mm.
156
Estimacin de parmetros y contraste de hiptesis
1,00
0,90
Probabilidad acumulada 0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
precipitacin anual (mm)
Esta funcin aproxima bastante bien al modelo terico y puede ser adecuada para
muchas aplicaciones prcticas. Sin embargo, uno de sus problemas es que la lectura
de las probabilidades de eventos muy extremos es difcil de realizar, ya sea porque
no hay datos para esos eventos o porque la informacin es muy incompleta. Esta
situacin se agrava cuando la disponibilidad de datos es ms reducida. Por ejemplo,
si tuviera una serie de 30 registros de precipitaciones anuales para nuestra
hipottica localidad, podramos encontrar la distribucin emprica que se ilustra en
la Figura 5.3.
157
Estimacin de parmetros y contraste de hiptesis
1,00
0,90
Distribucin emprica 0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
precipitacin anual (mm)
Figura 5.2: Funcin de distribucin emprica de la variable precipitacin anual (mm) obtenida
a partir de 150 observaciones.
158
Estimacin de parmetros y contraste de hiptesis
1,00
0,90
Distribucin emprica 0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
Valores observados
Figura 5.3: Funcin de distribucin emprica de la variable precipitacin anual (mm) obtenida
a partir de 150 observaciones.
Modelo estadstico
159
Estimacin de parmetros y contraste de hiptesis
Un modelo estadstico incluye una parte fija y otra aleatoria. La parte aleatoria nos
recuerda el carcter variable de las observaciones, mientras que la fija describe la
tendencia, lo repetible. Las partes fija y aleatoria estn caracterizadas por los
parmetros de posicin y dispersin de la variable en estudio, respectivamente.
Por ejemplo, un modelo para las precipitaciones anuales en tres localidades podra
ser el siguiente:
Yij i ij
suponemos que la funcin de distribucin de los errores es una normal con media 0
y varianza 30000, el grfico de las funciones de distribucin se puede visualizar en la
Figura 5.4.
160
Estimacin de parmetros y contraste de hiptesis
1,00
0,90
probabilidad acumulada
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
200
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
precipitacin anual (mm)
2 20 y 3 120 y ij ~N(0;30000).
La Figura 5.5 muestra un caso similar al anterior excepto que las tres localidades
tienen efecto nulo sobre el valor medio de precipitaciones anuales. En este caso las
funciones de distribucin de las precipitaciones anuales de las tres localidades son
indistinguibles por sus parmetros de posicin. Supondremos, en cambio,
diferencias en sus parmetros de dispersin. Para la ilustracin: 800 , los
efectos de las localidades son nulos y los errores se supondrn normales con media
0 y varianzas diferentes: 30000, 10000 y 80000 para las localidades 1, 2 y 3
respectivamente.
161
Estimacin de parmetros y contraste de hiptesis
1,00
0,90
probabilidad acumulada
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
200
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
precipitacin anual (mm)
162
Estimacin de parmetros y contraste de hiptesis
Estimacin puntual
Toda funcin basada en una muestra se conoce como estadstico muestral. Los
estimadores son estadsticos muestrales y en consecuencia son variables aleatorias,
ya que son funciones de variables aleatorias. Para que un estadstico muestral sirva
como estimador, debemos evaluar algunas propiedades que caracterizan a los
estimadores.
163
Estimacin de parmetros y contraste de hiptesis
Consistencia
Insesgamiento
Eficiencia
Cerramiento
Consistencia
Insesgamiento
Esta propiedad pide a un estimador que, para cualquier tamao muestra, su valor
esperado sea el parmetro. En trminos prcticos, esta propiedad implica que si se
tomaran muchas muestras de tamao n y se estimara el parmetro con cada una de
ellas utilizando un estimador insesgado, entonces el promedio de todas esas
estimaciones ser el valor del parmetro. Cuando esta propiedad no se cumple se
dice que el estimador es sesgado. El sesgo puede ser positivo o negativo. Esta
propiedad no es contradictoria de la propiedad de consistencia, pero si un
estimador es consistente pero sesgado esto implica que el sesgo se achica con el
incremento del tamao muestral. Se puede probar que la media muestral
(promedio) es un estimador insesgado de la media poblacional.
164
Estimacin de parmetros y contraste de hiptesis
Eficiencia
Cerramiento
Esta propiedad indica que el estimador siempre produce valores admisibles para el
parmetro. Por ejemplo, la varianza es una medida de variabilidad y su cota inferior
es 0. Si un estimador de la varianza produce, eventualmente, resultados negativos,
entonces no cumple con la propiedad de cerramiento.
Error estndar
165
Estimacin de parmetros y contraste de hiptesis
EEY S n
Intervalo de confianza
166
Estimacin de parmetros y contraste de hiptesis
Y
~ Tn 1
S n
Mediante alguna manipulacin algebraica es posible derivar los lmites inferior (LI) y
superior (LS) del intervalo de confianza (bilateral) para la media, dado un nivel de
LI Y T1 ;n1 S n; LS Y T1 ;n1 S n
167
Estimacin de parmetros y contraste de hiptesis
tuviramos una muestra de tamao n=20, el coeficiente por el que habra que
multiplicar al error estndar de la media (para restrselo y sumrselo, a fin de
obtener los lmites inferior y superior respectivamente), sera el percentil 0,975 de
una T con 19 grados de libertad.
168
Estimacin de parmetros y contraste de hiptesis
Aplicacin
0,40 0,77 0,28 0,41 0,74 0,74 0,34 0,22 0,33 0,34
0,42 0,17 0,22 0,23 0,35 0,48 0,42 0,59 0,21 0,48
0,67 0,66 0,34 0,37 0,34 0,52 0,32 0,33 0,27 0,32
Estrategia de anlisis
169
Estimacin de parmetros y contraste de hiptesis
1 .
Resultados y discusin
Por qu utilizamos un nivel de confianza del 99,9% y no del 95%? La razn es que
queremos proteger al consumidor. Cuanto mayor es la confianza ms amplio es el
intervalo de confianza y esto implica que sern rechazados ms lotes que si
usramos un intervalo de confianza al 95%.
Conclusin
Contraste de hiptesis
Como se indic anteriormente los modelos estadsticos tienen una parte fija y otra
aleatoria que estn caracterizadas, respectivamente, por los parmetros de posicin
y dispersin de la variable aleatoria bajo estudio. Vamos a centrar nuestra discusin
sobre el contraste de hiptesis en el contexto de los modelos lineales. Estos
170
Estimacin de parmetros y contraste de hiptesis
modelos son la base terica y conceptual del anlisis de la varianza y del anlisis de
regresin (que se discutirn ms adelante) y que constituyen el cuerpo principal de
mtodos estadsticos aplicados a la experimentacin agropecuaria.
En el lenguaje del contraste de hiptesis se contrastan una hiptesis nula vs. una
hiptesis alternativa. La hiptesis nula que se simboliza con H0 sostiene que el
modelo nulo es el correcto, mientras que la hiptesis alternativa, que se simboliza
con H1, establece que el modelo alternativo es el correcto.
171
Estimacin de parmetros y contraste de hiptesis
Nivel de significacin
Cul es la racionalidad detrs del nivel de significacin? Cuando una hiptesis nula
se somete a prueba es posible concluir que sta es falsa an cuando sea verdadera.
Este error se conoce como error de tipo I. Puede ocurrir debido a que los datos, a
partir de los cuales se realiza la prueba son, por azar, muy desfavorables para la
hiptesis nula. Est claro que si la hiptesis nula fuera cierta la frecuencia con que
aparecern datos desfavorables ser pequea. El nivel de significacin es la
probabilidad de cometer el error de tipo I. Luego el nivel de significacin es el
instrumento que tiene el investigador para controlar la tasa con que puede ocurrir
172
Estimacin de parmetros y contraste de hiptesis
este tipo de error. Obviamente que todos quisiramos que la tasa de error de tipo I
fuera cero o muy pequea, el problema es que cuando disminuimos la tasa de error
de tipo I aumenta la probabilidad de ocurrencia de otro tipo de error: el error de
tipo II. Este error corresponde a la aceptacin de la hiptesis nula cuando es falsa.
Su probabilidad de ocurrencia se simboliza con .
Contrastando hiptesis
173
Estimacin de parmetros y contraste de hiptesis
Yi 0 i
Este modelo sugiere que todas las observaciones comparten la media 0 y que toda
Yi 0 i
: corresponde al efecto del nuevo inoculante. Se espera que este parmetro sea
positivo. En tal caso el nuevo inoculante ser mejor que el comercial.
normal con media cero y varianza 2 . Supondremos adems que los errores
son mutuamente independientes. Esta ltima suposicin es necesaria para
derivar la distribucin del estadstico utilizado para contrastar los modelos nulo
y alternativo.
174
Estimacin de parmetros y contraste de hiptesis
postula H 0 : 0 , o, equivalentemente: H 0 : 0 vs H 0 : 0 .
Y 0
Z ~ N (0,1)
2
n
varianza del trmino de error). Se puede demostrar que si la hiptesis nula es cierta,
el estadstico Z se distribuye como una Normal estndar. La grfica de la funcin de
densidad Normal se muestra en la Figura 5.7.
175
Estimacin de parmetros y contraste de hiptesis
0,30
0,30
Densidad
Densidad
0,20
0,20
0,10 0,10
0,00 0,00
-5,00 -2,50 0,00 2,50 5,00 -5,00 -2,50 0,00 2,50 5,00
Z Z
Figura 5.7: Funcin de densidad de una Normal estndar (Izquierda). Funcin de densidad
donde se ha marcado la probabilidad de la regin de rechazo bajo H 0 en una prueba bilateral
(derecha).
En la imagen de la derecha de la Figura 5.7 se han marcado dos reas, por debajo de
la curva, cuya superficie total (suma), es 0,05. Por tratarse de un rea bajo la curva
de densidad, el valor 0,05 es una probabilidad que corresponde a la probabilidad
de obtener una realizacin de una Normal estndar fuera de la regin delimitada
por dos puntos que corresponden a: - 1,96 y 1,96. La regin delimitada por estos
puntos se conoce como regin de aceptacin de la hiptesis nula y fuera de esta
regin est la regin de rechazo. Si el estadstico Z calculado a partir de la muestra
cae en la regin de aceptacin la hiptesis nula se acepta, sino se rechaza. Por lo
tanto 0,05 es la probabilidad de que Z se realice en la regin de rechazo cuando la
hiptesis nula es cierta. Esta es otra forma de conceptualizar el nivel de
significacin: probabilidad de que el estadstico utilizado para contrastar las
hiptesis, se realice en la regin de rechazo, cuando la hiptesis nula es cierta. Por lo
tanto, el contraste tiene un nivel de significacin del 5%.
176
Estimacin de parmetros y contraste de hiptesis
Una de las formas de plantear las hiptesis del ejemplo de Melillotus fue:
H 0 : 0 vs H1 : 0 . En esta forma de enunciar las hiptesis puede
agregado la condicin de que es mayor que cero. Esta condicin implica que el
investigador espera que la media del peso de los plantines con el nuevo inoculante
sea mayor que con el inoculante comercial de referencia, si la hiptesis nula falla.
Volvamos al estadstico de la prueba:
Y 0
Z ~ N (0,1)
2
n
177
Estimacin de parmetros y contraste de hiptesis
La anticipacin del sentido en que la hiptesis nula puede fallar agrega informacin
que puede utilizarse para construir un contraste ms efectivo. Decimos ms efectivo
en el sentido que ser capaz de rechazar una hiptesis nula falsa con un tamao de
muestra menor que si se aplicara un contraste bilateral. Es por ello que se dice que
los contrates (pruebas) bilaterales son ms conservadores.
Normal(0,1): p(evento)=0,0500
0,40
0,30
Densidad
0,20
0,10
0,00
-5,00 -2,50 0,00 2,50 5,00
Z
178
Estimacin de parmetros y contraste de hiptesis
Valor p
cuando la hiptesis nula es cierta, con una distribucin que podemos llamar D.
Adems supongamos que el valor del estadstico obtenido con la muestra dada es
2 P E abs( E ) | H 0 segn que la prueba sea unilateral o bilateral,
179
Estimacin de parmetros y contraste de hiptesis
significacin) para una prueba unilateral derecha con un nivel de significacin del
5% (Figura 5.9a). La segunda y tercera muestran dos casos de valores p (reas
sombreadas): uno en el que se rechaza H0 (Figura 5.9b) y otro en el que no se
rechaza (Figura 5.9c).
(a) (b)
Normal(0,1): p(evento)=0,0500 Normal(0,1): p(evento)=0,0228
0,40 0,40
0,30 0,30
Densidad
Densidad
0,20 0,20
0,10 0,10
0,00 0,00
-5,00 -2,50 0,00 2,50 5,00 -5,00 -2,50 0,00 2,50 5,00
Z Z
(c)
Normal(0,1): p(evento)=0,2743
0,40 Figura 5.9: Funcin de densidad de una
Normal estndar donde se ha marcado: a) la
0,30
probabilidad de la regin de rechazo bajo H 0
en una prueba unilateral derecha (=0,05).
Densidad
0,00
-5,00 -2,50 0,00 2,50 5,00
Z
180
Estimacin de parmetros y contraste de hiptesis
Potencia
Las pruebas estadsticas para el contraste de hiptesis estn afectadas por el ruido
o nivel de incertidumbre en el experimento. La incertidumbre es modelada y
cuantificada por los parmetros de dispersin del modelo. stos capturan la
variabilidad de los componentes aleatorios. Llamaremos a la incertidumbre de un
modelo, en un sentido amplio: error experimental. Un modelo con mayor error
experimental es un modelo con mayor incertidumbre y por lo tanto con menor
precisin en sus estimaciones.
181
Estimacin de parmetros y contraste de hiptesis
hiptesis nula es falsa. Esto ltimo ocurre cuando el modelo verdadero es diferente
del modelo nulo (y por lo tanto la hiptesis nula es falsa), pero la discrepancia entre
ambos es pequea y/o el tamao del experimento es insuficiente para detectarla
dada la magnitud del error experimental. La probabilidad de que un experimento de
tamao y error experimental determinados pueda detectar una discrepancia
especfica entre modelos se conoce como potencia. Esta probabilidad se representa
usualmente con la letra griega . Luego, un aspecto importante del diseo de un
experimento debe contemplar el nmero de repeticiones necesarias para que, dado
un nivel de error experimental, la prueba estadstica tenga una potencia razonable
para detectar una discrepancia dada (por ejemplo una potencia igual o mayor que
0,80).
hiptesis asumimos que la nueva cepa, slo puede ser igual o mejor que la cepa
182
Estimacin de parmetros y contraste de hiptesis
Hasta ahora sabemos que el estadstico de la prueba con la que estamos haciendo
la ejemplificacin se distribuye como una Normal estndar, cuando la hiptesis nula
es cierta. Eso se explicita incluyendo un H 0 sobre el smbolo ~.
H0
Y 0
Z ~ N (0,1)
2
n
Cuando la hiptesis nula falla, Z no sigue ms una distribucin Normal estndar sino
una distribucin Normal, tambin con varianza 1, pero desplazada en el sentido que
indicado por el signo del valor esperado del numerador. Si la esperanza del
numerador es positiva entonces Z es una Normal desplazada hacia la derecha (con
media mayor que cero), sino estar desplazada a la izquierda (con media negativa).
Para generalizar, podemos decir que:
Y 0 0
Z ~ N ,1
2
2
n n
La expresin anterior indica que Z tiene distribucin Normal con media igual a la
183
Estimacin de parmetros y contraste de hiptesis
del error experimental fuera de 10 mg2? Por el planteo del problema el contraste es
unilateral derecho, por lo que si trabajamos con un nivel de significacin del 5% el
punto que delimita la regin de aceptacin y rechazo es el cuantil 0,95 de una
Normal estndar. Este valor es 1,645. Luego la probabilidad de caer en la regin
de rechazo cuando la hiptesis nula falla es:
2
P Z 1,645 | Z ~ N ,1
10
20
La probabilidad que tenemos que calcular se basa entonces en una N (2,83;1) . Esta
184
Estimacin de parmetros y contraste de hiptesis
Normal(2,83,1): p(evento)=0,8820
0,40
0,30
Densidad
0,20
0,10
0,00
-6,00 -3,00 0,00 3,00 6,00
Z
Figura 5.10: Dos curvas de densidad Normal. La que se encuentra a la izquierda del grfico
corresponde a una normal estndar. La que se encuentra a la derecha es una N(2,83;1)
correspondiente a la distribucin de Z cuando =2 mg. El rea sombreada corresponde a la
probabilidad de que Z se realice en la zona de rechazo cuando la distribucin de Z es una
N(2,83;1). Esta probabilidad es la potencia de rechazar la hiptesis nula. En el ejemplo la
potencia vale 0,8820. Para todo fin prctico esta es una potencia razonable.
185
Estimacin de parmetros y contraste de hiptesis
1,00
0,75
Potencia
0,50
0,25
0,00
0,00 0,50 1,00 1,50 2,00 2,50 3,00
Thau
186
Estimacin de parmetros y contraste de hiptesis
plantas para poder detectar con una probabilidad prxima a 0,80 un 1 mg. Si
nuestra capacidad de experimentacin no nos permite montar un experimento de
ese tamao, entonces podramos realizar varios experimentos ms pequeos hasta
completar el nmero requerido.
187
Estimacin de parmetros y contraste de hiptesis
1,00
0,85
potencia
0,70
0,55
0,40
20 40 60 80 100 120
n
188
Estimacin de parmetros y contraste de hiptesis
Definiciones
Es una propiedad de los estimadores que, cuando se cumple, implica que dado un
tamao muestral n el promedio sobre todas las muestras posibles de tamao n
es igual al valor del parmetro estimado.
Regin que contiene con una confianza dada al verdadero valor del parmetro
estimado. La confianza se expresa en una escala porcentual y usualmente es mayor
que 90%. Sus valores usuales son 95% y 99%.
189
Estimacin de parmetros y contraste de hiptesis
190
Estimacin de parmetros y contraste de hiptesis
Ejercicios
Ejercicio 5.1: Supongamos que se conoce que la distribucin del permetro de cabezas de ajo
blanco cosechados en un establecimiento hortcola en la ltima campaa, siguen una
2
distribucin aproximada a una Normal con media de 18 cm y varianza de 10 cm y se ha
obtenido una muestra de 25 cabezas en la cual la media del permetro es de 19 cm:
a) Si con el valor de la media muestral se desea estimar el verdadero valor
del permetro promedio de la poblacin de ajos cosechados Qu valores
de la distribucin de las medias de muestras de tamao 25 conforman los
lmites de un intervalo de confianza al 95%?
b) Si con la muestra obtenida se desea realizar un contraste bilateral para la
H 0 : 18 cm con un nivel de significacin del 5% Qu valores de la
distribucin de las medias de muestras de tamao 25 conforman los
lmites de la zona de aceptacin de la hiptesis nula?
c) Qu concluira con los resultados obtenidos, aument o no la media del
permetro de ajo?
Ejercicio 5.2: Los siguientes datos corresponden a rendimientos de maz (en kg/ha) bajo
distintas densidades de siembra: baja= 50.000 plantas/ha, media= 70.000 plantas/ha y alta=
90.000 plantas/ha.
Densidad
Ambiente Baja Media Alta
Alto 12818 12490 11780
Alto 11869 12506 10881
Alto 12819 12502 11774
Alto 12189 12419 10578
Alto 13275 14197 13037
Alto 9405 10363 11046
Alto 10687 10144 10940
Bajo 8063 8284 7625
Bajo 8832 9703 9938
Bajo 10302 10489 10779
Bajo 9239 9525 9122
Bajo 8672 9180 9135
Bajo 10149 10442 9786
Bajo 7605 7426 7399
191
Estimacin de parmetros y contraste de hiptesis
Ejercicio 5.3: Los siguientes son datos de incidencias relativas de Esclerotinia (podredumbre
del captulo). Cada dato es el cociente entre la incidencia de una lnea comercial respecto de
una nueva lnea que se espera sea resistente. Los datos se recolectaron en 20 localidades que
cubren un amplio nmero de condiciones ambientales. En cada localidad se obtuvieron datos
de incidencia de ambas lneas comparadas.
H0
Y 0
T ~ T( n 1)
S2
n
192
Comparacin
de dos poblaciones
Laura A. Gonzalez
Motivacin
En muchas situaciones de toma de decisiones, se necesita determinar si los
parmetros de dos poblaciones son iguales o diferentes. Una empresa, por ejemplo,
puede querer probar si sus empleadas reciben un salario menor que sus empleados
por realizar el mismo trabajo. Un laboratorio puede necesitar indagar el efecto de
una droga en un determinado grupo de animales frente a otro grupo. Tambin para
comparar el efecto de dos virus sobre plantas de tabaco, el aumento de peso en
animales alimentados con dos pasturas diferentes o el efecto de dos dosis de un
fungicida. En cada uno de estos casos se busca, ms que el valor real de los
parmetros, la relacin entre sus valores, es decir, cules son las diferencias. Las
empleadas ganan, en promedio, menos que los empleados por hacer el mismo
trabajo? Un grupo de animales reacciona, en promedio, de manera diferente que
otro grupo frente a un tratamiento? Hay diferencias en el aumento de peso
promedio de novillos alimentados con diferentes pasturas? El efecto de un
fungicida es mayor que otro?. En este captulo presentamos mtodos estadsticos
para responder preguntas referidas a la comparacin (a nivel de medias) de dos
poblaciones.
Comparacin de dos poblaciones
Cuando se desea dos poblaciones se usan dos muestras m1= {Y11, Y21,, Yn1} y
m2= {Y12, Y22,, Yn2}, donde cada muestra proviene de una poblacin.
dos medias de las muestras, obtenemos: Y1 Y2 que es la diferencia entre las dos
medias muestrales.
12 22
Y Y
n1 n2
1 2
194
Comparacin de dos poblaciones
donde:
12 es la varianza de la poblacin 1
n1 es el tamao de la muestra de la poblacin 1
22 es la varianza de la poblacin 2
n2 es el tamao de la muestra de la poblacin 2
cuales proceden.
Contrastar hiptesis sobre un valor postulado para la diferencia de medias
poblacionales.
195
Comparacin de dos poblaciones
H 0 : 1 2 versus H1 : 1 2
H 0 : 1 2 = 0 versus H1 : 1 2 0
H 0 : 1 2 versus H1 : 1 2
H 0 : 1 2 versus H1 : 1 2
196
Comparacin de dos poblaciones
Varianzas
poblacionales
conocidas (prueba Z)
Muestras Varianzas iguales
independientes (prueba T)
Varianzas
poblacionales
desconocidas
Varianzas diferentes
(prueba T corregida)
Muestras (prueba T muestras
dependientes apareadas)
Si las muestras estn relacionadas, esto es: los resultados del primer grupo no son
independientes de los del segundo, se tendrn lo que se llaman observaciones
apareadas. Este es el caso de la comparacin de la presin arterial de individuos
antes y despus de suministrarles un medicamento, o si se comparan dos
variedades de soja sembradas cada una en cinco localidades diferentes.
197
Comparacin de dos poblaciones
El estadstico ser:
Z
Y1 Y2 1 2
~ N (0,1)
12 22
n1 n2
Los Lmites del intervalo de confianza bilateral, con confianza 1-, para la diferencia
de medias estn dados por:
12 22
Y 1 Y2 z (1 /2)
n1 n2
Por ejemplo, se mont un ensayo para comparar dos especies forrajeras en funcin
de la produccin de materia seca. El ensayo consisti en tomar 12 lotes de semillas
de cada especie y hacerlas germinar, obtenindose los siguientes valores de peso
seco promedio a los 20 das (mg), archivo [EspecieAyB]:
198
Comparacin de dos poblaciones
Especie A 60 65 63 67 56 53 77 55 52 61 61 59
Especie B 49 45 56 57 59 65 52 51 50 62 45 48
Supongamos que se sabe que la desviacin estndar poblacional es, para ambas
especies, de 5 mg. La pregunta de inters es: hay diferencias entre las forrajeras, a
nivel del peso seco promedio? Trabajaremos con = 0,10.
Para tener una primera descripcin de los datos se obtienen los siguientes
resultados, usando InfoStat:
Como puede verse, a partir de los datos se puede calcular la desviacin estndar de
la variable peso seco para cada especie, sin embargo como tenemos la informacin
de su valor poblacional, lo usamos. El estadstico para este problema se calcula de la
siguiente manera:
Z
YA YB A B
60, 75 53, 25 0
3, 67
A2 B2 25 25
nA nB 12 12
199
Comparacin de dos poblaciones
0.90
0.05 0.05
-1.645 1.645
La regin de aceptacin para un nivel de significacin del 10% est delimitada por
los valores -1,645 y 1,645, correspondientes a los cuantiles /2 y 1-/2
respectivamente, de una distribucin Normal Estndar. Como Z= 3,67 es mayor que
el punto crtico Z2*= 1,645, se rechaza la hiptesis nula de igualdad de medias
poblacionales, o sea que la diferencia entre los pesos secos de las forrajeras en
estudio es diferente de cero.
200
Comparacin de dos poblaciones
12 22
Y Y z
1 2 (1 /2) 7,5 1, 645 2, 412 4,14;10,85
n1 n2
debemos averiguar si las varianzas son iguales o diferentes. Para saberlo deberemos
plantear las siguientes hiptesis:
H 0 : 12 22 versus H1 : 12 22
s12
F 2 ~ F( n1 1,n2 1)
s2
Bajo H0 este estadstico se distribuye como una F con n1-1 y n2-1 grados de libertad.
201
Comparacin de dos poblaciones
Si con la prueba anterior se concluye que las varianzas son iguales, para la inferencia
de las medias usaremos el siguiente estadstico:
Y Y2 1 2
T 1
~ Tn1 n2 2
1 1
2
S
p
n1 n2
Los lmites del intervalo de confianza bilateral, con confianza 1-, para la diferencia
de medias estn dados por:
1 1
Y 1
Y2 t(1 /2) ; n1 n2 2 s 2p
n1 n2
202
Comparacin de dos poblaciones
Formulacin A 85 86 92 87 92 90 95 90 92 91
Formulacin B 87 86 84 80 89 85 92 89 86 90
H 0 : A B versus H1 : A B
Cuadro 6.2. Salida de InfoStat: Prueba T para muestras Independientes (varianzas iguales)
Para la prueba de medias el valor p (en la salida se encuentra como valor p), es igual
a 0,0426 resulta menor que = 0,10 indica el rechazo de la hiptesis de igualdad de
medias. Es decir, hay diferencias estadsticamente significativas entre ambas
formulaciones considerando la mortalidad de los insectos.
203
Comparacin de dos poblaciones
2
S12 S22
n n
donde: 1 2
2
2 2
S12 S22
n n
1
2
representa los grados de libertad
n1 1 n2 1
204
Comparacin de dos poblaciones
Los lmites del intervalo de confianza bilateral, con confianza 1-, para la diferencia
de medias estn dados por:
s12 s22
Y 1
Y2 t(1 /2) ;
n1 n2
H0 : 1 2 versus H1 : 1 2
205
Comparacin de dos poblaciones
Para la prueba de medias el valor p <0,0001 es menor que =0,05, lo que indica el
rechazo de la igualdad de medias. Es decir, hay diferencias estadsticamente
significativas entre ambas condiciones de la reaccin enzimtica utilizando la
medida de unidades internacionales.
Dado que los lmites de intervalo de confianza para la diferencia son positivos, se
infiere que la reaccin con calor produce mayor actividad enzimtica que con fro.
206
Comparacin de dos poblaciones
Observemos entonces que si la reaccin es llevada a cabo con calor, los valores de
reaccin estarn entre 7,54 y 7,66 unidades internacionales.
Muestras dependientes
En este caso, los datos se obtienen de muestras que estn relacionadas, es decir, los
resultados del primer grupo no son independientes de los del segundo. Dadas las
muestras m1 y m2 consideremos una muestra de las diferencias entre los datos de
cada muestra:
md= {Y11- Y12, Y21 - Y22 ,,Yn1- Yn2}= {D1, D2 ,,Dn} (observemos que n1= n2= n)
207
Comparacin de dos poblaciones
hipotetizado para el promedio poblacional de las diferencias (). Las hiptesis que
podramos plantear son:
H0 : 1 2 = 0 versus H1 : 1 2 0
o bien:
H0 : = 0 versus H1 : 0
T
D ~ t
n 1
S D2
n
2
donde D es la media muestral de las diferencias y S D la varianza muestral de las
diferencias.
Los lmites del intervalo de confianza bilateral, con confianza 1-, para la diferencia
de medias estn dados por:
S D2
D t (1 /2) ; n 1
n
208
Comparacin de dos poblaciones
Equipo 1 2 3 4 5 6 7 8
Riego NR 0,487 0,408 0,360 0,431 0,576 0,660 0,400 0,540
Riego R 0,387 0,820 0,788 0,889 0,578 0,680 0,410 0,550
Diferencias 0,1 -0,412 -0,428 -0,458 -0,002 -0,02 -0,01 -0,01
Las hiptesis:
H0 : R NR = 0 versus H1 : R NR 0
Para la prueba de medias el valor p= 0,1023 es mayor que =0,05, lo que indica el
no rechazo de la hiptesis de igualdad de medias. Es decir, no hay diferencias
estadsticamente significativas entre ambas situaciones de riego. El intervalo de
confianza (con una confianza del 95%) para la diferencia de medias est
representado por LI(95%)= -0,04 y LS(95%)= 0,35. Observemos que el mismo incluye
el cero, lo que indica que no existe diferencia entre ambas condiciones.
209
Comparacin de dos poblaciones
Aplicacin
Rendimiento segn poca de cosecha
Estrategia de anlisis
Lo primero que se debe decidir es el tipo de observaciones que se tienen, para este
problema la naturaleza del estudio indica que son datos independientes dado que
hay dos pocas de almacenamiento de los tubrculos. Las hiptesis podran ser:
H0 : 1 2 = 0 versus H1 : 1 2 0
Resultados y Discusin
Con InfoStat (men Estadsticas > Inferencia basada en dos muestras > Prueba T),
obtenemos los siguientes resultados:
210
Comparacin de dos poblaciones
211
Comparacin de dos poblaciones
Conclusin
Polinizado 0,79 0,77 0,44 0,61 0,47 0,56 0,93 0,87 0,58 0,69
No polinizado 0,22 0,13 0,33 0,26 0,14 0,16 0,28 0,31 0,21 0,15
Estrategia de anlisis
212
Comparacin de dos poblaciones
H0 : 1 2 = 0 versus H1 : 1 2 0
Resultados y Discusin
Con InfoStat (men Estadsticas > Inferencia basada en dos muestras > Prueba T
apareada), obtenemos:
Para la prueba de medias el valor p <0,0001 es menor que =0,05, lo que indica el
rechazo de la igualdad de medias. Es decir, hay diferencias estadsticamente
significativas entre ambas condiciones de polinizacin.
Para hallar el intervalo slo para las plantas polinizadas, se recurre a InfoStat (men
Estadsticas > Inferencia basada en una muestra > Intervalos de confianza). El
resultado es:
213
Comparacin de dos poblaciones
Conclusin
214
Comparacin de dos poblaciones
Ejercicios
Ejercicio 6.1: Dos lotes de pollos de la misma raza y edad fueron alimentados durante 30 das
con dos tipos diferentes de alimento balanceado. Los aumentos de peso, en gramos, fueron:
Balanceado A 329 363 298 243 391 333 369 432 440 397 409 350
Balanceado B 353 405 372 345 377 409 428 421 357 372 409 367
Ejercicio 6.2: Una empresa semillera quiere comparar el desempeo de dos variedades de
maz en una amplia regin para la cual ambas variedades estn recomendadas. Para realizar
el ensayo se dispone que en cada una de las 6 estaciones experimentales que la empresa
tiene en la zona se siembren dos parcelas, una para cada variedad. Al final del ciclo del
cultivo se obtuvieron los siguientes rendimientos (qq/ha):
Estacin experimental 1 2 3 4 5 6
Variedad A 50 60 55 40 48 52
Variedad B 52 61 57 42 48 54
215
Comparacin de dos poblaciones
216
Anlisis de regresin
Julio A. Di Rienzo
Motivacin
Muchas veces estamos interesados en describir cmo cambia una variable (que
llamaremos dependiente) en funcin de una (o varias) llamada/s independiente/s.
Por ejemplo: cmo afecta el rendimiento del maz la densidad de siembra en
distintos ambientes?, qu dosis de insecticida es requerido para eliminar el 50 de
una poblacin de insectos?, cmo responden los rendimientos del trigo a diversas
dosis de fertilizacin nitrogenada?, cunto ms fertilizacin es siempre mejor?, el
efecto de la fertilizacin es el mismo en cualquier ambiente?, bajo qu condiciones
se produce el mximo nmero de bacterias por cm3 de cultivo de bacterias? Para
responder estas preguntas los investigadores ajustan modelos de regresin a
experimentos diseados o a estudios observacionales. Primeramente abordaremos
el modelo de regresin lineal simple, luego introduciremos el modelo de regresin
lineal mltiple.
Anlisis de regresin
Para tener en cuenta que las observaciones de Y no son idnticas cuando los valores
218
Anlisis de regresin
Yi f xi , i
i ~ N 0, 2 ; cov( i , i ) 0 i i
La expresin anterior especifica que los errores son variables aleatorias normales
con media cero y varianza 2 comn a todas las observaciones y que los errores son
f xi , 0 1 xi
219
Anlisis de regresin
30
25
Y(g)
20
15
10
0 1 2 3 4
Das
Figura 7.1: Recta que ilustra un modelo de regresin lineal simple donde la ordena
al origen vale 10 g y la pendiente 5 g
Estimacin
220
Anlisis de regresin
Aplicacin
221
Anlisis de regresin
Estrategia de anlisis
34
30
26
Agua (mm)
22
18
14
10
10 20 30 40 50 60
Profundidad (cm)
222
Anlisis de regresin
ajustando un modelo lineal mixto, pero este tipo de modelo se presenta en cursos
de Estadstica ms avanzada.
Para ajustar un modelo de regresin lineal simple, bajo los supuestos del modelo
lineal general abrir el archivo [Agua]. En el men Estadsticas seleccione el
submen Regresin lineal. Aparecer la pantalla que se muestra a la izquierda de la
Figura 7.3. Seleccione Profundidad (cm) en el panel izquierdo de la ventana y
agrguelo al panel Regresoras. De la misma forma seleccione Agua (mm) y
agrguelo al panel Variable dependiente. La imagen de la ventana resultante se
muestra a la derecha de la Figura 7.3.
Para continuar, accione el botn Aceptar. Esta accin abrir la siguiente pantalla
(Figura 7.4 -izquierda). Por el momento, no modificaremos nada en esta pantalla.
Slo accionaremos el botn Aceptar. Esta accin generar dos salidas. Una grfica
con el diagrama de dispersin y la superposicin de la recta ajustada y otra
correspondiente del modelo estimado (Cuadro 7.1).
223
Anlisis de regresin
34
30
26
Agua (mm)
22
18
14
10
10 20 30 40 50 60
Profundidad (cm)
Figura 7.4: Dilogo de opciones del anlisis de regresin lineal en InfoStat y salida grfica del
modelo de regresin lineal simple.
224
Anlisis de regresin
Cuadro 7.1: Salida del anlisis de regresin lineal aplicada a los datos del archivo Agua.
Resultados y discusin
225
Anlisis de regresin
fuera cero entonces diramos que no importa cul sea la profundidad del perfil
analizado el contenido de agua sera constante. En la columna de valores p , el valor
p correspondiente a la pendiente es <0,0001. Esto se interpreta diciendo que la
probabilidad de obtener una estimacin de 0,31 unidades o ms en cualquier
sentido (+ o -) es, para los datos examinados, menor que 1 en 10000 si el verdadero
valor de la pendiente fuera cero. Esto implica, bajo los criterios clsicos de la
inferencia estadstica, que la pendiente de -0,31 es estadsticamente distinta de
cero y por lo tanto a mayor profundidad en el suelo el contenido de agua decae
(coeficiente negativo) y ese decaimiento es de 0,31 mm de lmina de agua por cada
centmetro de profundizacin. Luego a los 50 centmetros tendremos un
decaimiento de 15,5 mm en la lmina de agua respecto del valor inicial (el
correspondiente a la profundidad 0) que se estim en 32,82mm.
Luego el contiendo promedio de agua en un perfil que se toma entre los 40 y los 50
centmetros de profundidad ser 32,82-0,31*50 = 17,32. El error estndar (EE) es
226
Anlisis de regresin
No debe sorprendernos que haya puntos del diagrama de dispersin que caen fuera
de la banda de confianza ya que se trata de una banda de confianza para la media
no para los datos. Si quisiramos construir banda de prediccin para los valores
observables de Y entonces deberamos tildar la opcin correspondiente (tarea para
el lector). En tal caso la banda de prediccin estar por fuera de la de confianza. No
obstante, como se trata de un banda al 95% (defecto) deberemos esperar que
aproximadamente 1 de cada 20 puntos quede fuera de ella.
227
Anlisis de regresin
34,0 34,0
28,8 28,8
Agua (mm)
Agua (mm)
23,6 23,6
18,4 18,4
13,2 13,2
8,0 8,0
10 20 30 40 50 60 10 20 30 40 50 60
Profundidad (cm) Profundidad (cm)
34,0 34,0
28,8 28,8
Agua (mm)
Agua (mm)
23,6 23,6
18,4 18,4
13,2 13,2
8,0 8,0
10 20 30 40 50 60 10 20 30 40 50 60
Profundidad (cm) Profundidad (cm)
Figura 7.7. Grfico mostrando la recta ajustada y las bandas de confianza (izquierda) y
bandas de prediccin (derecha) para el contenido de agua en los distintos perfiles del suelo.
228
Anlisis de regresin
n 1
Raj2 1 (1 R 2 ) ; p # parametros .
n p
Conclusin
Y 32,83-0,31P
Esta ecuacin sugiere que la lmina de agua decae a 0,31 mm por cada centmetro
de profundidad.
229
Anlisis de regresin
230
Anlisis de regresin
Si observramos que los datos con valores predichos bajos tienen residuos
estudentizados negativos y viceversa los que tienen valores predichos altos tuvieran
residuos positivos, entonces estaramos ante una anomala. Igualmente si
pudiramos identificar con colores las observaciones que realizaron distintos
colaboradores un experimento y las observaciones de los distintos colaboradores
aparecieran sistemticamente con residuos estudentizados positivos o negativos,
esto debera llamarnos la atencin. Igualmente si la variabilidad (rango de variacin
vertical de los puntos) es mayor para predichos altos que para predichos bajos,
entonces estaremos frente a un problema de falta de homogeneidad de varianzas.
La interpretacin de grficos de residuos es una destreza que se adquiere mirando
estos grficos.
231
Anlisis de regresin
2.20
0.00
-1.10
-2.20
13.39 17.67 21.94 26.22 30.49
Predichos
El grfico mostrado en la Figura 7.9 se insina una curvatura que pudiera sugerir la
necesidad de ajustar un modelo polinmico de segundo grado. No obstante esta
insinuacin, la evidencia no es fuerte en este sentido. Afortunadamente para este
caso, disponemos de varias observaciones de Y para los distintos valores de X y
podemos hacer un contraste formal de hiptesis para la falta de ajuste.
2,20
Res. estudentizados_Agua (mm)
1,10
0,00
-1,10
-2,20
10 15 20 25 30
Predichos
232
Anlisis de regresin
Falta de ajuste
Figura 7.10. Ventana de opciones mostrando la seleccin Error puro. Con esta opcin tildada
se obtiene la prueba de falta de ajuste para el modelo lineal planteado (lack of fit test)
233
Anlisis de regresin
Cuadro 7.2: Salida del anlisis de regresin lineal aplicada a los datos del archivo Agua.
Yi 0 1 xi1 2 xi 2 ... ( p 1) xi ( p 1) i
i ~ N 0, 2 ; cov( i , j ) 0 i j
234
Anlisis de regresin
Regresin polinmica
Yi 0 1 xi 2 xi2 i .
i ~ N 0, 2 ; cov( i , j ) 0 i j
235
Anlisis de regresin
Aplicacin
Estrategia de anlisis
Lo primero que haremos es mirar la relacin emprica que hay entre el rendimiento
el aporte de nitrgeno al suelo. Para ello obtendremos un diagrama de dispersin
entre rendimiento (eje Y) y aporte de nitrgeno (eje X) como se muestra en la
Figura 7.11. En ella podemos ver que a mayor aporte de nitrgeno mayor es el
rendimiento. Sin embargo, pare que el crecimiento del rendimiento empezara a
decaer con las dosis mayores. El ajuste de una regresin lineal simple y sus residuos
se muestra en la Figura 7.12. El grfico de residuos estudentizados pone
claramente de relieve que el ajuste de una recta es insuficiente para estos datos.
Cuan los residuos estudentizados muestra una curvatura como la que se observa en
el ejemplo es un buen indicio de la necesidad de incorporar al modelo un trmino
cuadrtico de la regresora: en este caso el nitrgeno.
236
Anlisis de regresin
4000
3600
Rendimiento
3200
2800
2400
0 50 100 150 200
N
4000 2,5
2,0
Res. estudentizados_Rendimiento
1,5
3600
1,0
Rendimiento
0,5
3200 0,0
-0,5
-1,0
2800
-1,5
-2,0
2400 -2,5
0 50 100 150 200 2600 2950 3300 3650 4000
N N
Resultados y discusin
237
Anlisis de regresin
4000 2,20
Res. estudentizados_Rendimiento
3600 1,10
Rendimiento
3200 0,00
2800 -1,10
2400 -2,20
0 50 100 150 200 2500 2875 3250 3625 4000
N Predichos
Figura 7.14. Polinomio de orden 2 ajustado a la relacin entre rendimiento de trigo (kg/ha)
y aporte de nitrgeno al suelo (kg/ha) (izquierda) y residuos estudentizados vs predicho
(derecha).
238
Anlisis de regresin
se estim en 10,143kg
1 y la pendiente de la componente cuadrtica se
2
239
Anlisis de regresin
Cuadro 7.3: Salida del anlisis de regresin lineal aplicada a los datos del archivo Agua.
Conclusin
Si el modelo ajustado fuera una recta con pendiente positiva, la mejor dosis sera la
mxima. Pero en un modelo cuadrtico la dosis que maximiza (o minimiza) la
entonces en ese punto se alcanza un mximo (sino un mnimo). Luego la dosis que
maximiza los rendimientos en nuestro ejemplo ser.
1 10,143
241,5
2 2 2(0,021)
240
Anlisis de regresin
Es interesante observar el la dosis mxima ensayada estuvo por debajo del punto
donde se alcanza el mximo. Un nuevo ensayo debera incluir valores superiores de
aporte de nitrgeno para verificar esta prediccin.
241
Anlisis de regresin
Yi 0 1 xi1 2 xi 2 ... ( p 1) xi ( p 1) i
Aplicacin
Estrategia de anlisis
242
Anlisis de regresin
hiptesis nula que este procedimiento pone a prueba). Que los coeficientes de
regresin parcial sean estadsticamente distintos de cero implica que cuando se
producen cambios en las regresoras, estos cambios se traducen en modificaciones
en el nmero medio de bacterias por cm3. Cmo deben interpretarse esos
coeficientes? Vamos a dejar para despus una discusin sobre la ordenada al
origen. Como el tiempo est medido en horas, por cada hora adicional de cultivo, y
manteniendo las otras regresoras fijas en algn valor, dentro del rango en que se
ajust el modelo, se ganan en promedio 2,79 bacterias por cm3. Es decir, si
mantenemos un cultivo a temperatura de 30 grados y a una concentracin de
nutrientes 0,9, entonces el incremento promedio en el nmero de bacterias por cm3
que se observar entre las 24 y 25 horas de cultivo o entre 28 y 29 horas, ser 2,79.
Los valores 30 y 0,9 fueron escogidos arbitrariamente y la interpretacin sigue
siendo vlida con cualquier combinacin de ellos siempre y cuando sus valores se
encuentren dentro del rango de variacin de los mismos en el experimento. Por
ejemplo no sera vlido suponer que el cambio en el nmero promedio de bacterias
por cada hora de cultivo es 2,79 cuando fijamos la concentracin en 3.
Los otros coeficientes tambin son positivos as que en cada caso valdr una
interpretacin equivalente, caso contrario, si los coeficientes de regresin parcial
fueran negativos, lo nico que cambia es que a cambios positivos en las regresoras
se observarn decrecimientos en la variable dependiente. La tabla de Anlisis de la
Varianza en la salida, no nos ofrece informacin adicional, excepto que el
coeficiente de determinacin R2 se obtiene dividiendo la suma de cuadrados
atribuible al modelo (78113,27) por la suma de cuadrados total (141432,24).
243
Anlisis de regresin
Cuadro 7.4. Salida del ajuste de un modelo de regresin mltiple para el nmero de
bacterias por cm3 en funcin del tiempo de cultivo, la temperatura de cultivo y la
concentracin de nutrientes expresados en trminos relativos a una solucin estndar.
244
Anlisis de regresin
Sin embargo, tenemos que decir que a pesar de la tradicin de utilizar R2 como un
criterio de bondad de ajuste, el R2 no es una medida de la calidad del modelo
ajustado sino slo una medida aproximada de cuan predictivo es el modelo para
valores individuales observables en el futuro de la variable dependiente. Esta
medida de la habilidad predictiva del modelo es slo vlida si el modelo ha sido bien
ajustado. Entonces, cmo verificamos que el modelo fue bien ajustado? La calidad
del ajuste de juzga por distintos criterios diagnsticos, casi todos ellos basados en la
observacin de los residuos. Los residuos son las diferencias entre los valores
observados y los valores predichos, pero hay muchas formas de residuos
dependiendo de cmo calculemos el valor predicho y si el residuo es transformado
por algn factor de estala (dividiendo por su error estndar, por ejemplo). La
discusin sobre mtodos y medidas de diagnstico puede ser muy extensa, para
aquellos que quieran tener una introduccin ms detallada de este tpico consultar
el libro de Daper & Smith (1988). En este material slo abordaremos algunos
mtodos de diagnstico que, a juicio del autor, son los ms efectivos para identificar
anomalas en el ajuste de un modelo de regresin lineal. A continuacin
revisaremos las herramientas de diagnstico y su aplicacin al ejemplo que estamos
tratando.
Residuos parciales
245
Anlisis de regresin
La Figura 7.16 muestra los residuos parciales obtenidos para tiempo, temperatura
(Temp) y Nutrientes (Nut). Hay dos casos que merecen atencin: los residuos
parciales en funcin de la temperatura y los residuos parciales en funcin de la
concentracin de nutrientes. No es posible encontrar patrones llamativos en el
caso de los residuos parciales con el tiempo ya que este factor slo se evalu para
dos valores diferentes. Sin embargo, queda claro que a mayor tiempo mayor el
nmero de clulas por cm3.
246
Anlisis de regresin
247
Anlisis de regresin
150,44 97,45
80,38 44,99
RPAR_Y_Tiempo
RPAR_Y_Temp
10,32 -7,47
-59,74 -59,93
-129,80 -112,39
22,80 29,40 36,00 42,60 49,20 26,20 30,60 35,00 39,40 43,80
Tiempo Temp
134,25
79,84
RPAR_Y_Nut
25,44
-28,97
-83,37
0,56 0,78 1,00 1,22 1,44
Nut
248
Anlisis de regresin
Cuadro 7.5. Salida del ajuste de un modelo de regresin mltiple para el nmero de
bacterias por cm3 en funcin del tiempo de cultivo, la temperatura de cultivo y la
concentracin de nutrientes.
En la nueva salida (Cuadro 7.6) se observa nuevamente que Nut tiene un efecto
altamente significativo. Vemos adems que el R es ahora de 0,67, lo que implica
que hemos mejorado la capacidad predictiva del modelo, siempre y cuando el
modelo sea correcto.
249
Anlisis de regresin
Cuadro 7.6. Salida del ajuste de un modelo de regresin mltiple para el nmero de
bacterias por cm3 en funcin del tiempo de cultivo, la temperatura de cultivo y la
concentracin de nutrientes con trminos cuadrticos solo para la temperatura.
250
Anlisis de regresin
3,5 19
1,8
-1,8
-3,5
2,19 62,22 122,25 182,28 242,31
Predichos
Figura 7.17. Residuos estudentizados vs predichos para el modelo ajustado en el Cuadro 7.6.
251
Anlisis de regresin
del resto (# 9), su distancia de Cook es menor que 1 y por lo tanto no debe
preocupar.
0,40
19
0,30
DCook_Y
0,20
0,10
0,00
0 7 14 21 28 35
Caso
Figura 7.18. Distancias de Cook vs nmero de caso para el modelo ajustado en el Cuadro 7.6.
Conclusin
Y 1087, 2 2,89Tiempo
56,93Temperatura 0,77Temperatura 2
96,68 Nutrientes
252
Anlisis de regresin
Ejercicios
Ejercicio 7.1: En este captulo se introdujo un conjunto de trminos que se listan a
continuacin. Puede recordar su significado?
a) Regresin lineal simple
b) Regresin polinmica
c) Regresin mltiple
d) Residuo
e) Residuo estudentizado
f) Predicho
g) Banda de confianza
h) Banda de prediccin
i) Coeficiente de determinacin
j) Ordenada al origen
k) Pendiente
l) Prueba de falta de ajuste
m) Coeficiente de determinacin ajustado
n) Coeficientes de regresin parcial
o) Residuo parcial
253
Anlisis de regresin
254
Estudios de correlacin y
asociacin
Julio A. Di Rienzo
Motivacin
Es comn en las Ciencias Biolgicas buscar relaciones entre variables y cuantificar la
fortaleza de estas asociaciones. Cuando las variables que queremos relacionar son
cuantitativas el mtodo favorito para cuantificar la asociacin es el anlisis de
correlacin. Cuando las variables son cualitativas el anlisis de tablas de
contingencia y las pruebas de bondad de ajuste son estrategias usuales a seguir. En
adelante desarrollaremos estas estrategias de anlisis. Presentaremos tres medidas
frecuentemente usadas para medir la correlacin entre pares de variables
cuantitativas: el Coeficiente de Correlacin de Pearson, el Coeficiente de
Correlacin de Spearman y el Coeficiente de Concordancia.
Estudios de correlacin y asociacin
cov( X , Y )
Var ( X )Var (Y )
256
Estudios de correlacin y asociacin
n n
n X i Yi
X iYi i 1 i 1
r i 1 n (2)
Y Y
n 2 n 2
n Xi n i
X i2 i 1 2
i
i 1
i 1 n i 1 n
H0
n2
T r ~ Tn 2
1 r2
Este estadstico sigue una distribucin T de Student con n-2 grados de libertad
cuando la hiptesis nula es cierta.
Aplicacin
El cido oleico es un cido graso mono insaturado de la serie omega 9, tpico de los
aceites vegetales como el aceite de oliva, del aguacate (palta), etc. El cido linoleico
es un cido graso poli insaturado esencial para el organismo humano (el organismo
no puede sintetizarlo) y tiene que ser ingerido con los alimentos. Al cido linoleico y
a sus derivados se les conoce como cidos grasos omega 6. El cido linolnico es
tambin un cido graso esencial de la familia omega-3. Los datos en el archivo
[Aceites] tienen determinaciones de los tres cidos grasos y contenido de protenas
257
Estudios de correlacin y asociacin
Estrategia de anlisis
Es til para estudiar las relaciones entre variables cuantitativas graficarlas unas
versus las otras mediante diagramas de dispersin. Las matrices de diagramas de
dispersin permiten tener una imagen simultnea de todas estas relaciones.
Aunque los grficos sirven para anticipar los resultados del anlisis, la cuantificacin
de la asociacin es un paso esencial y para ello se debe calcular alguna de las
medidas de correlacin.
Resultados y discusin
Olei
Linol
Linolen
Protena
258
Estudios de correlacin y asociacin
Es fcil ver que los cidos: oleico y linoleico estn fuertemente correlacionados y
que esta correlacin es negativa. La cuantificacin de estas relaciones se observan
en el Cuadro 8.1. En este cuadro se presenta una matriz que contiene los
coeficientes de correlacin de Pearson (triangular inferior) y sus pruebas de
hiptesis respectivas (triangular superior). Para obtener la matriz del Cuadro 8.1, en
el software InfoStat seleccione el men Estadsticas >>Anlisis de correlacin. A
continuacin aparecer el dilogo de seleccin de variables que debe llenarse como
se muestra en la Figura 8.2 (izquierda) y a continuacin el dilogo que permite
especificar qu medida de correlacin utilizar Figura 8.2 (derecha). Seleccionar la
opcin Pearson. En la diagonal principal se observan las correlaciones de cada
variable con s misma. Este coeficiente es siempre 1 y no tiene ningn valor
interpretativo. Por debajo de la diagonal principal (triangular inferior) estn los
coeficientes de correlacin calculados. Por encima de la diagonal principal
(triangular superior) los valores p correspondientes para las hiptesis
Figura 8.2. Ventanas de dilogo para el clculo del coeficiente de correlacin de Pearson.
259
Estudios de correlacin y asociacin
Cuadro 8.1. Salida del clculo del coeficiente de correlacin de Pearson. En la diagonal
principal se observan las correlaciones de cada variable con s misma. Este coeficiente es
siempre 1 y no tiene ningn valor interpretativo. Por debajo de la diagonal principal estn
los coeficientes de correlacin calculados. Por encima de la diagonal principal los p-valores
para las hiptesis H0: = 0 vs. H1: 0.
Conclusin
260
Estudios de correlacin y asociacin
X Y R(X) R(Y) d
10,2 20,2 7 7 0
8,0 6,3 3 3 0
14,1 15,8 4 4 0
15,0 19,1 4 6 -1
15,9 18,7 6 4 1
11,3 10,2 3 3 0
6,0 8,8 1 2 -1
r r
X y de Y , R(X) y R(Y), definimos di X i Yi entonces el coeficiente de correlacin
n
6 di2
rs 1 i 1
n n 1
2
261
Estudios de correlacin y asociacin
262
Estudios de correlacin y asociacin
n2
t rs
1 rs2
Aplicacin
Estrategia de anlisis
263
Estudios de correlacin y asociacin
Figura 8.3. Ventanas de dilogo para el clculo del coeficiente de correlacin de Spearman.
Resultados y discusin
Conclusin
264
Estudios de correlacin y asociacin
Cuadro 8.2. Salida del clculo del coeficiente de correlacin de Spearman. En la diagonal
principal se observan las correlaciones de cada variable con s misma. Este coeficiente es
siempre 1 y no tiene ningn valor interpretativo. Por debajo de la diagonal principal estn
los coeficientes de correlacin calculados. Por encima de la diagonal principal los p-valores
para las hiptesis H0: = 0 vs. H1: 0.
Coeficiente de concordancia
2 x y
c
y2 ( x y )2
2
x
n
X
n
Yi
2 n i
X iYi i 1 i 1
n 1 i 1 n
c
S x2 S y2 ( x y ) 2
265
Estudios de correlacin y asociacin
Aplicacin
Estrategia de anlisis
Para evaluar la calidad de la condicin corporal con escala 1-9, se utiliz un rodeo
de 120 animales y cada animal fue valorado en su condicin corporal
independientemente por 4 tcnicos calificados. Los 120 animales se seleccionaron
para reflejar condiciones corporales que cubrieran el rango completo de la escala de
medicin. Los datos estn disponibles en el archivo [Condicion corporal]. Se solicit
a los tcnicos que se abstengan de introducir valores fraccionarios mantenindose
en la escala de los nmeros enteros.
Resultados y discusin
Siguiendo el mismo procedimiento que con los otros dos coeficientes pero eligiendo
la opcin Concordancia en la ventana de dilogo correspondiente se obtienen los
resultados que se presentan en el Cuadro 8.3. Se observa que las concordancias son
todas positivas, cercanas a 0,85.
266
Estudios de correlacin y asociacin
Cuadro 8.3. Salida del clculo del coeficiente de Concordancia. En la diagonal principal el
coeficiente es siempre 1. Por debajo de la diagonal principal estn los coeficientes de
concordancia. Por encima de la diagonal principal se observa el cdigo sd (sin dato) ya
que no existe una prueba para la hiptesis de coeficiente H 0: = 0 vs. H1: 0
implementada en InfoStat.
Concordancia: Coeficientes\probabilidades
T1 T2 T3 T4
T1 1,00 sd sd sd
T2 0,84 1,00 sd sd
T3 0,84 0,86 1,00 sd
T4 0,87 0,88 0,85 1,00
Conclusin
Tcnicos bien entrenados pueden reproducir ndice de condicin corporal con una
correspondencia promedio no inferior al 80%.
267
Estudios de correlacin y asociacin
Figura 8.4. Esquema general de una tabla de contingencia para dos variables A y B, la
primera con 3 modalidades: A1, A2 y A3 y la segunda con 2: B1 y B2.
268
Estudios de correlacin y asociacin
La clave para probar si la hiptesis es sustentada por los datos es calcular las
frecuencias esperadas (E) (suponiendo cierta la hiptesis de independencia) y
compararlas con las frecuencias observadas (O). La Tabla 8.3 contiene tales
269
Estudios de correlacin y asociacin
f c O E 2
2 ij ij
i 1 j 1 Oij
prueba es siempre unilateral derecha por lo que para un nivel de significacin del
5% la regin de aceptacin estar delimitada a la derecha por el cuantiles 0,95 de
una chi-cuadrado con 1 grado de libertad.
270
Estudios de correlacin y asociacin
271
Estudios de correlacin y asociacin
Como regla prctica las frecuencias esperadas se calculan segn la expresin y los
probabilidad y su resultado se interpreta como las veces que ocurre un xito por
cada ocurrencia de un fracaso. Por ejemplo, si A 0,50 la chance 1 e indica que
por cada fracaso ocurre un xito. ste es el ejemplo de la tirada de una moneda
donde se dice que 1 de cada 2 tiradas sale cara (o cruz). Si A 0,95 la
272
Estudios de correlacin y asociacin
Este cociente mide cuanto mayor (o menor) es la chance de que ocurra un xito
bajo una condicin respecto de la otra. Cuando la probabilidad de xito es pequea
en ambas condiciones (inferiores a 0,20), el cociente de chances se
aproxima bastante al riesgo relativo y se considera una buena aproximacin de
ste.
Para el ejemplo del fungicida, la probabilidad estimada de que una semilla germine
cuando pertenece al grupo Control es 1190/1435=0,8292683. La probabilidad de
esto ocurra en el grupo al que se le aplica fungicida es 1358/1481=0,916948. La
chance en el control es 0,8292683/(1-0,8292683)=4,857143 y la chance en el grupo
con fungicida es 0,916948/(1-0,916948)= 11,04065. As que, en el control, la
relacin xitos-fracasos es 5 a 1 (por cada 5 xitos ocurre un fracaso 5 de cada 6
semillas germinan) mientras que esta relacin es 11 a 1 en las semillas tratadas. La
razn de chances de que una semilla germine bajo el tratamiento con fungicida
respecto del control es 11,04065/4,857143=2,27 y diremos que la chance de que
una semilla germine en el grupo tratado con fungicida es aproximadamente 2 veces
la chance de que eso ocurra en el grupo control. Es muy til mirar el intervalo de
confianza para la razn de chances. El intervalo bilateral se obtiene segn la
la razn de chances estimada, nij son las frecuencias observadas en cada celda de
1 1 1 1
exp ln OR z1
n11 n12 n21 n22
273
Estudios de correlacin y asociacin
Aplicacin
Estrategia de anlisis
274
Estudios de correlacin y asociacin
cuadrado. Para ello debemos reorganizar los datos en una tabla conteniendo tres
columnas como se muestra a en la Tabla 8.5. Estos datos se encuentran cargados en
el archivo [PreezyCCorporal]. Una vez abierto el archivo debe invocarse el anlisis
de una tabla de contingencia. Para ello selecciones el men Estadsticas, tem Datos
categorizados, sub-tem Tablas de contingencias.
Tabla 8.5: Tabla que muestra la forma en que deben organizarse los
datos para ser procesados por InfoStat
CC Preada Conteo
2 SI 23
3 SI 76
4 SI 46
2 NO 7
3 NO 4
4 NO 4
Una vez que se acepta este dilogo aparece la ventana de seleccin de variables. En
ella la condicin corporal (CC) y la Preez deben asignarse a la lista de Criterios de
clasificacin. La variable conteniendo los conteos debe asignarse a la lista de
Frecuencias. La Figura 8.5 ilustra estas asignaciones.
Figura 8.5. Ventana de dilogo que muestra InfoStat para la seleccin de variables del
anlisis de tablas de contingencias.
275
Estudios de correlacin y asociacin
Una vez que se aceptan las especificaciones del dilogo de seleccin de variables,
aparecer la ventana de opciones del anlisis de tablas de contingencia. Esta
ventana tiene dos solapas: Seleccin de filas y columnas y Opciones. El contenido de
ambas solapas se muestra en la Figura 8.6. Obsrvese que la columna que tiene la
informacin sobre el xito de la inseminacin (Preada) e ubic en la lista
Columnas y la que contiene la informacin sobre la CC en la lista Filas. Esta
forma de asignacin reproduce el arreglo de datos de la Tabla 8.4. La ubicacin de
Preada y CC como columnas o filas es indiferente a los fines de probar la
independencia de estos criterios de clasificacin pero la eleccin de su posicin en
filas o columnas puede facilitar la presentacin e interpretacin de los resultados.
En la solapa Opciones se han tildado tres opciones que no se encuentran tildadas
por defecto: Frecuencias relativas por filas, Frecuencias esperadas bajo
independencia, Desviaciones de lo esperado bajo indep., estandarizadas y
Frecuencias relativas como porcentajes. Estas opciones tienen su correlato en los
resultados que se presentan en la prxima seccin.
Figura 8.6. Ventana de dilogo para la seleccin de filas y columnas y opciones de resultados
en el anlisis de tablas de contingencia con InfoStat.
276
Estudios de correlacin y asociacin
Resultados y discusin
El estadstico chi-cuadrado de para la tabla examinada fue 8,79. Para una chi-
cuadrado con 2 grados de libertad, su valor p es 0,0123. Con un nivel de
significacin del 5% este valor p indica que la hiptesis nula debe rechazarse o como
usualmente se dice el resultado del a prueba chi-cuadrado fue significativo. A veces
es til saber porqu la hiptesis nula falla. La tabla de desvos estandarizados
respecto de lo esperado permite individualizar las partes de la tabla de frecuencias
que ms contribuyen al chi-cuadrado. Si se eleva al cuadrado cada una de las
entradas de esta tabla, su suma reproduce el estadstico chi-cuadrado (8,79). Por lo
tanto cuanto mayor en valor absoluto es una entrada mayor es su contribucin al
chi-cuadrado. Como regla prctica, si una entrada tiene valor absoluto mayor que 2
esto es indicativo que est haciendo una contribucin significativa al chi-cuadrado.
En el ejemplo slo la celda correspondiente a la condicin corporal 2, columna No
preada tiene un desvi estandarizado mayor que 2 (2,81), indicando que, cuando
la condicin corporal es 2, hay ms fracasos de la inseminacin de lo esperado si la
condicin corporal no estuviera relacionada con el xito de esta tcnica de manejo
reproductivo.
277
Estudios de correlacin y asociacin
Cuadro 8.4. Salida del anlisis de una tabla de contingencias en el que se presenta una tabla
de frecuencias absolutas (los datos observados), una tabla de frecuencias relativas por filas,
expresadas como porcentajes, la tabla de frecuencias esperadas bajo la hiptesis de
independencia y una tabla de desviaciones estandarizadas respecto de lo esperado bajo la
hiptesis de independencia.
Tablas de contingencia
Frecuencias: Conteo
Frecuencias absolutas
En columnas:Preada
CC NO SI Total
2 7 23 30
3 4 76 80
4 4 46 50
Total 15 145 160
Estadstico Valor gl p
Chi Cuadrado Pearson 8,79 2 0,0123
Chi Cuadrado MV-G2 7,33 2 0,0257
Coef.Conting.Cramer 0,17
Coef.Conting.Pearson 0,23
278
Estudios de correlacin y asociacin
Conclusin
El monje investigador imagin que tanto el color como la textura del tegumento se
deban a la contribucin que hacan los padres, mediante sus alelos, a la
composicin de una partcula que regulaba la expresin del carcter: el gen. En
los organismos diploides como las arvejas de Mendel o los humanos, los
cromosomas se encuentran apareados, proviniendo un miembro del par de parte
del padre y el otro de la madre. Los alelos paterno y materno de un gen se
encuentran en los respectivos cromosomas. Mendel idealizaba que si un progenitor
era puro, en el sentido de que portaba, por ejemplo, los dos alelos que producan
semillas de color amarillo (homocigota para color amarillo) y el otro progenitor era
279
Estudios de correlacin y asociacin
tambin homocigota pero para el color verde, su cruza (F1) producira semilla de
color amarillo o verde segn cul de los colores fuera el carcter dominante. El
esquema siguiente asume que los padres (P) son homocigotas y que el color
amarillo es el color dominante. Los individuos portadores de ambos alelos
dominante son identificados como AA y los individuos portadores de los alelos para
el verde con aa. El carcter verde es, en este ejemplo, el carcter recesivo.
280
Estudios de correlacin y asociacin
Figura 8.9. Esquema de segregacin de dos parentales heterocigotas para el color y textura
de tegumento de semillas de arvejas. El tegumento liso y amarillo son las expresiones
dominantes.
281
Estudios de correlacin y asociacin
La Tabla 8.6 muestra el resultado del experimento realizado por Mendel en 1866
sobre este cruzamiento. Las frecuencias presentadas corresponden a la clasificacin
de 539 semillas de arvejas, segn color y textura del tegumento.
Tabla 8.6: Tabla es frecuencias de semillas clasificadas segn el color (Amarillo o Verde) y
textura del tegumento (Lisas, Rugosas) obtenidas del cruzamiento de parentales
heterocigotas para ambos caracteres.
Tegumento
L R Total
Color
A 301 96 397
V 112 30 132
Total 403 126 539
282
Estudios de correlacin y asociacin
2
1,856731
303, 2 101,1 101,1 33,7
Tabla 8.7: Tabla es frecuencias esperadas segn el color (Amarillo o Verde) y textura del
tegumento (Lisas, Rugosas) deducidas de un modelo de segregacin independiente de dos
caracteres mendelianos (color y textura)
Tegumento
L R
Color
283
Estudios de correlacin y asociacin
Aplicacin
Una planta ornamental puede tener flores Rojas o Blancas, tener porte Arbustivo o
rastrero y tener o no Espinas. Cada uno de estos caracteres est regulado por un
gen, siendo los caracteres dominantes: flores rojas, porte arbustivo y con espinas
(RAE). Se cruzaron parentales homocigotos dominantes (RRAAEE) con parentales
homocigotas recesivos (rraaee) para obtener la F1 y luego se cruzaron F1xF1. La
siguiente tabla contiene los resultados de este ltimo cruzamiento, del que se
dispone de 200 plantas. Se quiere saber si los tres caracteres se heredan
independientemente.
Tabla 8.8: Tabla es frecuencias fenotpicas observadas segn el color de las flores, porte de
la planta y presencia de espinas en plantas obtenidas del cruzamiento de heterocitas para
los tres caracteres de una planta ornamental.
284
Estudios de correlacin y asociacin
Estrategia de anlisis
Para analizar estos datos debemos establecer las frecuencias esperadas bajo la
hiptesis de herencia independiente. Una tabla de clasificacin con todas las
combinaciones genotpicas ayudar a este fin. La primera columna y la primera fila
de la siguiente tabla contienen los posibles genotipos de los progenitores. El cuerpo
de la tabla contiene una codificacin de los fenotipos resultantes.
285
Estudios de correlacin y asociacin
Tabla 8.10: Tabla es frecuencias fenotpicas observadas y esperadas segn el color de las
flores, porte de la planta y presencia de espinas en plantas obtenidas del cruzamiento de
heterocigotas para los tres caracteres de una planta ornamental.
Una vez que se dispone de las frecuencias esperadas podemos compararlas con las
frecuencias observadas mediante el estadstico chi-cuadrado. Los grados de libertad
de esta prueba son 7-0=7.
Resultados y discusin
Para realizar esta prueba con InfoStat, seleccionaremos del men Estadsticas, el
tem Inferencia basada en una muestra, sub-tem Prueba de bondad de ajuste
(multinomial), como se muestra en la Figura 8.10. Al invocar este procedimiento se
abre una ventana especfica para la carga de las frecuencias observadas y ya sean
las proporciones o las frecuencias esperadas como se muestra en la Figura 8.11. En
esta ventana al accionar el botn aceptar, aparece el valor del estadstico chi-
cuadrado, sus grados de libertad y el valor p. Como podr observarse, existe un
dispositivo para cuando hay que corregir los grados de libertad. Por defecto la
correccin es cero.
286
Estudios de correlacin y asociacin
Figura 8.10. Secuencia de tems de men para realizar un contraste de hiptesis para
bondad de ajuste.
Conclusin
No se puede rechazar la hiptesis que sostiene que los caracteres color de flor,
presencia de espinas y porte son caracteres que segregan independientemente.
287
Estudios de correlacin y asociacin
Ejercicios
Ejercicio 8.1: Para establecer que sistema de monitoreo de insectos es ms efectivo se realiz
un estudio donde el nmero total de un insecto plaga fue estimado en 20 parcelas de de
hectrea que cubran desde bajas al bajas a altas densidades poblacionales. Las parcelas
estaba sembradas 60000 plantas por hectrea. Se tom una muestra sistemtica de 300
pantas por parcela y se cont el nmero total de los insectos de inters. El nmero total de
plantas evaluadas fue de 6000 plantas. Este es un esfuerzo de muestreo imprctico para
monitoreo rutinario. Al mismo tiempo se utilizaron 2 mtodos de monitoreo: a) Recorrer la
parcela en forma de W. El recorrido total es de 103 m aproximadamente y tomando una
planta por cada 4 metros produce una muestra de aproximadamente 25 plantas. b) Usar 10
trampas para captura de insectos por parcela ubicadas equidistantemente dentro de la
parcela. Los resultados se encuentran en el archivo [Densidadesdeinsectos]. El archivo
contiene 3 columnas: Sistemtico 300p, Muestreo W y Trampas. Los datos que se consignan
es esta tabla son el promedio de insectos por planta en los dos primeros casos y el promedio
de insectos por trampa en el tercero.
a) Esquematice, mediante matrices de diagramas de dispersin, las
relaciones entre estas determinaciones de densidad.
b) Qu coeficiente de asociacin entre variables cuantitativas utilizara en
este caso?, porqu?
c) Es la medida de asociacin escogida, entre el muestreo sistemtico y los
dos mtodos de monitoreo significativas?
d) Cul de los dos sistemas propuestos para monitoreo correlaciona mejor
con la densidad estimada por el muestreo sistemtico?
Ejercicio 8.2: Si quiere establecer si el uso de suplementos en las raciones de vacas aumenta
xito de la inseminacin? Los datos que se presentan a continuacin son un resumen del
archivo [Suplementos].
288
Estudios de correlacin y asociacin
Ejercicio 8.4: Se quiere corroboran si las siguientes frecuencias fenotpicas de una planta
ornamental se corresponden las proporciones fenotpicas 9:3:3:1, utilizando un nivel de
significacin del 5%.
289
Diseo de experimentos a
un criterio de clasificacin
Carlos Walter Robledo
Motivacin
En las Ciencias Biolgicas es frecuente conducir ensayos con fines de evaluar
comparativamente dos o ms poblaciones, identificadas por algn criterio que las
distingue o separa como es la aplicacin de distintos tratamientos (criterio de
clasificacin). Para analizar estos estudios es comn recurrir a la tcnica del Anlisis
de la Varianza (ANAVA), que es probablemente la herramienta de inferencia
estadstica ms utilizada en las investigaciones cientfico-tcnicas en Agronoma.
Ms formalmente, el ANAVA es un mtodo estadstico cuya finalidad es contrastar
hiptesis referidas a las medias dos o ms poblaciones, generalmente involucradas
en un estudio experimental. En este captulo se introducen dos grandes temticas
relacionadas: (a) la generacin de datos experimentales, siguiendo conceptos
bsicos del diseo de experimentos y (b) tcnicas de anlisis de datos en estudios
comparativos utilizando la tcnica estadstica del ANAVA.
Anlisis de experimentos a un criterio de clasificacin
El esquema tambin representa un hecho, que a menudo ocurre, y que tiene que
ver con este motor de investigacin que es el anlisis estadstico. El anlisis de los
datos de un experimento particular permite sugerir modificaciones a modo de feed-
back o retroalimentacin del sistema para generar nuevos datos e incluso para
modificar el modelo estadstico adoptado para analizar los datos. El anlisis
estadstico tambin permite enriquecer la identificacin y caracterizacin del
problema cientfico-tecnolgico y as reformular las hiptesis que se desean evaluar.
292
Anlisis de experimentos a un criterio de clasificacin
Realidad
Problema
Cientfico-
Tecnolgico
+
Modelo Estadstico Diseo del
Experimento
Datos
Anlisis
Conclusiones
293
Anlisis de experimentos a un criterio de clasificacin
H0 : 1 a
H1 : Al menos una de las a medias poblacionales es distinta
294
Anlisis de experimentos a un criterio de clasificacin
295
Anlisis de experimentos a un criterio de clasificacin
donde:
296
Anlisis de experimentos a un criterio de clasificacin
1 2 a
a
297
Anlisis de experimentos a un criterio de clasificacin
situaciones donde se fertiliza con 100, 200, 300 o 400 Kg/ha de urea. El modelo
lineal nos ayudara a explicar, por ejemplo que en la parcela j, o unidad
experimental j, que se cultive experimentalmente el hbrido con 100 Kg/ha del
fertilizante se espera observar un cierto rendimiento (una cantidad que
representamos simblicamente como Y100,j ). Esta cantidad es producida por la suma
de tres componentes. La primera, es una cantidad fija desconocida que
representa el valor esperado del rendimiento del hbrido. La segunda, es el efecto
100 que representa el cambio en el rendimiento (que puede ser positivo o negativo)
por el hecho de haber utilizado 100 Kg/ha en esa parcela. La tercera es la cantidad
100,j tambin desconocida por el investigador que es debida exclusivamente a las
condiciones y caracterstica propias de la parcela que utiliz y a las condiciones no
controladas (climticas, presencia/ausencia de plagas, malezas, etc.) que se
presentaron en la parcela durante el cultivo de la misma y que se desconocen como
para cuantificarlas separadamente.
298
Anlisis de experimentos a un criterio de clasificacin
Tres conceptos fundamentales dan sustento al buen diseo de un estudio, sea este
observacional o experimental.
299
Anlisis de experimentos a un criterio de clasificacin
elegir las unidades necesarias para conducir el estudio de forma tal que sean lo ms
similares posibles entre s (concepto de homogeneidad de unidades
experimentales) diremos que el diseo de experimento ms conveniente desde un
punto de vista estadstico es el conocido como diseo completamente aleatorizado
(DCA). Mientras que, si no es posible disponer de unidades experimentales similares
u homogneas, pero es posible agruparlas de forma tal que cada grupo de unidades
sea internamente homogneo, diremos que un diseo recomendado desde el punto
de vista estadstico es el conocido como diseo en bloques completamente
aleatorizado (DBCA).
300
Anlisis de experimentos a un criterio de clasificacin
301
Anlisis de experimentos a un criterio de clasificacin
Bajo el supuesto de que los a n trminos de error aleatorio del modelo lineal
302
Anlisis de experimentos a un criterio de clasificacin
303
Anlisis de experimentos a un criterio de clasificacin
La segunda varianza muestral que forma parte del estadstico F, surge de la idea de
2
pueden calcular con los n datos de cada tratamiento, tienen varianza X2
n
segn lo observado en el estudio de distribuciones en el muestreo.
El cuadrado medio, como toda varianza, puede ser escrito tambin como el
cociente de una suma de cuadrados y sus grados de libertad, que en este
diseo con a tratamientos es a-1.
Bajo la hiptesis nula, es decir cuando no hay diferencias significativas entre las
2
medias de los tratamientos, S X tender a ser baja, ya que las medias muestrales de
304
Anlisis de experimentos a un criterio de clasificacin
ocurrir que E2 > D2 , por lo que podemos reescribir las hiptesis clsicas del
H0 : E2 = D2 vs H1 : E > D
2 2
CME
F
CMD
Este estadstico tiene, bajo H0, una distribucin F(a-1),(N-a)) con N igual al nmero total
de unidades experimentales.
305
Anlisis de experimentos a un criterio de clasificacin
306
Anlisis de experimentos a un criterio de clasificacin
observadas dentro de tratamientos es decir a aquellas que podran darse por azar o
por la variabilidad natural de la respuesta.
Aplicacin
307
Anlisis de experimentos a un criterio de clasificacin
Estrategia de anlisis
H0 : 1 4
H1 : Al menos uno de las 4 cultivares tiene
media poblacional distinta a las dems
Yij = i ij
donde:
i =1,...,a 4 variedades,
j =1,..,n 10 repeticiones
308
Anlisis de experimentos a un criterio de clasificacin
Para continuar, accione el botn Aceptar. Esta accin abrir la siguiente pantalla
(Figura 9.3). Por el momento, no modificaremos nada en esta pantalla. Slo
accionaremos el botn Aceptar. Esta accin generar la salida correspondiente al
modelo estimado.
309
Anlisis de experimentos a un criterio de clasificacin
Cuadro 9.1: Salida del anlisis de la varianza aplicado a los datos del archivo [Hbridos]
Anlisis de la varianza
Variable N R R Aj CV
Rend. 40 0,32 0,26 23,73
Resultados y discusin
310
Anlisis de experimentos a un criterio de clasificacin
Conclusin
2
Si bien el coeficiente de determinacin R es bajo (0,32) el modelo lineal adoptado
para conducir el ANAVA permite rechazar la hiptesis nula (P<0,05). El coeficiente
de variacin es bajo y sugiere un experimento informativo por lo que podra
concluirse que la variabilidad residual (no explicada por el modelo) en proporcin a
la media de los datos, fue mantenida bajo control en el experimento. Estos
resultados indican que el factor hbrido es estadsticamente significativo para
explicar diferencias de rendimientos medios entre estos 4 materiales; no obstante
existe un porcentaje alto de variabilidad que es explicado por algn o algunos
311
Anlisis de experimentos a un criterio de clasificacin
Cuando se rechaza la hiptesis nula del ANAVA podemos concluir que existen
diferencias significativas (p<0.05) entre al menos dos de las medias poblacionales de
en evaluacin.
Se plantea ahora el problema de detectar cul o cules son los tratamientos que
tienen medias poblacionales diferentes y cules son iguales, si es que hay algunos
tratamientos que no se diferencian estadsticamente. Este problema se resolver
en base a pruebas de comparaciones mltiples de medias conocidas en general y
ms tcnicamente como comparaciones a posteriori del ANAVA.
312
Anlisis de experimentos a un criterio de clasificacin
Existe una gama muy amplia de alternativas para llevar adelante este tipo de
pruebas, las que por su naturaleza, pueden clasificarse en pruebas tradicionales y
pruebas basadas en conglomerados.
Prueba de Fisher
313
Anlisis de experimentos a un criterio de clasificacin
ni n j
DMSfij tgld ;(1- / 2) CMD
ni n j
Prueba de Tukey
a a!
medias muestrales en estudio. Si hay a medias, luego habr = (a-2)! 2!
2
diferencias de medias posibles.
CMD
DMSt = qa,gld; (1-) n
314
Anlisis de experimentos a un criterio de clasificacin
a
n0 a 1
i 1 ni
Cabe destacar que cuando los tamaos muestrales son muy diferentes, esta prueba
de Tukey puede dejar de ser confiable, caso en el cual podra utilizarse algn
procedimiento de contraste mltiple que considere tal situacin, como el de Scheff
(1953).
315
Anlisis de experimentos a un criterio de clasificacin
Aplicacin
En InfoStat para realizar una Prueba a posteriori, cualquiera sea ella, debe
invocarse el Men Estadsticas seleccione el submen Anlisis de la Varianza.
Aparecer la pantalla que ya hemos presentado anteriormente. Tras seleccionar
Cultivar en el panel izquierdo de la ventana y agregarlo al panel Variables de
clasificacin y seleccionar Rend para luego agregarlo al panel Variables dependiente
, al pulsar el botn Aceptar, aparecer una nueva ventana, como la que
presentramos en aquella Figura. Al activar la solapa Comparaciones de esta
ventana, se presentar un nuevo dilogo como el que se presenta en la siguiente
Figura.
316
Anlisis de experimentos a un criterio de clasificacin
Resultados y discusin
Cuadro 9.2: Salida del anlisis de la varianza y el test a posteriori de Tukey aplicado a los
datos del archivo Hbridos
Anlisis de la varianza
Variable N R R Aj CV
Rend. 40 0,32 0,26 23,73
317
Anlisis de experimentos a un criterio de clasificacin
Cuadro 9.3: Salida del anlisis de la varianza y el test a posteriori LSD de Fisher aplicado
a los datos del archivo Hbridos
Anlisis de la varianza
Variable N R R Aj CV
Rend. 40 0,32 0,26 23,73
318
Anlisis de experimentos a un criterio de clasificacin
Cuadro 9.4: Salida del anlisis de la varianza y el test a posteriori DGC aplicado a los
datos del archivo Hbridos.
Anlisis de la varianza
Variable N R R Aj CV
Rend. 40 0,32 0,26 23,73
Conclusin
Las tres pruebas presentadas (Tuckey, LSD de Fisher y DGC), nos muestran idnticos
resultados, asignando la letra A al cultivar 2 y la letra B a los cultivares 4, 1, 3.
Tratamientos que comparten una misma letra no se pueden declarar como
estadsticamente diferentes, es decir las diferencias muestrales observadas pueden
haberse dado por azar y por tanto no ser repetibles. Por ello, los investigadores slo
concluyen sobre diferencias que resultan estadsticamente significativas. As los
319
Anlisis de experimentos a un criterio de clasificacin
Los resultados de las pruebas a posteriori en el ejemplo nos permite concluir que:
(1) El cultivar 2 posee una media significativamente diferente (y menor) a las
medias poblacionales de los otros tres cultivares; y
(2) Las medias poblacionales no difieren significativamente entre los cultivares
4, 1 y 3.
El modelo lineal del ANAVA plantea supuestos que deben cumplirse para que el
estadstico F=CME/CMD tenga la distribucin F con (a-1) y a(n-1) grados de libertad
y por tanto los valores p reportados sean vlidos.
320
Anlisis de experimentos a un criterio de clasificacin
(b) distribucin normal de los trminos de error aleatorio, con esperanza cero, y (c)
que la varianza de los trminos de error se mantenga constante para todo i, j ; este
ltimo supuesto puede entenderse tambin como homogeneidad de varianzas
dentro de cada tratamiento, o que la variabilidad de las observaciones bajo los
distintos tratamientos es la misma o no difiere significativamente.
Existen distintas tcnicas de validacin de supuestos, pero las que se presentan aqu
se basan en los predictores de los errores, es decir los residuos.
eij yij yi
Para calcular los residuos con InfoStat, es necesario entrar al submen Anlisis de la
Varianza y especificar la variable de clasificacin y la respuesta, tal cual lo hemos
aprendido a hacer para conducir el ANAVA propiamente dicho. Cuando se llega a la
ventana de opciones del ANAVA deben tildarse las celdas de Guardar Residuos,
Predichos, Residuales Estudentizados (Res.Estud.) y Absolutos de los Residuos
(Abs(residuos)) como se muestra en la siguiente Figura, para que se agreguen las
columnas respectivas en la Tabla de Datos con que estemos trabajando.
321
Anlisis de experimentos a un criterio de clasificacin
Figura 9.5: Dilogo de opciones del ANAVA, para la generacin de residuos, predichos y otros
estadsticos necesarios para la verificacin de supuestos, en InfoStat
Una vez generadas estas columnas con los residuos, los predichos, los residuos
estudentizados (una forma de residuos que estandariza de manera tal que la
variacin de los mismos quede comprendida entre -4 y 4 y as se puedan identificar
fcilmente residuos altos o bajos) y los valores absolutos de los residuos,
procederemos a verificar el cumplimiento de los supuestos de normalidad,
independencia y homogeneidad de varianzas de los ij, mediante las siguientes
pruebas de hiptesis e interpretaciones grficas.
Normalidad
Tomando los residuales como dato de anlisis, una de las tcnicas ms usadas es
construir un Q-Q plot normal. Mediante esta tcnica se obtiene un diagrama de
dispersin en el que, si los residuales son normales y no hay otros defectos del
modelo, los residuos observados se alinean sobre una recta a 45 como se muestra
en la siguiente figura ya que correlacionan bien con los residuos esperados bajo el
supuesto que la muestra de datos realmente sigua una distribucin normal. El
322
Anlisis de experimentos a un criterio de clasificacin
grfico compara los cuantiles observados con los cuantiles esperados bajo
normalidad.
Para acceder a la ventana de dilogo que permite seleccionar la variable para hacer
el QQ-Plot de inters, acceder al Men Grficos, submen Q-Q Plot. Tras elegir la
variable RDUO-Rend. y pulsar el botn Aceptar, se presentar una segunda ventana
de dilogo, que permite elegir el modelo de Distribucin a validar como se muestra
a continuacin.
323
Anlisis de experimentos a un criterio de clasificacin
Cuantiles observados(RDUO_Rend.)
59.26 n= 40 r= 0.985 (RDUO_Rend.)
31.88
4.50
-22.89
-50.27
-50.27 -22.89 4.50 31.88 59.26
Cuantiles de una Normal(-1.2434E-015,543.46)
Homogeneidad de varianzas
324
Anlisis de experimentos a un criterio de clasificacin
residuales
predichos
Figura 9.7: Grfico de Residuos en funcin de Predichos en un ejemplo con falta de
homogeneidad de varianzas
325
Anlisis de experimentos a un criterio de clasificacin
Ttulo
2.79
1.61
RE_Rend.
0.44
-0.73
-1.90
74.51 86.44 98.37 110.30 122.23
PRED_Rend.
Independencia
Una ayuda valiosa para estudiar la falta de independencia entre los errores es
realizar un grfico de los residuos segn la secuencia en el tiempo o espacio fsico
en que han sido colectados los datos; por supuesto que para tal prueba debe
conocerse cmo ha sido el mecanismo de recoleccin de datos. Si los residuos
aparecen en secuencias de varios valores positivos seguidos de varios valores
negativos puede ser un indicio claro de la falta de independencia. Otro posible
patrn indicativo de falta de independencia es una sucesin alternante de
residuales positivos y negativos. Siempre que se detecte cualquier patrn distinto al
aleatorio (falta de patrn) se debe sospechar del incumplimiento del supuesto de
independencia.
326
Anlisis de experimentos a un criterio de clasificacin
327
Anlisis de experimentos a un criterio de clasificacin
Ejercicios
Ejercicio 9.1: En la Provincia de Crdoba se produce aproximadamente el 95% del man tipo
confitera destinado a exportacin. Investigadores de la Universidad Nacional de Rio Cuarto
condujeron en el ao 2006 un estudio en el que estudiaron las estrategias tecnolgicas
productivas y ciertas caractersticas socio-econmicas de los productores de man de la
Provincia de Crdoba, las que permitieron clasificar a los productores como pequeos a
medianos productores independientes (Tipo de Productor I) , grandes productores (Tipo de
Productor II) y pequeos a medianos productores no independientes asociados a grandes
productores (Tipo de Productor III). Luego, otros investigadores estudiaron si los
rendimientos medios logrados por esta tipologa de productores diferan entre s, con la
hiptesis de que los Productores Tipo II y III lograban rendimientos medios superiores a lo
alcanzados por los Tipo I. En el archivo [Mani] (disponible por gentileza de la Lic. Mara LLop)
se encuentran los rendimientos de 27 productores entrevistados (9 de cada Tipo) a los que se
les solicit informacin veraz (cartas de porte del grano entregados para su venta) sobre los
volmenes cosechados, los que permitieron calcular rendimientos promedios por hectrea
logrado por cada productor.
Se solicita:
328
Anlisis de experimentos a un criterio de clasificacin
329
Anlisis de experimentos a un criterio de clasificacin
Sin lavar 8 12 15 16 9 16 14 15 11 14
Con lavado 9 9 8 12 10 11 13 14 9 10
a) Realizar la prueba del test F del anlisis de varianza, previa verificacin de los
supuestos de normalidad y homogeneidad de varianzas, usando un nivel de
significacin del 5%.
b) Comprobar que el valor del estadstico T para comparar dos poblaciones con
varianzas homogneas, cuando es elevado al cuadrado, reproduce el valor del
estadstico F del ANAVA.
c) Qu se concluye sobre las diferencias en altura de las plantas logradas al cabo
de 90 das de haber sido plantadas?
330
Anlisis de
experimentos con
varios criterios de
clasificacin
Mnica Balzarini
Motivacin
Hemos presentado el ANAVA como un mtodo estadstico cuya finalidad es probar
hiptesis referidas a la comparacin de medias de dos o ms poblaciones.
Supusimos que esas poblaciones estn conformadas por unidades de anlisis
expuestas a distintas condiciones, que hemos llamado tratamientos. As, el factor
tratamiento es entendido como un criterio de clasificacin, ya que luego de su
aplicacin a las unidades experimentales, stas quedan clasificadas segn los
distintos niveles del mismo. En numerosas situaciones de la Estadstica
Experimental los tratamientos se definen por la combinacin de dos factores, por
ejemplo combinaciones del factor principio activo del producto teraputico en
uso y el factor dosis de aplicacin del producto. Si los principios activos son 2 y las
dosis son 2, entonces decimos que existe una estructura factorial de tratamientos
que produce 4=2x2 tratamientos. Ahora, existen dos criterios de clasificacin de los
Anlisis de experimentos con varios criterios de clasificacin
332
Anlisis de experimentos con varios criterios de clasificacin
bajo el i-simo nivel del factor A (i=1,...,a) y el j-simo nivel del factor B (j=1,...,b)
podra ser
ij E (Yij ) i j
333
Anlisis de experimentos con varios criterios de clasificacin
334
Anlisis de experimentos con varios criterios de clasificacin
tratamientos. En este ltimo caso puede ser que los factores se encuentren
cruzados o anidados.
Se habla de factores cruzados cuando cada nivel de un factor se combina con cada
uno de los niveles del otro factor para formar un tratamiento. Ejemplo: En un
ensayo comparativo de rendimiento de girasol, se evalan una serie de cultivares en
distintas localidades. Por ejemplo, se evalan 10 cultivares de girasol en 25
localidades pertenecientes a la regin girasolera argentina. Si todos los cultivares
son evaluados en todas las localidades, se tendrn 1025=250 tratamientos
producto de la combinacin de los distintos niveles de los dos factores.
Se habla de factores anidados cuando los niveles de un factor son distintos para
cada nivel del otro factor. Ejemplo: En un rodeo lechero se evala la capacidad del
toro a travs de sus hijas, para ello, se inseminan 16 madres, 8 madres tendrn hijas
del toro A y 8 madres tendrn hijas del toro B, en este caso, tenemos dos factores,
uno dado por los toros, con dos niveles porque hay dos toros y el otro factor dado
por las madres, el cual tiene 16 niveles. Pero las madres que son inseminadas con el
semen del toro A, no son las mismas que las madres inseminadas con el toro B, por
ello se dice que el factor madre est anidado en el factor toro.
335
Anlisis de experimentos con varios criterios de clasificacin
Cuando los factores estn cruzados se dice que se tiene una estructura factorial de
tratamientos y el diseo suele denominarse bifactorial, trifactorial o multifactorial
segn se crucen los niveles de dos, tres o ms factores.
Estructura de UE Estructura de
Estructura de
tratamiento
parcelas
Factores cruzados
Factores anidados
336
Anlisis de experimentos con varios criterios de clasificacin
337
Anlisis de experimentos con varios criterios de clasificacin
338
Anlisis de experimentos con varios criterios de clasificacin
339
Anlisis de experimentos con varios criterios de clasificacin
Yij i j ij
es la media general
Las hiptesis que se somete a prueba en un ANAVA para un DBCA, como en el DCA
a una va de clasificacin, y est establecida sobre la medias de las poblaciones
relacionadas a cada tratamiento ( i i con i = 1, ... ,a):
H0 : 1= 2= , ... , =a
340
Anlisis de experimentos con varios criterios de clasificacin
Es decir que la suma de los desvos cuadrados de cada observacin con respecto a la
media general puede ser particionada en tres sumas de cuadrados, una indicadora
de las diferencias entre tratamientos: Suma de Cuadrados de Tratamientos
(SCtratamiento), otra de la diferencia entre bloques: Suma de Cuadrados de
Bloques (SCbloque) y otra que expresa la variacin aleatoria de unidades
experimentales que recibieron el mismo tratamiento despus de descontar las
variaciones debidas a las diferencias entre bloques, es decir el error experimental:
Suma de Cuadrados del Error (SCerror). Si las diferencias entre unidades
experimentales debidas al factor de bloqueo no son considerada, es decir si
omitimos el efecto bloque en el modelo, la Suma de Cuadrados de Bloques se
adiciona a la Suma de Cuadrados del Error. As, el error experimental aumenta y
como consecuencia se pierde eficiencia en la prueba de la hiptesis de inters. Los
resultados del ANAVA tambin se presentan en un tabla igual al DCA, excepto que
debido al bloqueo de las UE habr una fila de la tabla indicando la variabilidad de la
respuesta entre bloques.
341
Anlisis de experimentos con varios criterios de clasificacin
3- Porque la aleatorizacin fue realizada solo dentro de los bloques. Tal restriccin
de aleatorizacin hace que el estadstico construido entre CMBloque y CMError
no siga una distribucin F terica. No obstante, el cociente puede ser usado
para realizar sugerencias sobre la necesidad de bloqueo en experiencias futuras
similares a la realizada.
Aplicacin
342
Anlisis de experimentos con varios criterios de clasificacin
Supongamos que se desean probar cuatro tipos distintos de pas, para poner a
punto la tcnica. Como se desconoce el origen y por lo tanto la fecha en que fueron
cosechadas las manzanas, se decidi tomar cuatro cajones al azar, siendo el cajn el
factor de bloqueo, ya que se supone que las frutas de un mismo cajn presentan
menos diferencias entre s respecto al grado de madurez que las frutas en cajones
distintos. As las 4 pas se probarn con 4 manzanas extradas del mismo cajn. Los
resultados obtenidos fueron:
Tipo de Punta
Cajn 1 2 3 4
1 9,3 9,4 9,6 10
2 9,4 9,3 9,8 9,9
3 9,2 9,4 9,5 9,7
4 9,7 9,6 10 10,2
343
Anlisis de experimentos con varios criterios de clasificacin
Cuadro 10.1: Resultado del ANAVA para un DBCA donde el factor Cajn representa el
Bloque y el factor Pa el tratamiento
Anlisis de la varianza
Variable N R R Aj CV
Firmeza 16 0,94 0,90 0,98
Se observa que los criterios de ajuste del modelo son buenos, que existe poca
variabilidad residual, que el modelo explica alto porcentaje de la variabilidad en los
datos de firmeza (94%). Al menos una pa muestra diferencias estadsticamente
significativas (P<0,0001) respecto a las otras. La prueba LSD muestra que la firmeza
evaluada con la pa 4 fue la mayor y que las diferencias entre las pas 1 y 2 no son
estadsticamente significativas si se evalan a un nivel de significacin del 5%. El
valor p en la fila en la que se encuentra el efecto de bloque (cajn) sugiere que fue
oportuna la decisin de usar un DBCA ya que las diferencias de firmeza de frutas de
distintos cajones no fueron menor.
344
Anlisis de experimentos con varios criterios de clasificacin
345
Anlisis de experimentos con varios criterios de clasificacin
donde Yij representa la respuesta al i-simo nivel del factor A y j-simo nivel de
factor B, representa una media general, i el efecto que produce el i-simo nivel
del factor A (con a niveles), j corresponde al efecto del j-simo nivel del factor B
sima que como siempre se supone es una variable aleatoria normal, con esperanza
cero y varianza 2.
346
Anlisis de experimentos con varios criterios de clasificacin
Aplicacin
Para ejemplificar una situacin donde hay dos factores de inters y no existen
repeticiones para cada tratamiento definido por la combinacin de stos se
presenta un experimento factorial en el que es de inters estudiar los factores riego
con tres niveles (100, 150 y 200mm.) y el factor insecticida con dos niveles (con y sin
insecticida) en la produccin de tomate.
Cada uno de los tratamientos se evalu una sola vez, es decir los tratamientos
combinatoriales no estn repetidos. No obstante esto, existen repeticiones para
cada nivel de un factor si ste se observa a travs de los niveles del otro. La variable
observada es el rendimiento. Los datos estn en el archivo [Tomate]. Se presenta a
continuacin los resultados obtenidos mediante el ANAVA de InfoStat, luego de
haber seleccionado al Rendimiento como variable respuesta o dependiente, y a los
factores Riego e Insecticida como criterios de clasificacin.
347
Anlisis de experimentos con varios criterios de clasificacin
Cuadro 10.2: Resultados del ANAVA de un experimento con DCA y dos factores sin
interaccin.
Anlisis de la varianza
Variable N R RAj CV
Rendimiento 6 0,98 0,96 3,53
Se concluye que hay efecto de riego (p=0,0229) y que hay efecto de insecticida
(p=0,0275). En el caso del factor insecticida, al tener 2 niveles no hace falta ms
informacin que las medias para concluir sobre la conveniencia del uso o no de
insecticida. Para el factor riego, por tener tres niveles se necesita indagar ms sobre
la comparacin de medias. Se podra solicitar una prueba LSD de Fisher para
conocer cul o cules de las medias de niveles de riego son diferentes. Dado que el
rendimiento promedio para el tercer nivel del factor result mayor que para el
primero, se concluye que existe una relacin lineal positiva y por tanto dentro de
los niveles ensayados (intervalo 100,200) a mayor cantidad de agua de riego se
espera mayor rendimiento. En el siguiente grfico se visualiza esta tendencia, como
as tambin la ausencia de interaccin entre los efectos de riego y insecticida.
348
Anlisis de experimentos con varios criterios de clasificacin
32
30
Rendimiento
28
26
24
100 125 150 175 200
Riego
349
Anlisis de experimentos con varios criterios de clasificacin
yijk i j ij ijk
donde Yijk representa la respuesta en la k-sima repeticin del i-simo nivel del
factor A y j-simo nivel de factor B, representa la media general, i el efecto que
produce el i-simo nivel del factor A, j corresponde al efecto del j-simo nivel del
factor B y los trminos ij representan los efectos adicionales (interacciones) de las
combinaciones de los niveles de los factores. Los trminos de error ijk asociados a
cada observacin se suponen como es usual, normal e independientemente
350
Anlisis de experimentos con varios criterios de clasificacin
Aplicacin
En las grandes ciudades, los lodos que surgen del tratado de los efluentes son
generalmente vertido en suelos de regiones perifricas habitados por productores
agrcolas de productos frescos. En un estudio medioambiental sobre contaminacin
con zinc (Zn) debida a esta prctica, se realiz un ensayo para comparar los efectos
de efluentes procedentes de tres ciudades sobre los niveles de Zn en hortalizas
producidas en regiones perifricas. Se tomaron 36 macetones con plantas de
tomate y en un diseo completamente aleatorizado se asignaron los tratamientos
que surgieron de un arreglo factorial del factor procedencia del lodo adicionado a la
maceta, al que denominaremos ciudad con tres niveles (A, B y C) y el factor
cantidad de lodo adicionado, denominado lodo, con tres niveles (0,5, 1 y 1,5 Kg
por unidad). Luego se cosecharon los tomates producidos y se les midi el
contenido en partes por milln (ppm) de Zn, obteniendo los promedios por maceta
como variable respuesta. Los datos se encuentran en el archivo [Ciudad]. El ANAVA
arroj los resultados que se muestran en la tabla de salida.
La interaccin entre los factores lodo y ciudad result significativa (p<0,0001) razn
por la cual no tiene sentido estudiar a los efectos principales de los factores a travs
de las medias de todos los datos. Es necesario estudiar o abrir la interaccin, esto
es estudiar los efectos de un factor dentro de cada uno de los niveles del otro. En
este ejemplo hay dos factores de distinta naturaleza, uno cuantitativo y el otro
351
Anlisis de experimentos con varios criterios de clasificacin
Cuadro 10.3: Resultados del ANAVA de un experimento con DCA y dos factores con
interaccin
Anlisis de la varianza
Variable N R RAj CV
Zn 36 0,95 0,93 12,96
Una vez calculados los residuos se puede verificar el cumplimiento de los supuestos
de normalidad, independencia y homogeneidad de varianzas de los trminos de
error mediante pruebas de hiptesis e interpretaciones grficas como se ha
explicado anteriormente. Estas pruebas usualmente se construyen
reparametrizando el modelo factorial como un modelo a una va de clasificacin
considerando el factor tratamiento que surge de la combinacin de los factores
originales. Aunque en los dos ejemplos anteriores se han presentado experimentos
con estructura factorial de tratamientos donde los tratamientos se han dispuestos
sobre las parcelas segn un DCA, otras combinacin de estructuras de tratamientos
y estructuras de parcela son posible. Este hecho hace que existan una amplia
variedad de arreglos o diseos experimentales. En el ejemplo que sigue se usar un
352
Anlisis de experimentos con varios criterios de clasificacin
Aplicacin
353
Anlisis de experimentos con varios criterios de clasificacin
Estrategia de anlisis
354
Anlisis de experimentos con varios criterios de clasificacin
Resultados y discusin
Anlisis de la varianza
Variable N R R Aj CV
Resistencia 18 0,96 0,93 13,60
1.42
0.48
RE_Resistencia
-0.45
-1.38
-2.31
10 20 30 40 50 60 70 80 90 100
PRED_Resistencia
355
Anlisis de experimentos con varios criterios de clasificacin
356
Anlisis de experimentos con varios criterios de clasificacin
75
Resistencia (%)
50
25
0
N1 N2
Material
Conclusin
357
Anlisis de experimentos con varios criterios de clasificacin
proceso generador que no puede generar datos con distintas caractersticas que los
datos relevados. Si esto sucediera, las inferencias basadas en un modelo alejado de
los datos no resultarn confiables.
Por ejemplo, hemos aprendido que en los modelos de efectos fijos existe una nica
componente aleatoria, que denominamos el trmino de error, que permite ajustar
las diferencias entre los valores observados y aquellos predichos por el modelo.
Para esa componente aleatoria es necesario especificar las caractersticas de la
distribucin de probabilidad asociada. Los efectos de los parmetros son
constantes fijas y atribuibles a un conjunto finito de niveles de un factor, que
ocurren en los datos y sobre los cuales se desea hacer inferencia. Bajo los supuestos
del modelo de muestreo ideal, las tablas de ANAVA basadas en mnimos cuadrados
ordinarios proveen el mtodo natural para las estimaciones de inters en el marco
de los modelos de efectos fijos como los presentados.
La respuesta a ambas preguntas es: los modelos que hemos aprendido en este
curso introductorio son slo algunos de los que conforman el cuerpo conceptual de
la Bioestadstica actual.
358
Anlisis de experimentos con varios criterios de clasificacin
359
Anlisis de experimentos con varios criterios de clasificacin
360
Anlisis de experimentos con varios criterios de clasificacin
361
Anlisis de experimentos con varios criterios de clasificacin
Ejercicios
Ejercicio 10.1: Los datos siguientes corresponden a un experimento realizado por Charles
Darwin en 1876. En cada maceta se plantan dos brotes de maz, uno producido por
fertilizacin cruzada, y el otro por auto-fertilizacin. El objetivo era mostrar las ventajas de la
fertilizacin cruzada. Los datos son las alturas finales de las plantas despus de un perodo
de tiempo, se encuentran en el archivo [Cruzamientos].
a) Alguno de los dos tipos de maz es demostrablemente mejor?
b) Si es as, cmo se puede describir la diferencia?
Ejercicio 10.2: Se dan los tiempos de sobrevida (en unidades de 10 horas) de animales,
sometidos a 3 tipos de veneno, y 4 tratamientos antitxicos. Los datos se encuentran en el
archivo [Veneno].
a) Describir la influencia de los dos factores en la sobrevida, analizando primero
la existencia o no de interaccin entre ambos.
Ejercicio 10.3: En una estacin Experimental se llev a cabo un ensayo para evaluar cinco
cultivares experimentales de soja (Cv1, Cv2, Cv3, Cv4 y Cv5), los cuatro primeros son
resistentes al herbicida Glifosato mientras que el Cv5 es un genotipo no transgnico que se
cultiva sin el herbicida. Se desea comparar los rendimientos de los cultivares. El rea
experimental presenta diferentes zonas de produccin (loma alta, media loma y bajo) por lo
que se podan prever rendimientos diferentes. Loss datos se encuentran en el archivo [soja]
a) Escriba las hiptesis estadsticas
b) Escriba el modelo estadstico apropiado para la evaluacin de los cinco
cultivares de soja, tenga en cuenta las diferentes zonas de produccin.
c) Existen diferencias estadsticamente signigicativas entres los cultivares de
soja?
d) Si corresponde, realice una prueba a posteriori para determinar cuales
cultivares difieren estadsticamente.
e) Represente los resultados grficamente y escriba un texto comentando las
conlcusiones.
362
Redes de
ensayos
comparativos
Mnica Balzarini
Motivacin
Los datos provenientes de redes de ensayos comparativos, conducidos a campo en
numerosos ambientes (ensayos multiambientales) son importantes en agricultura
porque proveen conocimientos especficos del material vegetal disponible para
cultivo y sus relaciones con los ambientes donde pueden producirse dentro de una
regin de inters. El trmino genotipo se refiere a un cultivar o a un hbrido. El
trmino ambiente se relaciona al conjunto de climas, suelos, factores biticos
(plagas y enfermedades) y condiciones de manejo de un ensayo individual en una
localidad determinada en un ao. La exploracin de patrones de interaccin
Genotipo*Ambiente, ofrece posibilidades, especialmente en la seleccin y adopcin
de genotipos que muestren interaccin positiva con algunas localidades y sus
condiciones ambientales prevalecientes (exploracin de adaptacin especfica) o de
genotipos con baja frecuencia de rendimientos pobres o fracaso del cultivo
(exploracin de estabilidad de rendimientos, adaptacin en sentido amplio).
Redes de ensayos comparativos
364
Redes de ensayos comparativos
ambientes explorados por los productores. Uno de los principales objetivos de las
redes de ensayos multiambientales comparativos de rendimientos, es generar
informacin que permita mejorar la toma de decisiones y evaluar el
comportamiento de distintos materiales comerciales y precomerciales por su
potencial y estabilidad de rendimiento.
365
Redes de ensayos comparativos
realizan grficos de barras para indicar los rendimientos promedios de los distintos
genotipos en cada ambiente. Cuando los genotipos y/o ambientes son numerosos,
estos grficos se realizan particionando la informacin por ambiente.
Los ANAVA por ambiente tambin sirven para considerar si la precisin de los
ensayos es similar, es decir si hay homogeneidad de varianzas residuales a travs de
los ambientes. Si esto ocurriese tiene ms sentido realizar un anlisis conjunto bajo
el modelo clsico que cuando hay heterogeneidad de varianzas residuales.
Generalmente, para que un ensayo se considere con menor precisin que otro su
varianza residual (Cuadrado Medio del Error) debe ser tres o ms veces mayor a la
del ensayo considerado ms preciso. Diferencias de varianzas residual de menor
magnitud usualmente no invalidan las conclusiones obtenidas a partir del anlisis
conjunto de los datos bajo el supuesto de homogeniedad de varianzas.
366
Redes de ensayos comparativos
367
Redes de ensayos comparativos
tablas de datos balanceadas (es decir cuando se tienen todos los Genotipos en
todos los Ambientes) se hace por medio del Anlisis de Componentes Principales de
una matriz Z que contiene los residuos del modelo de ANAVA bifactorial aditivo, es
decir luego de ajustar por el modelo de efectos principales. El anlisis de esta matriz
de residuos provee los scores de genotipos y ambientes respectivamente.
Generalmente los dos primeros trminos multiplicativos o componentes principales
(CP1 y CP2) son suficientes para explicar los principales patrones de interaccin; la
variabilidad remanente en la matriz de efectos de interaccin se interpreta como
ruido o variabilidad no asociada a patrones significativos y por tanto repetibles de
interaccin.
Genotipos con valores cercanos a cero en la CP1 son interpretados como adaptados
a los ambientes de prueba o de menor contribucin en la interaccin
Genptipo*Ambiente, es decir ms estables. Mientras ms alta es la CP1, ms
interaccin. Por ello, es comn que luego del Biplot, tambin se presente una
grfica relacionando produccin (medias de rendimiento por genotipo) y estabilidad
(valores de CP1 promedio para cada Genotipo). Generalmente esta medida de
368
Redes de ensayos comparativos
Aplicacin
Red de ensayos de Trigo
369
Redes de ensayos comparativos
Estrategia de anlisis
Finalmente, con la CP1 generada a partir del ACP de la matriz de residuos del
modelo aditivo y las medias de Genotipos se realiz un grfico de dispersin para
analizar simultnamente estabilidad y produccin de cada material evaluado. A
este grfico se le trazaron dos lneas de referencia: (1) a nivel de las ordenadas para
indicar el rendimiento promedio y (2) a nivel de las abscisas para indicar la
significancia estadstica de la estabilidad o inestabilidad. Esta ltima se juzg segn
el valor de una variable aleatoria Chi-cuadrado con 1 grado de libertad ya que los
valores del eje corresponden al valor de la CP1 al cuadrado que tericamente se
distribuye como una Chi-Cuadrado con un grado de libertad (Chi-cuadrado=3,84).
370
Redes de ensayos comparativos
Resultados y discusin
371
Redes de ensayos comparativos
Localidad= A Localidad= B
5500 5500
5000 5000
Rendimiento (Kg/ha)
Rendimiento (Kg/ha)
4500 4500
4000 4000
3500 3500
3000 3000
I II III IV V VI VII I II III IV V VI VII
Variedad Variedad
Localidad= C Localidad= D
5500 5500
5000 5000
Rendimiento (Kg/ha)
Rendimiento (Kg/ha)
4500 4500
4000 4000
3500 3500
3000 3000
I II III IV V VI VII I II III IV V VI VII
Variedad Variedad
Localidad= E Localidad= F
5500 5500
5000 5000
Rendimiento (Kg/ha)
Rendimiento (Kg/ha)
4500 4500
4000 4000
3500 3500
3000 3000
I II III IV V VI VII I II III IV V VI VII
Variedad Variedad
372
Redes de ensayos comparativos
Cuadro 11.1. ANAVA para una red de ensayos comparativos de variedades de trigo
conducidos bajo un DBCA en cada ambiente
Anlisis de la varianza
Variable N R R Aj CV
Rendimiento 84 0.91 0.80 6.05
373
Redes de ensayos comparativos
1374 C
687
V
III
CP 2 (4.4%)
VI
0 VII
II D F E
IV I
A
-687
B
-1374
-1374 -687 0 687 1374
CP 1 (93.4%)
Figura 11.2. Biplot del ACP de los efectos de interaccin entre 7 genotipos (I,II,III,IV,V,VI y
VII) y 6 ambientes (A,B,C,D,E y F).
374
Redes de ensayos comparativos
4500 IV
II
4400
VII
4300
Rendimiento (Kg/ha)
V
4200
4100
III
VI
4000
3900
0 1 2 3 4 5 6 7 8 9 10 11 12
Inestabilidad
375
Referencias
Agresti, A. (1990). Categorical Data Analysis. John Wiley & Sons.
Balzarini, M. (2008). Anlisis Multivariado. Curso de posgrado. FCA-UNC.
Crdoba, Argentina.
Balzarini, M. G., Gonzalez, L. A., Tablada, E. M., Casanoves, F., Di Rienzo,
J. A., & Robledo, C. W. (2008). Infostat. Manual del Usuario. Crdoba,
Argentina: Editorial Brujas.
Daper, N. R., & Smith, H. (1988). Applied Regression Analysis (Third ed.).
New York: John Wiley & Sons.
Di Rienzo, J. A., Casanoves, F., Balzarini, M. G., Gonzalez, L. A., Tablada,
E. M., & Robledo, C. W. (2011). InfoStat Software Estadstico. Crdoba,
Argentina: URL http://www.infostat.com.ar.
Di Rienzo, J. A., Casanoves, F., Gonzalez, L. A., Tablada, E. M., Daz, M. d.,
Robledo, C. W., y otros. (2007). Estadstica para las Ciencias Agropecuarias.
Crdoba: Brujas.
Di Rienzo, J. A., Macchiavelli, R., & Casanoves, F. (2010). Modelos Mixtos
en InfoStat. Crdoba, Crdoba, Argentina.
Draper, N. R., & Smith, H. (1988). Applied Regression Analysis (Third ed.).
New York: John Wiley & Sons.
Hacking.
Hacking, I. (1991). La domesticacin del azar: La erosin del determinismo y
el nacimiento de las ciencias del caos. Barcelona: Editorial Gedisa.
Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical
Analysis (6 ed.). Prentice Hall.
Levin, R. I., & Rubin, D. S. (2004). Estadstica para administracin y
economa (Sptima ed.). Mjico: Pearson Educacin.
Lin, L. I.-K. (1989). A concordance correlation coefficient to evaluate
Redes de ensayos comparativos
378
ERRNVPHGLFRVRUJ
ndice de palabras clave
Box-plot
A Valores extremos .....................................64
Coeficientes de regresin parcial ............... 245 Diseo del experimento ...................... 184, 341
Comparaciones a posteriori...................... 318 Diseo del muestreo .....................................10
Componente aleatoria ................................ 366 Diseo en bloques completamente
Confiabilidad de una estimacin ................ 167 aleatorizado ...........................................306
Confianza .................................................... 168 Diseo en Bloques Completos al Azar .........346
Confundimiento...................................... 5, 347 Distribucin emprica ....................................27
Consistencia........................................ 166, 192 Distribucin normal ....................................328
Constante ....................................................... 4 Distribucines simtrica y asimtricas ..........42
Contraste de hiptesis ................................ 192 DMSf ...........................................................320
Contraste de homogeneidad de varianzas . 206
Contraste uni o bilateral ............................. 179 E
Covarianza .................................................... 57
Efecto de tratamientos ...............................298
Covarianza y coeficiente de correlacin ....... 52
Efectos aditivos ...........................................358
Cuadrado medio del error .......................... 309
Efectos de interaccin .................................353
Cuadrado medio del error experimental .... 308
Efectos principales ......................................353
Cuadrado medio dentro ..................... 308, 309
Eficiencia .....................................................167
Cuadrado medio entre tratamientos .......... 310
Elemento muestral........................................55
Cuadrados Medios ...................................... 312
Ensayos independientes .............................201
Cualitativa ....................................................... 6
Error de tipo I ..............................................175
Cuantil muestral ........................................... 56
Error de tipo II .............................................175
Cuantiles y percentiles.................................. 45
Error estndar .............................................167
Cuartil ...................................................... 47
Error estndar de la media muestral ..........168
Diagrama de cajas o box-plot .................. 47
Error experimental .............................. 184, 309
Rango intercuartlico ............................... 47
Error Experimental ......................................312
Cuantitativa .................................................... 6
Error tipo I ...................................................193
Curva de potenci ........................................ 193
Error tipo II ..................................................193
Estadstica descriptiva ...................................15
D
Estimacin del modelo de regresin ...........224
DBCA ................................................... 306, 346 Estimacin puntual .....................................165
DCA ............................................................. 306 Estimador consistente ................................166
Desviacin estndar muestral ...................... 57 Estimador insesgado ...................................166
Diagrama de dispersin ................................ 30 Estratificacin de UE ...................................342
Diseo completamente aleatorizado ......... 306 Estructura de tratamientos. ........................343
380
ndice
381
ndice
382
ndice
383