Sunteți pe pagina 1din 139

Edited with the trial version of

Foxit Advanced PDF Editor


To remove this notice, visit:
www.foxitsoftware.com/shopping

CONTENIDO
Pg.
CONTENIDO ........................................................................................................................ i
CAPITULO I. INTRODUCCIN AL DISEO DE EXPERIMENTOS ........................... 3
1.1 Conceptos De Mtodos Estadsticos Para La Investigacin............................................... 3
1.2 Diseos experimentales. ................................................................................................. 29
1.3 Conceptos bsicos del Diseo Experimental ................................................................... 31
1.3. Utilizacin de los mtodos estadsticos en la experimentacin. ...................................... 35
1.4. Importancia del anlisis de varianza. ............................................................................. 36
1.5 Clasificacin y seleccin de los diseos experimentales ................................................. 38
1.6. Aplicacin de paquetes Estadisticos .............................................................................. 39
CAPITULO II. CONCEPTOS DE PROBABILIDAD.......................................................... 40
2.1. Probabilidad y sus axiomas ........................................................................................... 40
2.2. Funciones de la probabilidad ......................................................................................... 43
2.3. Variable aleatoria y distribucin de probabilidades. ....................................................... 46
2.4. Mtodos de estimacin de parmetros ........................................................................... 49
2.5. Mtodo de mxima verosimilitud .................................................................................. 50
2.6. Distribucin de probabilidades de variables aleatorias continuas. .................................. 50
CAPITULO III PRUEBAS DE RANGO MULTIPLE ........................................................ 74
3.1. Introduccin .................................................................................................................. 74
3.2. Prueba de Rangos Mltiples de Tukey HSD .................................................................. 74
3.3. Diferencia Minima Significativa de Fisher o (LSD) ....................................................... 78
3.4. Prueba de Rangos Mltiples de Duncan ......................................................................... 79
3.5. Puebla de Student-Newman-Keuls (SNK) ..................................................................... 80
3.6. Prueba de Comparacin de Dunnet ................................................................................ 81
3.7. Transformacin de datos ............................................................................................... 81
CAPITULO IV DISEO COMPLETAMENTE AL AZAR (DCA) ................................... 83
4.1. Caractersticas principales ............................................................................................. 83
4.2 Modelo estadstico Lineal............................................................................................... 83
4.3 Esquema del diseo Completamente al Azar .................................................................. 83
4.4. Estimaciones ................................................................................................................. 84
4.5 Suma de cuadrados......................................................................................................... 84
4.6 Grados de libertad .......................................................................................................... 84
4.7 Cuadrado medio esperado .............................................................................................. 84
4.8 Anlisis de varianza ....................................................................................................... 84
4.9. Prueba estadstica de hiptesis ....................................................................................... 85
4.10. Ventajas del Diseo Completamente al Azar ............................................................... 85
4.11. Desventajas del Diseo Completamente al Azar .......................................................... 86
4.12. Usos del Diseo Completamente al Azar ..................................................................... 86
4.13. Problemas de aplicacin .............................................................................................. 86
CAPITULO V DISEO EN BLOQUE COMPLETO AL AZAR (DBCA) ......................... 91
5.1. Definicin ..................................................................................................................... 91
5.2. Caractersticas: .............................................................................................................. 91
5.3. Modelo estadstico lineal ............................................................................................... 91
CAPITULO VI DISEO DE CUADRADO LATINO (DCL) ............................................. 96
6.1 Caractersticas: ............................................................................................................... 96
6.2 Modelo estadstico Lineal............................................................................................... 97
CAPITULO VII EXPERIMENTOS FACTORIALES ....................................................... 103
7.1 Introduccin ................................................................................................................. 103
7.2 Definiciones bsicos..................................................................................................... 103

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:
www.foxitsoftware.com/shopping

7.3 Factorial 2n ................................................................................................................... 105


7.4 Modelo aditivo Lineal .................................................................................................. 105
CAPITULO VIII REGRESION Y CORRELACION ...................................................... 112
8.1 Modelos de Regresin .................................................................................................. 113
8.2 Obtencin de las Ecuaciones Normales ........................................................................ 114
8.3 Regresin lineal Simple................................................................................................ 115
8.4 Uso de Libreras y Software ......................................................................................... 117
8.5 Regresin Lineal Mltiple ............................................................................................ 119
BIBLIOGRAFIA .................................................................................................................. 129
ANEXOS ............................................................................................................................... 130

ii

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

CAPITULO I. INTRODUCCIN AL DISEO DE EXPERIMENTOS


1.1 Conceptos De Mtodos Estadsticos Para La Investigacin

1.1.1 Proceso de Investigacin


La investigacin cientfica es un proceso, trmino que significa dinmico, cambiante y continuo. Este
proceso est compuesto por una serie de etapas, las cuales se derivan unas de otras. Por ello al realizar
un estudio no podemos omitir etapas ni alterar su orden. Quienes han dudado de este requisito de la
investigacin cientfica, violndolo han pagado muy caro precio: La investigacin resultante no es
vlida o confiable, o no cumple con sus propsitos por los cuales se realiza, deja de ser cientfica.
La principal caracterstica de la investigacin cientfica es que debemos seguir ordenada y
rigurosamente el proceso.
Los pasos o fases del proceso de investigacin son:
1. Concebir la idea a investigar
2. Plantear el problema de investigacin, implica a su vez: Establecer los objetivos, desarrollar las
preguntas de la investigacin, justificar la investigacin y su viabilidad.
3. Elaborar el marco terico esta implica la revisin de la literatura
4. Definir si la investigacin se inicia como exploratoria, descriptiva, correlacional o explicativa.
5. Establecer las hiptesis: Detectar las variables, definir conceptualmente las variables, definir
operacionalmente.
6. Seleccionar el diseo apropiado de la investigacin: diseo experimental, pre-experimental o cuasi
experimental, diseo no experimental
7. Seleccionar la muestra: determinar el universo, extraer la muestra
8. Recoleccin de los datos: elaborar el instrumento de medicin y aplicada, calcular la validez y
confiabilidad del instrumento de medicin, codificar los datos, crear un archivo que contenga los
datos
9. Analizar los datos: Seleccionar las pruebas estadsticas, Realizar los anlisis
10. Presentar los resultados: Elaborar el reporte de investigacin, presentar el reporte

Que es estadstica?
Dos comunes usos de la palabra:
1. Estadstica Descriptiva: resmenes numricos y grficos de conjuntos de datos
2. Estadstica Inferencial: la determinacin de la probabilidad de lo posible (Davis 2002, p. 11)
Ejemplos:
Descriptiva Los errores de transformacin para 14 puntos de control GPS que van desde 3.63 a 8.36 m
con una media aritmtica de 5.145
Inferencial El error medio para un conjunto de puntos GPS ajustados por este procedimiento de
georeferenciacin se sita entre 4.274 y 6.015 m; esta afirmacin tiene un 5% de probabilidad de ser
incorrecto.
Que es anlisis estadstico?
Este trmino se refiere a un amplio rango de tcnicas para. . .

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

1. (Describir)
2. Explorar
3. Entender
4. Probar
5. Predecir
. . . basados en muestras de datos colectados de poblaciones, usando algunas estrategias de muestreo.

Por que se usa el anlisis estadstico?


1. Necesitamos resumir algunos datos en un formato mas corto.
2. Hacemos un experimento para comprender algunos procesos y posible prediccin basada sobre este
entendimiento.
As necesitaremos un modelo de ello, i.e. crear un modelo conceptual o representacin matemtica,
del cual podemos inferir el proceso.
Pero como sabemos si el modelo es correcto?
* Estamos imaginando relaciones donde ello no hay?
* Son ellos relaciones verdaderas no tenemos establecido?
Anlisis estadstico nos da una manera para cuantificar la confianza que podemos tener en nuestra
inferencia.

Poblaciones y muestras
Poblacin: un conjunto de elementos (individuals)
* Finito vs. Infinito
Muestra: un subconjunto de elementos tomada de una poblacin
* Representativa vs. sesgada (biased)
Hacemos inferencias acerca de una poblacin a partir de una muestra tomada de esta.
En algunas situaciones podemos examinar la poblacin entera; entonces no hay inferencia alguna
desde una muestra. Ejemplo: todos los pixels en una imagen.

Paso 1: Explorar & Describir


Preguntas
* Cual es la naturaleza del conjunto de datos (lineage, variables . . . )?
* Cual es la relacin del conjunto de datos a la poblacin fundamental?
Tcnicas
* Grficas (visualizacin): humanos son usualmente buenos en seleccionar patrones.
* Numricas: resumen de caractersticas sobresalientes (estadstica descriptiva)
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

* Estos pueden sugerir hiptesis y apropiadas tcnicas analticas

Paso 2: Entender
Si hay un proceso fundamental del cual la data muestreada es una muestra representativa . . .
. . . entonces los datos nos permiten inferir la naturaleza del proceso
Ejemplo: la distribucin de metales pesados en suelo es el resultado de:
* Material madre
* Contaminantes transportados por viento, agua, o humanos
* Transformaciones en el suelo desde la deposicin
* Movimiento de materiales dentro y a travs del suelo
*...
Resumir el entendimiento con un modelo

Que es un modelo estadstico?


Una representacin matemtica de un proceso o su resultado . . .
. . . con un nivel calculable de incertidumbre
. . . segn suposiciones (mas o menos plausible o proveable)
Este es un ejemplo de un modelo emprico. Ello puede implicar el proceso fundamental, pero no
necesitamos. Ello podra ser til para prediccin, aun si est en una caja negra.
Supocisiones: no es parte del modelo, pero puede ser verdad para que el modelo sea correcto.
(Nota: Un modelo de proceso explcitamente representa el proceso fundamental e intenta simular ello.)

Paso 3: Probar
Un siguiente paso es probar, en algn sentido, una afirmacin acerca de la naturaleza.
Ej. Contaminacin de Suelo en este rea es causada por inundacin de ros; contaminantes se originan
aguas arriba en reas industriales.
El modelo puede ser plausible! evidencia de causalidad
Con que confianza podemos afirmar que nuestra comprensin (modelo) es correcto?
Nada puede ser probado absolutamente; estadstica nos permite acumular evidencia
Podemos determinar estrategias de muestreo para lograr un nivel de confianza dado
suposiciones fundamentales no pueden ser proveable, nicamente- plausible

Paso 4: Predecir
El modelo puede ser aplicado para entidades no-muestreadas en la poblacin fundamental.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

* Interpolacin: dentro del rango de la muestra original


* Extrapolacin: fuera del rango
El modelo puede ser aplicado para eventos futuros; esto asume que las condiciones futuras (el
contexto en el cual los eventos tomaran lugar) son las mismas que las pasadas condiciones (c.f.
uniformismo de Hutton y Playfair).
Un modelo geo-estadstico puede ser aplicado para ubicaciones no-muestreadas; esto asume que el
proceso en estas ubicaciones es la misma como en las ubicaciones muestreadas.
Punto crucial: debemos asumir que la muestra sobre el cual el modelo est basado es representativa
de la poblacin en el cual las predicciones son hechas.

1.1.2: Tipos de variables


En general las Variables pueden ser Dependientes o Independientes
Independiente, predictora o explicativa: Su valor es fijado por el investigador generalmente esta
representado por x.
Dependiente o de Respuesta: Es aleatoria y est relacionada con el valor que toma la variable
independiente, en muchos casos est representada por y.

En orden del contenido de informacin (menor a mayor), estas variables pueden ser:
1. Nominal
2. Ordinal
3. Intervalar
4. Razon

Variable Nominal
Valores son de un conjunto de clases con ordenacin no natural
Ejemplo: Usos de suelo (agricultura, bosque, residencial . . . )
Puede determinar igualdad, pero no rango
Estadsticos muestrales significativos: moda (clase con ms observaciones); distribucin de frecuencia
(cuantas observaciones en cada clase)
Nmeros pueden ser usados para designar las clases pero estos son arbitrarios y no tienen significado
numrico. (la primera clase puede ser mejor la tercera); ordenando esto por conveniencia (ej.
alfabtico)
R: factores desordenados

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Variable Ordinal
Valores son de un conjunto de clases naturalmente ordenados/organizados con unidades de
medicin no significantes
Ejemplo: grado estructural de suelo (0 = falto de estructura, 1 = muy endeble, 2 = endeble, 3 = medio,
4 = fuerte, 5= muy fuerte )
N.b . Esta ordenacin es una parte intrnseca de la definicin de clase
Puede determinar rango (mas grande, menor que)
Estadsticos muestrales significativos: moda; distribucin de frecuencia
Nmeros se pueden usar para designar las clases; su orden es significativo, pero no los intervalos
entre clases adyacentes no estn definidos (ej. el intervalo de 1 a 2 vs. el de 2 a 3)
R: factores ordenados

Variable Intervalar
Valores son medidos en una escala continua con unidades de medicin bien-definidas pero no hay
origen natural de la escala, i.e. el cero es arbitrario, as que las diferencias son significativas pero no
ratios
Ejemplo: Temperatura en C.
Es dos veces tan caliente como hoy es sin sentido, aun cuando Hoy es 20C y ayer fue 10C
puede ser verdad.
* (Para distinguir esto, probar la misma declaracin con temperaturas Farenheit)
Estadsticos significativos: cuantiles, media, varianza

Variable Razn (ratio)


Valores estn medidos en una escala continua con unidades de medicin bien definidas y un origen
natural de la escala, i.e. el cero es significativo
Ejemplos: Temperatura en K; concentracin de un qumico en solucin
There is twice a much heat in this system as that es significativo, si un sistema est en 300K y el
otro en 150K
Estadsticos significativos: cuantiles, media, varianza; tambin el coeficiente de variacin. (Recuerdo:
CV = SD / Media; esto un ratio).

Continuas vs. discretas


Variables Intervalar y razn pueden ser:
Discreta Toman uno de un limitado conjunto de valores discretos, e.g. enteros
Continua Pueden tomar cualquier valor (limitado por precisin) en un rango definido

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

No continuos en el estricto sentido matemtico (puesto que la computadora puede slo representar
nmeros racionales)

1.1.3: Inferencia Estadstica


Una de los principales usos de la estadstica es para inferir de una muestra a una poblacin, e.g.
el valor verdadero de algn parmetro de inters (e.g. media)
el grado de respaldo para o contra una hiptesis
Esto es un asunto contencioso; aqu usamos simples nociones de frecuencia.

Inferencia Estadstica
Usando la muestra para inferir hechos acerca de la poblacin fundamental del cual (esperamos) sea
representativa
Ejemplo: valor verdadero de una media poblacional, estimado de la media muestral y su error
estndar
* intervalos de confianza: tienen una probabilidad conocida de contener el valor verdadero
* Para una muestra de una variable normalmente-distribuida, 95% probabilidad (a=0.05):

x 1.96 s x x 1.96 s x
* El error estandar es estimado de la varianza muestral:

sx

sx2
n

Inferencia de pequeas muestras


Probabilidades estn referidas a la distribucin t (de Student), preferiblemente que la distribucin z
(Normal)
Esto es correcto por el hecho de que estamos estimando la media y varianza de la misma muestra, y la
varianza es difcil estimar de pequeas muestras.

x ta 0.05, n 1 s x x ta 0.05,n 1 s x
De tablas t ; t z cuando n
ta 0.05 ,10

2.228, ta 0.05,30 2.042, ta 0.05,120 1.98

En qu medida esto es realmente la media?


Existe nicamente una probabilidad de 1 en 20 que el valor verdadero de la media poblacional este
fuera de este intervalo.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

* Si la muestra es representativa de la poblacin


* Si la distribucin de valores en la muestra satisface los requerimientos del mtodo inferencial
Si repetimos la misma estrategia de muestreo otra vez (colectando una nueva muestra), existe
nicamente una probabilidad de 1 en 20 que el intervalo de confianza construido de esa muestra no
contendr el valor de la media de esta primera muestra
Esto no media que 95% de la muestra o poblacin esta dentro de este intervalo

La Hiptesis Nula y Alterna


Hiptesis Nula H0: Aceptado hasta que se pruebe lo contrario (inocente hasta que se prueba lo
culpable)
Hiptesis Alternativa H1: Algo habamos querido probar, pero queremos estar medianamente seguros
En la ausencia de informacin previa, la hiptesis nula es que no existe relacin
* Ejemplo clsico: una nueva variedad de cultivo no (nula) tiene un ms alto rendimiento que la
variedad actual (note hiptesis una-cola en este caso)
Pero puede usar informacin previa para una hiptesis nula informativa

Niveles de Significancia y tipos de error


a es el riesgo de una afirmativo falso (rechazando la hiptesis nula cuando ello de hecho es
verdadero), el error Tipo I
* La probabilidad de condenar una persona inocente (hiptesis nula: inocente hasta que se pruebe
lo contrario)
es el riesgo de una negativa falsa (aceptando la hiptesis nula cuando esto es de hecho falso), el
error Tipo II.
* La probabilidad de liberar una persona culpable
a determinado por analizador, depende de la forma de la prueba

Tabla 1: Errores en pruebas de hiptesis


Decision

Situacin verdadera
Hiptesis verdadera

Hiptesis falsa

Aceptar hiptesis

No error

Error tipo II

Rechazar hiptesis

Error tipo I

No error

Seleccionando un nivel de confianza


Esto debe ser balanceado dependiendo de las consecuencias de generacin de cada tipo de tipo de error.
por ejemplo:
El costo de introduccin de una nueva variedad de cultivo si esto no es realmente mayor (Tipo I), vs.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

La prdida de ganancias por no empleo de la variedad mejor verdaderamente (Tipo II)


El sistema legal Britnico est excesivamente cargado para bajar errores Tipo I (i.e. mantiene la
persona inocente fuera de prisin)
El sistema Napolenico acepta ms error Tipo I en orden a aminorar el error Tipo II (i.e. mantiene al
delincuente desconectado de las calles)
(O, los sistemas Britnico y Napolenico pueden tener hiptesis nula opuestas)

1.1.4: Estrategia de Anlisis de Datos


1. Plantear las preguntas de la investigacin
2. Examinando rubros de datos y su soporte
3. Anlisis de Datos Exploratorio no-espacial
4. Modelamiento No-espacial
5. Anlisis de Datos Exploratorio Espacial
6. Modelamiento Espacial
7. Prediccin
8. Respuesta a las preguntas de la investigacin

Preguntas de la Investigacin
Cuales son las preguntas de la investigacin, son supuestos que son respondidas con la ayuda de estos
datos?

Rubro de Datos y su soporte


Cmo son los datos colectados (plan de muestreo)?
Cuales son las variables y lo que ellos representan?
Cules son las unidades de medida?
Que tipo de variables son estas (nominal, ordinal, intervalar, o ratio)?
Cuales rubros de datos pueden ser usados para estratificar la poblacion?
Cuales rubros de datos son pretendidos como variables respuesta, y cuales como predictores?
Modelamiento No-espacial
Descripciones Univariadas: prueba de normalidad, resumen estadstico
Transformaciones son necesarios y justificado
Relaciones Bivariadas entre variables (correlacin)
Relaciones Multivariadas entre variables
Anlisis de Varianza (ANOVA) en factores predictivos (confirmar subpoblaciones)

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

10

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Anlisis de Datos Exploratorio Espacial


Si los datos son colectados en puntos conocidos en el espacio geogrfico, deberemos visualizarlos en
ese espacio.
Postplots: donde estan esos valores?
Postplots Geograficos: con imgenes, mapas de uso de suelo etc. como fondo: hacer aparecer all
alguna explicacin para la distribucin de valores?
Estructura espacial: rango, direccin, resistencia . . .
Existe anisotropia? En qu direccin(es)?
Poblaciones: una o varias?

Modelamiento Espacial
Si los datos son colectados en puntos conocidos en el espacio geogrfico, ello puede ser posible modelar
esto.
Modela la estructura espacial
* Modelos locales (dependencia espacial)
* Modelos globales (tendencias geogrficas, caracterstica predictores espaciales)
* Modelos mixtos

Prediccin
Valores en puntos o bloques
Valores resumen (e.g. promedios regionales)
Incertidumbre de predicciones

Respuestas a las preguntas de la investigacin


Cmo responden los datos la pregunta de investigacin?
Son necesarios mas datos? Si es as, cuntos y dnde?

Ejemplo: La contaminacin de suelo Ilpa por metales pesados


Este es un ejemplo de un conjunto de datos ambiental el cual puede ser usado para responder una
variedad de preguntas de investigacin terica y prctica. Se tiene el archivo ilpa.csv, cargando asi
# Fijar el directorio de trabajo
setwd('d:/practicas-R')
ilpa<-read.csv("ilpa.csv")
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

11

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Enunciado:
155 muestras tomadas sobre un soporte de 10x10 m de la parte superior 0-20 cm de suelos aluviales en
un sector 5x2 km de la planicie de inundacin de un rea en particular llamada Ilpa. Las variables que se
toman en cuenta son:
id nmero de punto
este, norte coordenadas E y N en coordenadas UTM, en metros
cadmio concentracin en el suelo, en mg kg-1
cobre concentracin en el suelo, en mg kg-1
plomo() concentracin en el suelo, en mg kg-1
zinc concentracin en el suelo, en mg kg-1
elev elevacin sobre nivel de referencia local, en metros
om materia orgnica, perdida de material en ignicion, en porcentaje
ffreq clase de frecuencia de inundacin, 1: anual, 2: 2-5 aos, 3: cada 5 aos
suelo clase de suelo, codificado
lime ha sido la tierra aqui limed? 0 1 = F V
usosuelo uso de terreno, codificado
dist.m distancia del canal principal Ro Ilpa, en metros

1.1.5: EDA univariado no-espacial y anlisis de distribucin


1. Anlisis Exploratorio de Datos (EDA)
2. Estadstica descriptiva
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

12

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

3. Distribuciones
4. Normalidad, transformaciones

EDA Univariado Grafico


Diagrama de Caja, Diagrama de Tallo y Hoja, Histograma
Preguntas
* Una poblacin o varias?
* Atpicos?
* Centrada o sesgada (media vs. mediana)?
* Colas Heavy o light (kurtosis)?
>
>
>
>
>
>
>
>
>
>
>

summary(ilpa)
attach(ilpa)
plot(este,norte)
stem(cadmio)
boxplot(cadmio)
boxplot(cadmio, horizontal = T)
points(mean(cadmio),1, pch=20, cex=2, col="blue")
hist(cadmio) #automatic bin selection
hist(cadmio, n=16) #specifica el numero de bins
hist(cadmio, breaks=seq(0,20, by=1)) #especifica breakpoints
stem(cadmio)

Resumen Estadstico (1)


Estos resmenes son de una muestra nica de una variable nica
Resumen 5-nmeros (min, 1er Q, mediana, 3er Q, max)
Media y varianza muestral
> summary(cadmio)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.200 0.800 2.100 3.246 3.850 18.100
> var(cadmio)
[1] 12.41678

Resumen Estadstico (2)


Desviacin estndar de la muestra (mismas unidades que la media), CV

sx

s x2

CV

sx
x

> sd(cadmio)
[1] 3.523746
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

13

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

> sqrt(var(cadmio))
[1] 3.523746
> round((sqrt(var(cadmio))/mean(cadmio))*100,0)
[1] 109

Precaucin
Los cuantiles, incluyendo la mediana, son siempre significativos
La media y varianza son matemticamente significativos, a menos que la muestra sea
aproximadamente normal
Esto implica una poblacin (unimodal)
> quantile(cadmio, probs=seq(0, 1, .1))
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
0.20 0.20 0.64 1.20 1.56 2.10 2.64 3.10 5.64 8.26 18.10

Precisin de la media muestral


Error estndar de la media: desviacin estndar ajustada por tamao de la muestra

se

sx
n

Esto es tambin escrito como

sx

Note que el incremento de la muestra incrementa la precisin del estimado (pero como

n , no n)

> sd(cadmio)/sqrt(length(cadmio))
[1] 0.2830341

Intervalo de Confianza de la media muestral


Estimado de la media muestral y error estndar, usando la distribucin t.
Distribucin de los estimados de la media es normal, aun si la distribucin de la variable no lo es.
Test contra la hiptesis nula de 0:
> t.test(cadmio)
t = 11.4679, df = 154, p-value = < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.68668 3.80494
sample estimates:
mean of x
3.24581

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

14

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Prueba si es menor que un valor objetivo; configurar a (nivel de confianza):


> t.test(cadmio, alt="less", mu=3, conf.level = .99)
t = 0.8685, df = 154, p-value = 0.8068
alternative hypothesis: true mean is less than 3
99 percent confidence interval:
-Inf 3.91116
sample estimates:
mean of x
3.24581
Note que el intervalo de confianza es unilateral: desde 3. . .3.91116; no nos importa que si la media es
menor que 3.

Poblaciones & Atpicos


La mayora de las muestras de la naturaleza son bastante pequeas
Aun si la suposicin de una poblacin con una distribucin normal es verdad, por chance podemos
conseguir valores extremos
Cmo podemos determinar si un valor inusual es un atipico?
Cmo podemos determinar si tenemos varias poblaciones?
Respuesta: buscar un factor fundamental (co-variado), separar dentro de sub-poblaciones y probar su
diferencia

La Distribucin Normal
Surge naturalmente en muchos procesos: una variable que puede ser modelada como una suma de
muchas pequeas contribuciones, cada una con la misma distribucin de errores (teorema de lmite
central)
Fcil manipulacin matemtica
Ajusta muchas distribuciones observadas de errores o efectos aleatorios
Algunos procedimientos estadsticos requieren que una variable sea al menos aproximadamente
distribuido normalmente.
Nota: Aun si una variable misma no est distribuida normalmente, su media puede ser, desde que las
desviaciones de la media pueden ser la suma de muchos errores pequeos.
Funcin de Densidad de Probabilidad (pdf) con media , desviacin estndar

f ( x)

1 x 2
exp

2
2
1

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

f ( x) 1

15

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Funcin de Densidad Acumulada (cdf)

F ( z)

f ( x)

> rnorm(8, 1.6, .2) #8 variable normal con media 1.6, var .2
[1] 1.771682 1.910130 1.518092 1.712963 1.365242 1.837332 1.777395
1.749878
> qnorm(seq(0.80,0.95, by=.05),1.6,.2) #z-values para esta probs.
[1] 1.768324 1.807287 1.856310 1.928971

Estandarizacin
Toda variable distribuida normalmente puede ser directamente comparada por estandarizacin:
sustraendo , dividiendo por .
normal Estandarizado: todas las variables tienen la misma escala y desviacin:
= 0, = 1

f ( x)

x2
1
exp
2
2

> sdze<-function(x) { (x-mean(x))/sd(x) }

Evaluando la Normalidad
Grafica
* Histogramas
* Graficas Cuantil-Cuantil QQplots (grafica probabilidad normal)
Numerical
* Varios tests incluyendo Kolmogorov-Smirnov, Anderson-Darling, Shapiro-Wilk
* Todos estos funcionan para comparar la distribucin observada con la distribucin normal terica
teniendo parmetros estimados de lo observado, y calculando la probabilidad que lo observado es
una realizacin del terico.
> qqnorm(cadmio); qqline(cadmio)
> shapiro.test(cadmio)

Variabilidad de pequeas muestras de una distribucin normal


Podemos inferior que la poblacion es normal de una pequea muestra?

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

16

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin


>
>
+
+
+
+
+
+
+
+
+

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

for (i in 1:r) v[,i]<-rnorm(4, 180, 20)


for (i in 1:r) {
hist(v[,i], xlim=c(120, 240), ylim=c(0, 4/3.5),
breaks=seq(100, 260, by=10),
main="", xlab=paste("Sample", i)) ;
x<-seq(120, 240, by=1)
points(x,dnorm(x, 180, 20)*4*10, type="l"",
col="blue, lty=1, lwd=1.8)
points(x,dnorm(x, mean(v[,i]), sd(v[,i]))*4*10, type="l",
col="red", lty=2, lwd=1.8)
}

Transformando a Normalidad: Basado en que criterio?


Estos son listados en orden de preferencia:
1. Entendimiento a priori del proceso
e.g. lognormal se eleva si multiplica variables contribuyentes, ms bien que adicionar
2. EDA: impresin visual de que deber estar hecho
3. Resultados: variable transformada surge y prueba normal

Transformando a Normalidad: Cual transformacin?


x = ln(x+a): logartmico; remueve asimetria positiva
nota: debe adicionar un pequeo adaptacin para ceros
x =

x : raz cuadrada: remueve sesgo moderado

x = sin1 x: arcseno: para proporciones x [0. . .1]


Extiende la distribucion cerca a las colas
x = ln[x/(1x)]: logistico (logistic) para proporciones x [0. . .1]
nota: debe adicionar un pequeo acomodo para ceros

Ejemplo: transformacin log de una variable con asimetra positiva


>
>
>
>
>
>
>

summary(log(cadmio))
stem(log(cadmio))
hist(log(cadmio))
hist(log(cadmio), n=20)
boxplot(log(cadmio), horizontal=T)
points(mean(log(cadmio)),1, pch=20, cex=2, col="blue")
qqnorm(log(cadmio), main="Q-Q plot for log(cadmio ppm)")

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

17

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

> qqline(log(cadmio))
> shapiro.test(log(cadmio))

Esto no es aun normal, pero es mucho ms simtrico

1.1.6: EDA Bivariado y anlisis de correlacin


Bivariado: dos variables las cuales sospechamos estn relacionadas
Pregunta: cul es la naturaleza de la relacin?
Pregunta: que tan fuerte es la relacin?

Grfico de Dispersin Bivariado


Muestra la relacin de dos variables en un espacio caracterstico (un plano puede estar constituido de
dos variables rangos)
Muestra dos maneras:
* No-estandarizado: con valores originales en los ejes (y el mismo cero); muestra magnitudes
relativas
* Estandarizado a cero media muestral y variancia unitaria: muestra spreads relativa
* Nota: algunos muestran automaticamente escala de los ejes, so that non-standardized looks like
standardized
Graficos de dispersion de dos metales pesados; automatico vs. misma escala; tambien log-transformada;
estandarizada y no estandarizada.
>
>
>
>
>
>
>
>
>
>
>
>

plot(plomo,zinc)
abline(v=mean(plomo)); abline(h=mean(zinc))
lim<-c(min(min(plomo,zinc)), max(max(plomo,zinc)))
plot(plomo, zinc, xlim=lim, ylim=lim)
abline(v=mean(plomo)); abline(h=mean(zinc))
plot(log(plomo), log(zinc))
abline(v=mean(log(plomo))); abline(h=mean(log(zinc)))
plot(log(plomo), log(zinc), xlim=log(lim), ylim=log(lim))
abline(v=mean(log(plomo))); abline(h=mean(log(zinc)))
sdze<-function(x) { (x-mean(x))/sd(x) }
plot(sdze(plomo), sdze(zinc)); abline(h=0);abline(v=0)
plot(sdze(log(plomo)), sdze(log(zinc))); abline(h=0); abline(v=0)

Midiendo la resistencia de una relacin bivariada: terica


La covarianza terica de dos variables X e Y

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

18

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Cov ( X , Y ) E( X X )(Y Y )
Cov ( X , Y ) XY
El coeficiente correlacin terico: covarianza normalizada por desviaciones estndar poblacional;
rango [1. . .1]:

XY

Cov ( X , Y )
X Y

XY

XY
X Y

Midiendo la resistencia de una relacin bivariada: estimado de muestra


En la prctica, estimamos la covariancia de la poblacin y correlacin desde una muestra:

s xy
rxy
rxy

1 n
( xi x ) ( yi y )
n 1 i 1
s xy
sx s y

(x x) ( y y)
( x x ) ( y y)
i

Muestra vs. poblacion covarianza y correlacion

Muestral estima X poblacional

sx

Muestral estima

rxy Muestral estima

poblacional

xy

poblacional

Ejemplo de correlacion & intervalo confianza: positivo, fuerte


> cor.test(plomo,zinc)
Pearsons product-moment correlation
data: plomo and zinc
t = 39.6807, df = 153, p-value = < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9382556 0.9668269
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

19

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

sample estimates:
cor
0.9546913

Esto explica 0.9552 = 0.912 de la variancia total.

Ejemplo de correlacin & intervalo confianza: negativo, dbil


> cor.test(plomo,dist.m)
Pearsons product-moment correlation
data: plomo and dist.m
t = -8.9269, df = 153, p-value = 1.279e-15
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.6801118 -0.4710150
sample estimates:
cor
-0.5852087
Esto explica 0.5852 = 0.342 de la variancia total.

Regresin
Un termino general para modelar la distribucion de una variable (respuesta o dependiente) desde
(sobre) otra (la predictora o independiente)
Esto logico solo si tenemos unas razones a priori (no-estadisticas) a creer en una relacin causal
Correlacion: no hace suposiciones acerca de la causalidad; ambas variables tienen el mismo status
lgico
Regresion: asume que una variable es la predictora y la otra la respuesta

Actual vs. causalidad ficcion


Ejemplo: proporcion de arena fina en un topsoil y estrato subsuelo
Una "causa" la otra?
Tienen una causa comn?
Puede ser utilizado para predecir la otra?
Por qu sera til?

Regresin Lineal Simple (un predictor)

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

20

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Modelo: y = 0+1x+
0: intercepcion, constante cambio de x a y
1: pendiente, cambio en y para un cambio equivalente en x
: error, o mejor, variacin no explicada
Los parmetros 0 y 1 son seleccionados para minimizar en alguna medida resumen de sobre todos
los puntos de muestreo
Dado el modelo de ajuste, podemos predecir en los puntos de datos originales: y i ; estos son llamados
los valores ajustados.
Entonces podemos calcular las desviaciones del ajuste a partir de los valores medidos:

ei ( yi yi ) ; estos son llamados los residuales


Las desviaciones pueden ser resumidas para dar una medida global de bondad de ajuste

Mira antes de saltar!


Anscombe desarrollo cuatro diferentes conjuntos de datos bivariados, todos con la misma correlacin
exacta r = 0.81 y regresin lineal y = 3+0.5x:
1. bi-variada normal
2. cuadratica
3. bi-variada normal con un atipico
4. un punto de palanca alto (leverage)

Estimado de Minimos cuadrados (Least squares)


Calcular los parmetros para minimizar la suma de los cuadrados de las desviaciones

Pendiente:

s XY
s 2X

Tenga en cuenta la forma similar con covarianza, excepto aqu estandarizamos slo por la predictora,
por lo que la regresin de x sobre y da una pendiente diferente de la de y sobre x.
Intercepto: Para hacer que las medias ajustadas y muestrales coincidan:

0 y 1 x

Suma de Cuadrados (SS)


La regresin particiona la variabilidad en la muestra en dos partes:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

21

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

1. explicada por el modelo


2. No explicado, sobrante, es decir residual
Tenga en cuenta que siempre conocemos la media, por lo que la variabilidad total se refiere a la
variabilidad alrededor de la media
Pregunta: cunto ms de la variabilidad se explica por el modelo?
SS Total = SS Regresion + SS Residual
n

( yi y )2 ( yi y )2 ( yi yi )2
i 1

i 1

i 1

La estimacin de mnimos cuadrados maximiza la SS de regresin y minimiza la SS residual

Anlisis de Varianza (ANOVA)


Particin la varianza total en una poblacin en el modelo y residual
Si el modelo tiene ms de un trmino, tambin particiones en la varianza del modelo en componentes
debido a cada trmino
Se puede aplicar a cualquier diseo lineal aditivo especificado por un modelo
Cada componente puede ser probado por significancia vs. la hiptesis nula que no contribuye al ajuste
del modelo

ANOVA para regresin lineal simple


suma total de las desviaciones al cuadrado se divide en sumas de cuadrados del modelo (regresin) y
errores (residuales)
Su ratio es el coeficiente de determinacin R2
Estos son cada uno dividido por sus grados de libertad para la obtencin de la media de las SS
Su relacin se distribuye como F y se puede probar por significancia

Anlisis Bivariado: metales pesados vs. materia organica


Grafico de dispersin
Grafico de dispersin por frecuencia de avenida
Regresin de metal sobre materia orgnica (por que este orden?)
Mismo, incluyendo frecuencia de avenidas en el modelo
> plot(om,log(cadmio))
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

22

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

> plot(om,log(cadmio), col=as.numeric(ffreq), cex=1.5, pch=20)

Modelo: Regresion de metal en material organica


> m<-lm(log(cadmio) ~ om)
> summary(m)
Residuals:
Min 1Q Median 3Q Max
-2.3070 -0.3655 0.1270 0.6079 2.0503
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.04574 0.19234 -5.437 2.13e-07 ***
om 0.21522 0.02339 9.202 2.70e-16 ***
--Residual standard error: 0.9899 on 151 degrees of freedom
Multiple R-Squared: 0.3593, Adjusted R-squared: 0.3551
F-statistic: 84.68 on 1 and 151 DF, p-value: 2.703e-16

Modelo Altamente-significativo, pero contenido de material organica explica solo cerca del 35% de la
variabilidad de log(Cd).

Bondad de Ajuste vs. Ajuste significativo


R2 puede ser altamente significativa (rechazar la hiptesis nula de ninguna relacin), pero . . .
. . . la prediccion puede ser pobre
En otras palabras, solo una pequena porcion de la varianza es explicada por el modelo
Dos posibilidades
1. incorrecto o modelo incompleto
(a) otros factores son ms predictivos
(b) otros factores pueden ser incluidos para mejorar el modelo
(c) forma del modelo es incorrecto
2. modelo correcto, datos ruidosos

Diagnostico de la Regresion
Objetivo: para ver si la regresin representa verdaderamente la presunta relacin
Objetivo: para ver si los mtodos de clculo son adecuados
Principal herramienta: graficar de valores residuales estandarizados vs. valores ajustados

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

23

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Medidas numericas: leverage, grandes residuales

Examinando el grafico de dispersion con la linea ajustada


Hay una tendencia en la falta de ajuste? (ms alejado en parte del rango)
* ! un modelo no lineal
Hay una tendencia en la diseminacion?
* !heteroscedaticidad (varianza desigual) por lo que un modelo lineal no es vlido
Hay puntos que, si se eliminan, cambiara sustancialmente el ajuste?
* ! alto apalancamiento, aislado en el rango y lejos de otros puntos

Diagnostico de modelo: regresion de metal en materia organica


> m<-lm(log(cadmio) ~ om)
> plot(om, log(cadmio), col=as.numeric(ffreq), cex=1.5, pch=20);
abline(m)
>
plot(log(cadmio[!is.na(om)]),fitted(m),
col=as.numeric(ffreq),
pch=20)
> abline(0,1)
> plot(fitted(m),studres(m), col=as.numeric(ffreq), pch=20)
> abline(h=0)
>
qqnorm(studres(m),
col=as.numeric(ffreq),
pch=20);qqline(studres(m))

Podemos ver problemas en las concentraciones de metales bajos. Esto es probablemente un artefacto
de la precisin de la medicin en estos niveles (cerca o por debajo del lmite de deteccin).
Estos son casi todos en clase de frecuencia de inundacin 3 (rara vez inundada)

Modelo Revisado: lmite de deteccin Cd


Valores de Cd debajo de 1mg kg-1 son poco confiables; reemplazarlas todas con 1 mg kg-1 y volver a
analizar:
> cdx<-ifelse(cadmio>1, cadmio, 1)
> plot(om, log(cdx), col=as.numeric(ffreq), cex=1.5, pch=20)
> m<-lm(log(cdx) ~ om); summary(m)
Residuals:
Min 1Q Median 3Q Max
-1.0896 -0.4250 -0.0673 0.3527 1.5836
Coefficients:
Estimate Std. Error t value Pr(>|t|)

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

24

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

(Intercept) -0.43030 0.11092 -3.879 0.000156 ***


om 0.17272 0.01349 12.806 < 2e-16 ***
--Residual standard error: 0.5709 on 151 degrees of freedom
Multiple R-Squared: 0.5206,Adjusted R-squared: 0.5174
F-statistic: 164 on 1 and 151 DF, p-value: < 2.2e-16
> abline(m)
>
plot(log(cdx[!is.na(om)]),fitted(m),col=as.numeric(ffreq),pch=20);
abline(0,1)
>
plot(fitted(m),studres(m),col=as.numeric(ffreq),pch=20);
abline(h=0)
> qqnorm(studres(m),col=as.numeric(ffreq),pch=20); qqline(studres(m))

Mucho ms alto R2 y mejores diagnsticos. An as, hay un montn de diseminacin en cualquier valor
de la predictora (materia organica).

Modelo Revisado: inundacion clase 1


La relacin parece ms coherente en los suelos frecuentemente inundados; volver a analizar este
subconjunto
> ilpa.1<-ilpa[ffreq==1,]; attach(meuse.1)
> plot(om, log(cadmio), cex=1.6, pch=20)
> m<-lm(log(cadmio) ~ om); summary(m)
Residuals:
Min 1Q Median 3Q Max
-1.04064 -0.31782 -0.04348 0.32210 1.13034
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.17639 0.11999 1.47 0.145
om 0.14099 0.01286 10.96 <2e-16 ***
--Residual standard error: 0.4888 on 80 degrees of freedom
Multiple R-Squared: 0.6003,Adjusted R-squared: 0.5954
F-statistic: 120.2 on 1 and 80 DF, p-value: < 2.2e-16
> abline(m)
> plot(log(cadmio[!is.na(om)]),fitted(m)); abline(0,1)
> plot(fitted(m),studres(m)); abline(h=0)
> qqnorm(studres(m)); qqline(studres(m))

R2 an ms alta y excelentes diagnsticos. Todava hay un montn de diseminacion en cualquier valor


de la predictora (materia orgnica), as OM no es una predictora eficaz de Cd

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

25

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

ANOVA Categorico
Modela la respuesta por una variable categorica (nominal); variables ordinales son tratadas como
nominales
Modelo: y 0 j x ; where each observation x is multiplied by the betaj corresponding to the
class to which it belongs (of n classes)
The j represent the deviations of each class mean from the grand mean

Ejemplo: contaminacion de suelo Ilpa


Pregunta: do metals depend on flood frequency (3 of these)
EDA: boxplots categorico
Analisis: one-way ANOVA on the frequency

EDA Categorico
>
boxplot(cadmio
~
ffreq,xlab="Clase
inundacion",ylab="Cadmio (ppm)")

de

frecuencia

de

Ejemplo ANOVA
> m<-lm(log(cadmio) ~ ffreq)
> summary(m)
Residuals:
Min 1Q Median 3Q Max
-1.8512 -0.7968 -0.1960 0.7331 1.9354
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.32743 0.09351 14.196 < 2e-16 ***
ffreq2 -1.95451 0.15506 -12.605 < 2e-16 ***
ffreq3 -1.08566 0.20168 -5.383 2.72e-07 ***
Residual standard error: 0.857 on 152 degrees of freedom
Multiple R-Squared: 0.5169, Adjusted R-squared: 0.5105
F-statistic: 81.31 on 2 and 152 DF, p-value: < 2.2e-16

Diferencia entre clases


> TukeyHSD(aov(log(cadmio) ~ ffreq))
Tukey multiple comparisons of means,
95% family-wise confidence level
Fit: aov(formula = log(cadmio) ~ ffreq)
$ffreq
diff lwr upr

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

26

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2-1 -1.9545070 -2.3215258 -1.5874882


3-1 -1.0856629 -1.5630272 -0.6082986
3-2 0.8688442 0.3544379 1.3832504
Todas las diferencias de clase por pares son significativas (intervalo de confianza no incluye cero).

1.1.7: Estadistica No-parametrica


Un estadistico no-parametrico es uno que no asume cualquier distribucin de datos subyacente.
Por ejemplo:
una media es un estimado de un parametro de posicion de alguna distribucin asumida (ej. punto
medio de la normal normal, proporcin esperada de suceso de una binomial, . . . )
una mediana es simplemente el valor en el cual la mitad de muestra son menores y la mitad mayores,
sin conocer nada acerca de la distribucin subyacente en el proceso que produjo la muestra.
Asi los metodos inferenciales no parametricos son aquellos que no presuponen acerca de la
distribucin de los valores de los datos, slo su orden (rango).

Estadistica No parametrica: Correlacion


Como un ejemplo de metodos no parametricos, considerar la medida de asociacion entre dos variables,
comnmente llamada correlacion (co-rrelacion).
La medida estandar es parametrica, es decir, el Pearsons Product Moment Correlation (PPMC); esto es
calculado a partir de la covariancia muestral de dos variables:

Cov( X , Y )

1 n
( xi x )( yi y )
n 1 i 1

Entonces el coeficiente de correlacin de Pearson muestral es calculado como:

rXY

Cov( X , Y )
s X sY

Correlacion Parametrica ejemplo de uso inapropiado


Considerar los siguientes dos casos: (1) 20 muestras normales bivariadas que deberan estar no
correlacionadas; (2) lo mismo, pero con un valor reemplazado por un valor muy alto (ya no una
distribucin normal).
n<-20
par(mfrow=c(2,3))
for (i in 1:3)
{ x<-rnorm(n, 20, 3); y<-rnorm(n, 20, 4);
plot(x,y, pch=20, cex=2, xlim=c(12,28), ylim=c(12,28));

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

27

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

text(15,15, paste("r =",round(cor(x,y),3)), font=2, cex=1.2)


}
for (i in 1:3)
{ x<-c(rnorm((n-1), 20, 3), 120); y<-c(rnorm((n-1), 20, 4), 120);
plot(x,y, pch=20, cex=2, xlim=c(12, 122), ylim=c(12, 122));
points(120, 120, col="red", cex=3);
text(30,80, paste("r =",round(cor(x,y),3)), font=2, cex=1.2)
}

Correlacin No-paramtrica
La solucion aqui es usar un metodo tal como correlacion de Spearman, el cual correlaciona los rangos,
no los valores; por tanto la distribucion (diferencias entre valores) no tiene influencia.
Desde nmeros a rangos:
> n<-10
> (x<-rnorm(n, 20, 4))
[1] 15.1179 23.7801 21.2801 21.5191 23.0096 18.5065 19.1448 24.9254
29.3211
[10] 14.1453
> (ix<-(sort(x, index=T)$ix))
[1] 10 1 6 7 3 4 5 2 8 9
Si cambiamos el mayor de ellos en cualquier valor grande, el rango no cambia:
> x[ix[n]]<-120; x
[1] 15.1179 23.7801 21.2801 21.5191 23.0096 18.5065 19.1448 24.9254
[9] 120.0000 14.1453
> (ix<-(sort(x, index=T)$ix))
[1] 10 1 6 7 3 4 5 2 8 9

Compare los dos coeficientes de correlacion:


pearsons<-vector(); spearmans<-vector()
> n<-10
> for (i in 1:n)
+ { x<-rnorm(n, 20, 4); y<-rnorm(n, 20, 4);
+ pearsons[i]<-cor(x,y);
+ spearmans[i]<-cor(x,y, method="spearman")}
> round(pearsons, 2); round(spearmans, 2)
[1] -0.29 -0.02 -0.49 -0.01 -0.17 0.16 0.06 -0.07 -0.11 0.37
[1] 0.32 0.16 -0.25 0.01 0.35 -0.42 0.03 -0.33 0.68 -0.12
> for (i in 1:n)
+ { x<-c(rnorm((n-1), 20, 4), 120); y<-c(rnorm((n-1), 20, 4), 120);
+ pearsons[i]<-cor(x,y);
+ spearmans[i]<-cor(x,y, method="spearman") }
> round(pearsons, 2); round(spearmans, 2)
[1] 0.98 0.99 0.98 0.99 0.98 0.98 0.99 0.99 0.99 0.99
[1] 0.25 0.08 0.49 0.03 0.61 -0.04 0.36 0.26 -0.25 0.36

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

28

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

El coeficiente de Pearson (parametrico) es completamente cambiado por un par de valor alto, mientras
que el de Spearman no se ve afectada.

Otros metodos no parametricos


t-test para equivalencia de medias ! Mann-Whitney test para equivalencia de medianas
One-way ANOVA Kruskal-Wallis
c2 bondad de ajuste Kolmogorov-Smirnov bondad de ajuste

1.2 Diseos experimentales.


Es una tcnica estadstica que permite identificar y cuantificar las causas de un efecto dentro de un
estudio experimental. En un diseo experimental se manipulan deliberadamente una o ms variables,
vinculadas a las causas, para medir el efecto que tienen en otra variable de inters. El diseo
experimental prescribe una serie de pautas relativas qu variables hay que manipular, de qu manera,
cuntas veces hay que repetir el experimento y en qu orden para poder establecer con un grado de
confianza predefinido la necesidad de una presunta relacin de causa-efecto. Ronald Fisher es
considerado el padre del diseo experimental en sus estudios de agronoma en el primer tercio del siglo
XX. A la lista de los pioneros de su uso hay que aadir los de Frank Yates, W.G. Cochran y G.E.P.
Box. Muchas de las aplicaciones originarias del diseo experimental estuvieron relacionadas con la
agricultura y la biologa, disciplinas de las que procede parte de la terminologa propia de dicha tcnica.
Para tener una idea de este tema tan importante, se presenta un ejemplo tpico, que: un ingeniero quiere
estudiar la resistencia de una pieza plstica sometida a temperaturas cambiantes. La pieza puede ser
elaborada con tres tipos de plstico distintos. De ah que se plantee las siguientes preguntas:
Qu efecto tienen la composicin de la pieza y la temperatura en la resistencia de la pieza?
Existe algn material con el que la pieza resulte ms resistente que con cualquiera de los otros dos
independientemente de la temperatura?
El diseo de un experimento. Es la secuencia completa de los pasos que se deben tomar de antemano,
para planear y asegurar la obtencin de toda la informacin relevante y adecuada al problema bajo
investigacin, la cual ser analizada estadsticamente para obtener conclusiones vlidas y objetivas con
respecto a los objetivos planteados.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

29

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Un Diseo Experimental. Es una prueba o serie de pruebas en las cuales existen cambios deliberados
en las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar
las causas de los cambios que se producen en la respuesta de salida.

Un proceso suele visualizarse como una Caja Negra en donde existe una transformacin de lo que entra
al proceso, y que se observa en las salidas que produce.
Este proceso puede ser una combinacin de mquinas, mtodos, personas y otros recursos que
transforman las entradas (a menudo un material) en las salidas que tienen una o ms respuestas
observables. Algunas de las variables del proceso digamos X1, X2.,Xn son controlables, mientras que
otras como

Z1, Z2, ..,Zn

son incontrolables (no controlables). Cuando se realiza un diseo

experimental es necesario tener en cuenta los siguientes objetivos:

Figura1.1. Esquema de un proceso o sistema:

1. Determinar cules variables tienen mayor influencia en la respuesta o variable dependiente ( Y).
2. Determinar el mejor valor de las (X) que influyen en (Y), de modo que (Y) tenga casi siempre un
valor cercano al valor nominal deseado.
3. Determinar el mejor valor de las (X) que influyen en (Y), de modo que la variabilidad de (Y) sea
pequea.
4. Determinar el mejor valor de las (Z) que influyen en (Y), de modo que se minimicen los efectos de
las variables incontrolables Z1, Z2,.., Zn.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

30

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Propsitos de un diseo experimental. El propsito de cualquier Diseo Experimental, es


proporcionar una cantidad mxima de informacin pertinente al problema que se est investigando. Y
ajustar el diseo que sea lo ms simple y efectivo; para ahorrar dinero, tiempo, personal y material
experimental que se va a utilizar. Es de acotar, que la mayora de los diseos estadsticos simples, no
slo son fciles de analizar, sino tambin son eficientes en el sentido econmico y en el estadstico.
De lo anterior, se deduce que el diseo de un experimento es un proceso que explica tanto la
metodologa estadstica como el anlisis econmico.

1.3 Conceptos bsicos del Diseo Experimental


Los siguientes conceptos que se definen a continuacin se utilizarn en el desarrollo de las unidades
posteriores; los cuales fueron retomados de Douglas C. Montgomery, ao 2001 y de Gutirrez et al,
ao 2008.
Diseo: Consiste en planificar la forma de hacer el experimento, materiales y mtodos a usar, etc. El
diseo es definido tcnicamente como la configuracin de puntos en el espacio de los factores y el orden
en el cual se efecta, en el tiempo y espacio, la toma de observaciones.
El diseo implica un modelo, y este a su vez implica anlisis estadstico, pues la ms importante funcin
del diseo es controlar la varianza. Desde esta perspectiva, el diseo es un conjunto de instrucciones
para que el investigador rena y analice los datos en determinada forma, de modo tal que
estadsticamente sea posible maximizar la varianza sistemtica, regular la varianza sistemtica extraa
minimizar la varianza del error.
Experimento: Conjunto de pruebas o ensayos cuyo objetivo es obtener informacin, que permita
mejorar el producto o el proceso en estudio.
Un experimento es una interrogante planeada para obtener nuevos factores o para confirmar o denegar
los resultados de experimento previos o anteriores donde tal interrogante ayudar a una decisin tal
como recomendacin de una variedad de planta, aplicacin de producto qumico, etc.

Factor. Es un tipo particular de tratamiento, que vara segn el deseo del investigador. Son factores por
ejemplo, Temperatura, humedad, tipos de suelos, etc.
Niveles del factor. Son diversas categoras de un factor. (Por ejemplo, los niveles de temperatura son
20C, 30C, etc.). Un factor Cuantitativo tiene niveles asociados con puntos ordenados en alguna escala
de medicin, como temperatura; mientras que los niveles de un factor cualitativo representan distintas
categoras o clasificaciones, como tipo de suelo, que no se puede acomodar conforme a alguna
magnitud. Por ejemplo, si en un experimento se estudia la influencia de la velocidad y la temperatura, y
se decide probar cada una en dos niveles, entonces cada combinacin de niveles (velocidad,
temperatura) es un tratamiento. En este caso habra cuatro tratamientos, como se muestra en la tabla 1.1.
Es necesario probar cada tratamiento y obtener el correspondiente valor de y.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

31

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Tabla 1.1 Puntos de diseo o tratamientos.

De acuerdo con estas definiciones, en el caso de experimentar con un solo factor, cada nivel es un
tratamiento.

Rplica. La obtencin de rplicas permite obtener una estimacin del error experimental as como
calcular una respuesta ms precisa el efecto a estudio. Entre mayor sea el nmero de repeticiones para
cada experimento, mejor ser el resultado obtenido.
Unidad experimental. Es la unidad del material experimental que recibe la aplicacin de un simple
tratamiento, en el que se mide y se analiza la variable que se investiga. En el experimento de
laboratorio, la unidad experimental ser una placa petri, un tubo de ensayo, etc.; en el invernadero ser
una bandeja, una maceta, etc.; en el campo ser una parcela, en el campo de la zootecnia ser un animal,
etc. para aclarar mejor se caracteriza por:
Es el material experimental unitario que recibe la aplicacin de un tratamiento.
Es la entidad fsica o el sujeto expuesto al tratamiento independientemente de las otras unidades. La
unidad experimental una vez expuesta al tratamiento constituye una sola rplica del tratamiento.
Es el objeto o espacio al cual se aplica el tratamiento y donde se mide y analiza la variable que se
investiga.
Es el elemento que se est estudiando.

Figura 1.3: Variable dependiente resistencia del concreto, donde los factores relacin agua/cemento
tiene 4 niveles y relacin cemento/arena tiene 5 niveles; el nmero de tratamientos es igual a 4*5 = 20
tratamientos.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

32

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Unidad muestral: Es una fraccin de la unidad experimental que se utiliza para medir el efecto de un
tratamiento.
Error experimental: Es una medida de variacin que existe entre dos o ms unidades experimentales,
que han recibido la aplicacin de un mismo tratamiento de manera idntica e independiente.
Factores controlables: Son aquellos parmetros o caractersticas del producto o proceso, para los
cuales se prueban distintas variables o valores con el fin de estudiar cmo influyen sobre los resultados.
Factores incontrolables: Son aquellos parmetros o caractersticas del producto o proceso, que es
imposible de controlar al momento de desarrollar el experimento.
Variabilidad natural: es la variacin entre las unidades experimentales, que el experimentador no
puede controlar ni eliminar.
Variable dependiente: es la variable que se desea examinar o estudiar en un experimento. (Variable
Respuesta).
Hiptesis:
Es una suposicin o conjetura que se plantea el investigador de una realidad desconocida.
Es el supuesto que se hace sobre el valor de un parmetro (constante que caracteriza a una poblacin)
el cual puede ser validado mediante una prueba estadstica
Tratamiento: Es un conjunto particular de condiciones experimentales definidas por el investigador; y
son el conjunto de circunstancias creadas por el experimento, en respuesta a la hiptesis de
investigacin y son el centro de la misma.
Tipos de tratamientos. A continuacin se presentan ejemplos de tratamientos en algunas reas, tales
como:
1) Experimentaciones Agrcolas, un tratamiento puede referirse a:

Marca de Fertilizante.

Cantidad de Fertilizante.

Profundidad del Sembrado.

Variedad de Semilla.

Combinacin de Cantidad de Fertilizante y Profundidad de Sembrado; esto es una combinacin

de tratamientos.

etc.

2) Experimentaciones de Nutricin Animal, un tratamiento puede referirse a:

Cra de Ganado Lanar

Sexo de los Animales

Padre del Animal Experimental

Tipo de Alimento

Racin Particular de Alimento de un Animal.

Raza del Animal

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

33

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

etc.

4) Estudios Resistencia del Concreto, un tratamiento puede referirse a:

Relacion Agua Cemento

Contenido de Aire Incorporado

Relacion Cemento Agregado

Modulo de Fineza de Agregados

etc.

5) Estudios Psicolgicos y Sociolgicos, un tratamiento puede referirse a:

Edad

Sexo

Grado de Educacin

Estatura

etc.

6) En una investigacin de los efectos de varios Factores en la eficiencia del lavado de ropa en casa,
los tratamientos pueden ser varias combinaciones:

Tipo de Ropa (dura y suave)

Temperatura del Agua

Tipo de Detergente

Duracin del tiempo de Lavado

Tipo de Lavadora

Duracin del Agente Limpiador, etc.

7) En un Experimento para estudiar el Rendimiento de cierto Proceso qumico, Los tratamientos


pueden ser todas las combinaciones de:

La temperatura a la cual se ejecuta el Proceso

La cantidad de Catalizador Usada

etc.

8) En un estudio de investigacin y desarrollo concerniente a Bateras, los tratamientos podran ser


varias combinaciones:

La cantidad de Electrolito

La Temperatura a la cual fue Activada la Batera

etc.

Es muy importante que cuando se elijan los tratamientos, stos deben dar respuesta a una hiptesis de
investigacin. La hiptesis de investigacin establece un conjunto de circunstancias y sus
consecuencias. Los tratamientos deben ser una creacin de las circunstancias para el experimento. As,
es necesario identificar los tratamientos con el papel que cada uno tiene en la evaluacin de la hiptesis

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

34

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

de investigacin. Por lo tanto, el investigador debe asegurarse que los tratamientos elegidos concuerden
con la hiptesis de investigacin.

Algunos experimentos reales plantendose las hiptesis de investigacin


A continuacin se presentan algunos experimentos reales; plantendose las hiptesis de investigacin de
cada uno de ellos y sus respectivos tratamientos, que dan respuesta a dicha hiptesis.
La hiptesis es: La velocidad del trnsito depende del ancho de los carriles en las calles.
Para responder a esta hiptesis, los tratamientos se deben definir seleccionando carriles con diferente
anchura y se mide la velocidad de los automviles en cada uno de ellos.
La hiptesis es: La reproduccin de los microbios del suelo depende de las condiciones de humedad.
Para responder a esta hiptesis, se establecen tratamientos con distintos niveles de humedad para medir
la reproduccin de los microbios.
La hiptesis es: El mtodo para medir retrasos del trnsito depende del tipo de configuracin usada en
la sealizacin.
Para responder a esta hiptesis, los tratamientos deben ser en relacin a la evaluacin de varios mtodos
para medir los retrasos del trnsito en intersecciones con diferentes tipos de configuraciones en los
semforos.
La hiptesis es: Ciertas caractersticas demogrficas familiares afectan de manera favorable el
desarrollo de un nio.
Para responder a esta hiptesis, los tratamientos deben ser en relacin con el desarrollo de la adaptacin
social en nios pequeos segn su relacin con:
1) Educacin de los padres,
2) Ingreso de los padres,
3) Estructura familiar y
4) Edad del nio.
La hiptesis es: La energa requerida al reunir comida para la colonia de las abejas productoras de miel
es independiente de la temperatura.
Para responder a esta hiptesis, los tratamientos deben ser en relacin al estudio de la cintica de bebida
de las abejas productoras de miel a diferentes temperaturas ambientales.
La hiptesis es: La temperatura ambiental en la cual las bateras son activadas altera su vida til.
Para responder a esta hiptesis, el tratamiento ser temperatura y se debe probar un nmero determinado
de bateras a diferentes niveles de temperatura.

1.3. Utilizacin de los mtodos estadsticos en la experimentacin.


La mayora de las investigaciones que se realizan en el campo de la ingeniera, ciencia en la industria es
emprica y utiliza mucho la experimentacin. El uso de los mtodos estadsticos puede incrementar la
eficiencia de los experimentos y, ayudar a justificar las conclusiones que se obtienen. La utilizacin de

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

35

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

las tcnicas estadsticas en la experimentacin requiere que el investigador considere los siguientes
puntos:
a) Uso del conocimiento no estadstico del problema.
Se debe tomar en cuenta que los investigadores conocen a fondo su campo de especialidad; ya sea
porque tienen una considerable experiencia prctica o una formacin acadmica. Muchas veces se puede
utilizar una gran cantidad de teora para explicar las relaciones que hay entre los factores y la variable
respuesta. Este tipo de conocimiento no estadstico se debe tomar en cuenta para elegir los factores y las
respuestas, tambin al decidir el nmero de rplicas que se quieren realizar, al analizar los datos, etc. Es
por tanto que la estadstica no puede sustituir el hecho de reflexionar sobre el problema.
b) Mantener el Diseo y el Anlisis tan simple como sea posible.
Casi siempre, lo ms adecuado son los mtodos de diseo y anlisis estadstico ms simples. Por lo
tanto, es recomendable el uso de tcnicas estadsticas poco complejas y muy refinadas. Si se realiza el
diseo cuidadosamente y correctamente, el anlisis se espera que sea relativamente sencillo. Sin
embargo, es poco probable que aun la estadstica ms compleja y elegante corrija la situacin si se ha
actuado indebidamente en la elaboracin del diseo.
c) Reconocer la diferencia entre la significacin prctica y estadstica.
No hay seguridad de que una diferencia sea suficientemente grande, desde el punto de vista prctico, por
el slo hecho de que dos condiciones experimentales producen respuestas medias, estadsticamente
diferentes. Por ejemplo, un ingeniero puede determinar que una modificacin en el sistema de inyeccin
de gasolina de un automvil mejora el rendimiento medio en un 0.1mi/gal. ste es un resultado
estadsticamente significativo. Sin embargo, esta diferencia es demasiado pequea desde el punto de
vista prctico si el costo de la modificacin es de 1,000 dlares.
d) Usualmente los experimentos son iterativos.
En las primeras etapas de un estudio no es conveniente disear experimentos demasiado extensos; ya
que slo se requiere que se conozcan los factores importantes, los intervalos en que estos factores van a
ser investigados, el nmero apropiado de niveles para cada factor y las unidades de medicin adecuadas
a cada factor y la respuesta. Por lo general, al principio de un experimento no se est en capacidad de
definir estos aspectos, pero es posible conocerlos a medida que se avanza la experimentacin. Esto
favorece al empleo del enfoque iterativo o secuencial; pero por regla general, la mayora de los
experimentos son iterativos.

1.4. Importancia del anlisis de varianza.


En el caso que nos encontremos con experimentos en donde hay que realizar varias pruebas de hiptesis
a la vez, y se trabaje con el mismo nivel de confianza (_); es decir, aquellos experimentos en los cuales
es necesario hacer la comparacin de ms de dos tratamientos simultneos, podra utilizarse Prueba de
hiptesis mltiples (Comparacin por pares), pero es recomendable aplicar el anlisis de varianza;
que es la tcnica estadstica que sirve para analizar la variacin total de los resultados experimentales de

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

36

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

un diseo en particular, descomponindolo en fuentes de variacin independientes atribuibles a cada


uno de los efectos en que se constituye el diseo experimental. Esta tcnica tiene como objetivo
identificar la importancia de los diferentes factores o tratamientos en estudio y determinar cmo
interactan entre s.
Al llevar a cabo la prueba de hiptesis pueden cometerse dos tipos de errores, que son:
a) Error tipo I: Se da cuando la hiptesis nula (Ho) es rechazada siendo verdadera.
b) Error tipo II: Se comete cuando la hiptesis nula (Ho) no es rechazada siendo falsa.
Las probabilidades de cometer estos tipos de errores generalmente se denotan por:
= P(Error tipo I)
= P(Error tipo II).

Cuadro 01. En el siguiente cuadro se presentan las diferentes situaciones que se pueden dar con la
hiptesis nula(Ho).
Decisin

Ho es cierta

Ho es falsa

Aceptar Ho

Decisin Correcta

Error tipo II ()

Rechazar Ho

Error tipo I ()

Decisin Correcta

La utilizacin del anlisis de varianza justifica la disminucin de la probabilidad de cometer el error tipo
I en el experimento.
Por ejemplo: Supongamos que se desea probar la igualdad de cinco medias usando la prueba de
hiptesis mltiple.
Las hiptesis a probar son: 12 345

Ho: 1= 2= 3=4=5
Ha: 12 2 3 34 45
12 345
14 25
15 34
Como se puede observar el nmero de comparaciones es Ha, es:

=10

! !

Es decir existen 10 posibles pares de medias, y si la probabilidad de aceptar correctamente la hiptesis


nula (H0) en cada una de las Pruebas Individuales es 1. =.95 (5 % de probabilidad de rechazar H0),
entonces la probabilidad de aceptar correctamente la hiptesis nula en las 10 pruebas es (0.95)10 = 0.6
(40% de probabilidad para rechazar H0 ) si estas son independientes. Es as como se produce un
incremento sustancial del error tipo I, al utilizar la prueba de Hiptesis mltiple.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

37

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Por lo tanto, el procedimiento apropiado para probar la igualdad de varias medias es el Anlisis de
Varianza. Probablemente esta es la tcnica ms til en el campo de la inferencia estadstica.

1.5 Clasificacin y seleccin de los diseos experimentales


Existen muchos diseos experimentales para estudiar la gran diversidad de problemas o situaciones que
ocurren en la prctica. Esta cantidad de diseos hace necesario saber cmo elegir el ms adecuado para
una situacin dada y, por ende, es preciso conocer cmo es que se clasifican los diseos de acuerdo con
su objetivo y su alcance.
Los cinco aspectos que ms influyen en la seleccin de un diseo experimental, en el sentido de que
cuando cambian por lo general nos llevan a cambiar de diseo, son:
1. El objetivo del experimento.
2. El nmero de factores a estudiar.
3. El nmero de niveles que se prueban en cada factor.
4. Los efectos que interesa investigar (relacin factores-respuesta).
5. El costo del experimento, tiempo y precisin deseada.
En la figura 1.5 se muestra la clasificacin general de los diseos experimentales de acuerdo con su
objetivo.

Figura 1.5 Clasificacin de los diseos experimentales.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

38

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

1.6. Aplicacin de paquetes Estadisticos


En el presente curso se dar una introduccin de diferentes paquetes estadsticos, tales como son: R,
MINITAB, Librerias Excel, entre otros, en este caso se dara mayor nfasis a la aplicacin a mtodos
estadsticos del ambiente de programacin y calculo estadstico R.
El lenguaje R es un entorno con capacidad de programacin y graficacin, desarrollado originalmente
(S y S-Plus) en los laboratorios Bell por John Chambers y colegas, es fcil de usar (por lo menos para
aquellos que han experimentado otros lenguajes tales como C y C++, Matlab, Octave, Mathematica), y
se ha convertido en un proyecto de colaboracin entre investigadores a lo largo del mundo, es gratis, se
lo puede bajar por Internet en el sitio oficial del proyecto (R project), as como en otros sitios espejos.
R es un sistema para anlisis estadsticos y graficos creado por Ross Ihaka y Robert Gentleman.
R es distribuido por la Comprehensive R Archive Network (CRAN) cuyo website es http://cran.rproject.org/.
Incluye procedimientos de anlisis estadstico como regresin, anlisis de varianza, anlisis de datos
categrico, anlisis multivariado, anlisis de Series de Tiempo, etc.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

39

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

CAPITULO II. CONCEPTOS DE PROBABILIDAD


2.1. Probabilidad y sus axiomas
Los eventos aleatorios pueden ser mejor descritos por el supuesto de que un experimento se ha realizado
y una serie de observaciones tomadas en condiciones uniformes, de modo que no existe un sesgo hacia
ningn resultado particular. (Kottegoda, 2008).
El espacio muestral, denotado por , es la coleccion de todos los posibles eventos origina de un
experimento conceptual o de una operacin que implica oportunidad.
Ejemplo 2.1. Almacenamiento de Reservorio. La cantidad de agua S almacenada en un reservorio
varia en el tiempo desde 0 a c, la capacidad de reservorio activa, debido al efecto combinado de las
entradas y salidas (ver Fig. 2.1).
El espacio muestral del experimento medido como el volumen de agua en el reservorio en un tiempo
dado puede ser definido como {S : 0 S < c}. Esto es un conjunto de puntos muestrales en el
intervalo [0, c).

Fig. 2.1 Almacenamiento en un reservorio multiproposito.


Aunque significa un espacio muestral continuo con un numero infinito de puntos, uno puede tambin
usar una representacin discreta de considerando un numero finito de estados. Cmo se define el
espacio muestral discreto dependiendo del juicio del ingeniero. Esta principalmente relacionado al
problema especfico y el uso que se hace del modelo y se ve limitada por la resolucin del instrumento,
como un indicador del nivel de agua en un depsito, que se utiliza en las mediciones.
Un evento es una coleccin de puntos muestrales en el espacio muestral de un experimento. Un
evento puede consistir de un simple punto muestral llamado un evento simple o elemental, o puede
estar formado por dos o ms puntos muestrales conocidos como un evento compuesto.
Definicion: Evento. Un evento (denotado por una letra mayuscula A) es un subconjunto del espacio
muestral .
Ejemplo 2.2. Almacenamiento de Reservorio. Esto es conveniente para definir almacenamiento de
reservorio S por una secuencia de k estados 1, 2, . . . , k . El espacio muestral esta
correspondientemente dado por el conjunto
{Ai , with i = 1, 2, . . . , k},
donde Ai {S: (i 1)c/k S < ic/k}, i = 1, 2, . . . , k es un conjunto de eventos.
Considerar cuatro estados de un reservorio: i {S: (i 1)c/4 S < ic/4}, i = 1, . . . , 4, como se
muestra en la Fig. 2.1.2.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

40

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

El evento A definido como A = 4 {S: 3c/4 S < c} es un simple evento, ya que esto corresponde a un
simple punto muestral (para esta discretizacion). Por otro lado, el evento B se define como B = 1 + 2
{S: 0 S < c/2} es un evento compuesto, porque esto comprende la coleccin de dos eventos simpes,
es decir A1 = 1 {S: 0 S < c/4} y A2 = 2 {S: c/4 S < 2c/4}. Otros eventos posibles son
mostrados por los diagramas de torta.
Ejemplo 2.3. Almacenamiento de Reservorio. Dado {S: 0 S < c} el espacio muestral continuo
asociado al volumen de agua almacenado en un reservorio multipropsito en un cierto tiempo.
Because mitigation of the downstream flood hazard is usually one of the objectives for construction of a
reservoir, a portion of its capacity must be left empty at the beginning of the flood season. Dado w < c
denote the residual reservoir capacity available for flood control storage. At the beginning of the flood
season, the reservoir manager must investigate the event A {S: 0 S c w}, which corresponds to
the availability of sufficient flood storage in the reservoir (ver Fig. 2.1.1). El complemento de A es el
evento Ac {S: c w < S < c} el cual significa que el reservorio tiene capacidad residual insuficiente
para cumplir con la reserva de control de inundaciones. Tanto A y Ac son eventos compuestos en
relacion a Fig. 2.1.2.

Fig. 2.1.2 (a) Almacenamiento de Reservorio es representado por cuatro estados, 1, 2, 3, y 4. (b)
Los anchos de los rectngulos en el extremo derecho son proporcionales a las frecuencias relativas de
estos estados. (c) Los eventos indicados en el texto estan representados por rectangulos at the center on
the right with areas proportional to the relative frequencies of these events. (d) los diagramas de torta

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

41

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

muestran todos los posibles eventos (sombreados) y tambin el estado vaco (no sombreado). Por
ejemplo, A = A4 significa que 3c/4 S < c en Ejemplo 2.2.

Ejemplo 2.4.- Se est tratando de determinar el riesgo de inundacin en las reas bajas de un rio
importante y encuentra que, de las observaciones de avenidas que se tienen para los ltimos 150 aos (n
= 150), han registrado una inundacin en la ubicacin de inters durante 20 de esos aos (nA = 20). El
evento de inters es A = una inundacin ocurre en las reas bajas del ro XXX. La probabilidad de
este evento es determinado como
n = 150 (150 aos de registro)
nA = 20 (20 aos de inundacin registrado)

P( A)

nA 20

0.1333...
n 150

i.e., esta es una inundacin en la ubicacin de inters aproximadamente 13 de entre 100 aos.

Se define como frecuencia vr del evento A al cociente:


=
Si n es la misma para cualquier evento, se dice que el evento A ocurre con una probabilidad p, definida
como:
p = P(A) vr
Obviamente, 0 nA n, de donde se desprende que 0 vr 1. Extendiendo esta idea de frecuencia
relativa vr a probabilidad se tiene el primer axioma de la teora de la probabilidad:
0 P(A) 1
Por otra parte, cuando, para un evento E, ocurre que nA = n, se dice que el evento E es seguro y
entonces:
P(E) = 1
Para que un evento sea seguro debe incluir todos los posibles casos o resultados del experimento
(espacio muestral). As, en el caso del escurrimiento del ro, el evento seguro es:
E: 0 V
La ecuacin P(E) = 1 constituye el segundo axioma de la teora de la probabilidad. Una consecuencia
de este axioma es que la probabilidad de que no se presente ninguno de los posibles eventos del espacio
muestral es nula. As, por ejemplo,
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

42

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


P(V<0) = 0

Se dice que dos eventos son mutuamente excluyentes cuando no pueden ocurrir simultneamente. Por
ejemplo, el evento
A: V > 500 000 m3
y el evento
B: V < 10 000 m3
Son mutuamente excluyentes. Si la frecuencia del evento A es v1 y la del evento B es v2, entonces la
frecuencia de la unin de los dos es v = v1 + v2; por lo tanto, la probabilidad de C = AUB es:
P(C) = P(AUB) = P(A) + P(B)
Que es el tercer axioma de la teora de la probabilidad.
La ley de probabilidades que describe el comportamiento estadstico de una variable aleatoria - que en el
caso mencionado anteriormente es el volumen de escurrimiento mensual - se puede representar de varias
maneras, entre las que cabe mencionar la funcin masa de probabilidad discreta, la funcin de
distribucin de probabilidad acumulada, la funcin de densidad de probabilidad y la funcin de
distribucin de probabilidad. A continuacin se har un breve recordatorio de estas funciones y sus
propiedades.

2.2. Funciones de la probabilidad


2.2.1. Definicin
Meja (1991), menciona, si se define A y B como eventos aleatorios en el espacio muestral S, donde la
probabilidad de A y B son respectivamente P (A) y P (B) y E1, E2, E3,En son experimentos, se
tiene.

Figura. Diagramas de Ven

P ( A B ) P ( A) P ( A' ) 1

P ( A B ) P ( A) P ( B ) P ( A B )

Si A es un conjunto que pertenece a S pero no pertenece a A se tiene:


P ( A B ) P ( A) P ( A') 1

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

43

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2.2.2. Probabilidad condicional


Meja (1993) afirma que, si la probabilidad de un evento tal como B, depende de la ocurrencia de otro
evento A, se tiene una probabilidad condicional. En otras palabras P(B) esta condicionada por P(A).
P ( A / B ) P ( A B ) / P ( A)

P ( A B ) P ( A ). P ( B / A )
Y para eventos independientes, P (B/A) = P (b), se tiene:
P ( A B ) P ( A ). P ( B )

2.2.3. Teorema de probabilidad total


Si B1, B2, B3,..., Bn representan eventos mutuamente excluyentes y colectivamente eventos completos,
se puede determinar la probabilidad de otro evento A del modo siguiente:
n

P ( A)

P ( A / Bi ).P ( Bi )
i 1

Figura 2.1. Diagrama de Ven

2.2.4. Teorema de Bayes


De la definicin de probabilidad condicional se sabe que:

P ( B / A) P ( A B ) / P ( A)
Podemos escribir para eventos independientes:
1. P ( A ). P ( Bj / A ) P ( Bj ). P ( A / Bj )
2. P ( A )

P ( A / Bi ) . P ( Bi )

(Prob. Condicional)
(Prob. Total)

i 1

Dividiendo (1) entre (2) se obtiene finalmente la formula conocida como la regla de Bayes:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

44

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


P ( Bj ). P ( A / Bj )
n

P ( Bj / A )

P ( A / Bi ) . P ( Bi )

i 1

El teorema de Bayes, permite estimar las probabilidades de un evento mediante la observacin de un


segundo evento.
2.2.5. Permutaciones
Si consideramos n objetos diferentes del cual seleccionamos y ordenamos en lnea, r, de los n objetos. A
tal ordenamiento se le llama permutacin de r objetos. Al nmero posible de tales permutaciones se le
designa por:

n Pr n(n 1)............(n r 1) n!/(n r)!


Donde: nPr se le denomina al nmero de permutaciones de n objetos tomados en grupos de r. si se elige
r de forma tal que sea igual a n entonces se tiene:

n Pr n(n 1)............(3).(2).(1) n!
Donde: n! es denominado factorial de n.
Como ejemplo tomemos las permutaciones tomadas dos a dos de las letras a, b, c, d: 4P2=n!/(nr)!=4!/2!=12. Estos son: ab, ba, ac, ca, ad, da, bc, cb, bd, db, cd, dc.
2.2.6. Combinaciones
Si se esta interesado solamente en los objetos seleccionados, cuando entre n se eligen r, sin tener en
cuenta su ordenacin, entonces a la seleccin no ordenada se le llama combinacin.

n
n!
(n Pr)/ r!
(n r)!r!
r
El factorial de n, (n!), puede aproximarse mediante la formula de Stirling:

n! 2 .en .nn1/ 2
El error de aproximacin es menor del 1% para n=10 y el porcentaje de error decrece al aumentar el
valor de n.
Como ejemplo podemos citar el nmero de combinaciones de dos letras seleccionadas de entre las
cuatro siguientes: a, b, c, d:
4
4!

6
2 ( 2 )!. 2!

Estas combinaciones son: ab, ac, ad, bc, bd, cd.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

45

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2.3. Variable aleatoria y distribucin de probabilidades.


2.3.1. Variable aleatoria
Se le conoce como variable aleatoria, porque su valor queda determinado por el resultado de un
experimento. Tales resultados se deben a la operacin de causas no predicables. Una variable aleatoria
X es una funcin definida sobre un espacio muestral esto significa que a cada elemento ei del espacio
muestral S, corresponde un numero real nico, cuyo valor es X.

e1, e2 , e3 ,..............,en

Experimentos realizados

X1, X 2 , X3 ,..............,Xn

Resultados de los experimentos

2.3.2. Variable aleatoria discreta (V. A. D.)


Se dice que una variable aleatoria X es discreta, si tiene las siguientes propiedades.
1). El numero de valores para los cuales X tiene una probabilidad positiva es finito o a lo mas infinito
numerable.
2). Cada intervalo finito en la escala de nmeros reales contiene a lo mas un numero finito de los valores
de X.
Si un intervalo a<X<b, no contiene ni uno solo de estos valores, entonces P(a<X<b) = 0
2.3.3. Funcin de densidad y funcin de distribucin de la V. A. D.
Sea una variable aleatoria discreta, X, entonces la funcin definido por
funcin de densidad discreta de

f (x) p(x x0 ) , se le llama

x0 . Por Ejemplo si tomamos el caso del lanzamiento de 2 monedas y

definimos X como el nmero total de caras se tiene:

f (0) 1 / 4
f (1) 1 / 2
f (2) 1 / 4

Para juzgar, como se distribuye una variable aleatoria, es decir como cambia su probabilidad cuando
cambia la variable, es til representar la funcin de densidad por medio de un grafico.
2.3.4. Variable aleatoria continua (V. A. C.)
Una variable aleatoria es continua si puede tomar cualquier valor dentro del campo de los nmeros
reales.
2.3.5. Funcin de densidad y funcin de distribucin de la V. A. C.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

46

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Una funcin de densidad de una variable aleatoria continua X, es una funcin F(x) que cumple las
siguientes propiedades:

f(x)

1.

f ( x) 0

2.

f (x).d(x) 1

3.

f ( x )dx P (a X b )
a

Donde a y b son valores cualesquiera de X, que cumplen la condicin de que a<b.


La relacin entre la funcin de densidad y la funcin de distribucin acumulada es:

dF ( x )
f ( x)
dx

F ( x)

f ( x ).dx

2.3.6. Momentos de distribuciones


Los momentos son magnitudes fundamentales asociadas a las leyes de probabilidad. Se demuestra, en
efecto que hay una ley de probabilidad se halla descrito completamente por sus momentos.
2.3.7. Momento respecto al origen
Se define como

M n E( X n ) X n . f ( X ).dX

Mn Es el momento de orden n, n=1, 2, 3, 4,


2.3.8. Esperanza matemtica
Dado la variable aleatoria X, se designa por esperanza matemtica de X, la suma de los productos de los
valores que puede tomar para sus probabilidades correspondientes. Se le conoce tambin como el valor
esperado de X:

E( X ) X . f ( X ).dX

por lo tanto la esperanza matemtica es el momento de orden

1 y corresponde al valor del parmetro MEDIA ARITMETICA, de la distribucin por lo que


E (X ) M

media

. aritemtica

2.3.9. Momentos centrados

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

47

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

En la prctica se escoge, siempre que es posible, la media como origen de la variable X para el clculo
de los otros momentos. Estos momentos se llaman momentos centrados y se escriben de la siguiente
forma:
= [ ( )] = (

) = ( )

Mn=momento centrado de orden n; n=1, 2, 3, 4,. A continuacin se tienen algunos momentos


centrados:
M1 0
M

M
4

3M

M
2

2M

4 M 3M 1 6M

.M

3
1

3M

4
1

2.3.10. Variancia de una distribucin


Al momento centrado de orden 2 se le conoce como la VARIANCIA de una distribucin.
M

E (x )2 M

M 12

var iancia

2.3.11. Coeficiente de asimetra de Pearson


Se obtiene con los momentos centrados de 2do y 3er. Orden:
1

M 32
M
33/ 2
3
M2
M2

2.3.12. Coeficiente de apuntamiento o curtosis


Aumenta con la extensin y aplanamiento de la curva de densidad.
2

M
M

4
2
2

4
4

2.3.13. Estimacin de parmetros


La funcin de densidad y la funcin de distribucin acumulada pueden escribirse como una funcin de
la variable aleatoria y en general como una funcin de sus parmetros:

f ( X , 1 , 2 ,....., m )

F ( X ,1,2 ,.....,m )

Normalmente no se conocen todos los valores de la variable aleatoria para calcular un parmetro

de

la poblacin, sin

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

48

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin


2

Pero adems:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


E (x )2

M 12 E ( x ) 2 E ( x ) 2

Por lo que debemos primero calcular el trmino

E ( x)2 M

e . x
(x )2
x!

E(x) :
2

e . x . x 2

x!

E ( x) 2 e

E ( x)2 e

e . x . x
( x 1 )!

x .1
( x 1)!

x
( x 1 )!

e . x .( x 1 1 )
( x 1 )!

x .( x 1)
( x 1)!

x.
( x 2 )!

Como x es una V. A. D. podemos expandir el segundo miembro como una serie de Taylor:

E( x) e (

1 2
0!

1!

3
2!

...........) e (

2
0!

3 4
1!

2!

...........)

Factorizando convenientemente se tiene:

E ( x ) 2 ( e . e . 2 ) (1

1!

2
2!

3
3!

.......... .......... ..)

E ( x ) 2 e . e e . 2 e 2
Por lo tanto

( 2 ) (2 )

En conclusin: los parmetros media y variacin para la distribucin estudiada es;

2.4. Mtodos de estimacin de parmetros


2.4.1. Mtodo de los momentos
Este mtodo fue propuesto por Pearson (1857-1936) y consiste en igualar un determinado nmero de
momentos tericos de la distribucin de la poblacin con los correspondientes momentos mustrales,
Para obtener una o varias ecuaciones que, resueltas, permitan estimar los parmetros desconocidos de la
distribucin poblacional.
Sea X1, X2,. . ., Xn una m.a.s. de una distribucin con funcin de densidad f(x; 1, 2).
Como tenemos 2 parmetros, tomemos los dos primeros momentos respecto al origen,

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

49

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2.5. Mtodo de mxima verosimilitud


Se asume que tenemos n observaciones aleatorias:
conjunta:

f ( x1, x2 ,.....,xn ,1,2 ,...........,m )

x1, x2 ,.....,xn

y su funcin de probabilidad

. Dado que para una muestra aleatoria los valores de

Xi son independientes, su funcioin de probabilidad conjunta puede ser escrito como:

f ( x1,1,2 ,...........,m ) f ( x2 ,1,2 ,...........,m ).............. f ( xn ,1,2 ,...........,m )


Donde: (1 , 2 ,..........., m ) son los parmetros de la funcin.
La expresin anterior es proporcional a la probabilidad de que una observacin aleatoria, en particular,
en particular, sea obtenida de la poblacin y es conocida como funcin de mxima verosimilitud o
mxima probabilidad.
n

L(1 , 2 ,..........., m ) f ( xi , 1 , 2 ,..........., m )


i 1

Los parmetros son desconocidos por lo tanto la estimacin de estos se realizan teniendo presente que
deben maximizar la funcin de verosimilitud. Esto es posible tomando la derivada parcial de L ( i ),
Respecto a cada e igualando a cero.

2.6. Distribucin de probabilidades de variables aleatorias continuas.


2.6.1. Distribucin normal
La distribucin normal, es una distribucin de dos parmetros cuya funcin de densidad es:

f ( x)

Los parmetros

e ( x 1 )

/( 2 22

2. . 22

Para

1 y 22 , estimamos por el mtodo de momentos o mxima verosimilitud son:


1 (media aritmtica)

22 2 (Variancia)
Por esta razn la distribucin normal se expresa generalmente como:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

50

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2
2
e ( x ) /( 2
f (x)
2 . .

Para

Que es una funcin contina y simtrica con respecto a

por lo tanto el coeficiente de asimetra es

cero.
Si una variable aleatoria X tiene distribucin normal con media

la distribucin y tambin es normal con media y

y la variancia

a b

y variancia

y adems y=a+bx,

2 b 2 . 2 .

2.6.2. Distribucin normal estndar


Es la distribucin normal en trminos de la variable aleatoria estndar

Z (x ) /

y tiene

como funcin de densidad:

f (z)

2
1
ez /2
2 . .

Para:

La funcin de distribucin acumulada F (z) es:

f ( z ) P ( z z0 )

2
1
e t / 2 dt
2

Una caracterstica fundamental de la distribucin normal estndar es que:

2 1

De la misma forma, el 58.27% de valores se encuentran en el rango


rango

( ) , el 95.45% dentro del

( 2 ) y el 99.73% dentro del rango ( 3 ) .

2.6.3. Distribucin uniforme o rectangular


La distribucin uniforme con parmetros

a y , esta definida por la funcin de densidad siguiente:

f ( x ) 1 /( a )

Para

a x

La funcin de distribucin acumulativa es:

f ( x ) 1 /( x a ) /( a )

Para

a x

La media y la variancia para la distribucin uniforme son:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

51

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2 ( a ) 2 / 12

E ( x) ( a ) / 2

Los estimados para los parmetros

a y obtenidos por el mtodo de momentos son:

a xS 3

xS 3

2.6.4. Distribucin exponencial.


La funcin de densidad f(x), y la funcin de distribucin f(x), son:
x

f ( x ) .e .t dt 1 e x

f ( x ) .e . x

Para X>0

>0

La media y la variancia de la distribucin exponencial son:

E ( x)

Var ( x) 2

2.6.5. Distribucin gamma


La distribucin gamma, con parmetros

, tiene la siguiente funcin de densidad.

x 1e x /
F ( x)
.r ( )

; Para X>0

F(x)=0; para x 0.
La funcin gamma de

r ( ) ; est definida por la siguiente funcin matemtica:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

52

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

r ( ) x 1e x dx. ; Para x>0


0

2.6.6. Propiedades de la funcin Gamma

r ( ) ( 1)! ; Si

=1, 2, 3,.

r ( 1) ( ) ; Si

>0.

(1) ( 2) 1

(1 / 2)
( )

( 1)

; Si

<0.

La media, la varianza y el coeficiente de asimetra para la distribucin gamma son:

E ( x ) .

Var ( x ) 2 . 2 ;

g 2/

La distribucin exponencial se deriva de la distribucin gamma, para el caso particular de

1 y

. 1 / 1 .
Los estimadores para los parmetros de la distribucin gamma por el mtodo de momentos son:
2

S2

x
2
S

x =media aritmtica

S 2 =Varianza muestral

Por el mtodo de la mxima verosimilitud los estimadores para los parmetros

son:

Ln( ) ( ) Ln ( x / x g )

. x
Donde:

x g = es la medida geomtrica de la muestra.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

53

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


n

x g ( xi )1 / n ( x1 .x 2 .x3 ...........x n .) 1 / n
i 1

( x)

d
.Ln ( ( x))
dx

Thom (1958) propuso una relacin aproximada para el estimador del parmetro

, basado en la

truncacion de la serie expandida de mxima probabilidad.

1 1


Donde:

4y

4y
3

y Ln x Ln x
= termino de correccin

Factor de correccin ( ) para el estimador del parmetro

por el mtodo de mxima probabilidad

0.2

0.034

1.0

0.009

1.8

0.004

0.3

0.029

1.1

0.008

1.9

0.003

0.4

0.025

1.2

0.007

2.2

0.003

0.5

0.021

1.3

0.006

2.9

0.002

0.6

0.017

1.4

0.006

3.1

0.002

0.7

0.014

1.5

0.005

3.2

0.001

0.8

0.012

1.6

0.005

5.5

0.001

0.9

0.011

1.7

0.004

5.6

0.000

La tabla anterior muestra los valores de

a 5.6

en funcin de

comprendido

entre 0.2 y 5.6. Para

la correccin es despreciable. El procedimiento para calcular el facto de correccin consiste

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

54

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

4y
3

1 1
en un primer momento que

correspondiente al valor

sea igual a

para estimar

y luego calcular el valor de

inicial. Para estimar el parmetro

Thom (1958), comprob que para

y para

4y

se tiene que

, de la tabla,

x
.

10 el mtodo de momentos genera estimados inaceptables para

cercanos a uno, el mtodo de momentos usa solo 50% de la informacin de la muestra

. Esto indica con la mitad de observaciones.

y solo el 40% para estimar

Greenwood y Durand (1960) presentaron la siguiente relacin para los estimadores de mxima
probabilidad.
( 0 . 5000876

Para


Para 0 . 5772

0 . 1648852

y 0 . 5772

y 0 . 0544274

) / y

con un error mximo de 0.0088%.

8 . 898919
9 . 05995 y 0 . 9775373
y
y ( 17 . 79726
11 . 968477
y y2)

y 17 . 0 con un error mximo de 0.0054.

Donde: y Ln x Lnx
Las expresiones anteriores tienen un ligero sesgo asinttico, para pequeas muestras, este puede ser
apreciable.
Bowman y Shenton (1968) presentaron la siguiente relacin aproximada para estimar el sesgo en el
parmetro

, cuando se emplean la ecuacin de Thom, Greenwood y Durand.

E ( ) ( 3 0 . 677

0 . 111

0 . 032

) /( n 3 )

Para n 4 y 4
Donde:

E ( )

= sesgo de

, con un error menor que 1.4%.

N = tamao de muestra.
Bowman y Shenton (1968) sugieren que el sesgo en

, puede ser aproximado por:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

55

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

E ( )

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

3
( n 3 )
; Con: E ( )
; n4
n
n

Distribucin log-normal de dos parmetros.


Por el teorema de limite central, tenemos que si X es una variable aleatoria con distribucin normal, se
puede esperar una variable Y=Ln X, tambin con distribucin normal con media

y variancia

y2 .

La funcin de densidad de distribucin normal para Y es:

f ( y)

1
e
2 X y

1 Y y

2 y

Para

La relacin entre f(x) y f(y) es: f ( x ) f ( y )

Como Y= Ln X

dy
dx

entonces.

dy
dx

f ( y)

1
2 X

1
x

X>0

1 LnX

2
y

Para X>0

- es la funcin de densidad de la distribucin normal para Y con media

y la variancia de

f (x ) - es la funcin de densidad de la distribucin log-normal para X con parmetros y

y2 .
y

y2 .

Y=Ln X tiene distribucin normal, mientras que X tiene distribucin log-normal. Los parmetros
y

y2

pueden se estimados por

y y S y2

/n

mediante la transformacin

Yi LnX i

S y2 ( Y i 2 n Y ) /( n 1)

Chow (1954), presento la siguiente relacin para calcular

S y2

sin que sea necesario transformar

los datos previamente en sus logaritmos:


2

1
X
Ln
2
C v2 1

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

S y2 Ln(Cv2 1)

56

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin


Donde:

Cv

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

es el coeficiente de variacin de los datos originales.

Cv S x / X
Brakensiek (1958), propuso las siguientes relaciones para obtener la media y variancia de la distribucin
log normal.

x E( X ) e

1
( y 2y )
2

Var ( X ) x2 .(e

C e 1

- coeficiente de variacin

g 3Cv Cv3

-coeficiente de asimetra

2y

2y

1)

1/ 2

Las tablas de distribucin normal estndar pueden ser usados para evaluar la distribucin log normal.
Como f(x)=f(y)/x : pero f(y) es una distribucin normal tenemos:

f ( x)

f ( z)
X . y

Donde:

Z (y y )/ y

Distribucin log-normal de tres parmetros.


Esta difiere de la distribucin log normal de dos parmetros por la introduccin de un lmite inferior

x0 , tal que: Y Ln ( x x0 )

la funcin de densidad de X es:


1 Ln ( x x 0 ) y


1
2
f (x)
.e
( x y 0 ). 2 y

Para

x x0

x0 = parmetro de posicin.

y =parmetro de escala o media.


y2 =parmetro de forma o variancia.
Los momentos de X pueden obtenerse de los correspondientes momentos de la distribucin log normal
de dos parmetros, debido a que las variedades aleatorias defieren solo en el parmetro de posicin

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

x0 :

57

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

x x0 H
X=variable aleatoria con distribucin log-normal de 3 parmetros.
H= variable aleatoria con distribucin log-normal de 2 parmetros.

x 0 =parmetro de Posicin.
E ( x) x x0 E ( H ) x0 H

E ( x x ) 2 x2 H2

x E ( x) x0 e
y2

x2 Var ( x ) ( e

1
( y 2y )
2

1).e

( 2 y 2y )

El coeficiente de asimetra, g, esta dado por:


y2

g (e
Y de forma aproximada puede ser:

2y

1).(e

2)

g 0.52 4.85 y2

Distribucin de valores extremos.


Consideramos una muestra de tamao n consistente en

x1, x2 , x3 ,........xn

observaciones, donde f(x)

es la funcin densidad y F(x) es la funcin de distribucin acumulada y f(y) la funcin de densidad


entonces.

F(y) PY
( Y0) P(X1 Y0).P(X2 Y0).............P(Xn Y0) P(X Y0)

F ( y)

dF ( y )
n 1
nP ( X Y0 P ( X Y0 )
dy

Distribucin de valores extremos tipo I (Gumbel)


Se le conoce tambin como Gumbel, este tipo de distribucin es usado frecuentemente para estudio de
magnitud-duracin y frecuencias de lluvias (Hershfield, 1961) y como la distribucin de valores
mximos de caudales anuales de un ri.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

58

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Gumbel (1958), estudio la aplicacin para datos de descargas diarias. La funcin de densidad de
probabilidad para la distribucin de valores extremos tipo I es:

f (x)
Para

e ( X ) / a e

(X ) /a

X ; ;a 0

El signo (+) se aplica para valores mnimos y el signo (-) se aplica para valores mximos.
El parmetro

se le conoce como el parmetro de escala.

El parmetro

se le conoce como parmetro de posicin.

La media y la variancia de la distribucin del valor extremo tipo I son:

E ( x ) 0.577a

(Mximo)

E ( x ) 0.577a

(Mnimo)

Var ( x ) 1.645a 2

(Para ambos)

El coeficiente de asimetra es: g=1.1396 (mximo)


g=-1.1396 (mnimo)
Si se hace la transformacin:

Y (x ) /a

La funcin de densidad ser:

f ( y ) e ( Y e

El signo + se emplea para eventos mnimos y el signo para eventos mximos.


La funcin de distribucin acumulada es:

f ( y ) e e

f ( y) 1 e e

- (mximo)
y

- (mnimo)

f ( y ) min 1 F ( Y ) max

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

59

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Los estimadores para los parmetros

, por el mtodo de momentos (LOWERY Y NASH 1970)

son:

S
,
1.283

x 0.45( S )

x 0.45( S )

- mximo

-mnimo

Por el mtodo de mxima verosimilitud (Lowery y Nash, 1970) son:

a x ( X i e x / a ) / e x / a
i

e
aLn (

xi / a

Desafortunadamente las ecuaciones de mxima verosimilitud para el estimado de los parmetros

no tienen solucin explicita, por lo que es necesario una solucin por mtodos numricos. Segn

Lowery y Nash, el mtodo de momentos da resultados satisfactorios en el clculo de estos parmetros.

Distribucin de valores extremos Tipo III (Weibull)


La distribucin de valores extremos tipo III (tiene gran aplicacin para eventos hidrolgicos mnimos.
Esta distribucin se le conoce como la distribucin de Weibull de 2 parmetros y su funcin de densidad
es:
a
f ( x) aX a 1 a e ( X / )

Donde: X 0;

a, 0

La funcin de distribucin acumulada es:


a

F ( x) 1 e ( X / )
La media y la variancia de la distribucin son:

E ( x ) (1 1 / a )

Var ( x ) 2 2 (1 2 / a ) 2 (1 1 / a )

El coeficiente de asimetra, segn Hahnan y Shapiro (1967), es.


Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

60

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

(1 3 / a ) 3 (1 2 / a ) (1 1 / a ) 2 3 (1 1 / a )

(1 2 / a ) (1 1 / a )

3/ 2

Los estimadores de los parmetros

, por el mtodo de momentos se obtienen resolviendo las

ecuaciones simultneas correspondientes a la media y variancia muestral.


Por el mtodo de mxima verosimilitud, calculamos haciendo:

a , por consiguiente los estimadores son:


n

a ,

i 1

i 1

a
( xi Lnxi Lnxi )

i 1

Simultneamente para

n / xi

, tenemos: ( ) 1/ a

La distribucin de Weibull de 2 parmetros, tiene la siguiente funcin de densidad:


a
f ( x ) a ( x )a 1 ( ) a e ( x ) /( )

La funcin de distribucin acumulada es:


a
f ( x ) 1 e ( x ) /( )

Usando la siguiente transformacin:


a
Y ( x ) /( )

Tenemos que:

F ( y) 1 e y

La media y la variancia de la distribucin de Weibull de tres parmetros son:

E ( x ) ( ) (1 1 / a )

var( x ) ( ) 2 (1 2 / a ) 2 (1 1 / a )

El coeficiente de asimetra es lo mismo que en el caso de la distribucin de Weibull de 2 parmetros.


Resolviendo algebraicamente las ecuaciones correspondientes a E(x) y Var(x), podemos resolver para:

. A(a )

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

.B (a )

61

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Donde:

A(a ) = 1 (1 1 / a ) (a )

B (a ) = (1 2 / a ) 2 (1 1 / a )
Los valores de 1/ a ,

1 / 2

A(a ) , y B (a ) como funcin de g se muestran en el siguiente cuadro.


A(a ) , y B (a ) como funcin de g

Cuadro. Valores de 1/ a ,

A(a )

B (a )

A(a )

B (a )

-1.000

0.02

0.446

40.005

2.000

1.00

0.000

1.000

-0.971

0.03

0.444

26.987

2.309

1.10

-0.040

0.867

-0.917

0.04

0.442

20.481

2.640

1.20

-0.077

0.752

-0.867

0.05

0.439

16.576

2.996

1.30

-0.109

0.652

-0.638

0.10

0.425

8.737

3.382

1.40

-0.136

0.563

-0.254

0.20

0.389

4.755

3.802

1.50

-0.160

0.486

0.069

0.30

0.346

3.370

4.262

1.60

-0.180

0.418

0.359

0.40

0.297

2.634

4.767

1.70

-0.196

0.359

0.631

0.50

0.246

2.159

5.323

1.80

-0.208

0.308

0.896

0.60

0.193

1.815

5.938

1.90

-0.217

0.308

1.160

0.70

0.142

1.549

6.619

2.00

-0.224

0.224

1.430

0.80

0.092

1.334

7.374

2.10

-0.227

0.190

1.708

0.90

0.044

1.154

8.214

2.20

-0.229

0.161

4.2.3

1/

1/

Distribucin beta

Funcin de densidad:

xa 1 (1 x) 1
f ( x)
Para: 0 x 1 , a , 0
B (a )
Funcin beta= B(a , )

a 1

x
0

(1 x) 1dx

La relacin entre la funcin Beta y Gamma es:

B (a , )

a ,
(a )

La media y la variancia de la distribucin Beta son:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

62

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

E ( x)

Var ( x ) 2

a .
(a )
a .

(a 1)(a ) 2

A partir de estas ecuaciones se pueden calcular los estimados para


4.2.4

Distribucin de Pearson tipo III

Karl Pearson (1953), propuso que la distribucin de frecuencias puede ser representados por la siguiente
funcin de densidad:
x

( t a ) /( 0 1t 2t

f ( x) e

..................)dt

La distribucin Pearson tipo III, tiene gran aplicacin en hidrologa especialmente en el anlisis de
caudales mximos (picos), su funcin de densidad se puede escribir como:

( x x 0 ) 1 e ( x x 0 ) /
f (x)
( )

Para: x

x
0

y (x x0 ) /

Variable reducida:

f ( y)

por lo que:

e Y
( )

P ( Y Y 0 ) F (Y )

e Y
dY
( )

El estimado para los parmetros por el mtodo de momentos es:

E ( x ) x 0 .

Media

E (x )2

Variancia

g 2/

2 .

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Sesgo
63

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Distribucin log Pearson Tipo III


La transformacin puede ser: Z=Ln(X)

o Z=Ln(x-xo)

Donde: Z=variable aleatoria con distribucin Pearson III


X=Variable aleatoria con distribucin log Pearson III
La funcin de densidad para X y Z se dan a continuacin:

f (x)

Y 0 ) 1 e ( LnX
( )

( LnX

( Z Z 0 ) 1 e ( Z Z 0 ) /
f (z)
( )

Z0

Y0 ) /

Donde Z=Ln(X)

=Parmetro de posicin.

=Parmetro de escala

=Parmetro de forma.

De acuerdo a la distribucin Pearson tipo III:

x .z x 0

y en el caso de la distribucin log-

Pearson tipo IIII.

x ez

x x0 e z

La media, variancia y el sesgo para la distribucin Log-Pearson tipo III son:

E ( z ) z 0 .

E (z 2 )2

g 2/

2
2

2 .

Media

Variancia

Sesgo

Problemas de probabilidad aplicados a hidrologa


Ejemplo 1. Determinar el valor de la constante a de la funcin de densidad de probabilidad:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

64

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


0

( )=

Cul es la probabilidad de que un valor X seleccionado aleatoriamente de esta funcin:


a) Sea menor que 2?
b) Est entre 1 y 3?
c) Sea mayor que 4?
d) Sea mayor que 6?
e) Sea igual a 2.5?
Solucin
( )

De la ecuacin

= 1 , se tiene:

f ( x )dx f ( x)dx f ( x)dx f ( x)dx 1

Sustituyendo la funcin de densidad de probabilidad en la ecuacin anterior.

(0)

Por lo tanto: a =

( 0)

5 125
=
=1
0
3

3
125

La funcin de densidad de probabilidad es entonces:

( )=

3
125

y la funcin de distribucin de probabilidad resulta

( )=

125

Entonces:

a) F(2) = P(X 2) =

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

8
125
65

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

b) P(1 X 3) = F(3) - F(1) =

9
1
8

125 125 125

c) P(X 4) = 1 P(X 4) = 1 F(4) = 1 -

64
61

125 125

d) P(X 6) = 1 P(X 6) = 1 1 = 0
e) P(X = 2.5) = 0
Ejemplo 2. Los gastos mximos anuales registrados en la estacin hidromtrica Las Perlas en el ro
Coatzacoalcos se muestran en el cuadro siguiente.
a)

Cul es la probabilidad de que, en un ao cualquiera, el gasto sea mayor o igual a 7 500 m3/s?

b)

Se planea construir cerca de este sitio un bordo para proteccin contra inundaciones. Cul debe ser

el gasto de diseo si se desea que el periodo de retorno sea de 60 aos?


Supngase que los datos del cuadro siguiente siguen una distribucin normal.
Cuadro. Datos de gasto mximo (x) del problema
Ao

1954

1955

1956

1957

1958

1959

1960

x (m3/s)

2230

3220

2246

1804

2737

2070

3682

Ao

1961

1962

1963

1964

1965

1966

1967

x (m3/s)

4240

2367

7061

2489

2350

3706

2675

Ao

1968

1969

1970

1971

1972

1973

1974

x (m3/s)

6267

5971

4744

6000

4060

6900

5565

Ao

1975

1976

1977

1978

x (m3/s)

3130

2414

1796

7430

Solucin
La media y desviacin estndar de los datos son respectivamente:
25

xi
X=

i 1

= 3 886 m3/s

25

( xi x)
S=

I 1

n 1

= 1 825.9 m3/s

La media y desviacin estndar de la poblacin pueden entonces estimarse como:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

66

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

= x = 3886 m3/s

= S = 1825.9 m3/s
a) Para x = 7500 m3/s, la variable estandarizada z es

z=

7500 3886
1.98
1825.9

De la tabla de la distribucin normal estndar acumulada se obtiene


( ) = ( ) = ( 7500) = 0.9761
Por lo que la probabilidad de que el gasto mximo anual sea mayor o igual que 7500 m3/s resulta.
P (X 7500) = 1 - P (X 7500) = 1 - 0.9761 = 0.0239
b) De la ecuacin para el perodo de retorno se tiene que.

T=

1
1

P ( X x) 1 P( X x)

Por lo tanto:

P (X x) =

T 1
T

Entonces, para T = 60 aos, la funcin de distribucin de probabilidad es:

F (x) = P (X x) =

59
= 0.9833
60

Y de la tabla de la distribucin normal estndar acumulada o resolviendo la ecuacin por tanteos, se


obtiene la variable estandarizada
z = 2.126
Por lo tanto, despejando x de la ecuacin 9.33 se tiene:
x = z + = 2.126 (1825.9) + 3886
x = 7 775.2 m3/s
Entonces, segn la distribucin normal el gasto de diseo para un periodo de retorno de 60 aos es
7775.2 m3 /s.
Ejemplo3. Resolver el ejemplo 2 usando la funcin de distribucin Log-normal.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

67

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Solucin
La media y desviacin estndar de los datos, son estimadores de las media y desviacin estndar de la
poblacin, son.
25

a
i 1

ln xi
8.162
25
1/2

25 (ln xi 8.162)2

25
i1

0.451

a) Para x = 7500 m3/s, la variable estandarizada es:

z=

ln( 7500 ) 8.162


1.687
0.451

De la tabla de la distribucin normal estndar acumulada, se obtiene


F(x) = F (z) = 0.9545
Y por lo tanto
P(x 7500) = 1 P(x 7500) = 1- F(x) = 1 - 0.9545 = 0.0455
b) Nuevamente, de P (X x) =

T 1
se tiene:
T
F (z) = F(x) = 0.9833

De la tabla de la distribucin normal estndar acumulada o resolviendo la ecuacin por tanteo, para este
valor de F(z) se obtiene
z = 2.13
Despejando x de la ecuacin
=

ln

= exp(

+ )

= exp(2.13 0.451 + 8.162) = 9160.3

Ejemplo 4. Resolver el ejemplo 2 usando la funcin de distribucin Pearson III.


Solucin

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

68

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

a) Clculo de los valores de a1, 1 y 1. El coeficiente de sesgo es


(

25

) /

xi38863 / 25
(1825.9)

i 1

1.258

Entonces

1 = 2 2 =

a1 =

2 2

1.258

= 2.526

1825.91 1148.8
2.526

= 3886 1148.8 2.526 = 983.9

Para 7500 m3/s, la variable estandarizada y es


=

y = 7500 983.9 5.672

1148.8

El valor de x2 y el nmero de grados de libertad son entonces


x2 = 2y = 2(5.672) = 11.344
v = 21 = 2(2.526) = 5.05
De la tabla de la funcin Gamma (Aparicio, 1991) se obtiene, para estos valores de x2 y v, con 5 grados
de libertad
F(x) = 95.5 %
Por lo tanto,
P (x 7 00) = l F (7500) = 1 - 95.5 = 4.5%
b) De acuerdo con los problemas anteriores:
P (X x) = F(x) = F(y) = 0.9833
De la tabla de la funcin Gamma (Aparicio, 1991) se obtiene por interpolacin para v = 5

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

69

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


= 14.1

De la ecuacin
( )= (

/ )=

(2 /2 )

y = 14.1 = 7.05

Y de

x = 7.05 (1148.8) + 983.9 = 9071 m3/s.


Ejemplo 5. Resolver el ejemplo 2 usando la funcin de distribucin Gumbel.
Cuadro. Media y desviacin estndar para la distribucin Gumbel
N

sy

sy

10

0.4952

0.9496

60

0.5521

1.1747

15

0.5128

1.0206

65

0.5535

1.1803

20

0.5236

1.0628

70

0.5548

1.1854

25

0.5309

1.0914

75

0.5559

1.1898

30

0.5362

1.1124

80

0.5569

1.1938

35

0.5403

1.1285

85

0.5578

1.1974

40

0.5436

1.1413

90

0.5586

1.2007

45

0.5463

1.1518

95

0.5593

1.2037

50

0.5485

1.1607

100

0.5600

1.2065

55

0.5504

1.1682

Solucin
Para 25 aos de registro, del cuadro anterior se tiene:
y = 0.5309; y = 1.0914
Por lo tanto, de las ecuaciones
=
a = 1.0914 = 0.000598 (m3/s)-1
1825.91
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

70

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


=

= X - y 3886 0.5309 = 2997.81 m3/s


a
0.000598
a) Para x = 7500 m3/s, de la ecuacin
( ) = exp exp ( )
( ) = exp[exp[0.000548(7500 2997.8)]]
F(x) = 0.9345
Por lo tanto:
P (X 7500 m3/s) = 1 - 0.9345 = 0.065
b) Para T = 60 aos, de las ecuaciones
( )=

9.38 y 9.54:
F(x) = T 1 = 0.9833 = e-e
T
Despejando x:
x = = 1 ln.ln

0.9833

T 1

= 2997.8 -

1
ln ln
0.000548

9827.1 m3/s.

Ejemplo 9.6. Resolver el ejemplo 9.2 usando una funcin de distribucin de probabilidad para dos
poblaciones. Suponiendo que ambas tienen una funcin de distribucin Gumbel.
Solucin.
En la tabla 9.7 se muestran los gastos mximos anuales ordenados de mayor a menor.
Supngase que los siete primeros gastos fueron producidos por una tormenta ciclnica. De este modo,
Nn = 18, NT = 25 y:
p = 18 = 0.72
25

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

71

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Las medias y desviaciones estndar de las poblaciones no ciclnicas y ciclnicas son:


m

T (aos)

X (m3/S)

T (aos)

X (m3/S)

26

7430

14

1.86

3130

13

7061

15

1.73

2737

8.67

6900

16

1.63

2675

6.50

6267

17

1.53

2489

5.20

6000

18

1.44

2414

4.33

5971

19

1.37

2367

3.71

5565

20

1.30

2350

3.25

4744

21

1.24

2246

2.89

4240

22

1.18

2230

10

2.60

4060

23

1.13

2070

11

2.36

3706

24

1.08

1804

12

2.17

3682

25

1.04

1796

13

2.00

3220

X 1 = 2712.6 m3/s; S1 = 2089.2 m3/s


X 2 = 6456.3 rn3/s; S2 = 630.6 m3/s

Los parmetros a1, a2, 1 y 2 son, entonces, de acuerdo con las ecuaciones 9.58 y 9.59:
a1 = 1.05 = 0.000503 (m3/s)-1
2089.2
a2 = 0.94 = 0.00149 (m3/s)-l
630.6
1 = 2712.6 -

0.52
= 1678.8 m3 /s
0.000503

2 = 6456.3 - 0.494 = 6124.8 rn3/s


0.00149
donde los valores de y1, y1, y2, y y2, se interpolaron en la tabla 9.6.
La funcin de distribucin de probabilidad resulta ser entonces:
F(x) = e-e

0.72 + (0.28) e-e

(9.64)

a) Para x = 7500 m3/s, de la ecuacin 9.64 se tiene:


F (7500) = 0.9 16
Por lo tanto:
P (X 7500 m3/s) = 1 - 0.916 = 0.084
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

72

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

b) Aqu se requiere un valor de x tal que:


F(x) = 0.9833
De la ecuacin
X (m3/s)

F(X)

9000

0.9710

10000

0.9840

9800

0.9822

9900

0.9831

X = 9900 m3/s

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

73

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

CAPITULO III PRUEBAS DE RANGO MULTIPLE


3.1. Introduccin
El investigador desea conocer si los tratamientos tienen algn efecto sobre la variable que se estudia. Es
decir desea saber si las medias

estimadores de las de las poblaciones de los tratamientos son

iguales o distintas. Es propsito de todo investigador que realiza un anlisis de variancia de un


experimento en particular, realizar la prueba sobre el efecto de los tratamientos en estudio, para ello
hace uso de la prueba F el cual indicar si los efectos de todos los tratamientos son iguales o diferentes;
en caso de aceptar la hiptesis de que todos los tratamientos no tienen el mismo efecto, entonces es
necesario realizar pruebas de comparacin de promedios a fin de saber entre que tratamientos hay
diferencias, y para esto es necesario realizar pruebas de comparacin mltiple como las siguientes:
1. Prueba de Rangos Mltiples de Tukey HSD
2. Diferencia Minima Significativa (LSD)
3. Prueba de Rangos Mltiples de Duncan
4. Prueba de Comparacin de Dunnet
5. Pruebla de Student-Newman-Keuls (SNK)

3.2. Prueba de Rangos Mltiples de Tukey HSD


Este procedimiento es llamado tambin Diferencia Honestamente Significativa, se utiliza para realizar
comparaciones mltiples de medias; esta prueba es similar a la prueba de Duncan en cuanto a su
procedimiento y adems es ms exigente. La prueba Tukey se usa en experimentos que implican un
nmero elevado de comparaciones o se desea usar una prueba ms rigurosa que la de Duncan. Es de
fcil clculo puesto que se define un solo comparador, resultante del producto del error estndar de la
media por el valor tabular en la tabla de Student-Newman-Keuls y usando como numerador el nmero
de tratamientos y como denominador los grados de libertad del error. Debe considerarse que esta
prueba es ms estricta en su clasificacin; asi el 5% de Tukey casi es equivalente al 1% de Duncan

X i X j q (a , r , GL )

MSE
n

(1)

X i X j q (a , r , GL)

MSE 1 1

2 ni n j

(2)

Donde: ec. (2) cuando n de cada grupo son iguales y ec (2) cuando n de cada grupo es distinto

X i X j Diferencia de medias entre los dos grupos que queremos comparar

q (a , k , GL ) valor de Tukey segn tabla


a = grado de significancia a utilizar (ej. a = 0.05)
r = nmero de grupos
GL = grados de libertad
MSE = cuadrado medio del error

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

74

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Ejemplos de aplicacin
Se tiene las influencias de las drogas A, B y C en la produccin de clulas. Realizar la prueba de Tukey.
A
24.15
24.6
25.1
22.55
22.65
26.85
40.2
63.2
79.6
59.1
64.6
102.45

B
36.3
44.1
39.15
49.9
50.35
50.6
31.7
69.25
138.6
72.95
80.05
90.3

C
19.35
21.9
31.1
15.4
18.3
27.1
22.15
22.15
22.75
66.7
19.35
37.85

Relizando el anlisis de varianza de un factor se tiene:

Anlisis de varianza de un factor


RESUMEN
grupo 1
grupo 2
Cuenta
12
12
Suma
555.05
753.25
Promedio
46.2541667 62.7708333
Varianza
726.897936 908.435663

grupo 3
12
324.1
27.00833333
193.5494697

ANLISIS DE VARIANZA
Origen de las
Suma de Grados de Promedio de
variaciones
cuadrados
libertad
los cuadrados
Entre grupos
7688.63514
2
3844.317569
Dentro de los grupos
20117.7138
33
609.6276894
Total

27806.3489

Valor crtico
para F
0.0048 3.28491765

Probabilidad

F
6.31

35

Con este anlisis podemos concluir que si existe diferencia significativa, entre alguno o algunos de los
grupos, ante lo cual relizaremos el anlisis mediante Tukey, para saber entre cuales.

Calculando la diferencia Honestamente significativa, utilizando la tabla Tukey

qa
MSE
n

3.3600
609.6277
12

HSD

23.9486

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

75

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

En la siguiente tabla calcularemos la diferencia de las medias entre cada uno de los grupos, y hallaremos
cul de las diferencias es mayor que la HSD.

A
B
C

B
C
-16.5166667 19.2458333
16.5166667
35.7625
-19.2458333 -35.7625

Segn estos resultados existe diferencia significativa, entre los grupos B y C

Ante lo cual podemos concluir que:


1.- SI EXISTE DIFERENCIA SIGNIFICATIVA ENTRE LOS TRES GRUPOS, rechazando la
hiptesis nula
2.- HAY DIFERENCIA ENTRE EL GRUPO B Y C, comprobado por Tukey

El anlisis en R, tiene la siguiente sintaxis:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

76

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Realizando el anlisis de varianza

Resolviendo con la librera interna de R, para la prueba Tukey HSD

Utilizando la librera agricolae

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

77

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

3.3. Diferencia Minima Significativa de Fisher o (LSD)


Es un procedimiento comnmente usado para comparar la diferencia entre un grupo de medias y para
comparar cada uno de los grupos de medias con un tratamiento estndar. Se justifica slo en las
siguientes condiciones: a. La prueba F resulta significativa. b. Las comparaciones fueron planeadas
antes de ejecutar el experimento. c. Es solamente valido para algunas comparaciones especficas, ya que
al incrementarse el nmero de comparaciones se incrementa el error tipo I. d. No controla en forma
eficiente el error referido al experimento, su uso no es recomendable para comparaciones mltiples de
todos los pares de medias de un experimento.

1 1
X i X j t (a / 2, GL ) MSE
ni n j

(1)

Donde:

X i X j Diferencia de medias entre los dos grupos que queremos comparar


t (a / 2, GL) valor de la distribucin t a dos colas
a/2 = grado de significancia
GL = grados de libertad
MSE = cuadrado medio del error
Todas las diferencias de medias son comparadas con la LSD y si la diferencia de medias comparadas
Al valor
excede a la LSD, habr significacin.

2 MSE
t0.01,
n

v,

se le llama diferencia mxima

significativa. Esta prueba es apropiada si la comparacin de medias grandes con pequeas en un grupo
de v tratamientos medios; es decir, que sin tener efectos diferentes en los tratamientos habr variabilidad
entre los promedios debido exclusivamente a la variabilidad comn: Pues cuanto mayor sea el nmero
de tratamientos, habr rechazos indebidos en las comparaciones extremas, ya que en ellas el tc seria
mayor que el t0.05.
Problemas de aplicacin
Probando con el modelo Bonferroni

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

78

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Utilizando la librera agricolae

3.4. Prueba de Rangos Mltiples de Duncan


La prueba de rango mltiple Duncan es una comparacin de las medias de tratamientos todos contra
todos de manera que cualquier diferencia existente entre cualesquier tratamiento contra otro se ver
reflejado en este anlisis. Utiliza un nivel de significancia variable que depende del nmero de medias
que entran en cada etapa de comparacin. La idea es que a medida que el nmero de medias aumenta, la
probabilidad de que se asemejen disminuye. Para obtener los comparadores Duncan, se toman de la
tabla de Duncan los valores de acuerdo al nmero de tratamientos y con los grados de libertad del error.
Cada uno de estos valores ser multiplicado por el error estndar de la media y stos sern los
comparadores para determinar cules diferencias son significativas. Este procedimiento es utilizado para

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

79

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

realizar comparaciones mltiples de medias; para realizar esta prueba no es necesario realizar
previamente la prueba F y que sta resulte significativa; sin embargo, es recomendable efectuar esta
prueba despus que la prueba F haya resultado significativa, a fin de evitar contradicciones entre ambas
pruebas. Las caractersticas son las siguientes: El nmero de tratamientos de comparaciones con t

t (t 1)
El Fc en el anlisis de variancia puede ser significativo o no. Tiene el
2

tratamientos es

inconveniente cuando se cuenta con un alto nmero de tratamientos dado que el nivel de significacin
se

modifica

formula:

xi x j

en

funcin

de

xi x j qa (r , GLerror )

ellos.

Para

su

aplicacin

se

utiliza

la

siguiente

MSE
n

= Amplitud de Limite de Significacin de Duncan

qa (r , GLerror )

= Amplitud estudientizadas Significativas de Duncan (Tabla de Duncan)

MSE = cuadrado medio del error

Ejemplos de aplicacin

3.5. Puebla de Student-Newman-Keuls (SNK)


La prueba con el comparador Student-Newman-Keuls (SNK) es similar en metodologa a la de Duncan,
pero con un nivel de rigurosidad intermedio con respecto a Duncan y Tukey, es decir, ni tan exigente
como Tukey, ni tan flexible como Duncan. Este procedimiento es ms conservativo que el de Duncan en
el nmero de diferencias que declara significativa. Por lo tanto, en sistuaciones en las cuales no es
necesario ser tan conservativo se sugiere el uso de esta metodologa probabilidades ms relajado,
digamos un 10% a un ms alto.

xi x j qa (r , GLerror )
xi x j

MSE
n

= Amplitud de Limite de Significacin de Student-Newman-Keuls

qa (r , GLerror )

= Amplitud estudiantizadas Significativas de S-N-K (Tabla de Student-Newman-

Keuls)
MSE = cuadrado medio del error

x[1] min

r=2

x[3]

x[ 2]

r=3

x[5]

x[ 4]

r=4

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

r=5

x[6] max

r=6

80

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

3.6. Prueba de Comparacin de Dunnet


Esta prueba es til cuando el experimentador est interesado en determinar que tratamiento es diferente
de un testigo, control o tratamiento estndar, y no en hacer todas las comparaciones posibles (que
pasaran a una segunda prioridad); es decir, cuando se quiere comparar el testigo con cada uno de los
tratamientos en estudio. Tiene las siguientes caractersticas:-Se utiliza cuando existe tratamientos testigo
o control y se desea comparar este testigo con los dems tratamientos.- La prueba de F-calculado del
ANDEVA debe ser significativa.- Las comparaciones son planteadas antes de realizar el experimento.Es una prueba modificada de la prueba DLS.- Se utiliza un tratamiento de control como punto de
referencia con el cual comparar todos los dems tratamientos.

3.7. Transformacin de datos


La razn principal de la transformacin de datos es que de llevarse a cabo un anlisis estadstico con
resultados que no cumplan con los supuestos acerca del modelo estadstico, se puede llegar a una
conclusin equivocada. Un cambio de escala puede variar la media y la variancia de la variable as
como su relacin con respecto a otras variables. La forma de la distribucin de una variable cambia con
la escala. Mediante una transformacin adecuada puede conseguirse que un variable que no se
distribuye normalmente pase a tener una distribucin casi normal. Las poblaciones con variancias
desiguales

pueden

convertirse

en

homocedsticas

(variancias

homogneas)

mediante

una

transformacin apropiada. Las transformaciones ms usadas son: a. Transformacin logartmica El


modelo lineal (por ejemplo Yij = + ti + bj + eij) indica que el efecto del bloque, el efecto del
tratamiento y el error experimental, son todos ellos aditivos. Si los bloques y los tratamientos aumentan
o disminuyen las mediciones en un determinado porcentaje en lugar de una determinada cantidad,
entonces se dice que los efectos son multiplicativos y no aditivos. En estos casos, una transformacin
logartmica transformar en aditiva la relacin multiplicativa y en consecuencia el modelo lineal podr
ser aplicado a los nuevos datos. Para ciertos tipos de anlisis, el investigador prefiere la escala que
elimina las interacciones mientras que para otras puede preferir la escala que restituye los efectos
lineales. Lo que hay que recordar es que la relacin entre las variables est muy influenciada por las
escalas con las que se miden dichas variables. Las interpretaciones de los datos slo son vlidas en
relacin con la escala particular adoptada en un caso determinado. b. Transformacin de la raz
cuadrada Cuando los datos estn dados por nmeros enteros procedentes del conteo de objetos, como
por ejemplo el nmero de manchas en una hoja o el nmero de bacterias en una placa, los nmeros
observados tienden a presentar una distribucin de Poisson ms que una distribucin normal. Las
consideraciones tericas conducen a la transformacin de la raz cuadrada de los nmeros
observados.Normalmente esta transformacin determina que las variancias de los grupos sean ms
iguales. Tambin es aplicable a las distribuciones sesgadas puesto que acorta la cola larga. Si y es el
nmero observado, para el anlisis estadstico y la prueba de significacin utilizaremos y1/2 . Cuando
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

81

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

los nmeros observados son pequeos (de 2 a 10), se prefiere la transformacin (y+0.5)1/2, en especial
cuando algunos de los nmeros observados son cero.
Coeficiente de variabilidad Es una medida de variabilidad relativa (sin unidades de medida) cuyo uso
es para cuantificar en trminos porcentuales la variabilidad de las unidades experimentales frente a la
aplicacin de un determinado tratamiento. En experimentacin no controlada (condiciones de campo) se
considera que un coeficiente de variabilidad mayor a 35% es elevado por lo que se debe tener especial
cuidado en las interpretaciones y conclusiones; en condiciones controladas (laboratorio) se considera
un coeficiente de variabilidad mayor como elevado. La expresin estimada del coeficiente de
variabilidad es:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

82

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

CAPITULO IV DISEO COMPLETAMENTE AL AZAR (DCA)


El diseo completamente al azar, es aquel en el cual los tratamientos se asignan completamente al azar a
las unidades experimentales o viceversa. Este diseo es usado ampliamente. Por lo tanto se considera
que es un diseo eficiente cuando las unidades experimentales de las que se dispone son muy
homogneas.

4.1. Caractersticas principales


1. Aplicable slo cuando las unidades experimentales son homogneas (verificar si existe tal
homogeneidad).
2. Los tratamientos pueden tener igual o diferente nmero de unidades experimentales.
3. La distribucin de los tratamientos es al azar en las unidades experimentales.
El nmero de tratamientos est en funcin del nmero de unidades experimentales que se dispone. Es
conveniente tener pocos tratamientos y ms unidades experimentales que muchos tratamientos con
pocas unidades experimentales.

4.2 Modelo estadstico Lineal


Este modelo lineal es la siguiente:

Yij i ij
i = 1,, t;
t = nmero de tratamientos
j = 1,,n;
n = nmero de repeticiones por tratamiento
Donde:
= es el efecto medio

i = es el efecto de i-simo tratamiento


ij = error experimental
4.3 Esquema del diseo Completamente al Azar
Tabla 4.1 Representacin simblica del Diseo Completamente al Azar (DCA)
Tratamientos (i)
Observaciones
(j)

Y11

Y21

Y31

Yt1

Y12

Y22

Y32

Yt2

Y13

Y23

Y33

Yt3

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

total

83

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


Y1n

Y2n

Y3n

Ytn

Total

Y1.

Y2.

Y3.

Yt

Numero de observaciones (nj)

media

Y
Y

4.4. Estimaciones
La tcnica para hacer el anlisis de varianza, mediante los mnimos cuadrados, no permite hallar
aquellos estimadores que nos aseguraran una suma de cuadrados del error mnimo.

4.5 Suma de cuadrados

..

(Suma de cuadrados de tratamiento)

(suma de cuadrados del error)

.
..

(Suma de cuadrados totales)

4.6 Grados de libertad


Se define como el nmero de funciones linealmente estimables de los parmetros que pueden tener en el
experimento; pero, las funciones linealmente estimables, no son sino el numero de comparaciones en el
diseo. Otros autores, definen, como los rangos de las matrices: r(X); y el rango de las matrices lo
determinan las columnas independientes.

4.7 Cuadrado medio esperado


Conocido como esperanza matemtica o valor esperado, es definido como el valor promedio ponderado
de los valores que pueden asumir la variable.
Para hallar el valor esperado de una variable, cada uno de los posibles valores de la variable es
multiplicado por su correspondiente probabilidad y el producto resultante es sumado. Tambin se lo
define como el valor medio de una variable aleatoria si el mismo experimento aleatorio se repite una y
otra vez.
El cuadrado medio esperado (ECM), es una valiosa ayuda para el investigador, dado que indica el
procedimiento adecuado a seguir en la estimacin de parmetros o para la prueba de hiptesis acerca de
los parmetros dentro del marco de trabajo en el modelo supuesto.

4.8 Anlisis de varianza

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

84

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Es una tcnica matemtica que nos permite descomponer una fuente de variacin total en sus
componentes atribuibles a fuentes de variacin conocida. La tabla nos muestra el anlisis generalizado
para el diseo completo al Azar.
Tabla 4.2.
Anlisis de varianza del Diseo Completamente al Azar (DCA)
F. de. V.

(G.L.)

( S.C.)

( C. M.)

MODELO

MODELO II

I
TRATAMIENTOS

ERROR

( t-1)

t(n-1)

..

.
.

TOTAL

(tn-1)

..

4.9. Prueba estadstica de hiptesis


La hiptesis a probar es:
Ho:

=0

Ha:

Para ellos se usa la prueba estadstica de F, porque la suma de cuadrados de las fuentes de variacin se
atribuyen como variables c2 (Chi-cuadrado no central), las cuales son independientes entre s, resultado
basado en el Teorema de Cochran el cual dice: Que cada fuente de variacin del diseo experimental
corresponde a una estructura algebraica que recibe el nombre de forma cuadrtica, la cual se distribuye
como una c2 y entre las fuentes de variacin.
Una prueba de F es la relacin de dos c2 (Chi cuadrados) independientes divididos cada uno en sus
respectivos grados de libertad.

c
=

( 1)
Llamada F de Snedecor (lo que se halla en las tablas) tabulares. La prueba de F exige que sean dos c2
centrales o dos c2 no centrales.

4.10. Ventajas del Diseo Completamente al Azar


1. Es sencillo de planificar

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

85

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2. Existe mas grados de libertad para estimar el error experimental


3. Es flexible en cuanto a numero de repeticiones y tratamientos
4. Se puede tener diferentes nmeros de repeticiones por tratamiento sin que el anlisis se complique
5. Es til cuando las unidades experimentales tienen una sola variabilidad uniforme repartida
6. Cuando se pierde alguna parcela experimental se puede considerar que se tenia diferente numero de
repeticiones por tratamiento
7. El error experimental puede obtenerse separadamente para cada tratamiento para comprobar la
suposicin de homogeneidad del error.

4.11. Desventajas del Diseo Completamente al Azar


1. No se puede controlar el error experimental, por lo tanto no es un diseo muy preciso
2. Cuando se tiene diferente nmero de repeticiones por tratamiento, es necesario calcular un error
estndar por cada pareja de medias si se quiere comparar sus diferencias.

4.12. Usos del Diseo Completamente al Azar


1. Es muy til en ensayos de laboratorio o invernadero, donde las diferencias entre unidades experimentales
son insignificantes.
2. Se usa en ciertos tipos de experimentos con animales.
3. No se usa en experimentos de campo dado que no da facilidades para controlar el error experimental.

4.13. Problemas de aplicacin


Ejemplo. 01.
Como parte de la investigacin del derrumbe del techo de un edificio, un laboratorio prueba todos los
pernos disponibles que conectaban la estructura de acero en tres distintas posiciones del techo. Las
fuerzas requeridas para cortar cada uno de los pernos (valores codificados) son las siguientes:
Posicin 1 : 90, 82, 79, 98, 83, 91
Posicin 2 : 105, 89, 93, 104, 89, 95, 86
Posicin 3 : 83, 89, 80, 94
Efectese anlisis de variancia para probar con un nivel de significancia de 0.05 si las diferencias entre
las medias muestrales en las tres posiciones son significativas
Cuadro 4.1
Resultado de Anlisis de variancia de prueba de laboratorio
F. de V.

GL

SC

Tratamientos

234.453125 117.226563 2.3327

Error

14

703.546875

Total

16

938.000000

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

CM

Fc

Ft

P>F

Sig.

0.132

50.253349

86

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


C.V. = 7.8766 %

Solucionario con el paquete del SAS


data problema;
input p$ y@@;
datalines;
p1
90
p2
p1
82
p2
p1
79
p2
p1
98
p2
p1
83
p2
p1
91
p2
p2
86
proc print;
proc anova;
class p;
model y=p;
means p/tukey;
run;

105
89
93
104
89
95

p3
p3
p3
p3

83
89
80
94

Resultados con el paquete del SAS

Source
Model
Error
Corrected Total

Source
p

The SAS System


Obs
p
y
1
p1
90
2
p2
105
3
p3
83
4
p1
82
5
p2
89
6
p3
89
7
p1
79
8
p2
93
9
p3
80
10
p1
98
11
p2
104
12
p3
94
13
p1
83
14
p2
89
15
p1
91
16
p2
95
17
p2
86
The SAS System
The ANOVA Procedure
Class Level Information
Class
Levels
Values
p
3
p1 p2 p3
Number of observations
17
The SAS System
The ANOVA Procedure
Dependent Variable: y
Sum of
DF
Squares
Mean Square F Value
2
234.4523810
117.2261905
2.33
14
703.5476190
50.2534014
16
938.0000000
R-Square
Coeff Var
Root MSE
y Mean
0.249949
7.876626
7.088963
90.00000
DF
Anova SS
Mean Square F Value
2
234.4523810
117.2261905
2.33

Pr > F
0.1335

Pr>F
0.1335

Tukey's Studentized Range (HSD) Test for y


NOTE: This test controls the Type I experimentwise error rate.
Alpha
0.05
Error Degrees of Freedom
14
Error Mean Square
50.2534

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

87

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Critical Value of Studentized Range

3.70139

Comparisons significant at the 0.05 level are indicated by ***.


Difference
Simultaneous
p
Between
95% Confidence
Comparison
Means
Limits
p2 - p1
7.262
-3.060 17.584
p2 - p3
7.929
-3.701 19.558
p1 - p2
-7.262
-17.584
3.060
p1 - p3
0.667
-11.310 12.643
p3 - p2
-7.929
-19.558
3.701
p3 - p1
-0.667
-12.643 11.310

Ejemplo 02. Se realizan tres pruebas de la resistencia a la compresin en seis muestras de concreto. La
fuerza que fractura cada muestra de forma cilndrica, medida en kilogramos, est dada en la siguiente
tabla:
Muestra
Prueba 1
Prueba 2
Prueba 3

A
110
105
145

B
125
130
136

C
98
107
142

D
95
92
148

E
104
96
129

F
115
121
130

Prubese con un nivel de significancia de 0.05 si estas muestras difieren en su resistencia a la


compresin.
Cuadro 4.2. Resultado de Anlisis de variancia de prueba de laboratorio
F. de V.
GL
Tratamientos
2
Error
15
Total
17
C.V. = 9.771273 %

SC
3641.444444
2001.666667
5643.111111

data flores;
input D$ R@@;
datalines;
d1
110
d2
105
d3
d1
125
d2
130
d3
d1
98
d2
107
d3
d1
95
d2
92
d3
d1
104
d2
96
d3
d1
115
d2
121
d3
proc print;
proc anova;
class D;
model R=D;
means D/tukey alpha=0.05;
run;

CM
1820.722222
133.444444

Fc
13.64

Ft

P>F
0.0004

Sig.
**

145
136
142
148
129
130

Resultados con el paquete del SAS


The SAS System
Obs
D
R
1
d1
110
2
d2
105
3
d3
145

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

88

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

d1
d2
d3
d1
d2
d3
d1
d2
d3
d1
d2
d3
d1
d2
d3

125
130
136
98
107
142
95
92
148
104
96
129
115
121
130

The ANOVA Procedure


Class Level Information
Class
Levels
Values
D
3
d1 d2 d3
Number of observations
18
The ANOVA Procedure
Dependent Variable: R
Source
Model
Error
Corrected Total

Sum of
Squares
Mean Square
F
3641.444444
1820.722222
2001.666667
133.444444
5643.111111
Coeff Var
Root MSE
R Mean
9.771273
11.55182
118.2222
DF
Anova SS
Mean Square
F
2
3641.444444
1820.722222
DF
2
15
17

R-Square
0.645290
Source
D

Value
13.64

Pr > F
0.0004

Value
13.64

Pr > F
0.0004

Tukey's Studentized Range (HSD) Test for R


NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher
Type II
error rate than REGWQ.
Alpha
0.05
Error Degrees of Freedom
15
Error Mean Square
133.4444
Critical Value of Studentized Range 3.67338
Minimum Significant Difference
17.324
Means with the same letter are not significantly different.
Tukey Grouping
Mean
N
D
A
138.333
6
d3
B
108.500
6
d2
B
107.833
6
d1

PROGRAMAS DIVERSOS DEL DISEO COMPLETO AL AZAR


data Eduardo;
input x$ y@@;
datalines;
d1
d1
d1
d1
d1
d1
proc print;
proc anova;
class x;
model y=x;
means x/tukey;
run;

175
200
225
150
125
125

d2
d2
d2
d2
d2
d2

75
75
100
75
75
50

d3
d3
d3
d3
d3
d3

75
50
75
75
50
75

data eduardo;
input x$ y@@;
datalines;

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

89

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin


V1
V1
V1
V1
V1
V1
V1
V1
V1
V1
proc print;
proc anova;
class x;
model y=x;
means x/tukey;
run;

225
225
250
250
200
150
200
150
150
200

V2
V2
V2
V2
V2
V2
V2
V2
V2
V2

125
150
150
150
150
75
125
100
100
125

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


V3
V3
V3
V3
V3
V3
V3

DATA CEBADA;
DO TRAT='A', 'B' ,'C' ,'D';
DO REP=1 TO 5;
INPUT DATO @@;
OUTPUT;
END;
END;
CARDS;
730
730
730
740
740
740
680
690
690
710
710
720
;
PROC ANOVA;
CLASS TRAT;
MODEL DATO=TRAT;
MEANS TRAT/DUNCAN ALPHA=0.05;
RUN;

125
125
175
125
175
150
150

750
740
690
720

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

750
750
700
730

90

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

CAPITULO V DISEO EN BLOQUE COMPLETO AL AZAR (DBCA)


5.1. Definicin
Se llama tambin experimento con dos criterios de clasificacin, porque tiene dos fuentes de variacin;
estas son tratamientos y bloques: este diseo es un modelo estadstico en el que:
1. Se distribuyen las unidades experimentales en grupos o bloques, de tal manera que las unidades
experimentales dentro de un bloque sean homogneas, pero entre grupos haya heterogeneidad y que en
el nmero de unidades experimentales dentro de un bloque sea igual al nmero de tratamientos por
investigar.
2. Lo tratamientos son designados al azar a las unidades experimentales dentro de cada bloque.

5.2. Caractersticas:
1. Las unidades experimentales son heterogneas.
2. Las unidades homogneas estn agrupadas formando los bloques.
3. En cada bloque se tiene un nmero de unidades igual al numero de Tratamientos (bloques completos)
4. Los tratamientos estn distribuidos al azar en cada bloque.
5. El nmero de repeticiones es igual al nmero de bloques.

5.3. Modelo estadstico lineal


En este diseo el valor de cada unidad experimental Yij se explica segn el siguiente modelo estadstico
lineal:
Yij= + i + j + ij
i = 1, 2, 3, , t = nmero de tratamientos
j = 1, 2, 3, , r = nmero de bloques
donde:
Yij = Unidad experimental que recibe el tratamiento i y est en el bloque j
= el verdadero efecto medio
j = el verdadero efecto del j-simo bloque
i = el verdadero efecto del i-simo tratamiento
ij = error experimental

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

91

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


Tabla 5.1

.Representacin simblica de los datos en un diseo en Bloque Completo Al Azar con t tratamientos y
r repeticiones
Tratamientos

Repeticiones

i= 1, , t

Y11

Y12

Y1j

Y21

Y22

Yi1

t
Total

j = 1, 2, 3, , r
r

Total

Media

Y1r

Y1.

Y2j

Y2r

Y2.

Yi2

Yij

Yir

Yi.

Yt1

Yt2

Ytj

Ytr

Yt .

Yt.

Y.t

Y.3

Y.r

Y..

Media

Y.j

Tabla 5.2
Anlisis de Varianza generalizado para un Diseo en Bloque Completo Aleatorio
Grados
Fuentes de

de

Suma de

Cuadrados

E ( CM )

Variacion

Libertad

Cuadrados

Medios

Modelo I

Modelo II
+

Bloques

( r- 1)

..

( 1)

+t

+
Tratamiento
s

Error

(t-1)

..

( 1)

( 1)( 1)

(r-1)(t-1)

..

Total

(rt 1)

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

92

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Ejemplo 01.- Se dise un experimento para estudiar el rendimiento de cuatro (04) detergentes
diferentes. Las siguientes lecturas de blancura se obtuvieron con un equipo especialmente diseada
para 12 cargas de lavado distribuidas en tres (03) modelos de lavadoras:
Detergente

Lavadora 1

Lavadora 2

Lavadora 3

Detergente A

45

43

51

Detergente B

47

46

52

Detergente C

48

50

55

Detergente D

42

32

49

Considerando los detergentes como tratamientos y las lavadoras como bloques, efectuar el anlisis de
variancia y su prueba con un nivel de significacin de 0.01 si existen diferencias entre los detergentes o
entre las lavadoras. Adems, efectuar la prueba de Rango Mltiple de Duncan a la probabilidad de 0.01.

data experimento;
input lavadoras detergent rendto;
cards;
1
1
45
1
2
47
1
3
48
1
4
42
2
1
43
2
2
46
2
3
50
2
4
37
3
1
51
3
2
52
3
3
55
3
4
49
proc print;
proc anova;
class lavadoras detergent;
model rendto= lavadoras detergent;
means detergent/Duncan alpha=0.01;
run;

RESULTADO DE SAS
Obs
1
2
3
4
5
6
7

lavadoras
1
1
1
1
2
2
2

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

detergent
1
2
3
4
1
2
3

rendto
45
47
48
42
43
46
50
93

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


8
9
10
11
12

2
3
3
3
3

4
1
2
3
4

37
51
52
55
49

The ANOVA Procedure


Class Level Information
Class
Levels
Values
lavadoras
3
1 2 3
detergent
4
1 2 3 4
Number of observations
12
Dependent Variable: rendto
Sum of
Source
DF
Squares
Mean Square F Value Pr > F
Model
5
246.0833333
49.2166667
15.68
0.0022
Error
6
18.8333333
3.1388889
Corrected Total 11
264.9166667
R-Square
Coeff Var
Root MSE
rendto Mean
0.928908
3.762883
1.771691
47.08333
Source
DF
Anova SS
Mean Square
F Value
Pr > F
lavadoras
2
135.1666667
67.5833333
21.53
0.0018
detergent
3
110.9166667
36.9722222
11.78
0.0063
Duncan's Multiple Range Test for rendto
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error
rate.
Alpha
0.01
Error Degrees of Freedom
6
Error Mean Square
3.138889
Number of Means
2
3
4
Critical Range
5.363 5.564
5.676
Means with the same letter are not significantly different.
Duncan Grouping
A
A
B
A
B

Mean
51.000
48.333
46.333
42.667

N
3
3
3
3

detergent
3
2
1
4

PROGRAMAS VARIOS DE DISEO BLOQUE COMPLETO AL AZAR


DATA PAPA;
INPUT TRAT $ REP Y;
R=(1000/20)*Y;
CARDS;
A
A
A
A
B
B
B
B
C
C
C
C

1
2
3
4
1
2
3
4
1
2
3
4

10
9
11
10
12
11
12
13
15
15
16
15

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

94

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

D
1
11
D
2
10
D
3
10
D
4
11
;
PROC PRINT;
PROC ANOVA;
CLASS TRAT REP;
MODEL Y=TRAT REP;
MEANS TRAT REP;
DATA PAPA2;
SET PAPA;
IF TRAT='A' THEN N=0; /*SENTENCIAS QUE
*/
ELSE IF TRAT='B' THEN N=50; /* RECODIFICAN A */
ELSE IF TRAT='C' THEN N=100; /*TRATAMIENTOS PARA */
ELSE IF TRAT='D' THEN N=150; /*EFECTUAR LA REGRESION */
GLM;
CLASSES TRAT REP;
MODEL R=REP N N*N N*N*N;
RUN;
PROC GLM;
MODEL R=N N*N/P;
RUN;

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

95

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

CAPITULO VI DISEO DE CUADRADO LATINO (DCL)


El agrupamiento de las unidades experimentales en dos direcciones (filas y columnas) y la Asignacin
de los tratamientos al azar en las unidades, de tal forma que en cada fila y en cada columna se
encuentren todos los tratamientos constituye un diseo cuadrado latino.
Este diseo es una extensin del Diseo Bloque Completo al Azar y se utiliza cuando las unidades
experimentales, a las cuales se van a aplicar los tratamientos pueden agruparse de acuerdo a dos fuentes
de variabilidad llamadas bloque (hileras) y columnas respectivamente, tambin se le conoce con el
nombre de doble bloqueo.
En la experimentacin agrcola es posible emplear este diseo principalmente cuando se quiere eliminar
el efecto de la variabilidad debido a doble pendiente del terreno. Este diseo se caracteriza que el
nmero de bloques sea igual al nmero de tratamientos, esto es r0c0t y el numero total de unidades
experimentales en el experimento debe ser igual a r2
Este diseo se recomienda cuando el nmero de tratamientos vara entre 3 y 10. Adems se puede
emplear siempre que haya homogeneidad dentro de bloques y dentro de columnas, pero alta
heterogeneidad entre bloques entre columnas.

6.1 Caractersticas:
1. Las U.E. se distribuyen en grupos , bajo dos criterios de homogeneidad dentro de la fila y dentro de la
columna y heterogeneidad en otra forma.
2. En cada fila y en cada columna, el nmero de unidades es igual al nmero de tratamientos.
3. Los tratamientos son asignados al azar en las unidades experimentales dentro de cada fila y dentro de
cada columna.
4. El nmero de filas = nmero de columnas = nmero de tratamientos.
5. Los anlisis estadsticos T-student, Duncan, Tuckey y en pruebas de contraste se procede como el
diseo completo al azar y el diseo de bloques. La desviacin estandar de la diferencia de promedios y
la desviacin estandar del promedio, estn en funcin del cuadrado medio del error experimental.
El nombre de cuadrado Latino se debe a R.A. Fisher [The Arrangement of Field Experiments, J.
Ministry Agric., 33: 503-513 (1926)]. Las primeras Aplicaciones fueron en el campo agronmico,
especialmente en los casos de suelos con tendencias en fertilidad en dos direcciones.
Formacin de cuadrados latinos
Suponga 4 tratamientos A,B,C y D, con estos tratamientos se pueden formar 4 cuadros diferentes
llamadas tpicas o estandar (en la primera fila y en la primera columna se tiene la misma distribucin).
Este diseo presenta las siguientes caractersticas:
La disposicin de las variantes del experimento sobre el terreno se hace en dos direcciones
perpendiculares recprocas y esto es lo que lo diferencia del bloque al azar.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

96

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

En este las variantes se agrupan adems de bloques en columnas lo que es un nuevo elemento en ste
diseo.
Se puede utilizar en experimentos agrotcnicos, as como de seleccin de variedades, pero no es
recomendable en experimentos donde se utilice la mecanizacin.
Elimina la variabilidad de la fertilidad del suelo en dos direcciones.
En este diseo el nmero de filas y columnas y de tratamientos son iguales.
Presenta la dificultad de que el mismo no se puede estudiar un nmero grande de variante o tratamiento.

COLUMNAS
C2

C3

C4

H1

H2

H3

H4

HILERAS

C1

Ventajas
1. Disminuyen los efectos de dos fuentes de variabilidad de las unidades experimentales en los
promedios de los tratamientos y en el error experimental.
2. El anlisis de variancia es simple, aun cuando es ligeramente ms complicado que el DBCA.
3. En el caso de que se pierden todas las unidades experimentales de un mismo tratamiento, el
resto de tratamientos siguen ajustados a las caractersticas del cuadrado latino. Si se pierde
ntegramente un bloque o columna, el diseo queda ajustado al DBCA.
4. Cuando los bloques y las columnas estn relacionados con variaciones definidas de dos criterios
de clasificacin, ellos pueden ser considerados como tratamientos.
Desventajas
1. Como el nmero de tratamientos depende del nmero de bloques y columnas y por consiguiente
el nmero de unidades experimentales, esto le resta flexibilidad al diseo para su uso. Es por
esto que no es recomendable para mayor nmero de tratamientos.
2. A igualdad de numero de tratamientos y repeticiones, este diseo tiene menos grados de libertad
para el error experimental.
3. El error experimental tiende a incrementarse al aumentar el ancho de los bloques y el largo de
las columnas, como consecuencia principalmente del aumento del nmero de tratamientos.

6.2 Modelo estadstico Lineal


El resultado de una unidad experimental cualesquiera como se puede apreciar, est influenciado
Escriba aqu la ecuacin.por tres fuentes de variabilidad controlables: trataiemtos, filas y

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

97

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

columnas de modo que el modelo estadstico en la poblacin de unidades experimentales que


pudieron intervenir en el experimento; el valor de cada unidad experimental Yijk se aplica de
acuerdo al modelo:
=

i= 1,2,,t
j= 1,2,,t
k= 1,2,,t
Donde:
Yijk= Es la variable de respuesta de la unidad experimental
= media de la poblacin
= es el verdadero del i esimo tratamiento
Hj= es el verdadero efecto de la j-sima fila
Ck= Efecto de la k-esima columna
= error experimental

Ejemplo 01.- Aplicar el Diseo de cuadrado latino, para comparar tres mtodos de soldadura
(A, B y C), para conductores elctricos, con tres diferentes operadores y utilizando tres diversos
fundentes para soldar y el experimento es de dos repeticiones:
REPT I

OPE 1
OPE 2

OPE 3

REPT II

FUND 1

FUND 2

FUND 3

FUND 1

FUND 2

FUND 3

14

16.5

11

10

16.5

13

9.5

17

15

12

12

14

11

12

13.5

13.5

18

11.5

Analice como cuadrado latino a la probabilidad de 0.01 y efectuar la prueba de rango mltiple
de Duncan.

DATA CUADRADO;
INPUT REPET HILERA COLUM TRAT RDTO;
CARDS;

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

98

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

1
1
1
1
14.00
1
1
2
2
16.50
1
1
3
3
11.00
1
2
1
3
9.50
1
2
2
1
17.00
1
2
3
2
15.00
1
3
1
2
11.00
1
3
2
3
12.00
1
3
3
1
13.50
2
1
1
3
10.00
2
1
2
2
16.50
2
1
3
1
13.00
2
2
1
1
12.00
2
2
2
3
12.00
2
2
3
2
14.00
2
3
1
2
13.50
2
3
2
1
18.00
2
3
3
3
11.50
PROC PRINT;
PROC GLM;
CLASS REPET HILERA COLUM TRAT;
MODEL RDTO= REPET HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/DUNCAN;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;

RESULTADO DE SAS
DISEO DE CUADRADO LATINO
REPET
HILERA
COLUM
TRAT
RDTO
1
1
1
1
14.0
1
1
2
2
16.5
1
1
3
3
11.0
1
2
1
3
9.5
1
2
2
1
17.0
1
2
3
2
15.0
1
3
1
2
11.0
1
3
2
3
12.0
1
3
3
1
13.5
2
1
1
3
10.0
2
1
2
2
16.5
2
1
3
1
13.0
2
2
1
1
12.0
2
2
2
3
12.0
2
2
3
2
14.0
2
3
1
2
13.5
2
3
2
1
18.0
2
3
3
3
11.5
Class Level Information
Class
Levels
Values
REPET
2
1 2
HILERA
3
1 2 3
COLUM
3
1 2 3
TRAT
3
1 2 3
Number of observations
18
Dependent Variable: RDTO
Sum of
DF
Squares
Mean Square
F
7
90.7222222
12.9603175
10
13.7777778
1.3777778
17
104.5000000
R-Square
Coeff Var
Root MSE
RDTO Mean
0.868155
8.803408
1.173788
13.33333
DF
Type I SS
Mean Square
F
1
0.05555556
0.05555556
2
0.25000000
0.12500000
2
41.33333333
20.66666667
2
49.08333333
24.54166667
DF
Type III SS
Mean Square
F
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

Source
Model
Error
Corrected Total

Source
REPET
HILERA
COLUM
TRAT
Source

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Value
9.41

Pr > F
0.0010

Value
0.04
0.09
15.00
17.81
Value

Pr > F
0.8449
0.9140
0.0010
0.0005
Pr > F

99

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

REPET
HILERA
COLUM
TRAT

1
0.05555556
0.05555556
0.04
0.8449
2
0.25000000
0.12500000
0.09
0.9140
2
41.33333333
20.66666667
15.00
0.0010
2
49.08333333
24.54166667
17.81
0.0005
Duncan's Multiple Range Test for RDTO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
Alpha
0.05
Error Degrees of Freedom
10
Error Mean Square
1.377778
Number of Means
2
3
Critical Range
1.510
1.578
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
HILERA
A
13.5000
6
1
A
13.2500
6
2
A
13.2500
6
3
Duncan's Multiple Range Test for RDTO
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error
Alpha
0.05
Error Degrees of Freedom
10
Error Mean Square
1.377778
Number of Means
2
3
Critical Range
1.510
1.578
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
COLUM
A
15.3333
6
2
B
13.0000
6
3
B
11.6667
6
1
Duncan's Multiple Range Test for RDTO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
Alpha
0.05
Error Degrees of Freedom
10
Error Mean Square
1.377778
Number of Means
2
3
Critical Range
1.510
1.578
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
TRAT
A
14.5833
6
1
A
14.4167
6
2
B
11.0000
6
3

PROGRAMAS VARIOS DEL DISEO DE CUADRADO LATINO


DATA CUADRADO;
INPUT HILERA COLUM TRAT RDTO;
CARDS;
1 1 6
1626
1 2 5
1639
1 3 2
1617
1 4 1
1062
1 5 4
1501
1 6 3
1827
2 1 4
1816
2 2 1
1103
2 3 6
1926
2 4 5
1992
2 5 3
1682
2 6 2
1498
3 1 3
1913
3 2 4
2134
3 3 5
1881
3 4 6
1797
3 5 2
1701
3 6 1
824
4 1 2
1933
4 2 6
1995

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola


100

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin


4
4
4
4
5
5
5
5
5
5
6
6
6
6
6
6

3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6

4
3
1
5
1
2
3
4
5
6
5
3
1
2
6
4

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2011
1886
812
1596
1262
2143
2242
2229
2066
1898
1624
1885
1089
1879
1343
1245

PROC PRINT;
PROC GLM;
CLASS HILERA COLUM TRAT;
MODEL RDTO= HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/DUNCAN;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;

DATA EXAMEN;
INPUT REPET$HILERA$ COLUM$ TRAT$ RDTO @@;
DATALINES
;
I
H1 C1 A
16.00
I
H1 C2 B
17.50
I
H1 C3 C
14.00
I
H1 C4 D
14.00
I
H2 C1 D
19.00
I
H2 C2 A
17.00
I
H2 C3 B
18.00
I
H2 C4 C
14.10
I
H3 C1 C
12.00
I
H3 C2 D
18.00
I
H3 C3 A
16.00
I
H3 C4 B
19.00
I
H4 C1 B
20.00
I
H4 C2 C
15.00
I
H4 C3 D
13.00
I
H4 C4 A
22.00
PROC PRINT;
PROC ANOVA;
CLASS HILERA COLUM TRAT;
MODEL RDTO= HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/TUKEY ALPHA=0.05;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola


101

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

DO FILA = 1 TO 4;
DO COLUM = 1 TO 4;
INPUT VARIED $ RDTO;
OUTPUT;
END;
CARDS;
B2
D2
A6
C8
A7
C5
D7
D5
B4
C9
A 10
C6
A9
D5
B5
;
PROC PRINT; RUN;
PROC GLM;
CLASS FILA COLUM VARIED;
MODEL RDTO=FILA COLUM VARIED;
MEANS FILA COLUM VARIED/DUNCA; RUN;

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola


102

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

CAPITULO VII EXPERIMENTOS FACTORIALES


7.1 Introduccin
Un experimento factorial es un experimento cuyo diseo consta de dos o ms factores, cada
uno de los cuales con distintos valores o "niveles", y cuyas unidades experimentales cubren
todas las posibles combinaciones de esos niveles en todo los factores. Este tipo de
experimentos permiten el estudio del efecto de cada factor sobre la variable respuesta, as como
el efecto de las interacciones entre factores sobre la dicha variable.
Por lo tanto, se puede definir a los experimentos factoriales como aquellos en los que se
comparan o estudian simultneamente dos o ms factores principales, incluyendo los diferentes
niveles o modalidades de cada uno.
El Anova en experimentos factoriales constituye una tcnica estadstica para analizar el efecto
de dos ms variables independientes (factores) sobre una variable respuesta. Hasta el
momento se ha estudiado el efecto de un factor sobre la variable respuesta, pero en muchas
situaciones prcticas es necesario investigar el efecto de varios factores. Como en estos
experimentos los tratamientos se forman combinando cada nivel de un factor con cada uno de
los niveles del otro (o de los otros, si hubiere ms de dos), este tipo de experimento permite
adems evaluar los efectos de las interacciones. Se dice que entre dos factores hay interaccin
si los efectos de un nivel de un factor dependen de los niveles del otro. Dicho con otras
palabras la respuesta de un factor es influenciada en forma diferenciada por los niveles del otro.
La existencia de interacciones indica que los efectos de los factores sobre la respuesta no son
aditivos y por tanto no pueden separarse los efectos de los factores.

7.2 Definiciones bsicos


a) Factorial. Un factorial se refiere a un arreglo especial de formar las combinaciones de
tratamientos, y no un tipo bsico de diseo.
El principio de factorial involucra investigacin de dos o mas factores simultneamente. Se
debe tener en cuenta que los factoriales no son diseos experimentales, sino un arreglo de
tratamientos, los que se prueban en casi todos los diseos: Completamente al Azar, bloques
completo al azar, cuadrado latino, entre otros.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola


103

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

b) Factor. Es un tipo particular de tratamiento, que vara segn el deseo del investigador. Son
factores por ejemplo, la temperatura, el nitrgeno, el peso, la densidad, las concentraciones
qumicas, variedad de semilla, etc.
c) Factores cualitativos, Son aquellos en los cuales los niveles definen o expresan una
modalidad particular de las caractersticas del factor; cada nivel tiene un inters intrnseco o
independiente de los otros niveles. Estos factores responden a las caractersticas de las
variables cualitativas. Ejemplo :
d) Factores cuantitativos: Son aquellos cuyos valores corresponden a cantidades numricas,
es decir valores inherentes a una variable cuantitativa.
Ej: Supongamos que en una experiencia se prueba fertilizar con diferentes dosis de Nitrgeno
N: 0-10-20-30 Kg/ha.
e) Niveles. Son los varios valores que se asignan al factor en estudio. ejemplos:
Niveles del factor temperatura: 0 oC, 50oC, 100C, 150C, etc.
Niveles de nitrgeno: 40, 80, 120, 160 Kg/ha.
f) Respuesta. Es el resultado de una unidad experimental. As, el rendimiento de maz, altura
de planta. Generalmente se miden muchas variables en el mismo experimento.
g) Efecto. Es la medida de cambio en la respuesta, producido por el cambio en el nivel del
factor. As, cuando el factor que se estudia tiene dos niveles, el efecto es la diferencia entre
el promedio de las respuestas de todas las unidades con el primer nivel del factor y el
promedio de las respuestas de las que llevan el segundo nivel del mismo factor. Cuando se
estudian mas de dos niveles, las diferencias entre promedios de respuesta pueden ser
expresadas de varias maneras, esto es, efecto lineal, efecto cuadrtico, efecto cubico, etc.
h) Notacin. Se usa para reconocer factores y niveles; As:
Cuando se tiene dos niveles de factor A y dos niveles de factor B, se tendr el factorial 2n,
donde n = numero de factores tomados a dos niveles, es decir 2x2 2 2.
Cuando se tiene dos factores con tres nivelescada uno, se denotara: 3n, donde n = a los
factores tomados a tres niveles, es decir 32 3x3.
Los factores que se usan en el experimento se denotan con letras maysculas; as: A, B y C.
Los niveles se denotaran con letras minsculas y subscritos: N: no, n1, n2, A: ao, a1, a2.
La combinacin de los tratamientos esta dada por el producto de los niveles; as: ao no, a1 no,
etc.
i) Interaccin. Ostle (1974), define a la interaccin, como la respuesta diferencia a un factor
en combinacin con niveles variables de un segundo factor aplicado simultneamente. Es

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola


104

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

decir, la interaccin es un efecto adicional debido a la influencia combinada de dos o mas


factores.
7.3 Factorial 2n
El factorial 22 es igual a 2 n, donde n es el numero de factores, en este caso 2, tomados a dos
niveles. En un diseo completamente al azar, que involucra t tratamientos y n unidades
experimentales.
7.4 Modelo aditivo Lineal
=

+(

) +

i = 1,2,, a; j=1,2,,b ; k = 1,2, ,n


donde:
= efecto verdadero medio
= Efecto verdadero del i-esimo nivel del factor A
= efecto verdadero del j-esimo nivel del factor B
(

) = efecto de la interaccin del i-esimo nivel del factor A con el j-esimo nivel del factor B
= error experimental

Esquema del Diseo Experimental


TABLA 5.1Representacin simblica de un experimento factorial; dos factores a y b niveles de cada factores a y b niveles de cada factor
en un diseo completamente aleatorizado
FACTOR A
1
Factor B:

2
...

.
.
.

Total AB:
Promedio:

11.

12.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

1b.

21.

22.

2b.

a1.

a2.

.
.
.

ab.

Total A:
Promedio:

1..

2..

a..

.1.

.2.

.b.

Total B:
Promedio:
Total
General

Prom:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola


105

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

F. de V.

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

GL

SC

Tratamiento (t-1)

Y ij .2


I 1

j1

(a-1)

Y i .2.

I 1

(a-1)(b-1)

Y . . 2.
abn

SCtrat-(SCA+SCB)

ab(n-1)

Y
i 1

Total

Y . .2.
abn

Y . 2j .

j1

Error

(b-1)

A*B

Y . . 2.
abn

CM

(abn-1)

2
ijk

j 1 k 1

b
j1

I 1 j 1


i1

Y i j2k

k 1

2
ij .

Fc

SCtratam
(t 1)

CM tratam
CM error

SC A
( a 1)

C M A
C M error

SC B
(b 1)

C M B
C M error

S C A xB
( a 1)(b 1)

C M
C M

Ft

Sig.

AxB
error

S C err or
a b ( n 1)

Y . . 2.
abn

Factorial 23
Cuando el factorial de tres factores esta asociado a un diseo completamente al azar que implica n
unidades experimentales por combinacin de tratamientos, el modelo estadstico es:

Yijkl a i j k (a ) ij (a ) ik ( ) jk (a ) ijkl ijkl


F. de V.
Tratamiento

G.L.
(t-1)

SC
a

Y
i 1

j 1 k 1

(a-1)

2
i ...

y2
....
abcn

y . 2. . .
a b c n

b c n
b
2
. j ..

Y
j 1

a cn
C

2
ijk .

i 1

CM

(c-1)

2
....

y
ab cn

Y . .2k

k 1

abn

y .2. . .

abcn

SCtratam.
(t 1)
SC ( A)
( a 1)

Fc

Ft

Sig.

CMtratam
CM error
C M
C M

( A )
error

SC( B )

CM ( B )

(b 1)

CM error

SC( C )

CM

(c 1)

CM

(C )
er r o r

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola


106

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin


AxB

(a-1)(b-1)

i 1

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


Y i j2. .

j 1

cn

AxC

(a-1)(c1)

S C ( A xB )
y .2. . .

abcn

c
2
i . k ..

Y
i 1 k 1

bn
BxC

(b-1)(c1)

2
....

y
abcn

2
ij ..

j 1 k 1

an
AxBxC

( a 1)( b 1)

2
....

y
a bcn

(a-1)(b1)(c-1)

SC ( AxBxC )

Error

abc(n-1)

SCtotal SCtratam.

Total

Abcn-1

ijkl

i 1 j 1 k 1

C M ( AxB )
CM

er ror

SC( AxC )

CM ( AxC )

(a 1)(c 1)

CM error

SC( BxC )

CM ( BxC )

(b 1)( c 1)

CM error

SC( AxBxC )

CM ( AxBxC )

( a 1)(b 1)(c 1)

CM error

SCtotal SCtratam.
abc n 1

y....2
abcn

SC( AxBxC) SCtratam SC( A) SC(B) SC(C) SC( AxB) SC( AxC) SC(BxC)

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola


107

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

TABLA 5.4.
Analisis de varianza generalizado del factorial de dos factores en un DBCA

Problema de aplicacin
Un bao qumico de cido sulfrico caliente se emplea para remover el oxido de la superficie de un metal
antes de ser niquelado, se requiere determinar qu factores adems de la concentracin del cido
sulfrico podra afectar a la conductividad elctrica del bao. Se cree que la concentracin de sal y la
temperatura del bao podran afectar la conductividad elctrica; por ello se planea un experimento que
determine los efectos individuales y conjuntos de estas tres variables ejercen sobre la conductividad
elctrica del bao. Con el fin de cubrir los niveles de concentraciones y las temperaturas comnmente
encontradas, se decide usar los siguientes niveles de los tres factores:
Factor
A. Concentracin de cido
(%)
B. Concentracin de sal (%)
C. Temperatura (oF)

Nivel
1
0

Nivel
2
6

Nivel
3
12

0
80

10
100

20

Nivel
4
18

Efectuar el anlisis de variancia y sus respectivos pruebas de rango mltiple.

DATA FACTORIAL;
INPUT REP A B C CE;
CARDS;
1
1
1
1
1
1
1
2
1
1
2
1
1
1
2
2
1
1
3
1
1
1
3
2
1
2
1
1
1
2
1
2
1
2
2
1
1
2
2
2
1
2
3
1
1
2
3
2
1
3
1
1
1
3
1
2
1
3
2
1
1
3
2
2
1
3
3
1
1
3
3
2
1
4
1
1
1
4
1
2
1
4
2
1
1
4
2
2
1
4
3
1
1
4
3
2
2
1
1
1
2
1
1
2
2
1
2
1
2
1
2
2

0.99
1.15
0.97
0.87
0.95
0.91
1.00
1.12
0.99
0.96
0.97
0.94
1.24
1.12
1.15
1.11
1.03
1.12
1.24
1.32
1.14
1.20
1.02
1.02
0.93
0.99
0.91
0.86

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

108

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2
1
3
1
0.86
2
1
3
2
0.85
2
2
1
1
1.17
2
2
1
2
1.13
2
2
2
1
1.04
2
2
2
2
0.98
2
2
3
1
0.95
2
2
3
2
0.99
2
3
1
1
1.22
2
3
1
2
1.15
2
3
2
1
0.95
2
3
2
2
0.95
2
3
3
1
1.01
2
3
3
2
0.96
2
4
1
1
1.20
2
4
1
2
1.24
2
4
2
1
1.10
2
4
2
2
1.19
2
4
3
1
1.01
2
4
3
2
1.00
PROC PRINT;
PROC ANOVA;
CLASS REP A B C;
MODEL CE= REP A B C A*B A*C B*C A*B*C;
MEANS A B C A*B A*C B*C A*B*C/DUNCAN;
RUN;

RESULTADO DE MULTIFACTORIAL
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

REP
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2

The SAS
A
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4
4
4
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

B
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2

C
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1

CE
0.99
1.15
0.97
0.87
0.95
0.91
1.00
1.12
0.99
0.96
0.97
0.94
1.24
1.12
1.15
1.11
1.03
1.12
1.24
1.32
1.14
1.20
1.02
1.02
0.93
0.99
0.91
0.86
0.86
0.85
1.17
1.13
1.04
0.98
0.95
0.99
1.22
1.15
0.95

109

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


40
41
42
43
44
45
46
47
48

2
3
2
2
0.95
2
3
3
1
1.01
2
3
3
2
0.96
2
4
1
1
1.20
2
4
1
2
1.24
2
4
2
1
1.10
2
4
2
2
1.19
2
4
3
1
1.01
2
4
3
2
1
The ANOVA Procedure
Class Level Information
Class
Levels
Values
REP
2
1 2
A
4
1 2 3 4
B
3
1 2 3
C
2
1 2
Number of observations
48
Dependent Variable: CE
Sum of
Squares
Mean Square
F Value
Pr > F
0.58765000
0.02448542
7.53
<.0001
0.07474792
0.00324991
0.66239792
R-Square
Coeff Var
Root MSE
CE Mean
0.887156
5.454221
0.057008
1.045208
Source
DF
Anova SS
Mean Square
F Value
Pr > F
REP
1
0.01650208
0.01650208
5.08
0.0341
A
3
0.27503958
0.09167986
28.21
<.0001
B
2
0.22621667
0.11310833
34.80
<.0001
C
1
0.00016875
0.00016875
0.05
0.8218
A*B
6
0.02881667
0.00480278
1.48
0.2297
A*C
3
0.00850625
0.00283542
0.87
0.4697
B*C
2
0.00420000
0.00210000
0.65
0.5333
A*B*C
6
0.02820000
0.00470000
1.45
0.2404
Duncan's Multiple Range Test for CE
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
rate.
Alpha
0.05
Error Degrees of Freedom
23
Error Mean Square
0.00325
Number of Means
2
3
4
Critical Range
.04814
.05056
.05211
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
A
A
1.14000
12
4
B
1.08417
12
3
C
1.02000
12
2
D
0.93667
12
1
Source
Model
Error
Corrected Total

DF
24
23
47

Duncan's Multiple Range Test for CE


NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
rate.
Alpha
0.05
Error Degrees of Freedom
23
Error Mean Square
0.00325
Number of Means
2
3
Critical Range
.04169
.04379
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
B
A
1.13813
16
1
B
1.02313
16
2
C
0.97438
16
3

Duncan's Multiple Range Test for CE


NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
rate.
Alpha
0.05
Error Degrees of Freedom
23
Error Mean Square
0.00325
Number of Means
2
Critical Range
.03404
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
C
A
1.04708
24
2
A
1.04333
24
1

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

110

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Level of
A
1
1
1
2
2
2
3
3
3
4
4
4

Level of
B
1
2
3
1
2
3
1
2
3
1
2
3

N
4
4
4
4
4
4
4
4
4
4
4
4

--------------CE------------Mean
Std Dev
1.01500000
0.09433981
0.90250000
0.04991660
0.89250000
0.04645787
1.10500000
0.07325754
0.99250000
0.03403430
0.96250000
0.02217356
1.18250000
0.05678908
1.04000000
0.10519823
1.03000000
0.06683313
1.25000000
0.05033223
1.15750000
0.04645787
1.01250000
0.00957427

Level of
A
1
1
2
2
3
3
4
4

Level of
C
1
2
1
2
1
2
1
2

N
6
6
6
6
6
6
6
6

--------------CE------------Mean
Std Dev
0.93500000
0.04636809
0.93833333
0.11565754
1.02000000
0.07949843
1.02000000
0.08318654
1.10000000
0.12000000
1.06833333
0.08886319
1.11833333
0.09347014
1.16166667
0.12624051

Level of
B
1
1
2
2
3
3
Level of
Level
A
B
1
1
1
1
1
2
1
2
1
3
1
3
2
1
2
1
2
2
2
2
2
3
2
3
3
1
3
1
3
2
3
2
3
3
3
3
4
1
4
1
4
2
4
2
4
3
4
3

Level of
C
1
2
1
2
1
2
of
Level
C
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2

N
8
8
8
8
8
8
of

-------------CE------------Mean
Std Dev
1.12375000
0.12816702
1.15250000
0.09617692
1.03125000
0.09062284
1.01500000
0.13490738
0.97500000
0.05606119
0.97375000
0.08034524
--------------CE------------N
Mean
Std Dev
2
0.96000000
0.04242641
2
1.07000000
0.11313708
2
0.94000000
0.04242641
2
0.86500000
0.00707107
2
0.90500000
0.06363961
2
0.88000000
0.04242641
2
1.08500000
0.12020815
2
1.12500000
0.00707107
2
1.01500000
0.03535534
2
0.97000000
0.01414214
2
0.96000000
0.01414214
2
0.96500000
0.03535534
2
1.23000000
0.01414214
2
1.13500000
0.02121320
2
1.05000000
0.14142136
2
1.03000000
0.11313708
2
1.02000000
0.01414214
2
1.04000000
0.11313708
2
1.22000000
0.02828427
2
1.28000000
0.05656854
2
1.12000000
0.02828427
2
1.19500000
0.00707107
2
1.01500000
0.00707107
2
1.01000000
0.01414214

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

111

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

CAPITULO VIII REGRESION Y CORRELACION


La diferencia entre correlacin y regresin debe ser identificada en orden a aplicar e interpretar
cualquiera de los mtodos. Estas distinciones son muy marcadas aunque ellos pueden parecer de pequea
importancia porque de la similitud del procedimiento de clculo. Un problema de regresin considera la
distribucin de frecuencia de una variable cuando otra permanece fija en cada uno de varios niveles. Un
problema de correlacin considera la variacin conjunta de dos mediciones, ninguna de los cuales es
restringida por el experimento.
La confiabilidad de una regresin es medida por el error estndar, el cual es la desviacin estndar de la
distribucin (asumida normal) de los residuos alrededor de la lnea de regresin (Figura 10.1 muestra la
distribucin de los residuos). Este error estndar es tambin llamado como el error estndar de regresin
y como la desviacin estndar de la regresin.

Figura 10.1: Distribucin Normal de puntos ploteados respecto a la lnea de regresin.


Nuestra primera preocupacin debe ser formular bien el problema a investigar, una vez formulado el
problema correctamente podemos elegir el mtodo ms apropiado para resolverlo, una respuesta
apropiada puede no ser exacta, como es el caso del resultado de pruebas estadsticas.
En la tabla 10.1 podemos apreciar los mtodos estadsticos ms utilizados de acuerdo a la escala de las
variables; las variables se pueden dividir en dos grupos: a) variable dependiente, y b) variables
independientes.
Tabla 10.1: mtodos estadsticos utilizados de acuerdo a la escala de las variables.
Escala de las variables
dependientes

Escala de las variables


independientes

Mtodo estadstico

Intervalar

Intervalar

Regresin, mltiple en el caso de ms de


una variable independiente

Intervalar

Nominal u ordinal

Anlisis de la varianza (ANOVA)

Intervalar

Nominal e intervalar

Anlisis de la covarianza (ANCOVA)

Nominal (dicotmica)

Nominal e intervalar

Regresin logstica

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

112

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

8.1 Modelos de Regresin

Cuando iniciamos un problema de regresin con una variable dependiente el cual necesitamos para
predecir desde una o ms variables independientes. Las variables independientes son valores o
caractersticas las cuales se miran o son relacionadas fsicamente a la variable dependiente. Luego
necesitamos un modelo el cual describa la manera en el cual las variables independientes estn
relacionadas a la variable dependiente. El modelo deber estar de acuerdo con los principios fsicos
conocidos, pero su forma exacta puede ser fijada por los datos usados.
Usando una variable dependiente, Y, y variables independientes, X y Z, las ecuaciones y grficos de
algunos de los ms comunes modelos de regresin son mostrados en la figura 10.2. Relaciones
Conjuntas, aquellas en las cuales incluye una variable que es producto de otras dos variables. El producto
de dos variables es llamado un trmino de interaccin.

y 0 1 x

y 0 1 x 2 x 2

y 0 1 x 2 x 2 3 x 3

yy0011 xx2 2 zz

y 0 1 x 2 z 2 x z

Figura 10.2: Ecuaciones y graficas de los modelos de regresin ms comunes.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

113

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Note que a pesar que dos de los grficos en la figura 10.2 son curvadas, todas las ecuaciones de los
modelos son en forma lineal. Esta linealidad de la ecuacin del modelo es un requerimiento para la
solucin directa de mnimos cuadrados. La linealidad puede a veces ser lograda por transformacin de
variables.
Fluctuaciones en las variables medidas (dependiente) pueden ser a menudo ser atribuidas (en parte) a
otras variables (independiente). El ANOVA identifica probablemente las variables independientes. Los
mtodos de Regresin cuantifican la relacin entre las variables dependientes e independientes.

8.2 Obtencin de las Ecuaciones Normales

Teniendo el modelo lineal, para una n cantidad de pares (x,y)

y 0 1 x
La mejor lnea que ajuste estos puntos puede ser:

y 0 1 x
Donde

0, 1 son constantes, entonces i

i yi yi
El Problema es determinar

0, 1 de tal manera que los errores i

sean mnimos

Debemos hacer que

sea mnimo, sin embargo, tal como ocurri en la definicin de la

i 1

desviacin estndar trabajaremos con los cuadrados de estos errores (o desviaciones)


2

y
i 1

y i y i ( 0 1 xi )
i 1

Derivando parcialmente respecto a

0, 1 , tenemos

2 yi ( 0 1 xi )(1) 0
i 1
n

2 yi ( 0 1 xi )( xi ) 0
i 1

Reordenando:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

114

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin


n

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

yi 0 n 1 x i )
i 1

i 1

x y
i

i 1

0 xi 1 xi2
i 1

i 1

Estas son las ecuaciones normales que nos da los valores de

0, 1 para la recta de mejor ajuste. Por el

mtodo de mnimos cuadrados. Se sigue el mismo procedimiento para encontrar las ecuaciones normales
para regresin curvilnea, y regresin lineal mltiple.

8.3 Regresin lineal Simple

Los clculos de una ecuacin de regresin usando el modelo

y 0 1 x es demostrado usando los

datos dados en la tabla 10.2. Esta tabla tambin muestra clculos de medias, productos cruz y cuadrados.
Los productos cruz individuales y cuadrados no requieren ser apuntados; la suma de productos cruz, o
cuadrados, pueden ser acumulados sobre un calculador de escritorio. Tales clculos son ordinariamente
chequeados por repeticin de la operacin. Los coeficientes 0 y 1 en la ecuacin de regresin, y el error
estndar de estimacin son calculados como se muestra abajo.
Ejemplo 1. Se tienen los datos de precipitacin y escorrenta anual de una cuenca, se desea conocer la
correlacin entre estas dos variables.

XY
X

X Y

N
X 2

XY N X Y
X NX
2

(1,801)(1,799)
18
1.325
2

1,801
189,291
18

192,042

Coeficiente de regresin

0 Y 1X 99.94(1.325)(100.06) 32.6

Interseccin

Entonces

Y 0 1 X 32.6 1.32X
o
Y Y 1 ( X X ) 99 .94 (1 .325 )( X 100 .06 )
Y 32 .6 1 .32 X

Ecuacin de lnea de mnimos-cuadrados

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

115

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Tabla 11.2. Datos y clculo para el ejemplo de regresin de dos variables


Escorrenta 1
Precipitacion2
(Y)
(X)
XY
X2
1928
125
110
13750
12100
1929
67
73
4891
5329
1930
68
74
5032
5476
1931
71
91
6461
8281
1932
118
108
12744
11664
1933
144
130
18720
16900
1934
169
152
25688
23104
1935
138
134
18492
17956
1936
102
98
9996
9604
1937
91
90
8190
8100
1938
125
119
14875
14161
1939
87
77
6699
5929
1940
84
100
8400
10000
1941
58
84
4872
7056
1942
79
85
6715
7225
1943
124
115
14260
13225
1944
62
70
4340
4900
1945
87
91
7917
8281
Suma
1799.0
1801.0
192042.0
189291.0
Media
99.944
100.056
1 Escorrenta Anual como porcentaje de la media (Ro Oriental)
2 Precipitacin Anual como porcentaje de la media (en laguna Saytococha)
AO

s x2

X2

18012

189291

N 1

18

17

sx2 534.76

Variancia de X.

Y
Y N

s 2y

N 1

197373

18

Variancia de Y.

N 1 2
17
s y b 2 s x2
1033 .71 (1.325) 2 (534 .76) 100 .8
N 2
16

s yx 10.0
r

17992

17

s y2 1033.71
s y x

Y2
15625
4489
4624
5041
13924
20736
28561
19044
10404
8281
15625
7569
7056
3364
6241
15376
3844
7569
197373.0

1 s x
sy

Error estndar del estimado de Y

(1.325)

23.13
0.95
32.15

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

Coeficiente de correlacin

116

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Escorrentia Anual rio Oriental, % de la media

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

175

150

125

100

75

50
70

80
90
100
110
120
130
140
150
Precipitacion Anual, Laguna Saytococha, % de la media

160

Figura 10.3: Ploteo de datos de la tabla 10.2 mostrando lnea de regresin calculada.

El coeficiente de regresin puede ser probada por significancia como sigue:

sb2

s y2. x

(x

100 .8
0 .011
189291 (1801) 2 / 18

Probando la hiptesis que = 0,

t n 2

De la tabla de t,

sb

1.325 0
12.6
0.105

t16,0.01 2.92; por consiguiente

1 es significativamente diferente de cero. Los limites

de confianza al 99 % para son:


1.325 2.92 (0.105) < < 1.325 + 2.92(0.105)

1.02 < < 1.63

8.4 Uso de Libreras y Software


Considerar un problema con una variable aleatoria dependiente y y una variable independiente x
relacionada por un modelo de regresin.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

117

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Modelos de Regresin y clculos son mas fcilmente calculados con ayuda de software especializado en
estadstica o libreras de software general.

Ejemplo 2 Modelo de Regresin de Absorcin de Suelo (Uso de R)


Un experimento de laboratorio proporciona mediciones de solucin orgnica Y adsorbidas sobre
partculas de suelo (en mg. de solvente absorbido/kg. de suelo) para diferentes concentraciones acuosas
X del solvente (en mg disueltos de solvente/litro de agua). Asumir que el modelo de regresin de
segundo grado, propuesto anteriormente es aplicable.
Suponer valores de x especificados (controlados) y los correspondientes valores de y son:

X
0.5
2.0
3.0
4.0
7.0

Y
0.413
2.1453
1.9466
3.0742
3.759

Una de las formas en R puede ser, es bastante rpido:


X <- c(0.5,2.0,3.0,4.0,7.0)
Y <- c(0.413,2.1453,1.9466,3.0742,3.759)
suelo <- data.frame(X,Y)
ajustesuelo <- lm(Y ~ 1 + X + I(X^2),data=suelo)
print(ajustesuelo)
Dando los resultados de esta manera:
Call:
lm(formula = Y ~ 1 + X + I(X^2), data = suelo)
Coefficients:
(Intercept)
0.03707

X
0.98011

I(X^2)
-0.06414

As la ecuacin de prediccin es:

y ( x ) 0.0370729

+ 0.980111 x - 0.641417 x 2

Graficando esta ecuacin sobre los ejes, tal como fueron medidos.
plot(X, Y,pch=20,main="Relacion Absorcion del
Suelo",xlab="X",ylab="Y")
lines(X,ajustesuelo$fit,col="red",lwd=2)

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

118

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

2.0
0.5

1.0

1.5

2.5

3.0

3.5

Relacion Absorcion del Suelo

Otra manera que da resultados ms completos es utilizando los comandos


summary(ajustesuelo)
anova(ajustesuelo)

8.5 Regresin Lineal Mltiple

El modelo lineal, tiene la forma siguiente:

Y 1X

.........

Donde:

Y = es la variable dependiente

X 1 , X 2 ,......... X p = son las variables independientes.

1 , 2 ,......... p =son los parmetros desconocidos.


Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

119

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

A continuacin tenemos algunos modelos no lineales:

Y 1
Y 1

X 3e ( 4X

Y 1 2X

3X

2
3

Generalizando la n ecuaciones para el modelo serian:

Y1 1 X

1 .1

Y2 1X

2 .1

Yn 1X

n .1

......

2 .2

......

n .2

......

1 .2

1.p

2. p

n.p

Donde:

Yi

=es la i esima observacin de Y.

ij = es la i esima observacin de la j esima variable independiente.


p

La ecuacin se puede generalizar Y i

jX

ij

1 para i=1, 2, 3,, n.

j 1

La notacin matricial es:

Y1 X 1,1 X 1, 2 ..................... X 1,P 1


Y X X ....................X
2,P
2 2,1 2, 2
2

X 3,1 X 3,2 ....................X 3,P 3


Y3


.

..


. .
.

.
. .


Y
n X n,1 X n, 2 ..................... X n,P n
Cuando el modelo se escribe en forma matricial, es fcil observar que la matriz de la variable
dependiente. Y Es de nx1, elementos.
La matriz de las variables independientes X tiene nxp en elementos y la matriz de los parmetros
desconocidos

, es de orden px1.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

120

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

El modelo discutido en el capitulo anterior Y a . X , viene a ser un caso especial del modelo de
regresin lineal mltiple con

1 .1

1, X

X ,1 a ,

1 .2

De acuerdo al procedimiento seguido en el capitulo VIII los parmetros


minimizando la suma del cuadrado de los errores

j pueden ser estimados

donde:

e i2

ei Yi Yi Yi ( j . X ij )
j 1

Notacin:

e =Matriz de errores.
Y=Matriz de la variable dependiente=

Yi

X =Matriz de la variable independiente=

Xi

=Matriz de los parmetros desconocidos= i


X

=inversa de X

X ' =Matriz transpuesta de X

e1 =inversa de e
Y

e' =Matriz transpuesta de

=inversa de Y

Entonces

2
i

Y ' =Matriz transpuesta de Y

( e ' )(

e )

Derivando esta expresin con respecto a

O 2.X ' (Y X.)

( Y

)'.(

e igualando a cero se tiene:

X 'Y X ' X .

Estas ecuaciones se conocen como las ecuaciones normales y la solucin se obtiene multiplicando por

( X' X)1
(X ' X )1 X 'Y (X ' X )1( X' X )

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

121

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Puede ser estimado por:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

( X ' X)1 X'Y

La matriz X 'Y juega un papel importante en la estimacin de y de la variancia

y est conformado

por la suma de cuadrados y productos de las variables independientes. Draper y Smith (1966)
demostraron que la suma de cuadrados total puede escribirse de la siguiente forma matricial:
2
(Y 'Y ) 1 nY 2 ( ' X 'Y nY ) (Y 'Y ' X 'Y )

Los tres componentes de la suma de cuadrados total son:


2

1)

nY

2)

2
Y 'Y ' X 'Y (Y X ) e' e ei2 (Yi Yi ) =suma de cuadrados residual.

3)

' X ' Y n.Y (Yi Yi ) =suma de cuadrados de la regresin.

= suma de cuadrados de la media.

El coeficiente de determinacin mltiple ( R2 ), se calcula de la siguiente relacin:

R2

2
suma .de.cuadrdos .de.la .regresion ( ' X 'Y n.Y )

2
suma .de.cuadrados .de.la .media
(Y ' Y nY )

El clculo de la suma de cuadrados se realiza en una tabla de anlisis de la variancia (ANVA). Un


cuadrado medio en el ANVA, es simplemente la suma de cuadrados dividido por su grado de libertad.
Por analoga con la regresin lineal simple, definimos:
Y X . El procedimiento para estimar los parmetros es haciendo E ( ) 0

Var( ) 2 S2 Donde:
S 2 ei2 /(n p) (Yi Yi )2 /(n p)

S2 (e'e) /(n p) (Y X B )'(Y XB) /(n p)


(Y ' Y B ' X ' Y )) /( n p )

Una expresin anlogo a la anterior para R2 es:

R2 1 (n p)S 2 /(n 1)S y2


ANVA PARA REGRESION MULTIPLE

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

122

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

FUENTE

GRADOS
LIBERTAD

DE SUMA
CUADRADOS

Media

Regresin

p-1

Residual

n-p

' X 'Y n.Y

Total

Y 'Y B ' X 'Y

n.Y

DE CUADRADO
MEDIO
ESPERADO

2
2

Y 'Y

Ejemplo 3: Cerezos Negros (Regresin Mltiple, Procesados en R)


Se desea construir un modelo de regresin para obtener el volumen de madera de un cerezo negro
en funcin de la altura del tronco y del dimetro del mismo a un metro sobre el suelo. Se ha tomado una
muestra de 31 rboles. Las unidades de longitudes son pies y de volumen pies cbicos.

Diametro
8.3
8.6
8.8
10.5
10.7
10.8
11
11
11.1
11.2
11.3
11.4
11.4
11.7
12
12.9

Altura
70
65
63
72
81
83
66
75
80
75
79
76
76
69
75
74

Volumen Diametro
Altura
Volumen
10.3
12.9
85
33.8
10.3
13.3
86
27.4
10.2
13.7
71
25.7
16.4
13.8
64
24.9
18.8
14
78
34.5
19.7
14.2
80
31.7
15.6
14.5
74
36.3
18.2
16
72
38.3
22.6
16.3
77
42.6
19.9
17.3
81
55.4
24.2
17.5
82
55.7
21
17.9
80
58.3
21.4
18
80
51.5
21.3
18
80
51
19.1
20.6
87
77
22.2

Algunos comandos en R, para realizar esta regresin son:

arbol <- read.csv("d:/practicas-R/arbol.csv")


summary(arbol)
#grafico matricial
pairs(arbol, main="Correlacion de las variables",pch=20,
col="blue")

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

123

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

#regresion lineal multiple de tres


ajustearbol <- lm(volumen ~ altura
print(summary(ajustearbol))
anova(ajustearbol)
opar <- par(mfrow = c(2, 2), oma =
mar = c(4.1, 4.1,

variables
+ diametro,data=arbol)

c(0, 0, 1.1, 0),


2.1, 1.1))

plot(ajustearbol, lwd=2)
Grfico matricial de correlacin de variables:
Correlacion de las variables
70

75

80

85

16

18

20

65

80

85

10

12

14

diametro

10 20 30 40 50 60 70

65

70

75

altura

volumen

10

12

14

16

18

20

10

20

30

40

50

60

70

Resultados del Primer modelo: cerezos negros

Volumen 0 1 Altura 2 Diametro Error


Call:
lm(formula = volumen ~ altura + diametro, data = arbol)
Residuals:
Min
1Q Median
-6.4065 -2.6493 -0.2876

3Q
2.2003

Max
8.4847

Coefficients:
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

124

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Estimate Std. Error t value Pr(>|t|)


(Intercept) -57.9877
8.6382 -6.713 2.75e-07 ***
altura
0.3393
0.1302
2.607
0.0145 *
diametro
4.7082
0.2643 17.816 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 3.882 on 28 degrees of freedom
Multiple R-squared: 0.948,
Adjusted R-squared: 0.9442
F-statistic:
255 on 2 and 28 DF, p-value: < 2.2e-16

Analysis of Variance Table


Response: volumen
Df Sum Sq Mean Sq F value
Pr(>F)
altura
1 2901.2 2901.2 192.53 4.503e-14 ***
diametro
1 4783.0 4783.0 317.41 < 2.2e-16 ***
Residuals 28 421.9
15.1
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Diagnosis

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

125

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping


lm(volumen ~ altura + diametro)
Normal Q-Q

Standardized residuals

5
0
-5

Residuals

31

31

Falta Linealidad
2

-1

10

Residuals vs Fitted

18
18

10

20

30

40

50

60

70

-2

Falta Homocedasticidad

Fitted values

Theoretical Quantiles

Residuals vs Leverage

Scale-Location
1.5

31

2
1
0

1.0

Cook's distance

-2

0.5

0.5
3

-1

Standardized residuals

31
18

0.0

Standardized residuals

-1

18
0.5

10

20

30

40

50

60

70

0.00

0.05

0.10

Fitted values

0.15

0.20

Leverage

Estos grficos controlan las bases de suposicin para el clsico modelo ANOVA normalmente
distribuido, independiente y de error constante.
La homocedasticidad (varianza del error es constante) es muy importante (i.e. error en el modelo es
constante e independiente de los niveles del factor). El QQplot comprueba la distribucin normal. Los
datos atipicos pueden ser detectados en el grafico de distancia de Cook.

lm(volumen ~ altura + diametro)


Cook's distance vs Leverage

18

1.5

31

0.4

2.5

0.2

0.4

Cook's distance

0.6

31

0.2

Cook's distance

0.6

Cook's distance

18

0.0

0.0

0.5

10

15

20

25

30

Obs. number

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

0
0

0.05

0.1

0.15

0.2

Leverage

126

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Transformacin

Volumen k Altura diametro 2


log Volumen 0 1 log Altura 2 log Diametro Error
Los comandos para este segundo modelo son:

#regresion lineal multiple log de tres variables


ajustearbolog <- lm(log(volumen) ~ log(altura) +
log(diametro),data=arbol)
print(summary(ajustearbolog))
anova(ajustearbolog)
opar <- par(mfrow = c(2, 2), oma = c(0, 0, 1.1, 0),
mar = c(4.1, 4.1, 2.1, 1.1))
plot(ajustearbolog, lwd=2)
Y algunos Resultados son:

Call:
lm(formula = log(volumen) ~ log(altura) + log(diametro), data =
arbol)
Residuals:
Min
1Q
-0.168561 -0.048488

Median
0.002431

3Q
0.063637

Max
0.129223

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
-6.63162
0.79979 -8.292 5.06e-09 ***
log(altura)
1.11712
0.20444
5.464 7.81e-06 ***
log(diametro) 1.98265
0.07501 26.432 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.08139 on 28 degrees of freedom
Multiple R-squared: 0.9777,
Adjusted R-squared: 0.9761
F-statistic: 613.2 on 2 and 28 DF, p-value: < 2.2e-16
Analysis of Variance Table
Response: log(volumen)
Df Sum Sq Mean Sq F value
Pr(>F)
log(altura)
1 3.4957 3.4957 527.76 < 2.2e-16 ***
log(diametro) 1 4.6275 4.6275 698.63 < 2.2e-16 ***

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

127

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Residuals
28 0.1855 0.0066
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Diagnosis (modelo transformado)

lm(log(volumen) ~ log(altura) + log(diametro))


Normal Q-Q

1
0
-1

Standardized residuals

-0.10

0.00

Residuals

0.10

Residuals vs Fitted

16

-0.20

3.0

3.5

4.0

16
18 15

-2

-1

Fitted values

Theoretical Quantiles

Scale-Location

Residuals vs Leverage

18

15

0.5
11

-1

17

-2

0.5

1.0

Standardized residuals

16

Standardized residuals

1.5

2.5

-2

18

15

0.5

0.0

18
Cook's distance

2.5

3.0

3.5

4.0

Fitted values

0.00

0.05

0.10

0.15

0.20

0.25

Leverage

Interpretacin

Se comprueba grficamente que la distribucin de los residuos es compatible con las hiptesis de
normalidad y homocedasticidad.
El volumen est muy relacionada con la altura y el dimetro del rbol (R2= 97.8%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuacin vol=k Alt Diam2

La varianza residual es 0.006623, es decir sR=0.081 que indica que el error relativo del modelo en la
prediccin del volumen es del 8.1%.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

128

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

BIBLIOGRAFIA
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.

15.
16.
17.
18.
19.

Alfaro, R. Apuntes del Curso de Estadstica y Probabilidades, FIA UNA PUNO, 2008.
Alvarado P., L.; Agurto M., H. (2009). Estadstica para Administracin y Economa con
Aplicaciones en Excel, Editorial San Marcos.
Anderson, M.J. and Whitcomb, P.J. (2000). DOE Simplified: Practical Tools for Effective
Experimentation. Portland, Oregon, USA, Productivity Inc.
Barton, R. (1999). Graphical Methods for the Design of Experiments. NY, USA, SpringerVerlag.
Benjamin, J. R. and C. A. Cornell, (2010), Probability, Statistics, and Decision for Civil
Engineers, 2ed., McGraw-Hill, New York.
Box, G.E.P., Hunter, W.G. and Hunter, J.S. (1978). Statistics for Experimenters. NY, John
Wiley.
CHOW VEN TE 1964, Handbook of Applied Hydrology. McGraw Hill Book Company New
York USA
Dean, A. and Voss, D.T. (1999). Design and Analysis of Experiments. USA, Springer Verlag.
G. HOEL PAUL 1976, Introduccin a la Estadstica Matemtica. Edit. ARIEL Barcelona.
Helsel, D. R. and R. M. Hirsch, (2002), Statistical Methods in Water Resources, U.S.
Geological Survey, Techniques of Water-Resources Investigations Book 4, Chapter A3.
HOLMAN, J. P. Mtodos Experimentales para Ingenieros. Mc GRAW-HILL, Cuarta Edicin.
Impreso en Mxico.
Kottegoda, N. T. and R. Rosso, (2008), Applied Statistics for Civil and Environmental
Engineers, Wiley-Blackwell Publishing, UK.
LITTLE, T. M. y HILLS, F. J. 1991. Mtodos Estadsticos para la Investigacin en la
Agricultura. Editorial Trillas. Impreso en Mxico.
Lochner, R.H. and Matar, J.E. (1990). Designing for Quality- An Introduction to the Best of
Taguchi and Western Methods of Experimental Design. London, UK, Chapman and Hall
Publishers.
MARTINEZ, G. A. Diseos Experimentales (Mtodos y Elementos de Teora). Editorial
Trilla. Primera Edicin. Impreso en Mxico.
Mejia Marcacuzco, A. (1991), Mtodos Estadsticos en Hidrologa, UNALM, Concytec, Lima
Peru.
Mendiburu Delgado, Felipe de; 2008. Anlisis Estadstico con R, Centro Internacional de la
Papa-Universidad Nacional Agraria, Lima http://tarwi.lamolina.edu.pe/~fmendiburu/
Montgomery, D.C. (2001). Design and Analysis of Experiments. USA, John Wiley and Sons.
Snedecor, G.W. and Cochran, WG. Statistical methods. Iowa State University Press, Ames,
Iowa, 7th edition, 1980.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

129

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

ANEXOS

PROBLEMAS APLICATIVOS CON R, MINITAB y EXCEL

TABLAS ESTADISTICAS

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

130

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Tabla 1: Distribucin Normal

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

131

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Tabla 2: distribucin t de Student

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

132

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Tabla 3: distribucin c2

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

133

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:
www.foxitsoftware.com/shopping

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfaro

Tabla 4: distribucin F de Fisher

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

134

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:
www.foxitsoftware.com/shopping

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfaro

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

135

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:
www.foxitsoftware.com/shopping

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfaro

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

136

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:
www.foxitsoftware.com/shopping

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfaro

Tabla 06: Duncans Test Critical values

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

137

Edited with the trial version of


Foxit Advanced PDF Editor
To remove this notice, visit:
www.foxitsoftware.com/shopping

Mtodos Estadsticos para la Investigacin

Ing. Roberto Alfaro

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

138

Edited with the trial version of


Foxit Advanced PDF Editor

Mtodos Estadsticos para la Investigacin

To remove this notice, visit:

Ing. Roberto Alfarowww.foxitsoftware.com/shopping

Tabla 6: Rango estudientizado (q) de Tukey

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola

139

S-ar putea să vă placă și