Documente Academic
Documente Profesional
Documente Cultură
2.1
Introduccin
En este captulo se considerarn experimentos para comparar resultados de dos condiciones,
frmulas o tratamientos. A menudo se conocen dichos experimentos como experimentos
comparativos simples. El anlisis de stos obligar a una revisin de conceptos estadsticos
bsicos
Ejemplo 2.1: Se desea comparar la resistencia a la traccin de un cemento portland con la de un
nuevo cemento al que se le han aadido emulsiones de un cierto polmero. Los datos
observados de la resistencia a la traccin de 10 observaciones de cada cemento, se listan en la
Tabla 2.1.
muestra
Nuevo Cemento
(kg/cm2)
16.85
16.40
17.21
16.35
16.52
17.04
16.96
17.15
16.59
16.57
16.76
1
2
3
4
5
6
7
8
9
10
media
Tabla 2.1
Cemento Portland
(kg/cm2)
17.50
17.63
18.25
18.00
17.86
17.75
18.22
17.90
17.96
18.15
17.92
Los datos sugieren que la resistencia del cemento Portland es mayor a la del nuevo cemento
pues la diferencia en los promedios parece ser significativa; sin embargo no es obvio que dicha
diferencia sea lo suficientemente grande para concluir que ambos cementos son diferentes. Es
posible que otras dos muestras arrojen resultados opuestos. Una tcnica estadstica llamada Test
de Hiptesis o de Significacin puede emplearse para ayudar al investigador a comparar los dos
tipos de cementos. Antes de presentar el procedimiento del mencionado examen, es conveniente
recordar algunos conceptos elementales de estadstica y de probabilidades.
2.2
Distribuciones de Probabilidad
En la teora de la probabilidad y estadstica, la distribucin de probabilidad de una variable
aleatoria es una funcin que asigna a cada suceso definido sobre la variable aleatoria la
probabilidad que dicho suceso ocurra. La distribucin de probabilidad est definida sobre el
conjunto de todo el rango de valores (todos los posibles eventos) de la variable aleatoria. En
otras palabras: la estructura de probabilidad de una variable aleatoria, llmese sta y, se describe
por su distribucin de probabilidades. Si y es discreta, a la distribucin de probabilidades de y,
p(y), se le llama funcin de probabilidad de y . Si y es contnua, la distribucin de probabilidad
de y, f(y), es denominada funcin de densidad de y .
La figura 2.1 ilustra distribuciones hipotticas de probabilidad. Ntese que en la distribucin de
probabilidad discreta, es la altura de la funcin p(y) la que representa la probabilidad. En el caso
continuo, la probabilidad est representada por el rea bajo la curva f(y), asociada a un
intervalo.
p(y=yj) = p(yj)
p(y)
yi
yj
p (a < y < b)
p(y)
Fig. 2.1
Jaime Ortega PhD
0 p( y j ) 1
para todo y j
p( y y j ) p( y j )
para todo y j
p( y
) 1
todos y j
(2.1)
y continua:
0 f ( y)
b
p ( a y b)
f ( y )dy
f ( y )dy 1
(2.2)
Notar que la segunda propiedad expresada en la Ecuacin 2.12 implica que la probabilidad
puntual es cero: ( = ) = ( = ) = 0
Media, Varianza y Valores Esperados
La media de una distribucin de probabilidades es una medida de su tendencia central.
Matemticamente, la esperanza de una variavle aletoria, E(y) se define de la siguiente manera:
yf ( y )dy
E ( y)
yyp( y)
todo
y continua
y discreta
(2.3)
Por consiguiente:
6
1
1
1
1
1
1
() = () = 1 ( ) + 2 ( ) + 3 ( ) + 4 ( ) + 5 ( ) + 6 ( ) = 3.5
6
6
6
6
6
6
1
que quiere decir que 3.5 es el valor esperado, lo que significa que 3.5 es el valor central de la
distribucin. Obsrvese que no es necesario que el valor esperado sea un valor posible de la
variable aleatoria. Tambin se interpreta en el sentido que en 10 ejecuciones del experimento,
por ejemplo, se espera que la suma de los nmeros obtenidos sea de (10)(3.5) = 351.
Nota: la Media de una Distribucin de Probabilidades o valor esperado puede ser entendida
como un promedio ponderado, en el que los valores posibles se ponderan mediante sus
probabilidades correspondientes de ocurrencia (pesos o importancia).
La dispersin de una distribucin de probabilidades se mide por la Varianza:
2
y u f ( y )dy
2
y u p( y )
todo y
y continua
y discreta
(2.4)
La Varianza se emplea de manera tan extensa que es conveniente definir un operador V tal que:
V ( y) E ( y u) 2 2
(2.5)
Si y es una variable aleatoria con media y varianza 2 y c es una constante, entoces:
1 E (c ) c
2 E ( y)
3 E (cy ) cE ( y ) c
4 V (c ) 0
5 V ( y) 2
6 V (cy ) c 2V ( y ) c 2 2
E( y2 ) 2 y V ( y2 )
2
2
y2 con E( y1 ) 1 y V ( y1 ) 12
se tiene:
E ( y1 y 2 ) E ( y1 ) E ( y 2 ) 1 2
y:
V ( y1 y 2 ) V ( y1 ) V ( y 2 ) 2Cov( y1 , y 2 )
donde :
Cov( y1 , y 2 ) E y1 1 y 2 2
(2.6)
V ( y1 - y2 ) V ( y1 ) V ( y2 ) - 2 Cov ( y1 , y2 )
(2.7)
Si y1 y y2 son independientes, entonces:
V ( y1 y2 ) V ( y1 ) V ( y2 ) 12 22
(2.8)
E ( y1 y 2 ) E ( y1 ) E ( y 2 ) 1 2
(2.9)
En general se cumple que:
y
E 1
y2
E ( y1 )
E ( y 2)
(210)
10
2.3
i 1
n
(2.11)
S2
( y
y )2
i 1
n 1
(2.12)
11
2. Los estimadores puntuales son insesgados2. Esto significa que el valor esperado del
estimador puntual es igual al parmetro que esta siendo estimado. Puede demostrarse que
E(y) y E(S 2 ) 2
3. Los estimadores puntuales tienen varianza mnima. Esta propiedad establece que la
Varianza de un estimador puntual insesgado de un parmetro, es menor a la Varianza de
cualquier otro estimador de dicho parmetro.
Grados de Libertad
A la cantidad n-1 de la Eq. (2.12) se le llama grados de libertad de la suma de los cuadrados
(SC). Donde SC ( yi y ) 2 . Este resultado general permite afirmar que si y es una variable
aleatoria con Varianza 2 , SC ( yi y ) 2 y grados de libertad, entonces se cumple que:
SC
2
E
(2.13)
(yi y n ) yi n y n 0
i 1
i 1
Ahora imaginemos que se tienen 3 valores de y que se pueden modificar arbitrariamente, pero
con la condicin de que la suma de los residuos sea 0. Se puede asignar cualquier cantidad a dos
de los tres valores de y, porque el otro va a estar dado por la frmula, es decir que tienes dos
grados de libertad.
Esto tambin significa que los residuos estn restringidos a encontrarse en un espacio de
dimensin n-1 (en este ejemplo, en el caso general a n-r) ya que, si se conoce el valor de n-1 de
estos residuos, la determinacin del valor del residuo restante es inmediata. As, se dice que "el
error tiene n-1 grados de libertad" (el error tiene n-r grados de libertal para el caso general).
En estadstica se llama sesgo de un estimador a la diferencia entre su esperanza matemtica y el valor del parmetro que
estima. Un estimador cuyo sesgo es nulo se llama insesgado o centrado.
12
f ( y)
e (1 / 2)[( y ) / ]
y
(2.14)
Caracteres morfolgicos de personas, animales o plantas de una especie: tallas, pesos, envergaduras, dimetros, permetros.
Caracteres fisiolgicos: efecto de una misma dosis de un frmaco, o de una misma cantidad de abono.
Caracteres sociolgicos: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen.
Caracteres psicolgicos: cociente intelectual, grado de adaptacin a un medio
Errores cometidos al medir ciertas magnitudes.
Valores estadsticos maestrales, por ejemplo: la media.
Otras distribuciones como la binomial o la de Poisson son aproximaciones normales.
En general cualquier caracterstica que se obtenga como suma de muchos factores.
13
(2.15)
sigue la Distribucin Normal Estndar, esto es: z ~ N(0,1). Muchas tcnicas de anlisis
estadstico asumen que la variable aleatoria en estudio se distribuye "normal". Si se toman
muestras aleatorias de tamao n de poblaciones que obedecen la distribucin normal, la
distribucin de la media muestral, y , ser tambin normal con la misma media y desviacin
estndar / n .
Si la distribucin de la poblacin no fuese normal; la distribucin de la media muestral, y , ser
aproximadamente normal si se analizan muestras razonablemente grandes (n > 30). Este
resultado se conoce como el Teorema del Lmite Central.
Teorema del Lmite Central
Si y1 , y2 , y3 ,........ yn es una secuencia de n variables aleatorias independientes de idntica
distribucin, con E ( yi ) , V ( yi ) 2 y x y1 y 2 .... y n , entonces la variable:
zn
x n
n 2
(2.16)
tiene aproximadamente una distribucin N(0,1). En algunos casos, esta aproximacin es
adecuada para pequeos valores de n (n<10). En otros, se requiere valores altos de n (n>100).
En experimentacin, la utilidad de la suma de variables normales radica en el hecho que el error
experimental es la suma de errores de fuentes independientes; por tanto, la Distribucin Normal
se constituye en un modelo plausible para el estudio de error experimental combinado.
El teorema central del lmite es uno de los resultados fundamentales de la estadstica. Este
teorema nos dice que si una muestra es lo bastante grande (generalmente cuando el tamao
muestral (n) supera los 30, sea cual sea la distribucin de la media muestral, seguir
aproximadamente una distribucin normal. Es decir, dada cualquier variable aleatoria, si
extraemos muestras de tamao n (n>30) y calculamos los promedios muestrales, dichos
promedios seguirn una distribucin normal. Un caso concreto del teorema central del lmite es
la distribucin binomial. A partir de n=30, la distribucin binomial se comporta
estadsticamente como una normal, por lo que podemos aplicar los tests estadsticos apropiados
para esta distribucin.
14
Ejemplo:
Se sabe que los dimetros de ejes fabricados por un cierto proceso se distribuyen normal con
media = 2.5 cm y desviacin estndar = 0.009 cm. Indagar la distribucin de la media
muestral de los dimetros de una muestra de nueve ejes escogidos al azar. Calcular la fraccin
de dicha medias muestrales que se espera que exceda los 2.505 cm.
La distribucin de la media muestral, y , ser normal con media 2.5 cm y desviacin estandar
/ n 0.009 / 9 0.003 cm .
Para calcular la probabilidad que y 2.505 P( y 2.505) es necesario emplear la variable
normal estndar. Es decir:
P( y 2.505) P
Distribucin
f ( 2 )
1
k
2 k / 2
2
2 ( k / 2 ) 1
/2
2 0
(2.18)
La Fig. 2.3 muestra curvas de densidad para 6, 12, 18, 24 y 30 grados de libertad.
15
sc
y
i 1
n21
(2.19)
SC
n 1
(2.20)
Si las observaciones de la muestra son variables aleatorias independientes que se distribuyen
2
N(, ), entoces la distribucin de la Varianza Muestral S2 es una constante multiplicada por la
distribucin Chi-cuadrado, si la poblacin se distribuye normalmente.
2 2
n 1
S 2
n
(2.21)
Jaime Ortega PhD
16
tk
k2 / k
(2.22)
f (t )
[( k 1) / 2]
1
( k 1) / 2
k (k / 2) [(t / k ) 1]
2
- < t <
(2.23)
Una consecuencia de la Eq. 2.22 es que si y1, y2 .... yi ,.... yn es una muestra aleatoria de una
poblacin que se distribuye N (, 2 ) , entonces la cantidad
y
S/ n
(2.24)
se distribuye t con n-1 grados de libertad.
En probabilidad y estadstica, la distribucin-t o distribucin t de Student es una distribucin de probabilidad que surge del problema de
estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo
Jaime Ortega PhD
17
u2 / u
v2 / v
(2.25)
sigue la distribucin F con (u,v)grados de libertad. Una aplicacin inmediata de la Eq. 2.25 es la
siguiente: Si y11, y12 ,..... y1,n1 y y 21, y 22 ,..... y 2,n2 son muestras aleatorias independientes de n1 y
2.4.1
Ho : 1 2
H1: 1 2
(2.27)
donde 1 y 2 son las resistencias medias de los dos cementos, Ho es la hiptesis nula, y H1
es la hiptesis alternativa.
Para probar la hiptesis, el procedimiento consiste en tomar muestras aleatorias, calcular
estadgrafos apropiados, y rechazar o aceptar la hiptesis nula Ho . En este procedimiento se
cometen dos tipos de error:
18
Zo
y1 y2
1 1
n1 n2
(2.29)
se distribuye N(0,1); sin embargo, si la varianza muestral no se conoce, sta debe ser
reemplazada por un estimador S p . Por consiguiente y segn la Eq. 2.24 la variable:
y1 y 2
to
Sp
1
1
n1 n2
(2.30)
(2.31)
Para ilustrar el procedimiento, considere los datos de la Tabla 2.1. A partir de dichos datos se
obtiene lo siguiente:
Nuevo Cemento
Cemento Portland
y1 16. 76 kg / cm2
y 2 17. 92 kg / cm2
S12 0.100
S12 0. 061
S1 0. 316
S1 0. 247
n1 10
n1 10
9(0.100) 9(0.061)
0.081 S p 0.284
10 10 2
19
to
16. 76 17. 92
9.13
0. 248 1 / 10 1 / 10
Ahora, supngase que se desea un error del primer tipo del orden de 0. 05 (5%) y por
tanto un intervalo de confianza de la media poblacional, , de 0.95 (95%). En trminos
grficos, lo dicho arriba se puede representar como se muestra en la Figura 2.5
Mediante tablas, se ve que t /2 con n1 n2 2 18 grados de libertad es igual 2.101. Dado que
to 9.13 t0.025, 18 se puede concluir que la hiptesis nula, Ho , no es verdadera y por tanto debe
ser rechazada. En otras palabras, las resistencias medias a la traccin de ambos cementos son
diferentes.
2.4.2
H o : 1 2
H 1 : 1 2
20
0.05, se muestra en la Fig. 2.5. Las curvas mostradas en dicho grfico reciben el nombre de
"curvas caractersticas operacionales".
El parmetro d implica conocer las medias y varianza poblacionales que son generalmente
desconocidas. Sin embargo, es el investigador el que puede definir diferencias criticas. Por otro
lado, puede ser evaluado a partir de la precisin del instrumento. Por ejemplo, en el caso del
cemento Portland, se desea determinar, con alto grado de probabilidad, diferencias
significativas hasta de 0.5 Kg/cm2 . As mismo, se sabe que la precisin del instrumento es de
0.25 Kg/cm2. Con estos valores, se tiene que d = 1. Asumiendo un valor muy bajo de
ocurrencia del error II se ve que n =30 y por tanto n1 n2 15. Las curvas caractersticas
operacionales deben ser obtenidas antes de empezar la serie de experimentos.
Fig. 2.6
2.4.3
Intervalos de Confianza
A menudo, es necesario conocer el o los intervalos dentro de los cuales se espera encontrar el o
los valores de los parmetros estudiados. A estos intervalos se les conoce como intervalos de
confianza. En muchos procesos, el investigador sabe de antemano que las medias poblacionales
difieren y por tanto probar que 1 2 es de poco inters. En su lugar, es de mayor utilidad
conocer el intervalo de confianza de 1 2
Definicin:
Supngase que es el parmetro en estudio. Para obtener el intervalo de confianza de se
requiere encontrar dos estadgrafos L y U tal que se cumpla;
P( L U ) 1
(2.26)
El intervalo:
L U
(2.27)
21
es el intervalo de confianza de .
Ejemplo: se desea encontrar un intervalo de la diferencia de medias del problema del cemento
Portland. En virtud de la Eq. 2.19, el estadgrafo:
y1 y 2 1 2
Sp
1
1
n1 n 2
(2.28)
y1 y 2 1 2
P t / 2, n1 n2 2
t / 2, n1 n2 2 1
1
1
Sp
n
n
1
2
1 1
1 1
P y1 y 2 t / 2, n1 n2 2 S p
1 2 y1 y 2 t / 2, n1 n2 2 S p
1
n
n
n
n2
1
2
1
1. 43 1 2 0.89
En otras palabras, el intervalo del 95 % confianza de la diferencia de medias es:
22
2.4.4
El Caso de 12 22
Si se esta examinando la hiptesis de la Eq. 2.21 y no se puede asumir que las varianzas
poblacionales sean iguales, entonces la variable de la Eq. 2.24 se convierte en:
to
y1 y 2
S12 S 22
n1 n2
(2.29)
S12 S 22
n1 n2
v
2
2
S12 / n1
S 22 / n2
n1 1
n2 1
(2.30)
2.4.5
El Caso de 1 y 2 Conocidos
En este caso se empleara el estadgrafo
zo
y1 y2
12
n1
22
n2
(2.31)
El mismo que se distribuye N(0,1) siempre que las poblaciones sean normales o las muestras lo
suficientemente grandes tal que se cumpla el teorema del Limite Central.
2.5
23
desconocidos (barras diferentes, gradientes de temperatura en las barras, etc) podra existir falta
de homogeneidad en el material lo que contribuira a incrementar el error experimental y por
tanto a conclusiones errneas acerca de las mencionadas puntas.
Para evitar la posibilidad arriba sealada, considere un diseo experimental alternativo: (a)
tmese muestras lo suficientemente grandes tal que se hagan dos mediciones en la misma: una
con la punta 1 y otra con la punta 2 y (b) divdase al azar cada muestra en dos porciones de
iguales dimensiones. Despus de llevar a cabo el experimento, se construye la siguiente tabla:
Muestra
1
2
3
4
5
6
7
8
9
10
Punta 1 (en m)
7
3
3
4
8
3
2
9
5
4
Punta 2 (en m)
6
3
5
3
8
2
4
9
4
5
Es posible proponer un modelo estadstico que describe los datos del experimento de la
siguiente manera:
yij i j ij
i 1,2
j 1,2,.....10
(2.32)
Donde
j 1, 2,.......10
(2.33)
Siendo el valor esperado de las diferencias
d E (d j ) E ( y1 j y2 j ) E ( y1 j ) E ( y2 j ) 1 2
24
Por tanto, es posible hacer inferencias acerca de la diferencia de las medias, 1 2 , mediante
inferencias acerca de la media de las diferencias, d . En otras palabras, examinar Ho : 1 2
es equivalente a proponer
Ho : d 0
H1: d 0
El estadgrafo para esta hiptesis ser:
to
d
Sd / n
(2.34)
que se distribuye t con n-1 grados de libertad.
donde
1
d j
n j 1
n
(d j d ) 2
j 1
S d2
n 1
Substituyendo los valores numricos se tiene to 0. 26. En tablas se ve que t0.25, 9 2. 262 .
Como to t0.25, 9 no hay evidencia que indique que ambas puntas producen diferentes valores
de dureza.
25