Documente Academic
Documente Profesional
Documente Cultură
Estadgrafos Estadsticos
En este captulo se tratarn funciones de las variables X1, X2, ... , Xn observadas en una
muestra aleatoria seleccionada de una poblacin bajo estudio. Las variables son
independientes y tienen una distribucin comn. Con mucha frecuencia se utilizan
ciertas funciones de v.a. observadas en una muestra para estimar o tomar decisiones con
respecto de parmetros poblacionales desconocidos. Por ejemplo, supongamos que se
desea estimar la media de una poblacin . Si obtenemos una muestra aleatoria de n
observaciones, x1, x2, ... , xn, resulta adecuado estimar a travs de la media de la
muestra:
La bondad de la estimacin del comportamiento de las v.a. X1, X2, ... , Xn y el efecto de
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del
total de la poblacin, los gastos de recogida y tratamiento de los datos sern
menores. Por ejemplo, cuando se realizan encuestas previas a una eleccin, es
ms barato preguntar a 4.000 personas su intencin de voto, que a 30.000.000;
Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las
primeras mesas electorales, se obtiene una aproximacin bastante buena del
resultado final de unas elecciones, muchas horas antes de que el recuento final
de votos haya finalizado;
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de
bombillas, no es posible en la prctica destruirlas todas para conocer su vida
media, ya que no quedara nada que vender. Es mejor destruir slo una pequea
parte de ellas y sacar conclusiones sobre las dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos
problemas:
Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando el
proceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin la
misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de
seleccin muestreo aleatorio.
Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ), la
cualquiera es
es
es decir,
Muestreo aleatorio Simple
El Teorema del Lmite Central nos mostrar que tendr una distribucin
aproximadamente normal si el tamao de la muestra es grande.
Sean X1,X2, ... ,Xn variables aleatorias independientes e idnticamente distribuidas con
E(Xi) = y V(Xi) = < . Definimos
Un = ( - )
( /n)
en donde
Ejemplo
Los tiempos de espera para los clientes que pasan por una caja registradora a la salida de
una tienda de menudeo son variables aleatorias independientes con una media de 1.5
minutos y una varianza de 1.0. Aproxime la probabilidad de que se pueda atender a 100
clientes en menos de 2 horas.
Solucin
Ejemplo
Un auditor toma una muestra aleatoria de tamao n =36 de una poblacin de 1000
cuentas por cobrar. El valor medio de las cuentas por cobrar para la poblacin es =
$260.00, con la desviacin estndar de la poblacin = $45.00. Cul es la probabilidad
deque la media muestral sea inferior a $250.00?
Solucin
Por lo tanto,
Recordemos que si X es una v.a. continua y X1,X2, ... , Xn son v.a. independientes e
idnticamente distribuidas, que tienen la misma probabilidad que X.
=> Y= Xi tiene
y =E[y]=E[ Xi ] = n
z= Xi / n =
E[z]=
es una v.a.
V(Y) = n 2
V(Z) = 2 / n
sea = K /n => k = n /
P(| - | ) ( 2 / 2 n )
Para > 0
Lmn P( | - |> )=0
Por ejemplo, un investigador puede calcular el promedio de varias mediciones del peso
de un animal para obtener una estimacin ms exacta de dicho peso. Su consideracin,
es que el promedio de muchos pesos obtenidos independientemente debe estar bastante
prximo del peso real, con una alta probabilidad.
Ejemplo
A una poblacin de cuatro mecangrafas se les pidi que escribieran la misma pgina de
un manuscrito. Los errores cometidos por cada mecangrafa fueron:
x =( Xi ) / N
y la desviacin estndar
Por lo tanto
x = ( 3 + 2 + 1 + 4 ) / 4 = 2.5 errores
Por otra parte, si el muestreo se hubiera realizado sin reposicin debera haber seis
muestras posibles de dos mecangrafas:
N! / [ n! ( N n )! ] = 4! / [ 2! * 2! ] = 6
1 A, A 3,3 3
2 A, B 3,2 2.5
3 A, C 3,1 2
4 A, D 3,4 3.5
5 B, A 2,3 2.5
6 B, B 2,2 2
7 B, C 2,1 1.5
8 B, D 2,4 3
9 C, A 1,3 2
10 C, B 1,2 1.5
11 C, C 1,1 1
12 C, D 1,4 2.5
13 D, A 4,3 3.5
14 D, B 4,2 3
15 D, C 4,1 2.5
16 D, D 4,4 4
=2.5= x
2. Total 6 muestras posibles de n =2, N =4, muestreo sin reposicin
1 C, D 1,4 2.5
2 A, B 3,2 2.5
3 A, C 3,1 2
4 A, D 3,4 3.5
5 B, C 2,1 1.5
6 B, D 2,4 3
=2.5= x
Ejemplo
Una mquina embotelladora puede regularse de tal manera que llene un promedio de
onzas por botella. Se ha observado que la cantidad de contenido que suministra la
mquina presenta una distribucin normal con = 1.0 onza. De la produccin de la
mquina cierto da, se obtiene una muestra aleatoria de n = 9 botellas llenas (todas
fueron llenadas con las mismas posiciones de control operativo) y se miden las onzas
del contenido de cada una. Determinar la probabilidad de la media real para tales
posiciones del control.
Solucin
Si X1, X2, ... , X9 representan las onzas de contenido a observarse, se deduce que X i
presenta una distribucin normal con una media y una varianza =1 para i = 1,
2, ... , 9. por tanto, tiene una distribucin normal con media y X = /n = 1/9.
Se desea calcular
P( | - | 0.3 ) = P( -0.3 ( - ) 0.3 )
Por tanto la probabilidad es solo de 0.63 de que la media muestral diste a lo ms en 0.3
de onza de la poblacin real.
Distribucin Ji Cuadrado ( )
= ( n 1 ) S2 /
Ejemplo
Continuando con el ejemplo anterior, se supone que las onzas del contenido que vaca la
mquina embotelladora tiene una distribucin normal con =1. Supngase que se
desea obtener una muestra aleatoria de 10 botellas y medir el contenido en cada botella.
Si se utilizan estas 10 observaciones para calcular S2, podra ser til especificar un
intervalo de valores que incluyeran a S2 con una alta probabilidad. Encuentre los
nmeros b1 y b2 tales que
P( b1 S2 b2) = 0.90
Solucin
P( a1 (n 1) S2 a2) = 0.90
Un mtodo para hacerlo es encontrar el valor a2 que limita un rea de 0.05 de la cola
derecha y un valor a1 que limita un rea de 0.05 de la cola izquierda (0.95 de rea a la
derecha). Ya que hay 9 grados de libertad, la tabla nos da a2 = 16.919 y a1 = 3.325.
As debemos tener
a1 = (n 1)b1 / = (n 1)b1 = 9 b1
a2 = (n 1)b2 / = (n 1)b2 = 9 b2
o sea
de donde se deduce que si se desea tener un intervalo que incluya a S2 con una
probabilidad de 0.90, uno de tales intervalos es ( 0.369, 1.880). Obsrvese que este
intervalo es bastante grande.
Distribucin t de Student
La funcin de densidad de es
Figura: Funcin de densidad de una de
Student
de densidad de y .
Para un nmero alto de grados de libertad se puede aproximar la distribucin de Student
por la normal, es decir,
Para calcular
La distribucin F de Snedecor
Obsrvese que .
La forma ms habitual en que nos encontraremos esta distribucin ser en el caso en
que tengamos n+m v.a. independientes
y as
y para ello, como en todas las distribuciones asociadas a la normal, disponemos de una
tabla (la nmero 6) donde encontrar aproximaciones a esas cantidades
Mtodo de Montecarlo
.
2. Si X es continua tomar como observacin de X, la cantidad x=F-1(u). En el
caso en que X sea discreta se toma x como el percentil de X, es decir el
Este proceso se debe repetir n veces para obtener una muestra de tamao n.
Ejemplo
ti xi = F-1(ui)
Obsrvese que como era de esperar, las observaciones xi tienden a agruparse alrededor
Obsrvese que el estimador no es un valor concreto sino una variable aleatoria, ya que
aunque depende unvocamente de los valores de la muestra observados (Xi=xi), la
eleccin de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida,
se denomina estimacin el valor numrico que toma el estimador sobre esa muestra.
Ejemplo
Consideremos una v.a. de la que slo conocemos que su ley de distribucin es normal,
Para muestras aleatorias de tamao n=3,
Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria
(que usaremos para estimar el parmetro desconocido) deben ser:
Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado se aproxima al
parmetro desconocido.
su forma equivalente
Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera se obtenga
como estimacin el valor exacto del parmetro. Sin embargo podemos pedirle que su
dispersin con respecto al valor central (varianza) sea tan pequea como sea posible.
I( ) = (1 / n) E [ - ( 2 ln f(x)) / ( 2
)]
Suficiencia
El estimador debera aprovechar toda la informacin existente en la muestra.
En este punto podemos plantearnos el que dado una muestra sobre la que se ha
observado los valores xi, una posible estimacin del parmetro es aquella que maximiza
la funcin de verosimilitud.
verosimilitud, .
Como es lo mismo maximizar una funcin que su logaritmo (al ser este una funcin
estrictamente creciente), este mximo puede calcularse derivando con respecto a la
funcin de verosimilitud ( bien su logaritmo) y tomando como estimador mximo
verosmil al que haga la derivada nula:
1. Son consistentes;
Ejemplo
Sea x1,x2, ... ,xn una muestra aleatoria de observaciones de una distribucin uniforme
con funcin de densidad de probabilidad f(x) = 1/ , 0 x , i = 1, 2, ... , n.
Determine el estimador de mxima verosimilitud de .
Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las
aplicaciones resultan fundamentales: estimadores de la esperanza matemtica y varianza
de una distribucin de probabilidad.
verifica:
Por tanto es un estimador insesgado. Si adems sabemos que X se distribuye como una
v.a. Normal, es sencillo comprobar que coincide con el estimador de mxima
verosimilitud (figura superior):
Proposicin :
Proposicin:
Ms an,
Demostracin
Comenzamos escribiendo
Por otro lado
Luego
Cuasivarianza muestral
Esa esperanza puede ser calculada de un modo ms directo, ya que la distribucin del
estimador es conocida:
luego
Es consecuencia de las relaciones anteriores que la distribucin de la cuasivarianza
muestral es tal que
pruebas, .
Esta expresin presenta dificultades para el clculo, siendo ms cmodo sustituirla por
la siguiente aproximacin:
del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles y
Ejemplo
Solucin:
Dada una persona cualquiera (i) de la poblacin, el resultado de su voto es una variable
Bernulli:
Sabemos que
Este caso que planteamos es ms a nivel terico que prctico: difcilmente vamos a
poder conocer con exactitud mientras que es desconocido. Sin embargo nos
aproxima del modo ms simple a la estimacin confidencial de medias.
Para estimar , el estadstico que mejor nos va a ayudar es , del que conocemos su
ley de distribucin:
Esa ley de distribucin depende de (desconocida). Lo ms conveniente es hacer que la
ley de distribucin no dependa de ningn parmetro desconocido, para ello
estandarizamos:
Es til considerar en este punto la simetra de la distribucin normal, y observar que los
percentiles anteriores son los mismos aunque con el signo cambiado:
El problema que tenemos en este caso es ms complicado que el anterior, pues no es tan
sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a ayudar de lo
siguiente:
Ejemplo
Solucin:
es decir,
o dicho de forma ms precisa: Con un nivel de confianza del podemos decir que la
media poblacional est en el intervalo siguiente:
propiedad de la distribucin :
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad
en la zona central de la distribucin:
Solucin:
para la distribucin .
Por tanto, para el valor poblacional de la desviacin tpica tenemos que
con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales
y calculados sobre la muestra.
t SX(siguiente)
Unidad 7
PRUEBA DE HIPTESIS
Este tipo de circunstancias son las que nos llevan al estudio de la parcela de la
Estadstica Inferencial que se recoge bajo el ttulo genrico de Contraste de Hiptesis.
Implica, en cualquier investigacin, la existencia de dos teoras o hiptesis implcitas,
que denominaremos hiptesis nula e hiptesis alternativa, que de alguna manera
reflejarn esa idea a priori que tenemos y que pretendemos contrastar con la ``realidad''.
Ejemplo
Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de
cierto pueblo de Ecuador. Antes de tomar una muestra, lo lgico es hacer la siguiente
suposicin a priori, (hiptesis que se desea contrastar y que denotamos H0 ):
Al obtener una muestra de tamao n =8, podramos encontrarnos ante uno de los
siguientes casos:
Intuitivamente, en el caso a sera lgico suponer que excepto que la muestra obtenida
sobre los habitantes del pueblo sea muy poco representativa, la hiptesis H0 debe ser
rechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hiptesis H0
sea cierta, sin embargo no podramos descartarla y la admitimos por una cuestin de
simplicidad.
Error de tipo I:
Hiptesis nula, H0
Hiptesis alterna H1
Estadstico de la prueba
Regin de rechazo
En este tema hemos estudiado dos de los cuatro elementos, para el siguiente tema se
estudiarn los dos restantes.
La regin de rechazo (RR) especifica los valores del estadstico de la prueba para los
cuales se rechaza la hiptesis nula. Si en una muestra particular el valor calculado del
estadstico de la prueba se lo localiza en la regin de rechazo, se rechaza la hiptesis
nula H0 y se acepta la hiptesis alterna H 1. Si el valor del estadstico de la prueba no cae
en la regin de rechazo RR, aceptamos H0.
Ejemplo
En una encuesta poltica del candidato A se seleccionan n=15 votantes. Se desea probar
H0: p = 0.5 frente a la hiptesis alternativa H 1: p < 0.5. el estadstico de prueba es T, el
nmero de votantes en la muestra a favor del candidato A. Calcular si establecemos
RR = {t 2} como la regin de rechazo.
Solucin
Por tanto vemos que si se decide utilizar la regin de rechazo RR= {t 2}, se asumen
un riesgo muy pequeo de concluir que el candidato A perder las elecciones si, en
realidad, es ganador.
Observaciones:
1. Ntese que la hiptesis nula H 0 contiene el valor investigado por probar del
parmetro en cuestin.
2. La hiptesis alterna trata de probar que el porcentaje no es como el candidato
piensa sino que es inferior. Esta hiptesis pudo haber sido diferente si quisieran
probar que porcentaje es mayor, esta se transformara en p>0.5. Si solamente se
hubiera querido demostrar que no es cierto este porcentaje la hiptesis alterna
quedara p 0.5.
3. El valor del estadstico siempre es calculado por medio de los valores obtenidos
de la muestra.
4. La regin de rechazo RR se la establece de acuerdo a ciertas condiciones
preestablecidas cono son el nivel de significancia, y del valor obtenido de las
tablas de probabilidades.
7.3 Potencia de una prueba y curvas OC
Potencia de la prueba
Recuerde que la bondad de una prueba se mide por y , las probabilidades de los
errores de tipo I y II, en donde se fija de antemano para determinar la regin de
rechazo. Un concepto relacionado pero ms til para evaluar el funcionamiento de una
prueba se denomina poder ( potencia) de la prueba. Bsicamente el poder de una
prueba es la probabilidad de que la prueba rechace la hiptesis nula.
Para cualquier valor de para H1, el poder de una prueba se mide su capacidad para
detectar que la hiptesis nula es falsa. Es decir, para = 1
k(1) = P(rechazar H0 cuando = 1)
Dado que
= P(aceptar H0 cuando = 1)
k(1) = 1 -
Curvas OC
En los siguientes temas desarrollaremos algunos ejemplos de cmo aplicar las curvas
OC y la potencia de la prueba.
Junto con ellos, tambin lo hacen los estimadores para la comparacin de dos medias
(1 2) y la comparacin de parmetros binomiales (p1 p2).
Dentro del desarrollo de este tema se puede encontrar un resumen detallado de las
pruebas de hiptesis para la media, la varianza y las proporciones.
Para poder acceder a las probabilidades de la normal, hemos normalizado (ya que los
valores para hacer la normalizacin son conocidos). Si H0 es cierta, entonces esperamos
que el valor zexp obtenido sobre la muestra
est cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel de
significacin , y tomando como regin crtica , a los valores que son muy
extremados y con probabilidad en total, o sea,
grfica pequea, , o
equivalentemente, cuando el estadstico
toma un valor en la zona roja de la grfica
grande, .
y como regin crtica consideraremos aquella formada por los valores extremadamente
bajos de Zexp, con probabilidad , es decir
Entonces la regin de aceptacin, o de modo ms correcto, de no rechazo de la hiptesis
nula es
por simetra con respecto al caso anterior, la regin donde no se rechaza la hiptesis
nula es (vase la figura de abajo y contrstese con la anterior):
o sea
Observacin
Para dar una forma homognea a todos los contrastes de hiptesis es costumbre
denominar al valor del estadstico del contraste calculado sobre la muestra como valor
experimental y a los extremos de la regin crtica, como valores tericos. Definiendo
entonces
Si realizamos el contraste
Ejemplo
Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo
normal. Deseamos contrastar con un nivel de significacin de = 0.05 si la altura
media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una
muestra de n=25 personas se obtuvo:
Solucin:
hay una evidencia suficiente para rechazar esta hiptesis al nivel de confianza del .
Es decir, no se rechaza H0.
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la
altura media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre si
la altura media es menor de 174 cm.
Solucin:
Ahora el contraste es
De nuevo la tcnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadstico
exista una evidencia significativa para decir que cm, el ``simple hecho" de
plantearnos un contraste que parece el mismo pero en versin unilateral nos conduce a
rechazar de modo significativo que y aceptamos que cm. Es por ello
que podemos decir que no slo H0' es rechazada, sino tambin H0. Es en este sentido en
el que los tests con H0 y H0' los consideramos equivalentes:
frente a otras hiptesis alternativas. Para ello nos basamos en un estadstico (de
contraste) que ya fue considerado anteriormente en la construccin de intervalos de
confianza para proporciones y que sigue una distribucin aproximadamente normal para
tamaos muestrales suficientemente grandes:
Para el contraste
Luego
Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones,
en la que estudiamos una variable de tipo dicotmico (Bernoulli):
Entonces se define
Contrastes unilaterales
En el contraste
se rechaza H0 si .
Consideremos que el carcter que estudiamos sobre la poblacin sea una v.a. normal
cuya media y varianza son desconocidas. Vamos a contrastar la hiptesis
frente a otras hiptesis alternativas que podrn dar lugar a contrastes bilaterales o
unilaterales. La tcnica consiste en observar que el siguiente estadstico experimental
que utiliza el estimador insesgado de la varianza, posee una distribucin , con n-1
grados de libertad:
Entonces construimos las regiones crticas que correspondan a las hiptesis alternativas
Contraste bilateral
definimos
tipo .
Para el contraste contrario tenemos la formulacin anloga:
Por tanto el estadstico del contraste que nos conviene tiene una distribucin conocida
cuando H0 es cierta --vase la definicin de la distribucin de Snedecor:
Contraste bilateral
Habida cuenta que la distribucin de Snedecor no es simtrica sino que slo toma
valores positivos, se rechazar la hiptesis nula cuando el el valor que tome el
estadstico del contraste al aplicarlo sobre una muestra sea muy cercano a cero, o bien,
muy grande. Es decir, se define el estadstico experimental y los lmites de la regin
crtica como:
Contrastes unilaterales
y entonces
Ejemplo
Solucin:
Por lo tanto no rechazamos la hiptesis de homocedasticidad (que las dos son iguales)
de ambas poblaciones, y pasamos a contrastar la igualdad de las medias
y posteriormente
Paciente xi yi di
1 150 120 30
2 180 130 50
... ... ... ...
n 140 90 50
di = xi-yi
Supongamos que la v.a. que define la diferencia entre el antes y despus del tratamiento
es una v.a. d que se distribuye normalmente, pero cuyas media y varianza son
desconocidas
en el caso en que H0 fuese cierta tendramos que el estadstico de contraste que nos
conviene es
Contraste bilateral
Entonces se define
Contrastes unilaterales
Si el contraste es
entonces se rechaza H0 si . Para el test contrario
se rechaza H0 si .
Observacin
Hiptesis:
H0: Las distribuciones poblacionales para las X y las Y son idnticas
H1: Las dos distribuciones difieren en ubicacin (dos colas) o bien, H 1: la
distribucin de frecuencias relativas de la poblacin para las X est desfasada
hacia la derecha de la distribucin de las Y (una cola)
Estadstico de la prueba:
1) Para una prueba de dos colas, utilice T = mn(T , T--) en donde T = suma de los
trangos de las diferencias positivas y T-- = suma de los rangos de las diferencias
negativas.
2) Para la prueba de una cola (para detectar la alternativa de una cola dada
anteriormente) utilice la suma de los rangos T-- de las diferencias negativas.
Regin de rechazo:
1) Para la prueba de dos colas, rechace H0 si T T0 en donde T0 es el valor crtico
dado en la tabla de valores crticos de T en la prueba de Wilcoxon.
2) Para la prueba de una cola, rechace H0 si T - T0
Observacin:
Ejemplo
Pruebe la hiptesis nula de que no hay diferencias entre las distribuciones poblacionales
de la densidad de los pasteles para un experimento de diferencias aparejadas. Se utilizan
6 pares de pasteles, uno preparado con la mezcla A y el otro con la mezcla B. Qu se
puede decir del nivel de significancia alcanzado?
Solucin
Los datos originales y las diferencias (en onzas por pulgada cbica) para los seis pares
de pasteles se muestran en la tabla siguiente:
A B Diferencia: A B Rango
0.135 0.129 0.006 3
0.102 0.120 -0.018 5
0.108 0.112 -0.004 1.5
0.141 0.152 -0.011 4
0.131 0.135 -0.004 1.5
0.144 0.163 -0.019 6
Como en el caso de otras pruebas no para mtricas, la hiptesis nula que debe probarse
es que las distribuciones de frecuencias de las dos poblaciones de densidades de los
pasteles son idnticas. La hiptesis alternativa, que implica una prueba de dos colas, es
que las distribuciones difieren en ubicacin.
Dado que hay solamente una diferencia positiva que tiene el rango 3, T+ = 3y T-- = 18, y
por lo tanto no hay evidencia suficiente para indicar una diferencia ente las
distribuciones de frecuencias de las dos poblaciones de las densidades de las
poblaciones de los pasteles. Ya que no es posible rechazar H0 para = 0.10, solamente
podemos afirmar que el valor p > 0.10.
7.6 Tablas de Contingencia
Un problema comn en el anlisis de datos enumerativo se refiere a la independencia de
dos mtodos de clasificacin de eventos observados. Por ejemplo, podramos clasificar
una muestra de individuos segn el sexo y segn su opinin con respecto a una cuestin
poltica para probar la hiptesis de que las opiniones con respecto a esta cuestin son
independientes del sexo, o podramos clasificar a los pacientes que padecen cierta
enfermedad segn el tipo de medicamento y segn el porcentaje de recuperacin para
ver si el porcentaje de recuperacin depende del tipo de medicamento. El cada uno de
estos ejemplos queremos investigar la dependencia (o contingencia) entre dos criterios
de clasificacin.
Supngase que queremos clasificar los defectos encontrados en los muebles producidos
en cierta planta manufacturera, segn (1) el tipo de defecto y (2) el turno de produccin.
Se registr un nmero total de n = 309 muebles defectuosos y se clasificaron los
defectos como uno de cuatro tipos, A, B, C, o D. Al mismo tiempo se identific cada
mueble segn el turno de produccin en el que se les fabric. Se presentan estos datos
en la siguiente tabla conocida como Tabla de Contingencia:
Los nmeros ente parntesis son las estimaciones de las frecuencias esperadas de las
celdas. El objetivo es probar la hiptesis nula de que el tipo de defecto es independiente
del turno de produccin, frente a la alternativa de que las dos categoras son
dependientes. Es decir, queremos probar H0: la clasificacin por columnas es
independiente de la clasificacin por renglones.
Sea pA igual a la probabilidad incondicional de que un efecto sea del tipo A. Asimismo,
se definen pB, pC, y pD como las probabilidades de observar los otros tres tipos de
defectos. Entonces estas probabilidades, que llamaremos probabilidades de columna de
la tabla anterior, satisfacen la condicin: pA + pB + pC + pD = 1
La hiptesis nula especifica solamente que la probabilidad cada celda ser igual al
producto de sus respectivas probabilidades de rengln y de columna, lo que implica la
independencia de las dos clasificaciones.
Tenemos que estimarlas probabilidades de columna y de rengln para poder estimar las
frecuencias esperadas de las celdas.
ij = ri / n
( nij ) = rij / n
Por lo tanto si utilizamos = 0.05, rechazaremos la hiptesis nula de que las dos
clasificaciones son independientes si X2 > 12. 592. Dado que el valor del estadstico de
la prueba, X2 = 19.17, es mayor que el valor crtico de 2, rechazamos la hiptesis nula
a nivel de significancia de = 0.05.El valor p asociado se da por valor p = P(2 >
19.17).
Una tabla de contingencia es un arreglo rectangular en el que se expresan los efectos de
un factor horizontal A y un factor vertical B, sobre los elementos de una misma
poblacin.
Factor A
Factor B Nivel 1 2 ... c
1 X11 X12 ... X1c X1.
2 X21 X22 ... X2c X2.
... ... ... ... ... ...
r Xr1 Xr2 ... Xrc Xr.
X.1 X.2 X.c n
El estadstico y su distribucin
Sea X una v.a. cuyo rango son los valores , de modo que pi es la
probabilidad de cada valor;
un experimento aleatorio es una clase c1, c2, ..., ck(ci, ), que puede
representar valores cualitativos, discretos o bien intervalos para variables continuas. Sea
pi la probabilidad de que el resultado del experimento sea la clase ci. Vamos a considerar
contrastes cuyo objetivo es comprobar si ciertos valores pi0, propuestos para las
cantidades pi son correctas o no, en funcin de los resultados experimentales
, , ...,
ci
c1
c2
... ...
ck
hiptesis inicial es probablemente falsa. Para decidir cuando los valores de son
grandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguiente
resultado
Como slo son los valores grandes de los que nos llevan a rechazar H0, la regin
es decir,
Observacin
A pesar de que el contraste parece ser bilateral la forma de , nos indica que el
contraste es unilateral: Slo podemos saber si existe desajuste entre los esperado y lo
observado, pero no podemos contrastar hiptesis alternativas del tipo ``pi mayor que
cierto valor''.
Observacin
slo puede tomar un nmero finito de valores distintos (aunque sean cantidades con
decimales). Por tanto su distribucin no es continua. Luego al realizar la aproximacin
mencionada hay que precisar en qu condiciones el error cometido es pequeo. De
modo aproximado podemos enunciar el siguiente criterio que recuerda al de la
aproximacin binomial por la distribucin normal:
1. n>30;
2. para todo .
Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la prctica. Se
utiliza entonces una regla ms flexible y que no sacrifica demasiada precisin con
respecto a la anterior:
Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases
que tengan menos elementos con sus adyacentes.
Observacin
El lector puede considerar los contrastes con el estadstico como una generalizacin
del contraste de proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.
Ejemplo
Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las
mujeres. Para ello se considera una muestra de n=618 individuos que padecen la
enfermedad, y se observa que 341 son hombres y el resto son mujeres. Qu
conclusiones se obtiene de ello?
Solucin:
El contraste a realizar se puede plantear de dos formas que despus veremos que son
equivalentes:
frecuencias frecuencias
observadas esperadas diferencia
En conclusin, con los dos mtodos llegamos a que hay una fuerte evidencia en contra
de que hay el mismo porcentaje de hombres y mujeres que padecen la enfermedad. La
ventaja de la ltima forma de plantear el contraste (diferencia entre frecuencias
observadas y esperadas) es que la tcnica se puede aplicar a casos ms generales que
variables dicotmicas, como se ver ms adelante.
Observacin
Hay una frmula alternativa para el clculo de cuya expresin es ms fcil de utilizar
cuando realizamos clculos:
Demostracin
Distribuciones con parmetros desconocidos
Queremos contrastar
Las cantidades pi son desconocidas, aunque tienen una forma en la que slo dependen
del nico parmetro que debe ser estimado a partir de la muestra (r=1): Realizando esta
estimacin
Intervalo
- e1
e1 - e2
e2 - e3
donde todos los pi estn fijados (hiptesis H0). Entonces por lo mencionado
anteriormente, el contraste consiste en:
En este contraste se comete cierto error de aproximacin y por tanto ser tanto mejor
cuanto mayor sea n.
Ejemplo
Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado segn las
leyes de Mendel, debe estar compuesto del siguiente modo:
Leyes de Mendel
Frecuencias
Fenotipo relativas
AB 9/16
Ab 3/16
aB 3/16
ab 1/16
Frecuencias
Fenotipo observadas
AB 165
Ab 47
aB 67
ab 21
Total 300
Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dicha
poblacin?
Solucin:
Para ello vamos a representar en una sola tabla las frecuencias observadas, junto con las
que seran de esperar en el caso de que H0 fuese cierta:
Fenotipo
AB 165 161,33
Ab 47 42,27
aB 67 85,91
ab 21 23,52
ya que 4 son los posibles fenotipos, no se ha estimado ningn parmetro (la distribucin
segn las leyes de Mendel es conocida), y sobre las cantidades Ei existe solamente una
Al mismo resultado llegamos sin calcular con precisin la significatividad del contraste,
sino considerando que el valor terico mximo que admitimos para el estadstico
Obsrvese tambin que el que se haya rechazado la hiptesis nula significa que hay
diferencia estadsticamente significativa entre las frecuencias observadas y las
esperadas, aunque a primera vista no lo hubisemos percibido en el grfico de la Figura
siguiente:
Figura: Aunque aparentan ser
aproximadamente iguales las frecuencias
observadas y esperadas, existe diferencia
estadsticamente significativa entre ellas.
Unidad 8
E(Y) = 0 + 1 x
= 0 + 1x
es el valor que se predice del i-simo valor de y (cuando x = xi), entonces la desviacin
del valor observado de y a partir de la recta (llamada a veces el error) es
yi i
La cantidad SCE se llama suma de los cuadrados de los errores por motivos que sern
obvios en seguida.
Si se tiene un mnimo este ocurrir para los valores de 0 y 1 que satisfagan las
ecuaciones,
SCE / 0 =0 Ecuaciones de
SCE / 1 = 0 Mnimos Cuadrados
SCE / 1 = - 2 ( xi yi - 0 xi - 1 xi2) = 0
ntese que las ecuaciones de mnimos cuadrados son lineales en 0 y 1, y por lo tanto
se pueden resolver simultneamente. Puede verificarse que las soluciones son
Adems se puede demostrar que la resolucin simultnea de las dos ecuaciones de los
mnimos cuadrados produce valores de 0 y 1 que minimizan SCE.
Ejemplo
Aplicar el mtodo de los mnimos cuadrados para ajustar una lnea recta a travs de los
n=5 datos contenidos en la siguiente tabla:
x y
-2 0
-1 0
0 1
1 1
2 3
Solucin Empezaremos por construir la tabla para calcular los coeficientes de las
ecuaciones de los mnimos cuadrados. Entonces se tiene:
xi yi xi yi xi2
-2 0 0 4
-1 0 0 1
0 1 0 0
1 1 1 1
2 3 6 4
xi= 0 yi = 5 xi yi = 7 xi2 = 10
y la recta ajustada es
= 1 + 0.7 x y
= Error = yi i
Esta diferencia es denominada el error del modelo y se lo denota por .
Al aplicar frmulas para encontrar el valor esperado y la varianza de una funcin lineal
de variables aleatorias, obtenemos
E() = 0.
Tambin,
V() = V(Y - ) = V(Y ) + V() 2 Cov(Y, )
Entonces
Por lo tanto el error tiene una distribucin de probabilidad normal con media cero y
varianza 2
Sea Yij la variable aleatoria obtenida en la j-sima observacin del i-simo tratamiento, i
= 1, 2. Definamos una variable ficticia, o indicadora de x de la manera siguiente:
X = 1, si i = 2
0, si no
Yij = 0 + 1 x + ij
1 = E(Y1 j) = 0
2 = E(Y2 j) = 0 + 1
Ejemplo
A B
6.1 9.1
7.1 8.2
7.8 8.6
6.9 6.9
7.6 7.5
8.2 7.9
De tamao seis extradas aleatoriamente de cada uno de los dos procesos. Presentan los
datos evidencia suficiente para indicar una diferencia en la elasticidad media de los
procesos?
El valor crtico del estadstico F para = 0.05 es 4.96. Aunque el cuadrado medio de
los tratamientos es casi tres veces mayor que el cuadrado medio del error, no es
suficientemente grande para rechazar la hiptesis nula. Por consiguiente, al nivel de
significancia = 0.05 no hay suficiente evidencia estadstica que indique una diferencia
entre 1 y 2. El nivel de significancia obtenido se indica mediante el valor p = P(F >
2.88) que segn la tabla para la v.a. F, es tal que p > 0.10.
Observacin
Y = 0 + 1 x +
Implica que
E(Y) = 0 + 1 x
Y = 0 + 1 x +
E(Y | X = x) = 0 + 1 x
Sea (X1, Y1), (X2, Y2),..., (Xn, Yn) una muestra aleatoria de una poblacin normal
bivariada. El estimador de mxima verosimilitud de est dado por el coeficiente de
correlacin muestral
Parecera lgico utilizar r como un estadstico de prueba para probar hiptesis acerca de
, pero se presentan dificultades ya que es difcil obtener la distribucin para r. Se
puede superar este problema en muestras bastantes grandes al utilizar el hecho de que
(1/2) ln[(1 + r) / (1 r)] tiene aproximadamente una distribucin normal con media
(1/2) ln[(1 + ) / (1 )] y varianza 1 / (n 3). Por lo tanto para probar la hiptesis H0:
= 0, podemos utilizar una prueba z en la cual
La forma de la regin de rechazo depende de la hiptesis alternativa, si es la
probabilidad deseada de un error tipo I. Las diferentes alternativas de mayor inters y
las regiones de rechazo correspondientes son
R2 = SC Regresin / SC Total
Ejemplo
Los datos en la siguiente tabla representan una muestra de los resultados de un examen
de aprovechamiento en matemticas y de las calificaciones de clculo para diez
estudiantes seleccionados independientemente, de primer ao. Con esta evidencia, se
concluira que los resultados del examen de aprovechamiento en matemticas y las
calificaciones de clculo son independientes? Utilice = 0.05. obtener el
correspondiente nivel de significacin alcanzado.
Solucin
xi = 460 yi = 760
xi yi = 36.854
As
proponemos como hiptesis nula que X y Y son independientes, o bien, al suponer que
(X, Y) tiene una distribucin normal bivariable, probamos H0: = 0 frente a H1: 0. El
valor del estadstico de la prueba es
Ya que z/2 = z .025 = 1.96, el valor observado del estadstico de la prueba cae en la
regin de rechazo, por lo tanto, los datos sugieren firmemente que los resultados del
examen de aprovechamiento y las calificaciones de clculo son dependientes. Ntese
que = 0.05 es la probabilidad de que nuestro estadstico de prueba caiga en la regin
de rechazo cuando es verdadera H0. Por lo tanto, se confa bastante en que hemos
tomado una decisin correcta.
Como se aplica una prueba de dos colas, el valor p = 2 P(Z > 3.231). De los valores
obtenidos de la tabla de probabilidades de la normal, sigue que P(Z > 3.231) < P(Z >
3.00) = 0.001. Por lo tanto, el valor p < 2 (0.001) = 0.002 y para cualquier valor de
mayor que 0.002 (lo que incluye = 0.05, como se utiliz al inicio de este anlisis)
concluiremos que 0.
Coeficiente de correlacin
= Cov(X1, X2) / 1 2
Entonces b = (XT X) 1 XT Y
2. SC Reg = bT XT y n 2
3. SC Error = yT y bT XT y
H0: k = 0 vs H1: H0
E(Y) = 0 + 1 x1 +...+ k xk
O bien, si y es una funcin de dos variables x1 y x2, pudiese elegirse una aproximacin
mediante un plano a la respuesta media real, aplicando el modelo lineal E(Y) = 0 + 1
x1 + 2 x2. Por lo tanto, E(Y) es una funcin lineal de 0, 1 y 2 que representa un plano
en el espacio y, x1, x2. De manera similar,
E(Y) = 0 + 1 x + 2 x2
Y = 0 + 1 x1 +...+ k xk +
En donde 0, 1,..., k son parmetros desconocidos, es una v.a. y x1, x2,..., xk son
constantes conocidas. Supondremos que E() = 0 y por lo tanto que
E(Y) = 0 + 1 x1 +...+ k xk
suma de los cuadrados de las desviaciones (yi i)2, y que esta cantidad se utiliza
para calcular la varianza de la muestra. El anlisis de varianza divide la suma de los
cuadrados de las desviaciones llamadas suma total de los cuadrados de las
desviaciones, en partes, cada una de las cuales se atribuye a una de las variables
independientes en el experimento, ms un residuo que se asocia con el error aleatorio.
Se puede detectar cuando una variable est muy relacionada con la respuesta,
comparndola estimacin de 2 de una variable independiente particular, con la
estimacin obtenida a partir de SCE aplicando una prueba F. Si la estimacin para la
variable independiente es significativamente mayor, la prueba F rechazar la hiptesis
de que la variable independiente no tiene efecto y generar evidencia que indique una
relacin con la respuesta.
Fuente g.l. SC CM F
Tratamientos k1 SCT CMT CMT / CME
Error nk SCE CME
Total n-1 SC Total
CMT es la divisin entre la SC Tratamiento para sus grados de libertad (SCT / k-1);
CME es la divisin de la SCE para sus grados de libertad (SCE / n-k);
Por ltimo se obtiene el estadstico F que es la divisin entre CMT y CME, los grados
de libertad son en el numerador los g.l. de la SCT y en el denominador los g.l. de la
SCE.
Ejemplo
A B
6.1 9.1
7.1 8.2
7.8 8.6
6.9 6.9
7.6 7.5
8.2 7.9
para muestras de tamao seis extradas aleatoriamente de cada uno de los dos procesos.
Presentan los datos evidencia suficiente para indicar una diferencia en la elasticidad
media de los procesos?
Solucin
Aunque en este ejercicio se podra utilizar la t de Student como el estadstico de la
prueba, aplicaremos la prueba F del anlisis de varianza, ya que es ms general y se la
puede utilizar para comparar ms de dos medias.
El valor crtico del estadstico F para = 0.05 es 4.96. Aunque el cuadrado medio de
los tratamientos es casi tres veces mayor que el cuadrado medio del error, no es
suficientemente grande para rechazar la hiptesis nula. Por consiguiente, al nivel de
significancia = 0.05 no hay suficiente evidencia estadstica que indique una diferencia
entre 1 y 2. El nivel de significancia obtenido se indica mediante el valor p = P(F >
2.88) que segn la tabla para la v.a. F, es tal que p > 0.10.
Observacin
Los modelos que involucran variables cuntitativas son los que se han estado analizando
a lo largo de la unidad, es decir, estos modelos no se pueden analizar cuando se tiene el
tipo de variable cualitativa, para el cual existe otro tipo de investigacin, el cual no es
objeto de estudio en este curso.
Todos los ejemplos que se encuentran en la presente unidad pertenecen a estos tipos de
modelos.
Los modelos para un diseo bifactorial o de dos factores es el mismo que se estudi en
la unidad 7 tema 6, y en la unidad 8 tema 4. En ambos casos se presentan ejemplos
ilustrativos que ayudarn a entender mejor la aplicacin de estos modelos.
Ejemplo
Figura: Diagrama de
componentes
El sistema funciona cuando opera una cadena intacta de componentes entre A y B. Si los
cuatro componentes funcionan independientemente, encuentre la confiabilidad del
sistema, en trminos de F(y).
Solucin
Observando el diagrama podemos ver que para que el sistema funcione deben trabajar a
la vez C1 y C2 y C3 C1 y C2 y C4 dado que no funciona C3, lo que equivale a:
Para iniciar este tema diremos que calidad, es la aptitud que tiene un producto (bien o
servicio) para satisfacer las necesidades para lo que fue creado.
Los objetos sobre los cuales se hacen las mediciones se denominan unidades
experimentales.
Los lmites de control son los valores mximo y mnimo que se considera son los
lmites dentro de los cuales el proceso se encuentra estable.
Una grfica de Control es un diagrama de series de tiempo que incluye los lmites de
control inferior y superior que identifican el rango de variacin susceptible de
adjudicarse a causas comunes.
Recordemos que:
P ( - 3 x + 3 ) = 0.99
P ( - 2 x + 2 ) = 0.95
P ( + x + ) = 0.68
En la siguiente tabla se muestra un resumen las frmulas para las cartas de control ms
usuales
Como podemos ver existen cartas de control para la media , para el rango R, la
proporcin p, y para la cantidad c.
A2, D3 y D4 son valore obtenidos de la tabla de factores para grficas de control para
ajustar los valores obtenidos en la formacin de los lmites de control.
Ejemplo
a) Muestr la lnea
a No. Pesos de paquetes (oz) s R central y
1 15,01 14,98 15,16 14,8 14,99 0,148 0,36 los
2 15,09 15,14 15,08 15,03 15,09 0,045 0,11 lmites
3 15,04 15,1 14,93 15,13 15,05 0,088 0,20 de
4 14,9 15,03 14,94 14,92 14,95 0,057 0,13
control
5 15,04 15,05 15,08 14,98 15,04 0,042 0,10
6 14,96 14,081 14,96 14,91 14,73 0,432 0,88 inferior
y 7 15,01 15,1 14,9 15,03 15,01 0,083 0,20 superior
8 14,71 14,92 14,77 14,95 14,84 0,116 0,24 de la
9 14,81 14,8 14,64 14,95 14,80 0,127 0,31 grfica
10 15,03 14,89 14,99 15,03 14,99 0,066 0,14
.
11 15,16 14,91 14,95 14,83 14,96 0,141 0,33
b) Elabore
12 14,92 15,05 15,01 15,02 15,00 0,056 0,13
13 15,06 15,03 14,95 15,02 15,02 0,047 0,11 la
14 14,99 15,14 15,04 15,11 15,07 0,068 0,15 grfica
15 14,94 15,08 14,9 15,17 15,02 0,125 0,27 de la
carta de control para
c) Se sale de control el proceso?. Si as fuese, Que prueba incumple?
d) Suponga que no se tienen las especificaciones, cuales seran las lmites superior,
inferior y la lnea central?
Solucin
a.- dado que tenemos las especificaciones del producto entonces obtenemos los lmites
de control por medio de ellos
d.- Si no tuvisemos las especificaciones se debern calcular los valores utilizando las
frmulas de la tabla para cartas de control ms comunes.
El nivel aceptable de calidad (AQL) est asociado con el riesgo del productor e indica
el porcentaje mnimo de tem no conformes que puede haber en un lote para que este
pueda ser considerado como bueno.
Plan simple de muestreo: la informacin obtenida de una muestra es usada para tomar
una decisin para aceptar o rechazar el lote. Los parmetros son n tamao de muestra y
c nmero de aceptacin.
Se selecciona una muestra de tamao n y el nmero de tem defectuosos o no conformes
se compara con c. Si el nmero de defectuosos es menor o igual a c entonces el lote es
aceptado, en caso contrario el lote es rechazado.
Al momento de tomar la nueva muestra se determinan n2, c2, r2 con una condicionante
que r2 = c2 + 1, y la prueba queda de la siguiente manera:
Si d1 + d2 c2 => acepta el lote
Si d1 + d2 > r2 => rechace el lote
n1 = 40 n2 = 60
c1 = 1 c2 = 5
r1 = 4 r2 = 6