Documente Academic
Documente Profesional
Documente Cultură
Ejemplo
Solución:
En la tabla siguiente se ven las muestras, las medias de las muestras y los errores
muestrales:
Muestra
x
Error muestral, e=x-
(0,0)
0
0 - 3 = −3
(0,2)
1
1 - 3 = −2
(0,4)
2
2 - 3 = −1
(0,6)
3
3 – 3 = 0
(2,0)
1
1 – 3 = −2
(2,2)
2
2 – 3 = −1
(2,4)
3
3 – 3 = 0
(2,6)
4
4 – 3 = 1
(4,0)
2
2 – 3 = −1
(4,2)
3
3 – 3 = 0
(4,4)
4
4 – 3 = 1
(4,6)
5
5 – 3 = 2
(6,0)
3
3 – 3 = 0
(6,2)
4
4 – 3 = 1
(6,4)
5
5 – 3 = 2
(6,6)
6
6 – 3 = 3
En general se tiene:
Cuando las muestras se toman de una población pequeña y sin reemplazo, se puede usar
la formula siguiente para encontrar x .
Distribución maestral
Distribuciones continuas
Distribución normal
La distribución normal o de Gauss es sin duda la más importante de cuantas hay, tanto
por razones prácticas como teóricas.
Formalmente, una variable aleatoria es normal de media y varianza , lo que se expresa
como , si su función de densidad es
la cual sólo se puede evaluar numéricamente para los diferentes valores de . Como
queda indicado, la media y varianza de la variable aleatoria normal son y ,
respectivamente.
Caso 1
(%i1) load(“distrib”)$
(%o2) 0.0477903522728147
30 * %;
(%o3) 1.433710568184441
Caso 2 Investíguese gráficamente cómo varía el modelo normal con el cambio de los
parámetros.
Solución
(%i3) plot2d(‘([dennormal(x,0,1),dennormal(x,1,1/3)]),[x,−3,3],
[gnuplot_preamble,
“set grid; set size 0.8, 0.8;
set terminal png; set out ‘grafico1.png’”])$
El gráfico que se obtiene muestra la forma acampanada de las dos curvas gaussianas. Al
modificar la media se traslada horizontalmente el eje de la curva y el cambio en la
desviación típica provoca una dilatación o una contracción de la misma.
DISTRIBUCIONES MUESTRALES
DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS
Suponga que es una muestra aleatoria de tamaño n1 tomada de una población con media
m1 y varianza , es otra muestra aleatoria de tamaño n2 tomada de una población con
media m2 y varianza . Si deseamos realizar alguna inferencia sobre m1 - m2, nos
podemos basar en la distribución de la diferencia de las medias muestrales. Por el TCL
sabemos que tanto como se distribuyen normalmente con los siguientes parámetros: ,
Para conocer la distribución muestral de las diferencias entre las medias se debe saber si
las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean
desconocidas, se debe saber si son iguales o diferentes. Cada uno de estos tres casos se
analizará por separado.
a) Distribución de la diferencia entre dos medias cuando las varianzas son conocidas. Si
las varianzas y son conocidas, tanto como se distribuyen normalmente. Por lo tanto la
distribución de la diferencia entre las medias muestrales es normal con el valor esperado
y la varianza dados anteriormente, es decir,
De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribución normal
estándar:
Por lo tanto, con base en la expresión anterior se pueden realizar inferencias con
respecto a la diferencia de medias poblacionales, bajo el supuesto de que las varianzas
sean conocidas. Si además, son iguales, la expresión anterior se puede expresar como:
b) Distribución de la diferencia entre dos medias cuando las varianzas son desconocidas
pero iguales ( = = )
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba
estadística para verificar si éstas son iguales o diferentes. Para realizar esta prueba
debemos hacer uso de la distribución F para verificar si la relación de varianzas es igual
a uno o diferente de uno.
Para cada una de las dos muestras se definen sus respectivas varianzas como:
Además tienen distribuciones chi cuadrado con n1–1 y n2–1 grados de libertad
respectivamente. Por lo tanto su suma también sigue otra distribución chi cuadrado con
n1+n2–2 grados de libertad. Es decir:
Ahora bien, si Z es una variable normal (0,1) y Y tiene una distribución chi cuadrado
con n grados de libertad, entonces la variable tiene una distribución t con n grados de
libertad. Para nuestro caso la variable Z corresponde a la distribución de la diferencia de
las dos medias, con varianzas conocidas, y la variable chi cuadrado corresponde a la
variable Y acabada de definir. Por lo tanto
c) Distribución de la diferencia entre dos medias cuando las varianzas son desconocidas
y diferentes (¹ )
Cuando las varianzas son diferentes se puede demostrar que la siguiente variable
aleatoria T sigue una distribución t con n grados de libertad, donde
A veces, los analistas investigan la variabilidad de una población, en lugar de su media o proporción.
Esto es debido a que la uniformidad de la producción muchas veces es crítica en la práctica industrial.
La variabilidad excesiva es el peor enemigo de la alta calidad y la prueba de hipótesis está diseñada para
determinar si la varianza de una población es igual a algún valor predeterminado.
La desviación estándar de una colección de datos se usa para describir la variabilidad en esa colección y
se puede definir como la diferencia estándar entre los elementos de una colección de datos y su media.
La hipótesis nula; para la prueba de la varianza, es que la varianza poblacional es igual a algún valor
previamente especificado. Como el aspecto de interés, por lo general es si la varianza de la población es
mayor que este valor, siempre se aplica una de una cola.
Para probar la hipótesis nula, se toma una muestra aleatoria de elementos de una población que se
investiga; y a partir de esos datos, se calcula el estadístico de prueba.
( n - 1 ) s2
2 = ----------------
Donde:
* s2 = Varianza muestral.
es cierta.
EJEMPLO
1.- Averiguar si la variabilidad de edades en una comunidad local es la misma o mayor que la de todo el
Estado. La desviación estándar de las edades del Estado, conocida por un estudio reciente es de 12
años. Tomamos una muestra aleatoria de 25 personas de la comunidad y determinamos sus edades.
Calcular la varianza de la muestra y usar la ecuación anteriormente explicada para obtener el estadístico
muestral.
• H0 : 2 = 144
• H1 : 2 144
(n - 1 ) s2 (25-1)(15)2
2 122
Como se puede observar en la ecuación anterior, cuanto mas grande es la varianza muestral respecto a
la varianza poblacional hipotética, mas grande es el estadístico que se obtiene. Luego deducimos que de
un estadístico muestral grande llevamos al rechazo de la hipótesis nula, y un estadístico muestral
pequeño implicará que no se rechaze. La tabla ji cuadrada se usa para determinar si es probable o no que
el valor 37,5 haya sido obtenido de la distribución muestral ji cuadrada hipotética.
Supongamos que esta prueba debe llevarse a un nivel de significancia de 0,02. En la columna 0,02 de la
tabla de ji cuadrada y la fila 24, se encuentra el valor critico de 40, 27. La regla de decisión es:
Si 2 40,27, se rechaza la hipótesis nula de que la varianza de la población es 144 ( Se rechaza H0 si 2 >
40,27 ).
Como estadístico de prueba calculado es 37,5, la hipótesis nula no se rechaza (con riesgo de un error de
tipo II). Si en la tabla de ji cuadrada se hubiese elegido un alfa de 0,05, el valor crítico de la tabla sería
36,415, y la hipótesis nula se hubiera rechazado (37,5 > 36,415). En este ejemplo se ilustra la importancia
de pensar con cuidado en el riesgo apropiado de un error de tipo I en una prueba de hipótesis.
Se supone que la hipótesis nula es cierta, lo que conduce a la obtención de un estadístico muestral de
una distribución ji cuadrada con 2 grados de libertad.
Cociente F
S12
F = ---------
S22
Donde:
Nota: Por convivencia, para encontrar los valores de F, por lo general se pone en el numerador la
varianza muestral mas grande.
rechaza.
La distribución F especifica que se aplica a una prueba en particular queda determinada por dos
parámetros: los grados de libertad para el numerador y los grados de libertad para el denominador. Cada
uno de estos valores es n-1. Si se conocen estos valores y se elige un valor alfa, al valor crítico de F se
puede encontrar en la tabla F.
EJEMPLO
1.- Averiguar si la variabilidad del salario por hora es la misma en dos sucursales, o si la variabilidad de la
sucursal 1 es mayor que la de la sucursal 2. La comparación de la variabilidad de las dos sucursales
constituye el primer paso en un estudio detallado sobre ingresos.
Se toman muestras aleatorias de los salarios por hora en cada sucursal para determinar las varianzas
muestrales y elegimos un nivel de significancia de 0,05. La hipótesis nula y alternativa son:
• H0 : 12 - 22 0
• H1 : 12 - 22 > 0
S12 14,3641
S22 6,1504
El cociente F indica que la varianza muestral de la población 1 es 2,34 veces la varianza muestral de la
población 2. Sin embargo, dados los tamaños de las muestras ¿Es suficiente esta evidencia para
rechazar la hipótesis de que las poblaciones tiene la misma varianza?. Se necesita el valor crítico de F
para contestar esta pregunta. Primero, se calculan los grados de libertad para el numerador y el
denominador:
Se usa la tabla F para encontrar el valor crítico. Hay dos valores de F en la tabla: uno para el nivel de
significancia de 0,05 y otro para el nivel de 0,01. Al ser ésta una prueba de una cola, como sugiere la
hipótesis alternativa, toda el área de 0,05 o de 0,01 estará en el extremo superior de la curva.
Las columnas de la tabla F representan los grados de libertad del numerador, por lo que se selecciona la
columna 20. Las filas corresponden a los grados de libertad del denominador, así que se elige la fila 24. El
valor crítico de F a un nivel de significancia de 0,05 para 20 grados de libertad en el numerador y 24
grados de libertad en el denominador es 2,02.
El cociente F calculado a partir de los datos de la muestra es 2,34. Según este valor de prueba, la
hipótesis nula se rechaza (2,34 > 2,02). Si acepta un riesgo del 5% de un error de tipo I, las poblaciones
no tienen la misma varianza.
EJEMPLO
2.- ¿Son iguales las varianzas de dos poblaciones de edades de los artículos en inventario, o la población
2 tiene una mayor varianza? Se toman muestras aleatorias de 53 artículos de cada población de
inventario y se calculan las varianzas muestrales. La prueba ha de llevarse a cabo con un nivel de
significancia de 0,01. Las hipótesis nula y alternativa son:
• H0 : 22 - 12 0
• H1 : 22 - 12 > 0
La tabla F abreviada, la fila 50 y la columna 50 se usan como aproximaciones de los grados de libertad.
La regla de decisión es:
explicada:
S12 1,370
S22 489
Una de las varianzas muestrales es 2,8 veces mas grande que la otra.
valor crítico (1,94) de la tabla F. Se puede concluir que el inventario 2 tiene mas
s2 = ( N-1/ N ) 2
donde 2 es la varianza poblacional y N es el tamaño de la muestra .Entonces, la varianza
muestral s2 es un estimado sesgado de la varianza poblacional 2. Usando la varianza
modificada.
2 =( N/ N-1 )s2
Estimados Eficientes
Ejemplo: Si se dice que una distancia medida es de 5.28 metros se esta dando un
estimado por punto. Si por otro lado, la distancia es de 5.28 mas menos 0.03metros ( es
decir , la distancia esta entre 5.25m y 5.31 m ) , se esta dando un estimado por
intervalo .
La información sobre el error o precisión de un estimado se conoce como confiabilidad.
X ± Zc /
si el muestreo se lleva a cabo a partir de una población infinita o de una población finita
con reemplazamiento y están dados por :
X ± Zc /
P ± Zc
Si el muestreo se efectuó de una población finita o de una población infinita con
reemplazamiento y están dados por :
P± Zc
S1 y S2 ± zc s1 - s2
S + - Zc s = s ± Zc /
Error Probable
“ Problemas Resueltos “
*
1.- De un ejemplo de estimadores y estimados que sean a).- sin sesgo y eficientes , b).-
sin sesgo e ineficientes y c).- sesgados e ineficientes
Solución
2 =( N/ N-1 ) s2
b).- La media muestral y el estadístico muestral ½ (Q1 + Q3) donde Q1 y Q3 son los
cuartiles inferior y superior , son dos de dichos ejemplos. Ambos estadísticos son
estimados sin sesgo de la media poblacional, ya que la media de sus distribuciones
muéstrales es la media poblacional.
2.- En una muestra de cinco mediciones , los registros de un científico para el diámetro
de una esfera fueron 6.33, 6.37, 6.32, 6.37 centímetros. Determine estimados sin sesgo y
eficientes de a) la media verdadera y b) la varianza verdadera.
Solución
2 = ( N / N - 1 ) s2
3.- Suponga que las estaturas de 100 estudiantes hombres de la universidad XYZ
representan una muestral aleatoria de las estaturas del total de 1546 estudiantes de la
universidad. Determine los estimados sin sesgo y eficientes de a) la media verdadera y
b) la varianza verdadera.
Solución
Por lo tanto = “8.6136 = 2.93 pulgadas. Obsérvese que dado que N es grande
esencialmente no existe diferencia entre y 2 .
4.- De un estimado sin sesgo e ineficiente del diámetro medio verdadero de la esfera del
problema 2.
Solución
5.- En una muestra de cinco mediciones , los registros de un científico para el diámetro
de una esfera fueron 6.33, 6.37, 6.33, 6.38 centímetros. Determine estimados sin sesgo y
eficientes de a) la media verdadera
Solución
Solución
7.- De un estimado sin sesgo e ineficiente del diámetro medio verdadero de la esfera del
problema 2.
Solución
La mediana es un ejemplo de un estimado sin sesgo e ineficientes de la media
poblacional. Para las cinco mediciones, ordenadas por magnitud, la media es 6.36 cm
Como no hay ningún estimador perfecto que de siempre la respuesta correcta, debería
hacerlo por lo menos en promedio. El valor esperado del estimador debería ser igual al
parámetro que trata de estimar. En caso de que lo sea, se dice que el estimador es
“insesgado”, en caso contrario se diría que es sesgado.
θ E(T) =
), demostrar que X/n es unθ Ejemplo. Si X es Binomial (n, .θ estimador insesgado del
parámetro
Solución. Sea P =
Tenemos que:
.µ Ejemplo. Sea X1, X2,…, Xn una muestra aleatoria con E(Xi) = Demostrar que si ,
entonces T = a1X1 + a2X2 +…+anXn es un estimador insesgado de . Ejemplo: Si Sµ
es la varianza de una muestra tomada al azar de una población
infinita, entonces S
σ es un estimador insesgado de
. Previamente habíamos demostrado que E(S
σ )=
Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro
estimado con una cierta probabilidad. En la estimación por intervalos se usan los
siguientes conceptos:
Con estas definiciones, si tras la extracción de una muestra se dice que “3 es una
estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%”,
podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con
una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando,
respectivamente, la mitad del error, para obtener el intervalo de confianza según las
definiciones dadas.
Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza van
relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del intervalo
de confianza, tenemos también una mayor probabilidad de éxito en nuestra estimación,
es decir, un mayor nivel de confianza.
Resumen
Introducción
http://www.uwcm.ac.uk/epidemiology_statistics/research/statistics/
newcombe.htm
y z toma el valor usual de 1.96 para el 95% IC. Por ejemplo, con n
= 32 y r = 25, p = .781, y el intervalo de confianza construido con
la ecuación (1) va desde .638 a .924, es decir, desde 63.8% hasta
92.4%.
Si bien este es un cálculo muy sencillo, desafortunadamente tiene
serias fallas. Tomando el ejemplo anterior, imaginemos que algunos
datos se han registrado con una frecuencia igual a cero. Si se
sustituye con p = 0 en la ecuación (1), se obtendrá un error estándar
igual a cero y el intervalo resultante degenerará, de tal modo que el
límite superior y el inferior serán cero. Similarmente, cuando p = 1
el límite superior y el inferior serán 1. Es más, cuando r es pequeño
(1, 2 ó algunas veces 3), algo igualmente absurdo puede ocurrir:
que se obtenga un límite inferior debajo de cero; igualmente,
consideremos además que cuando n – r es pequeño, el límite
inferior puede exceder a 1. Pero eso no es todo, pues aunque el
intervalo de confianza esté delimitado al 95% para incluir la
verdadera proporción poblacional, un estudio de simulación
muestra que su verdadera probabilidad de cobertura está debajo del
90% para un moderado valor de n. Además, el intervalo tiende a
estar ubicado bastante lejos de .5, que es el punto medio de la
escala. La consecuencia directa es que el cálculo de un límite
superior para, por decir, la incidencia de algún efecto adverso
tenderá a estar falsamente declarado (Newcombe, 1998a). Por lo
tanto, cuando la proporción p es muy pequeña y el tamaño de la
muestra es bastante moderado, o cuando las proporciones obtenidas
son 0 ó 1, las condiciones para obtener el IC por medio del enfoque
tradicional (ecuación 1) llevarán a resultados cuestionables. En
resumen, el método de Wald (ecuación 1) es aplicable si se cumple
el criterio np > 5 y n (1-p) > 5. Pero la previa evaluación
desarrollada en Newcombe (1998a) sugiere que la aplicación del
método de Wald no es apropiada, considerando que el desempeño
de este método es pobre aun cuando se cumple la condición
descripta. Dados los resultados previos de Newcombe, se
recomienda el método de Wilson, que es apropiado aun sin
considerar el tamaño de la muestra ni las frecuencias o
proporciones observadas.
Se formuló una variedad de métodos para afrontar estos problemas.
Entre ellos, se recomienda el método de Wilson (1927), conocido
como método score, porque tiene muy buenas propiedades para el
análisis y es razonablemente aprovechado cuando se dispone de una
calculadora. Primeramente, se han de calcular tres cantidades:
Discusión
Si s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaño n1 y
n2, respectivamente, tomadas de dos poblaciones normales e independientes con
varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100() por
ciento para la diferencia entre medias es:
en donde:
Ejemplos:
Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en
cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio
indican que el mecanismo de hidratación del cemento queda bloqueado y esto permite
que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras
de cemento estándar, se encontró que el peso promedio de calcio es de 90 con una
desviación estándar de 5; los resultados obtenidos con 15 muestras de cemento
contaminado con plomo fueron de 87 en promedio con una desviación estándar de 4.
Supóngase que el porcentaje de peso de calcio está distribuido de manera normal.
Encuéntrese un intervalo de confianza del 95% para la diferencia entre medias de los
dos tipos de cementos. Por otra parte, supóngase que las dos poblaciones normales
tienen la misma desviación estándar.
Solución:
Nótese que el intervalo de confianza del 95% incluye al cero; por consiguiente, para
este nivel confianza, no puede concluirse la existencia de una diferencia entre las
medias.
Medicamento A
Medicamento B
nA = 12
nB = 12
SA2= 15.57
SB2 = 17.54
Solución:
Con un nivel confianza del 95% se sabe que el tiempo promedio para alcanzar un nivel
específico es mayor para el medicamento B.
1ys
Entonces, para construir el intervalo de confianza para la relación de dos varianzas, nos
basamos en la siguiente probabilidad:
Si X1, X2, Xn es una muestra aleatoria de tamaño n tomada de una población normal, y
si S
es la varianza muestral, entonces S
Por lo tanto, para obtener un intervalo de confianza del 100(1-a)% para la varianza s2
nos basamos en el estadístico S
y en la distribución chi cuadrado. Por lo tanto, tenemos la siguiente
probabilidad:
Teorema. Si S
es la varianza muestral de una muestra aleatoria de n observaciones
tomadas de una distribución normal con varianza desconocida s
Ejemplo. Un proceso produce cierta clase de cojinetes de bola cuyo diámetro interior es
de 3 cm. Se seleccionan en forma aleatoria 12 de estos cojinetes y se miden sus
diámetros interiores, y los valores resultantes son los siguientes: 3.01, 3.05, 2.99, 2.99,
3.02, 3.00, 2.98, 2.99, 2.97, 2.97, 3.02 y 3.01. Suponiendo que el diámetro es una
variable aleatoria normal, determine un intervalo de confianza para la varianza
poblacional . Use un intervalo de confianza del 99%.
Solución. Tenemos: ,