Sunteți pe pagina 1din 30

INSTITUTO TECNOLGICO SUPERIOR

Ing. En gestin empresarial


ESTADSTICA INFERENCIAL 1

INVESTIGACIN:
UNIDAD 4
Pruebas de hiptesis con dos muestras datos numricos y varias
muestras de datos numricos.
UNIDAD 5
Pruebas de hiptesis con dos muestras datos categricos y varias
muestras con datos categricos.

INTRODUCCIN

En esta unidad nos concentraremos en la prueba de hiptesis, otro aspecto de la
inferencia estadstica que al igual que la estimacin del intervalo de confianza, se
basa en la informacin de la muestra. Se desarrolla una metodologa paso a paso
que le permita hacer inferencias sobre un parmetro poblacional mediante el
anlisis diferencial entre los resultados observados (estadstico de la muestra) y
los resultados de la muestra esperados si la hiptesis subyacente es realmente
cierta. En el problema de estimacin se trata de elegir el valor de un parmetro de
la poblacin, mientras que en las pruebas de hiptesis se trata de decidir entre
aceptar o rechazar un valor especificado (por ejemplo, si el nivel de centramiento
de un proceso es o no lo es). Prueba de hiptesis: Estadsticamente una prueba
de hiptesis es cualquier afirmacin acerca de una poblacin y/o sus parmetros.


4.1 INTRODUCCIN PRUEBAS DE HIPTESIS
Una prueba de hiptesis consiste en contrastar dos hiptesis estadsticas. Tal
contraste involucra la toma de decisin acerca de las hiptesis. La decisin
consiste en rechazar o no una hiptesis en favor de la otra. Una hiptesis
estadstica se denota por H y son dos: - Ho: hiptesis nula - H1: hiptesis
alternativa Partes de una hiptesis 1-La hiptesis nula Ho 2-La hiptesis
alternativa H1 3-El estadstico de prueba 4-Errores tipo I y II 5-La regin de
rechazo (crtica) 6-La toma de decisin 1.
Definicin de prueba de hiptesis estadstica es que cuantifica el proceso de toma
de decisiones.
Por cada tipo de prueba de hiptesis se puede calcular una prueba estadstica
apropiada. Esta prueba estadstica mide el acercamiento del calor de la muestra
(como un promedio) a la hiptesis nula. La prueba estadstica, sigue una
distribucin estadstica bien conocida (normal, etc.) o se puede desarrollar una
distribucin para la prueba estadstica particular.
La distribucin apropiada de la prueba estadstica se divide en dos regiones: una
regin de rechazo y una de no rechazo. Si la prueba estadstica cae en esta ltima
regin no se puede rechazar la hiptesis nula y se llega a la conclusin de que el
proceso funciona correctamente.
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor
crtico en la distribucin estadstica que divide la regin del rechazo (en la cual la
hiptesis nula no se puede rechazar) de la regin de rechazo. A hora bien el valor
crtico depende del tamao de la regin de rechazo.

4.2 DISTRIBUCIN NORMAL Y DISTRIBUCIN T DE STUDENT
En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o
distribucin gaussiana, a una de las distribuciones de probabilidad de variable
continua que con ms frecuencia aparece en fenmenos reales.
La grfica de su funcin de densidad tiene una forma acampanada y es simtrica
respecto de un determinado parmetro. Esta curva se conoce como campana de
Gauss.
La importancia de esta distribucin radica en que permite modelar numerosos
fenmenos naturales, sociales y psicolgicos. Mientras que los mecanismos que
subyacen a gran parte de este tipo de fenmenos son desconocidos, por la
enorme cantidad de variables incontrolables que en ellos intervienen, el uso del
modelo normal puede justificarse asumiendo que cada observacin se obtiene
como la suma de unas pocas causas independientes.
En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de
probabilidad que surge del problema de estimar la media de una poblacin
normalmente distribuida cuando el tamao de la muestra es pequeo.
Aparece de manera natural al realizar la prueba t de Student para la determinacin
de las diferencias entre dos medias muestrales y para la construccin del intervalo
de confianza para la diferencia entre las medias de dos poblaciones cuando se
desconoce la desviacin tpica de una poblacin y sta debe ser estimada a partir
de los datos de una muestra.
La distribucin t de Student es la distribucin de probabilidad del cociente

Donde
Z tiene una distribucin normal de media nula y varianza 1
V tiene una distribucin chi-cuadrado con grados de libertad
Z y V son independientes
Si es una constante no nula, el cociente es una variable aleatoria que
sigue la distribucin t de Student no central con parmetro de no-centralidad .


4.3 PRUEBAS DE SIGNIFICANCIA
Las pruebas de significancia estadstica son un procedimiento que brinda un
criterio objetivo para calificar las diferencias que se presentan al comparar los
resultados de dos muestras, con el objetivo de explicar si dichas diferencias se
mantienen dentro de los lmites previstos por el diseo estadstico (un error y una
confianza esperados) o si, por el contrario, la diferencia entre ellas resulta lo
suficientemente grande como para inferir que ha ocurrido un cambio real en el
indicador
4.4 COMPARACIN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LAS
DIFERENCIAS ENTRE NORMALES.
Para comparar las medias de dos muestras aleatorias procedentes de dos
poblaciones normales e independientes, se utiliza el procedimiento Prueba T para
muestras independientes, y para ello, se selecciona:







A continuacin se abre una ventana con los siguientes campos:
Contrastar variables: donde se han de introducir las variables que se van a
analizar, es decir, aquellas variables sobre las que se va a contrastar si hay o no,
diferencias de grupos.
Variable de agrupacin: aqu se debe introducir la variable que se utiliza para
definir los grupos de sujetos sobre los que se estudian las diferencias. Entonces el
sistema activa el botn definir grupos y al presionarlo aparece una ventana donde
se introducen los valores de la variable que definen los dos grupos de sujetos a
comparar, o el valor de la variable que har de corte para definir dichos grupos. Si
el valor de la variable para un individuo es menor o igual que el valor especificado,
el individuo pertenecer al primer grupo, y en caso contrario, al segundo.
Opciones: presionando este botn se obtiene una ventana donde se especifica igual que
en la seccin anterior el nivel de confianza para el intervalo y la forma de tratar los valores
missing.


4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS
DE DOS POBLACIONES NORMALES.
La necesidad de disponer de mtodos estadsticos para comparar las varianzas de dos
poblaciones es evidente a partir del anlisis de una sola poblacin. Frecuentemente se
desea comparar la precisin de un instrumento de medicin con la de otro, la estabilidad
de un proceso de manufactura con la de otro o hasta la forma en que vara el
procedimiento para calificar de un profesor universitario con la de otro.
Intuitivamente, podramos comparar las varianzas de dos poblaciones, y ,
utilizando la razn de las varianzas muestrales s
2
1
/s
2
2
. Si s
2
1
/s
2
2
es casi igual a 1, se
tendr poca evidencia para indicar que y no son iguales. Por otra parte, un valor
muy grande o muy pequeo para s
2
1
/s
2
2
, proporcionar evidencia de una diferencia en las
varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada
independientes, cada una dividida entre sus respectivos grados de libertad. Esto es,

Donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad
y respectivamente.
Sean U y V dos variables aleatorias independientes que tienen distribucin ji cuadradas
con grados de libertad, respectivamente. Entonces la distribucin de la variable
aleatoria est dada por:


y se dice que sigue la distribucin F con grados de libertad en el numerador y
grados de libertad en el denominador.
La media y la varianza de la distribucin F son:
para
para

La variable aleatoria F es no negativa, y la distribucin tiene un sesgo hacia la derecha.
La distribucin F tiene una apariencia muy similar a la distribucin ji-cuadrada; sin
embargo, se encuentra centrada respecto a 1, y los dos parmetros proporcionan
una flexibilidad adicional con respecto a la forma de la distribucin.
Si s
1
2
y s
2
2
son las varianzas mustrales independientes de tamao n
1
y n
2
tomadas de
poblaciones normales con varianzas

y , respectivamente, entonces:

Ejemplos:
Un fabricante de automviles pone a prueba dos nuevos mtodos de ensamblaje de
motores respecto al tiempo en minutos. Los resultados se muestran el la tabla:
Mtodo 1 Mtodo 2
n
1
= 31 n
2
= 25
s
1
2
= 50 s
2
2
= 24
Construya un intervalo de confianza del 90% para
1
2
/
2
2
.
Solucin:
Por la recomendacin de que la varianza muestral mayor va en el numerador se tiene la
siguiente frmula:

al despejar: .
F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. En
este caso los grados de libertad uno valen 30 y los grados de libertad dos 24.
1.
2. y

4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS
Una de las hiptesis sobre las que habitualmente se fundamentan las pruebas
estadsticas de comparacin es que las observaciones pertenecientes a cada una
de las muestras son independientes entre s, no guardan relacin; siendo
precisamente ese uno de los objetivos de la aleatorizacin (eleccin aleatoria de
los sujetos o unidades de observacin). Sin embargo, la falta de independencia
entre las observaciones de los grupos puede ser una caracterstica del diseo del
estudio para buscar fundamentalmente una mayor eficiencia del contraste
estadstico al disminuir la variabilidad. En otras ocasiones con este tipo de diseo
pareado lo que se busca es dar una mayor validez a las inferencias obtenidas,
controlando o eliminando la influencia de variables extraas cuyo efecto ya es
conocido o sospechado, y no se desea que intervenga en el estudio actual
pudiendo enmascarar el efecto del tratamiento o de la variable de inters.
Las muestras apareadas se obtienen usualmente como distintas observaciones
realizadas sobre los mismos individuos. Un ejemplo de observaciones pareadas
consiste en considerar a un conjunto de n personas a las que se le aplica un
tratamiento mdico y se mide por ejemplo el nivel de insulina en la sangre antes
(X) y despus del mismo (Y). En este ejemplo no es posible considerar aX eY
como variables independientes ya que va a existir una dependencia clara entre las
dos variables.


4.7 MODELO TOTALMENTE ALEATORIO: ANLISIS DE VARIANZA DE UN FACTOR.
Hay varias formas en las cuales puede disearse un experimento ANOVA. Quizs
el ms comn es el diseo completamente aleatorizado a una va. El trmino
proviene del hecho que varios sujetos o unidades experimentales se asignan
aleatoriamente a diferentes niveles de un solo factor. Por ejemplo: varios
empleados (unidades experimentales) pueden seleccionarse aleatoriamente para
participar en diversos tipos (niveles diferentes) de un programa de capacitacin (el
factor).
El anlisis de varianza se basa en una comparacin de la cantidad de variacin en
cada uno de los tratamientos. Si de un tratamiento al otro la variacin es
significativamente alta, puede concluirse que los tratamientos tienen efectos
diferentes en las poblaciones.
a. Esta variacin entre el nmero total de las 14 observaciones. Esto se llama
variacin total.
b. Existe variacin entre los diferentes tratamientos (muestras). Esto se llama
variacin entre muestras.
c. Existe variacin dentro de un tratamiento dado (muestra). Esto se denomina
variacin dentro de la muestra.
4.8 SELECCIN DEL TAMAO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE
DOS MEDIAS
En Estadstica el tamao de la muestra es el nmero de sujetos que componen la
muestra extrada de una poblacin, necesarios para que los datos obtenidos sean
representativos de la poblacin.
1. Estimar un parmetro determinado con el nivel de confianza deseado.
2. Detectar una determinada diferencia, si realmente existe, entre los grupos
de estudio con un mnimo de garanta.
3. Reducir costes o aumentar la rapidez del estudio.
Por ejemplo, en un estudio de investigacin epidemiolgico la determinacin de un
tamao adecuado de la muestra tendra como objetivo su factibilidad. As:
Si el nmero de sujetos es insuficiente habra que modificar los criterios de
seleccin, solicitar la colaboracin de otros centros o ampliar el periodo de
reclutamiento. Los estudios con tamaos muestrales insuficientes, no son capaces
de detectar diferencias entre grupos, llegando a la conclusin errnea de que no
existe tal diferencia.
Si el nmero de sujetos es excesivo, el estudio se encarece desde el punto de
vista econmico y humano. Adems es poco tico al someter a ms individuos a
una intervencin que puede ser menos eficaz o incluso perjudicial.
El tamao de una muestra es el nmero de individuos que contiene.

Una frmula muy extendida que orienta sobre el clculo del tamao de la muestra
para datos globales es la siguiente:
n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q))
N: es el tamao de la poblacin o universo (nmero total de posibles
encuestados).
k: es una constante que depende del nivel de confianza que asignemos. El nivel
de confianza indica la probabilidad de que los resultados de nuestra investigacin
sean ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos
equivocar con una probabilidad del 4,5%.
Los valores k ms utilizados y sus niveles de confianza son:
K 1,15 1,28 1,44 1,65 1,96 2 2,58
Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99%
(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos
poner en la frmula k=1,96)
e: es el error muestral deseado. El error muestral es la diferencia que puede haber
entre el resultado que obtenemos preguntando a una muestra de la poblacin y el
que obtendramos si preguntramos al total de ella.
Ejemplos:
Calcular el tamao de la muestra de una poblacin de 500 elementos con un nivel de
confianza del 99%
Solucin: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los
dems valores se tomar =0,5, y e = 0,05.
Reemplazando valores en la frmula se obtiene:
n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 )
n=(5000,5^2 2,58^2)/((500-1) (0,05)^2+0,5^22,58^2
)=832,05/2,9116=285,77=286
Suponga que se tienen dos poblaciones distintas, la primera con media
1
y desviacin
estndar
1
, y la segunda con media
2
y desviacin estndar
2.
Ms an, se elige
una muestra aleatoria de tamao n
1
de la primera poblacin y una muestra independiente
aleatoria de tamao n
2
de la segunda poblacin; se calcula la media muestral para cada
muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se
llama distribucin muestral de las




UNIDAD 5 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS DATOS CATEGORICOS
Y VARIAS MUESTRAS CON DATOS CATEGORICOS.
5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
En algunos diseos de investigacin, el plan muestral requiere seleccionar dos muestras
independientes, calcular las proporciones muestrales y usar la diferencia de las dos
proporciones para estimar o probar una diferencia entre las mismas.
Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas
consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al
hacer dos estudios diferentes salen resultados ligeramente diferentes pero qu tanta
diferencia se requiere para que sea estadsticamente significativo? De eso se pruebas
estadsticas de diferencias de proporciones.
El estadstico Z para estos casos se calcula de la siguiente manera:


Ejemplo: En un estudio de infeccin de vas urinarias no complicadas, los pacientes
fueron asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina /
trometamol.
92% de los 100 tratados con fosfomicina/ trometamol mostraron curacin bacteriolgica
mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se cur la
infeccin.
Cuando comparamos proporciones de muestras independientes, debemos primero
calcular la diferencia en proporciones. El anlisis para comparar dos proporciones
independientes es similar al usado para dos medias independientes. Calculamos un
intervalo de confianza y una prueba de hiptesis para la diferencia en proporciones.
La notacin que usamos para el anlisis de dos proporciones es el mismo que para una
proporcin. Los nmeros inferiores son para distinguir los dos grupos.
Parmetros Poblacin
1 2
Muestra
1 2
Proporcin 1 2 p1 p2
Desviacin
estndar
1(1-2) 2(1-
2)
p1(1-p1) p2(1-
p2)

El cuadrado del error estndar de una proporcin es conocido como la varianza de la
proporcin La varianza de la diferencia entre las dos proporciones independientes es igual
a la suma de las varianzas de las dos proporciones de las muestras. Las varianzas son
sumadas debido a que cada muestra contribuye al error de muestreo en la distribucin de
las diferencias.
ES = p(1-p)/n Varianza = p(1-p)/n
p1(1- p1) p2(1- p2)
Varianza (p1-p2)= varianza de p1 + varianza de p2 = --------- + ----------
n1 n2
El error estndar de la diferencia entre dos proporciones es dado por la raz cuadrada de
la varianza.
ES (p1-p2)= [p1(1-p1)/n1 + p2(1-p2)/n2]
Para calcular el intervalo de confianza necesitamos conocer el error estndar de la
diferencia entre dos proporciones.
El error estndar de la diferencia entre dos proporciones es la combinacin del error
estndar de las dos distribuciones independientes, ES (p1) y ES (p2).
Hemos estimado la magnitud de la diferencia de dos proporciones de las muestras; ahora
calcularemos el intervalo de confianza para esa estimacin.
La frmula general para el intervalo de confianza al 95% es:
Estimado 1.96 x ES
La frmula para 95% IC de dos proporciones sera:
(p1-p2) 1.96 ES(p1-p2)
En el estudio de infeccin de vas urinarias, la proporcin en el grupo de fosfomicina/
trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61
Diferencia en proporciones = 0.92-0.61=0.31
ES = [(0.92(1-0.92)/100 + 0.61(1-0.61)/100] = 0.056
El intervalo de confianza al 95% sera:
0.31 1.96 (0.056) = 0.310.11 = 0.2 a 0.42
El intervalo de confianza al 95% sera:
1.96 (0.056) = 0.310.11 = 0.2 a 0.42
Tengo 95% de confianza de que la diferencia en las proporciones en la poblacin estara
entre 0.2 y 0.42. Como la diferencia no incluye 0, estamos confiados que en la poblacin
la proporcin de curados con fosfomicina/trometamol es diferente que con trimetoprim
sulfametoxazol.
Una prueba de hiptesis usa la diferencia observada y el error estndar de la diferencia.
Sin embargo, usamos un error estndar ligeramente diferente para calcular la prueba de
hiptesis. Esto se debe a que estamos evaluando la probabilidad de que los datos
observados asumen que la hiptesis nula es verdad. La hiptesis nula es que no hay
diferencia en las proporciones de las dos poblaciones y ambas grupos tienen una
proporcin comn, .
El mejor estimado que podemos obtener de es la proporcin comn, p, de las dos
proporciones de la muestra.
P=r1+r2/n1+n2
Donde:
r1 y r2 son los nmeros de respuestas positivas en cada muestra
n1 y n2 son los tamaos de muestra en cada muestra.
La proporcin comn siempre estar entre las dos proporciones individuales.
El error estndar puede ser calculado sustituyendo p, por p1 y p2. ES(p1-p2)=p(1-p)(1/n1
+1/n2) Esto se conoce como error estndar agrupado.
En el estudio de infeccin de vas urinarias, la proporcin en el grupo de fosfomicina/
trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Fueron 100 intregrantes
en cada grupo.
Proporcin comn, p= 92 + 61/100+100 = 153/200 = 0.765
ES(p1-p2)=0.77(1-0.77)(1/100 +1/100)= 0.1771 x 0.002 = 0.019
Si asumimos una aproximacin a la Normalidad para la distribucin Binomial, calculamos
la prueba de z , como antes. Para calcular la prueba de hiptesis, debemos:
1.- Sealar la hiptesis nula Ho
2.- Sealar la hiptesis alternativa H1
3.- Calcular la prueba de hiptesis z.
Hiptesis nula:
Cuando comparamos dos proporciones de poblaciones independientes es usualmente
que las dos proporciones son iguales.
Ho: 1 = 2
Es lo mismo que si la diferencia en las proporciones de las dos poblaciones es igual a 0.
Ho: 1 - 2 = 0
Hiptesis alternativa:
Es usualmente que las dos proporciones no son iguales.
H1: 1 2
Es lo mismo que la diferencia en proporciones no es igual a cero.
H1: 1 2 0
0.92 de xito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazol
ES = 0.019
(p1-p2) 0 0.31 - 0
z= -------------- = -----------= 16.3
ES(p1-p2) 0.019
P<0.05
Rechazamos la hiptesis nula de que las dos proporciones son iguales y aceptamos la
hiptesis alternativa de que son diferentes.


5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma
utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situacin particular.
La proporcin de una poblacin
Las hiptesis se enuncian de manera similar al caso de la media.
Ho: p = p0
H1: p p0
En caso de que la muestra sea grande n>30, el estadgrafo de prueba es: se distribuye
normal estndar.
Regla de decisin: se determina de acuerdo a la hiptesis alternativa (si es bilateral o
unilateral. En el caso de muestras pequeas se utiliza la distribucin Binomial. No lo
abordaremos por ser complicado y poco frecuente su uso.
Diferencia entre las proporciones de dos poblaciones
La situacin ms frecuente es suponer que existen diferencias entre las proporciones de
dos poblaciones, para ello suelen enunciarse las hiptesis de forma similar al caso de las
medias:
Ho: p1 = p2 p1 - p2 = 0
H1: p1 p2
Puede la hiptesis alternativa enunciarse unilateralmente.
El estadgrafo de prueba para el caso de muestras independientes: donde
Siendo a1 y a2, el nmero de sujetos con la caracterstica objeto de estudio en las
muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada
muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay
diferencias entre ambas proporciones y as se obtiene la varianza conjunta. Recuerda que
q = 1-p.
Est de ms que te diga que este estadgrafo se distribuye normal estndar.
La regla de decisin se determina de manera similar a los casos ya vistos anteriormente.
El objetivo de la prueba es comparar estas dos proporciones, como estimadores
H1: p1 p2
Recuerda que la H1 tambin puede plantearse de forma unilateral. En algunos diseos de
investigacin, el plan muestral requiere seleccionar dos muestras independientes, calcular
las proporciones mustrales y usar la diferencia de las dos proporciones para estimar
aprobar una diferencia entre las mismas .Las aplicaciones son similares a la diferencia de
medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de
personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados
ligeramente diferentes pero qu tanta diferencia se requiere para que sea
estadsticamente significativo? De eso se tratan las Pruebas estadsticas de diferencias
de proporciones.
5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z.
Una distribucin poblacional representa la distribucin de valores de una poblacin y una
distribucin muestral representa la distribucin de los valores de una muestra. En
contraste con las distribuciones de mediciones individuales, una distribucin muestral es
una distribucin de probabilidad que se aplica a los valores posibles de una estadstica
muestral. As, la distribucin muestral de la media es la distribucin de probabilidad de los
valores posibles de la media muestral con base en un determinado tamao de muestra.
Para cualquier tamao de muestra dado n, tomado de una poblacin con media , los
valores de la media muestralvaran de una muestra a otra. Esta variabilidad sirve de base
para la distribucin muestral. La distribucin muestral de la media se describe
determinando el valor esperado E () o media, de la distribucin y la desviacin estndar
de la distribucin de las medias, . Como esta desviacin estndar indica la precisin de la
media muestral como estimador puntual, por lo general se le denomina error estndar de
la media.
Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de
pruebas amplias para evaluar la funcin elctrica de su producto. Todos los reproductores
de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra
aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o ms pruebas.
Encuentre un intervalo de confianza de 90% para la proporcin de los reproductores de
discos compactos de la poblacin que no pasan todas las pruebas.
Solucin:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645

0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporcin de discos
defectuosos que no pasan la prueba en esa poblacin est entre 0.0237 y 0.0376.
5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA).
Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o
independientes esto quiere decir que pueden o no estar relacionados sus datos debido a
muchos factores que pueden influir en ellos o bien, un problema no tenga relacin con
otro.
La prueba de independencia trata sobre esto, ya que su objetivo es determinar si alguna
situacin es afectada por otra, basndose en datos estadsticos y valores probabilstico
obtenidos de la fabulacin de datos o de pronsticos por medio de frmulas y tablas, para
esto se basa en un nivel de significancia en un caso y en el otro a comparar, valindonos
de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para as
obtener datos comparativos que son determinantes en la decisin de independencia.
La estadstica de prueba que ser utilizada en la toma de una decisin acerca de la
hiptesis nula es ji cuadrado, X
2
(X

es la letra griega ji minscula. Los valores de ji
cuadrado se obtienen con las siguientes formula:

X
2
= (Oi ei)
2

i ei
Grados de libertad
V = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del rengln
Gran total
Caractersticas
X
2
toma valores no negativos; es decir, puede ser cero o positiva.
X
2
no es simtrica; es asimtrica hacia la derecha.
Existen muchas distribuciones X
2
como en el caso de la distribucin t, hay una
distribucin,

X
2
diferente para cada valor de los grados de libertad.
Nos dan una tabla de contingencia.


Una tabla de contingencia es una disposicin de datos en una clasificacin de doble
entrada. Los datos se ordenan en celdas y se reporta l nmero de datos en cada una. En
la tabla de contingencia estn implicados dos factores (o variables), y la pregunta comn
en relacin con tales tablas es si los datos indican que las dos variables son
independientes o dependientes.
Para ilustrar la utilizacin y anlisis de una tabla de contingencia, considrese la
clasificacin por sexo de los estudiantes de una escuela y su rea acadmica favorita.
Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o
mujer, preguntndosele si prefera recibir cursos en el rea de matemticas, ciencias
sociales o humanidades. La siguiente tabla es una de contingencia que indica las
frecuencias encontradas para esas categoras. Presenta esta tabla la evidencia
suficiente para rechazar la hiptesis nula la preferencia por las matemticas, ciencias
sociales o humanidades es independiente del sexo de un alumno, al nivel de significancia
del 0.05?


Solucin:
Paso 1
Ho: La preferencia por matemticas, ciencias sociales o humanidades es independiente
del sexo de los estudiantes de la escuela.
Ha: La preferencia por las reas es no independiente del sexo de los estudiantes.
Pas 2
Para determinar el valor crtico de la ji cuadrada debe conocerse los grados de libertad,
implicado. En el caso de tablas de contingencia, este nmero es exactamente el nmero
de celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales.
Estos ltimos se indican en la tabla siguiente.
122
178
72 113 115 300
Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden
determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que
se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras
celdas de la primera fila (vase la tabla siguiente), quedan fijos los otros cuatro valores.
50 60 C 122
D E F 178
72 113 115 300
Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no
sern correctos. En consecuencia, para este problema existen dos selecciones libres.
Cada una de estas corresponde a un grado de libertad. As, el nmero de grados de
libertada en este ejemplo es 2 (v=2). Por esta razn, si se utiliza =0.05, el valor critico
es X
2
(2, 0.05) = 6. Vase la siguiente figura.




Pas 3
Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores
esperados E para cada celda. Para tal fin debe recordarse la hiptesis nula, la cual
asevera que estos factores son independientes. En consecuencia, se espera que los
valores estn distribuidos en proporcin a los totales marginales. Hay 122 hombres; se
espera que estn distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y
115. As, para los hombres las cuentas esperadas de celda son:
72/300 x 122 113/300 x 122 115/300 x 122
Similarmente, se esperan:
72/300 x 178 113/300 x 178 115/300 x 178
Para las mujeres. Entonces los valores esperados son como se indica en la tabla
siguiente (siempre verifquense los totales nuevos contra los antiguos.)


M CS H Total
29.28 45.95 46.77 122
42.72 67.05 68.23 178
Total 72.00 113.00 115.00
300.00
Nota
El clculo de los valores esperados puede verse de manera alternativa. Recurdese que
la hiptesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo
hecho este supuesto en el ejemplo, de hecho s est afirmando que son independientes
los eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante
elegido al azar prefiere cursos de matemticas. El estimador puntual para la probabilidad
de que un estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante
prefiera los cursos de matemtica es 72/300. En consecuencia, la probabilidad de que
ocurran ambos eventos es el producto de las probabilidades.
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se
seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados:
Sin depresin Con depresin
Deportista 38 9 47
No deportista 31 22 53
69 31 100
L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22 16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi
Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite
rechazar la hiptesis de independencia de caracteres con un nivel de significacin del 5%,
admitiendo por tanto que la prctica deportiva disminuye el riesgo de depresin.

5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA).
La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de
frecuencias entre dos variables aleatorias, X e Y.
Las hiptesis contrastadas en la prueba son:
Hiptesis nula: X e Y son independientes.
Hiptesis alternativa: X e Y no son independientes (No importa cul sea la relacin que
mantengan ni el grado de esta.
La condicin de independencia, tal como fue definida en la pgina anterior era: X e Y son
independientes si y slo si para cualquier pareja de valores x e y la probabilidad de que X
Gnero Cerveza

Hombre ligera 20 26.67 -6.67 44.4889 1.66812523
Hombre clara 40 37.33 2.67 7.1289 0.19096973
Hombre Oscura 20 16 4 16 1
Mujer ligera 30 23.33 6.67 44.4889 1.90693956
Mujer clara 30 32.67 -2.67 7.1289 0.21820937
Mujer Oscura 10 14 -4 16 1.14285714


6.12710104
o
f
e
f ) (
e o
f f
2
) (
e o
f f
ij e o
e f f / ) (
2

tome el valor x e Y el valor y, simultneamente, es igual al producto de las probabilidades


de que cada una tome el valor correspondiente.

Por tanto, todo lo que necesitamos sern unas estimas de las funciones de probabilidad
de ambas variables por separado (f(x) y f(y)) y de la funcin de probabilidad conjunta
(f(x,y))
Empezaremos la prueba tomando una muestra de parejas de valores sobre la que
contaremos la frecuencia absoluta con la que aparece cada combinacin de valores (x
i
,y
j
)
o de grupos de valores (i,j) (O
ij
) La tabla siguiente, en la que se recogen estos datos, es
en realidad nuestra estimacin de la funcin de probabilidad conjunta multiplicada por el
nmero total de datos (T).

Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por
filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (F
i
) son,
en cada caso, el nmero de veces que hemos obtenido un valor de X (x
i
) en cualquier
combinacin con distintos valores de Y, es decir, son nuestra estima de la funcin de
probabilidad de X multiplicada por el nmero total de observaciones; anlogamente, las
sumas de columnas (C
j
) son nuestra estima de la funcin de probabilidad de Y
multiplicada por el nmero total de observaciones.
El nmero total de observaciones lo podemos obtener como la suma de todas las
frecuencias observadas o, tambin, como la suma de las sumas de filas o de las sumas
de columnas:

As pues, si las variables fueran independientes debera cumplirse que

Naturalmente, nadie espera que esta condicin se cumpla exactamente debido al efecto
de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir
entre las diferencias producidas por efecto del muestreo y diferencias que revelen falta de
independencia.
Podemos convertir la ecuacin anterior a frecuencias absolutas multiplicando por T:
Si X e Y son independientes, O
ij
debe ser igual a y, por tanto,
Bajo la hiptesis de independencia, es el valor esperado de O
ij
(E
ij
)
Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las
frecuencias E
ij
son realmente los valores esperados de las frecuencias O
ij
, se puede
calcular un parmetro que depende de ambas que tiene distribucin chi-cuadrado,


Por otra parte, si las variables no son independientes, las diferencias entre las series de
frecuencias observadas y esperadas sern mayores que las atribuibles al efecto del azar
y, al estar elevadas al cuadrado en el numerador de la expresin anterior, sta tender a
ser mayor que lo que suele ser el valor de una variable chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de la prueba de hiptesis y la regin
crtica se encontrar siempre en la cola derecha de la distribucin chi-cuadrado.
Nuevamente, esta prueba ser siempre de una sola cola.
Estadstico de contraste
Se acepta la hiptesis nula si , el percentil 1 de la distribucin chi-cuadrado
con grados de libertad.
Tal como ocurra en la prueba anterior lo corriente es que queramos demostrar que dos
variables son independientes, es decir, que, habitualmente, nos veremos obligados a
colocar nuestra hiptesis en la hiptesis nula. El nmero de grados de libertad de la chi-
cuadrado que sirve de contraste se calcula de la siguiente forma:
A priori tendremos tantos grados de libertad como combinaciones de valores x
i
, y
j

tengamos (I J)
A este nmero tendremos que restarle I debido a que, para calcular las frecuencias
esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las
sumas de filas obtenemos el nmero total de observaciones sin perder ningn grado de
libertad.
A continuacin, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de las
sumas de columnas; la restante podemos obtenerla restando la suma de las anteriores
del total de observaciones (T).
En resumen, el nmero de grados de libertad de la prueba es el producto del nmero de
filas menos uno por el nmero de columnas menos uno.

En cuanto a la magnitud mnima necesaria de las frecuencias observadas y esperadas,
rigen las mismas normas que en el caso de la prueba de ajuste. En este caso, si nos
viramos obligados a juntar valores para sumar frecuencias, debemos unir columnas o
filas completas (y contiguas). Obviamente, los grados de libertad no deben calcularse
hasta que no se hayan realizado todas las agrupaciones necesarias y quede claro cul es
el nmero de filas y columnas de la tabla definitiva.
Como hemos visto, esta prueba no hace ninguna suposicin acerca del tipo de
distribucin de ninguna de las variables implicadas y utiliza nicamente informacin de la
muestra, es decir, informacin contingente. Esta es la razn por la que, habitualmente, se
le llama chi-cuadrado de contingencia.
5.6 PRUEBAS DE BONDAD DE AJUSTE.
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a
una determinada distribucin, esta distribucin puede estar completamente especificada
(hiptesis simple) o perteneciente a una clase paramtrica (hiptesis compuesta).
Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la
distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la
distribucin poda tener uno o ms parmetros desconocidos, que denotamos por q y que
la hiptesis se relaciona con este parmetro o conjunto de parmetros En otros casos, se
desconoce por completo la forma de la distribucin y la hiptesis entonces se relaciona
con una distribucin especfica f(x,q) que podamos asignarle al conjunto de datos de la
muestra. El primer problema, relacionado con los parmetros de una distribucin conocida
o supuesta es el problema que hemos analizado en los prrafos anteriores. Ahora
examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar
que proviene de una determinada distribucin. Las pruebas estadsticas que tratan este
problema reciben el nombre general de Pruebas de Bondad de Ajuste.
Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y la
prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en
estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo
indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y
la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn
basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin
muestral y la terica. Ambas pruebas estn basadas en las siguientes hiptesis:
H0: f(x,q) = f0(x,q)
H1: f(x,q) f0(x,q)
Donde f0(x, q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis
alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta. Si
se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra prueba
suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la hiptesis
nula, el conjunto de parmetros definidos por q puede ser conocido o desconocido. En
caso de que los parmetros sean desconocidos, es necesario estimarlos mediante alguno
de los mtodos de estimacin analizados con anterioridad.
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o
criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la
distribucin que siguen los tiempos de falla de unos componentes, podramos pensar en
una distribucin exponencial, o una distribucin gama o una distribucin Weibull, pero en
principio no consideraramos una distribucin normal. Si estamos analizando los caudales
de un ro en un determinado sitio, podramos pensar en una distribucin logartmica
normal, pero no en una distribucin normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor
indicacin del tipo de distribucin a considerar.

5.7 APLICACIONES.
Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o
independientes.
La distribucin ji cuadrada sirve para todas las inferencias sobre la variancia de una
poblacin.
Existen muchos problemas para los cuales los datos son categorizados y los resultados
expuestos en forma de conteos o cuentas.
Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser
representado como una distribucin de frecuencias. Estos valores son cuentas: l numera
de datos que caen en cada celda.
En una encuesta determinada se podra preguntar a unas personas si votaran por los
candidatos A, B o C, por lo general, los resultados se indican en una grfica que informa
acerca del nmero de votantes para cada categora posible.

S-ar putea să vă placă și