Sunteți pe pagina 1din 35

TECNOLÓGICO NACIONAL DE MÉXICO

INSTITUTO TECNOLÓGICO DE OAXACA

INGENIERIA EN GESTION EMPRESARIAL

UNIDAD 5

“ Pruebas de hipótesis con dos muestras y varias


muestras con datos categóricos “

ESTADISTICA INFERENCIAL I

PROFESOR: ING. SERGIO ISIDRO LÓPEZ PÉREZ

ALUMNO: RIOS LOPEZ ARMANDO

FECHA DE ENTREGA: 29 DE MAYO DEL 2019

HORA: 17:00 – 18:00 HRS.


SEMESTRE: CUARTO GRUPO : G

2
INDICE

5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES. 4

5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES. 9

5.3 PRUEBA PARA LA DIFERENCIA EN N PROPORCIONES Z. 14

5.4 PRUEBA DE INDEPENDENCIA (JI-CUADRADA). 17

5.5 PRUEBAS DE CONTINGENCIA (JI-CUADRADA). 22

5.6 PRUEBAS DE BONDAD DE AJUSTE. 28

5.7 APLICACIONES 34

BIBLIOGRAFIA 35
5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
Esta prueba se basa en la aproximación normal de la distribución binomial.
Queremos comparar dos proporciones, p1 y p2, observadas en dos grupos dis-
tintos de tamaños n1 y n2, respectivamente. Esta prueba es utilizable cuando los
tamaños muestrales n1 y n2 son grandes, para poder aplicar el Teorema Central
́ ite. El objetivo de una prueba de dos muestras es determinar si las dos
del Lim
muestras independientes fueron tomadas de dos poblaciones, las cuales presentan
la misma proporción de elementos con determinada característica. La prueba se
concentra en la diferencia relativa (diferencia dividida entre la desviación estándar
de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias
pequeñas denotan únicamente la variación casual producto del muestreo (se
acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0).
El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular
de la distribución normal, a fin de decidir si H0 es aceptada o rechazada. Una vez
más, esta prueba se asemeja considerablemente a la prueba de medias de dos
muestras.

4
EJERCICIOS
1.- Una muestra de 87 mujeres trabajadoras profesionales mostró que la cantidad
promedio que pagan a un fondo de pensión privado el 5% de su sueldo. Una
muestra de 76 hombres trabajadores profesionales muestra que la cantidad que
paga un fondo de pensión privado es 6.1% de su sueldo. Un grupo activista de
mujeres desea demostrar que las mujeres no pagan tanto como los hombres en
fondos de pensión privados. Si se usa alfa = 0.01 ¿Se confirma lo que el grupo
activista de mujeres desea demostrar o no?

Paso 1. Determinar la hipótesis Nula “Ho” y Alternativa “Ha”. Nótese que este
problema es de una cola.

Ho: Lo que pagan las mujeres en el fondo de pensión es mayor a lo que pagan los
hombres

Ha: Lo que pagan las mujeres en el fondo de pensión es menor a lo que pagan los
hombres

Paso 2.

Determinar el nivel de significancia. Definida por el analista, en este caso se desea


usar α = 0.01. Gráficamente el nivel de significancia se distribuye en la curva de
distribución normal como se muestra en la figura:

5
Paso 3.
 Calcular los intervalos que implican ese nivel de significancia Para dicho
nivel de significancia el valor de Z es: Z=-2.326 Gráficamente queda de la siguiente
manera:

Paso 4.

6
2.- En un estudio de infección de vías urinarias no complicadas, los pacientes fueron
asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina /
trometamol. 92% de los 100 tratados con fosfomicina/ trometamol mostraron
curación bacteriológica mientras que el 61% de los 100 manejados con trimetoprim
/ sulfametoxazol se curó la infección. Cuando comparamos proporciones de
muestras independientes, debemos primero calcular la diferencia en proporciones.
El análisis para comparar dos proporciones independientes es similar al usado para
dos medias independientes. Calculamos un intervalo de confianza y una prueba de
hipótesis para la diferencia en proporciones. La notación que usamos para el
análisis de dos proporciones es el mismo que para una proporción. Los números
inferiores son para distinguir los dos grupos.

Parámetros Población 12 Muestra 12

Proporción π1 π2 p1 p2

Desviación
√π1(1-π2) √π2(1- π2) √p1(1-p1) √p2(1- p2)
estándar

En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/


trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61

Diferencia en proporciones = 0.92-0.61=0.31
 ES = √[(0.92(1-0.92)/100 + 0.61(1-

0.61)/100] = 0.056 El intervalo de confianza al 95% sería:
 0.31 ± 1.96 (0.056) =

0.31±0.11 = 0.2 a 0.42
 El intervalo de confianza al 95% sería: 1.96 (0.056) =

0.31±0.11 = 0.2 a 0.42

Hipótesis nula: Cuando comparamos dos proporciones de poblaciones


independientes es usualmente que las dos proporciones son iguales.

Ho: π1 = π2
 Es lo mismo que si la diferencia en las proporciones de las dos

7
poblaciones es igual a 0. Ho: π1 - π2 = 0

Hipótesis alternativa:
 Es usualmente que las dos proporciones no son

iguales.
 H1: π1 ≠ π2
 Es lo mismo que la diferencia en proporciones no es igual

a cero.
 H1: π1 – π2 ≠ 0.

0.92 de éxito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazol


ES = 0.019

(p1-p2) – 0 0.31 - 0

z= -------------- = -----------= 16.3

ES(p1-p2) 0.019 P<0.05

Rechazamos la hipótesis nula de que las dos proporciones son iguales y aceptamos
la hipótesis alternativa de que son diferentes.

8
5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
De acuerdo con Berenson y levine (1991). La prueba de la diferencia entre dos
proporciones está basadas en muestras independientes, se puede efectuar con el
uso de dos métodos diferentes, pero los resultados serán equivalentes.
El primero implica el uso de la distribución normal, para muestras grandes. Para el
segundo método se emplea el binomial, el resultado llega a ser un éxito o fracaso.

Las hipótesis se enuncian de manera similar al caso de la media.

Ho: p = p0

H1: p ¹ p0

En caso de que la muestra sea grande n>30, el estadígrafo de prueba es: se


distribuye normal estándar.

Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral


o unilateral. En el caso de muestras pequeñas se utiliza la distribución Binomial. No
lo abordaremos por ser complicado y poco frecuente su uso.

Diferencia entre las proporciones de dos poblaciones

La situación más frecuente es suponer que existen diferencias entre las


proporciones de dos poblaciones, para ello suelen enunciarse las hipótesis de forma
similar al caso de las medias:

Ho: p1 = p2 Þ p1 - p2 = 0

H1: p1 ¹ p2

Puede la hipótesis alternativa enunciarse unilateralmente.

9
Estimación de la Diferencia de dos Proporciones

En la sección anterior se vio el tema de la generación de las distribuciones


muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos
muestras y podíamos calcular la probabilidad del comportamiento de los
estadísticos. Para este caso en particular se utilizará la distribución muestral de
diferencia de proporciones para la estimación de las mismas. Recordando la
formula:

Despejando P1-P2 de esta ecuación:

Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer
el despeje nos queda las dos proporciones poblacionales y es precisamente lo que
queremos estimar, por lo que se utilizarán las proporciones de la muestra como
estimadores puntuales:

10
EJERCICIOS

1.- Se considera cierto cambio en un proceso de fabricación de partes componentes.


Se toman muestras del procedimiento existente y del nuevo para determinar si éste
tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del
procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento
nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia
real en la fracción de defectuosos entre el proceso actual y el nuevo.

Solución:
Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y
nuevo, respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el
uso de la tabla encontramos que z para un nivel de confianza del 90% es de 1.645.

0.0017<P1-P2<0.0217

Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparado con el método existente.

2.- Algunas veces estamos interesados en analizar la diferencia entre las


proporciones de poblaciones de grupos con distintas características. Por ejemplo,
pensemos que la administración de las tiendas Oxxo cree, sobre la base de una
investigación, que el porcentaje de hombres que visitan sus tiendas 9 o más veces
al mes (clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo
mismo. Las especificaciones requeridas y el procedimiento para probar esta
hipótesis es la siguiente:

11
Datos:

n 45 n 71
H M

P .58 P .42
H M
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
P P .58.42.16

1.
PH Las hipótesismuestra
= proporción nula y alternativa
de hombresson
(H) las siguientes:
PM = proporción muestra de mujeres (M)
NESTADISTICA
H =P
Ho= tamaño de .muestra
H−PINFERENCIAL
M≤0 1 hombres
La proporción de hombres
UNIDAD que
4: PRUEBAS reportanCON
DE HIPOTESIS 9 oDOS
más visitasY por
MUESTRAS mes es
VARIAS
NMUESTRAS DE DATOS
M = tamaño NUMÉRICOS
de muestra mujeres
laESTADISTICA
misma o menor que1la proporción
INFERENCIAL de 4:mujeres
UNIDAD PRUEBASque hacen lo
DE HIPOTESIS mismo.

CON DOS MUESTRAS Y VARIAS
MUESTRAS
Por lo tanto: DE DATOS NUMÉRICOS

PH = proporción muestra
Ha=Ph−Pm>0. de hombres
La proporción de (H)
hombres que reportan 9 o más visitas por mes es
+
PM = proporción muestra de mujeres (M)
mayor 45 (.proporción
a la 58
de )muestra
71(.hombres
42
dede)hombres (H)
mujeres que hacen lo mismo.
P =
NPHH==tamaño
proporción muestra
= 0.48
NPMM==tamaño
proporción
2.NHEspecifica
= tamaño de 45 +
muestra
de muestra
71
el muestra
de mujeres (M)
mujeres
significación de α=0.05 El valor crítico para la prueba de
nivel dehombres
NM =
una
Por tamaño
sola
lo cola de
tanto: es muestra
1.64 mujeres
y
3.Por lo tanto:
Estima el error estándar de la diferencia de las dos proporciones:
45(.58) + 71(.42) 1
P = æ = 0.481 ö
s ph-m =45(..48(1 - . 48)ç ) + ÷ = 0.10
58)++7171(.42
45
P= è 45= 071 ø
.48
45 + 71
y

æ 1 1ö
y 4. Calcula de prueba estadística:
s ph-m = .48(1 - .48)ç + ÷ = 0.10
æ 1 71 ø1 ö
è 45
= .48
s ph(-mdiferencia (1 - .48 )ç +es _ observadas
_ entre_ proporcion ÷ = 0.10
) - (diferencia_ entre_ proporcion
es _ H o )
Z= è 45 71 ø
4. Calcula de prueba estadística: s ph - m
4. Calcula de prueba estadística:
4.(.58 - .42de
Calcula ) -prueba
(0) estadística:
Z= = 1.60
.10
(diferencia _ entre_ proporcion
es _ observadas ) - (diferencia_ entre_ proporciones _ H o )
Z=
(diferencia_ entre_ proporcion sp m
es _ observadas ) - (diferencia_ entre_ proporcion es _ H )
=
LaZ hipótesis nula es aceptada porque elh -valor de la Z calculada es menor que elo
La hipótesis
valor crítico nula
Z. Laes aceptada porqueno
administración s phde
el valor
puede la Z calculada es menor que el valor
- m concluir con un 95 por ciento de
58La- .administración
crítico(.Z. 42) - (0) no puede concluir con un 95 por ciento de confianza que la
Z=
confianza
proporción de hombres =
que 1.60
la proporción
que
de hombres que visita 9 o más veces los Oxxo es mayor
visita 9 o más veces los Oxxo es mayor que la proporción de
que (.58 -
.10
.42 ) - ( 0)
la proporción de mujeres.
Z=
mujeres. = 1.60
.10
La hipótesis nula es aceptada porque el valor de la Z calculada es menor que el valor
crítico Z. La administración no puede concluir con un 95 por ciento de confianza que la
5.3
La PRUEBA
proporción de PARA
hipótesis nula esLAaceptada
hombres DIFERENCIA
que visita 9porque
o másENveces
elnvalor
PROPORCIONES
losde Z.quees
la Zescalculada
Oxxo mayor la menor quedeel valor
proporción
crítico
mujeres.
Una Z. La administración no puede concluir con un 95 por ciento de confianza
distribución poblacional representa la distribución de valores de una población yque unala
proporción de hombres que visita 9 o más veces los Oxxo es mayor que
distribución muestral representa la distribución de los valores de una muestra. 12 la proporción de
En
mujeres.
contraste con las distribuciones de mediciones individuales, una distribución muestral es
una distribución de probabilidad que se aplica a los valores posibles de una estadística
13
5.3 PRUEBA PARA LA DIFERENCIA EN N PROPORCIONES Z.

Una distribución poblacional representa la distribución de valores de una población


y una distribución muestral representa la distribución de los valores de una muestra.
En contraste con las distribuciones de mediciones individuales, una distribución
muestral es una distribución de probabilidad que se aplica a los valores posibles de
una estadística muestral. Así, la distribución muestral de la media es la distribución
de probabilidad de los valores posibles de la media muestral con base en un
determinado tamaño de muestra.
Para cualquier tamaño de muestra dado n, tomado de una población con media ,
los valores de la media muestra varían de una muestra a otra. Esta variabilidad sirve
de base para la distribución muestral. La distribución muestral de la media se
describe determinando el valor esperado E () o media, de la distribución y la
desviación estándar de la distribución de las medias, Como esta desviación
estándar indica la precisión de la media muestral como estimador puntual, por lo
general se le denomina error estándar de la media.
SEGÚN LOS AUTORES LEONARD KAZMIER/ALFREDO DÍAZ MATA.(1993) Y
EFREUD E. JOHN /WALPOLE.(1994). En la investigación aplicada existen muchos
problemas en los cálculos. Es posible determinar el tamaño que se requiere para
una muestra para probar el valor hipotético de una proporción. Debemos decir si las
diferencias observadas entre proporciones o porcentajes de una muestra son
significativas o si pueden distribuirse al azar.
Para determinar el método general para manejar problemas de ese tipo, supóngase
que 𝑥1 , 𝑥2 𝑦 𝑥𝑘 son variables observados de un conjunto de variables aleatorias

independientes 𝑥1 , 𝑥2 𝑦 𝑥𝑘 que tienen distribuciones binomiales con los respectivos

parámetros 𝑛1 , 𝑦 𝜎1 , 𝑛1 𝑦 𝜎2 𝑦 𝑛𝑘 𝑦 𝜎𝑘

𝑥1 − 𝑛𝑖 𝜃𝑖
𝑧𝑖 = 𝑝𝑎𝑟𝑎 𝑖 = 1,2 … 𝑘
√𝑛𝑖 𝜃𝑖 (1 − 𝜃𝑖 )

14
EJERCICIOS

1.- Un fabricante de reproductores de discos compactos utiliza un conjunto de


pruebas amplias para evaluar la función eléctrica de su producto. Todos los
reproductores de discos compactos deben pasar todas las pruebas antes de
venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que
fallan en una o más pruebas. Encuentre un intervalo de confianza de 90% para la
proporción de los reproductores de discos compactos de la población que no pasan
todas las pruebas.

Solución:


n=500
p = 15/500 = 0.03
z(0.90) = 1.645

0.0237<P<0.0376

Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos
que no pasan la prueba en esa población está entre 0.0237 y 0.0376.

2.- En una muestra de 400 pilas tipo B fabricadas por la EverlastCompany, se


encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra
se usa para estimar P, que vendrá a ser la proporción verdadera de todas las pilas
defectuosas tipo B fabricadas por la EverlastCompany, encuentre el máximo error
de estimación tal que se pueda tener un 95% de confianza en que P dista menos
de de p.

Solución:

p=x/n = 20/400=0.05

z(0.95)=1.96

15
Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en que P
dista menos de 0.021 de p. En otras palabras, si p=0.05 se usa para estimar P, el
error máximo de estimación será aproximadamente 0.021 con un nivel de confianza
del 95%

Para calcular el intervalo de confianza se tendría:

Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del
95% se sabe que la proporción de pulas defectuosas de esta compañía está entre
0.029 y 0.071.

Si se requiere un menor error con un mismo nivel de confianza sólo se necesita


aumentar el tamaño de la muestra.

16
5.4 PRUEBA DE INDEPENDENCIA (JI-CUADRADA).

La prueba de independencia trata sobre esto, ya que su objetivo es determinar si


alguna situación es afectada por otra, basándose en datos estadísticos y valores
probabilístico obtenidos de la fabulación de datos o de pronósticos por medio de
fórmulas y tablas, para esto se basa en un nivel de significancia en un caso y en el
otro a comparar, valiéndonos de tablas de contingencia para obtener frecuencias
esperadas y poder aplicarlas, para así obtener datos comparativos que son
determinantes en la decisión de independencia.

En una prueba de independencia el único número que el investigador controla


directamente es el tamaño total de la muestra. Se extrae una muestra de tamaño n
de la población y cada objeto se clasifica según las dos variables que se estudian.
Ni las frecuencias de cada celda, ni los totales de fila y columna se conocen de
antemano.

El investigador no fija previamente ningún conjunto, es decir, son aleatorios.

El planteamiento de las Hipótesis será:

H 0 : A y B son independientes

H 1 : A y B no son independientes

La prueba de independencia trata sobre esto, ya que su objetivo es determinar si


alguna situación es afectada por otra, basándose en datos estadísticos y valores
probabilístico obtenidos de la fabulación de datos o de pronósticos por medio de
fórmulas y tablas, para esto se basa en un nivel de significancia en un caso y en el
otro a comparar, valiéndonos de tablas de contingencia para obtener frecuencias
esperadas y poder aplicarlas, para así obtener datos comparativos que son
determinantes en la decisión de independencia.
La estadística de prueba que será utilizada en la toma de una decisión acerca de la
hipótesis nula es ji cuadrado, X2 (X es la letra griega ji minúscula. Los valores de ji
cuadrado se obtienen con las siguientes formula: X2 =Σ (Oi–ei)2 i ei
Grados de libertad: V = (r-1)*(c-1)


17
Prueba de independencia

EJERCICIOS
Ejercicios de prueba de Independencia. Tabla de Contingencia
1.- En una encuesta pre-electoral realizada a 500 personas se obtuvo la siguiente
En una encuesta pre-electoral realizada a 500 personas se obtuvo la siguiente
Distribución en función de sus edades y de su intención de voto. Compruebe la
Distribución en función de sus edades y de su intención de voto:
hipótesis a un nivel de confianza del 95%.

Edad 18 – 35 35 – 50 50 o más
Partido
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15

Solución: Compruebe la hipótesis a un nivel de confianza del 95%

Solución:
Paso 1. Redactar las hipótesis (Nula y Alternativa)
 La hipótesis Nula siempre se
redacta en términos
Pasode
1. independencia:
Redactar las hipótesis (Nula y Alternativa)
H0: La intenciónLa
dehipótesis
voto es Independiente deredacta
Nula siempre se la edad en
detérminos
las personas.
de independencia:

H0: La intención de voto es Independiente de la edad de las personas.


H1: La intención de voto depende de la edad de las personas.

H1: La intención de voto depende de la edad de las personas.
Paso 2. Determinar
Pasolos
2.grados de libertad

Determinar los grados de libertad
Las Filas son horizontales y las
G.L. = (Filas -1)*(Columnas -1) Columnas verticales. Sólo se cuentan las
G.L. = (Filas -1)*(Columnas -1)
 celdas internas donde están los datos.
G.L.= (4-1)*(3-1) = 6
G.L.= (4-1)*(3-1)Paso
= 6
3. Determinar el punto Crítico

Χ2 (GL;α)
Paso 3. Determinar Buscamos
el punto Crítico en la tabla de la distribución Chi-cuadrado con 6 grados de
libertad por el lateral y en la parte superior de la tabla el nivel de significación de
2 0,05. (α=1-0,95 = 0,05) encontramos que el valor crítico es.
Χ (GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 6 grados de
libertad por el lateral y en la parte superior de la tabla el nivel de significación de
Χ2 (6; 0,05) = 12,592 2
0,05. (α=1-0,95 = 0,05) encontramos que el valor crítico es. Χ (6; 0,05) = 12,592

2
Χ (6; 0,05) = 12,592

18
libertad por el lateral y en la parte superior de la tabla el nivel de signifi
0,05. (α=1-0,95 = 0,05) encontramos que el valor crítico es.

Χ2 (6; 0,05) = 12,592

Χ2 (6; 0,05) = 12,592

19
Paso 4. Calcular las Esperanzas
Paso 4. Calcular las Esperanzas
Paso 4. Calcular las Esperanzas

Edad 18 – 35 35 – 50 50 o más Total


Partido Edad 18 – 35 35 – 50 50 o más Total
Partido A 10 40 60 110
B
A 15
10 70
40 90
60 175
110
C
B 45
15 60
70 35
90 140
175
D
C 30
45 30
60 15
35 75
140
Total
D 100
30 200
30 200
15 500
75
Total 100 200 200 500

O E
O E
10 22 6,55
15
10 35
22 11,43
6,55
45
15 28
35 10,32
11,43
30
45 15
28 15,00
10,32
40
30 44
15 0,36
15,00
70
40 70
44 0
0,36
60
70 56
70 00,29
30
60 30
56 0
0,29
60 44 5,82 Supera al punto crítico (70,26
30 30 0 > 12,592)
90
60 70
44 5,71
5,82 Supera al punto crítico (70,26
35
90 56
70 7,88
5,71 > 12,592)
15
35 30
56 7,50
7,88
500
15 500
30 70,26
7,50
500 500 70,26

Paso 5. Tomar la decisión.


Paso 5: tomar la decisión.
Paso 5. Tomar la decisión.
Como el valor del estadístico es mayor que el valor crítico se rechaza la hipótesis
nula con
Como
Como un 95%
elelvalor
valordel de confianza
delestadístico
estadístico esomayor
es un 5%que
mayor de significación.
que elelvalor
valorcrítico
críticose
serechaza
rechazalalahipótesis
hipótesis
nula con un 95% de confianza o un 5% de significación.
nula con un 95% de confianza o un 5% de significación.

2.- Se realiza una investigación para determinar si hay alguna asociación aparente
entre la altura de los estudiantes de posgrado y el éxito en sus clases, a juicio de
sus profesores. Se selecciona una muestra aleatoria consistente en 500
estudiantes. Se clasifica a cada estudiante de acuerdo a dos criterios, la altura y el
éxito. La tabla de contingencia generada es la siguiente:

20
Mayor altura que el promedio poblacional

Si No
Exito Si 162 263 425
No 38 37 75
200 300 500

Comparamos el número de observaciones en cada celda con el número esperado,


si H 0 es cierta:

Datos utilizados para contrastar asociación entre altura y éxito en las clases. Las
frecuencias esperadas aparecen entre paréntesis :

Mayor altura que el promedio poblacional Para saber si las


diferencias entre valores
halladoz y valores
esperados es
Si No
significativa entonces
Exito Si 162 (170) 263 (255) 425 aplicamos el estadistico
No 38 (30) 37 (45) 75 ji-cuadrado:
200 300 500

A partir de la tabla Ji-cuadrado vemos que:

Como 4.18 está entre 3.84 y 5.02, el valor p está entre 0.025 (0.975) 0.05 (0.950).
El valor p es pequeño, es menor de 0.05. Podemos rechazar H 0 y concluir que la
sobre talla y el éxito en las clases no son independientes.

21
5.5 PRUEBAS DE CONTINGENCIA (JI-CUADRADA).
La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de
frecuencias entre dos variables aleatorias, X e Y.

Las hipótesis contrastadas en la prueba son: Hipótesis nula: X e Y son


independientes e Hipótesis alternativa: X e Y no son independientes (No importa
cuál sea la relación que mantengan ni el grado de esta.

La condición de independencia, tal como fue definida en la página anterior era: X e


Y son independientes si y sólo si para cualquier pareja de valores x e y la
probabilidad de que X tome el valor x e Y el valor y, simultáneamente, es igual al
producto de las probabilidades de que cada una tome el valor correspondiente.

Por tanto, todo lo que necesitamos serán unas estimas de las funciones de
probabilidad de ambas variables por separado (f(x) y f(y)) y de la función de
probabilidad conjunta (f(x,y). Empezaremos la prueba tomando una muestra de
parejas de valores sobre la que contaremos la frecuencia absoluta con la que
aparece cada combinación de valores (xi,yj) o de grupos de valores (i,j) (Oij) La tabla
siguiente, en la que se recogen estos datos, es en realidad nuestra estimación de
la función de probabilidad conjunta multiplicada por el número total de datos (T).

Para obtener las estimas de las funciones de probabilidad marginales debemos


sumar por filas y por columnas los valores de las frecuencias conjuntas. Las sumas
de filas (Fi) son, en cada caso, el número de veces que hemos obtenido un valor de

22
X (xi) en cualquier combinación con distintos valores de Y, es decir, son nuestra
estima de la función de probabilidad de X multiplicada por el número total de
observaciones; análogamente, las sumas de columnas (Cj) son nuestra estima de
la función de probabilidad de Y multiplicada por el número total de observaciones.

El número total de observaciones lo podemos obtener como la suma de todas las


frecuencias observadas o, también, como la suma de las sumas de filas o de las
sumas de columnas:

Así pues, si las variables fueran independientes debería cumplirse que

Naturalmente, nadie espera que esta condición se cumpla exactamente debido al


efecto de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste
en distinguir entre las diferencias producidas por efecto del muestreo y diferencias
que revelen falta de independencia. Podemos convertir la ecuación anterior a
frecuencias absolutas multiplicando por T:

Si X e Y son independientes, Oij debe ser igual a y, por tanto,

Bajo la hipótesis de independencia, es el valor esperado de Oij (Eij)

Tal como pasaba en la prueba anterior, si las variables son independientes, es decir,
si las frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se
puede calcular un parámetro que depende de ambas que tiene distribución chi-
cuadrado,

Por otra parte, si las variables no son independientes, las diferencias entre las series
de frecuencias observadas y esperadas serán mayores que las atribuibles al efecto
del azar y, al estar elevadas al cuadrado en el numerador de la expresión anterior,
ésta tenderá a ser mayor que lo que suele ser el valor de una variable chi-cuadrado.

23
Por tanto, el parámetro anterior ser el estadístico de la prueba de hipótesis y la
región crítica se encontrar siempre en la cola derecha de la distribución chi-
cuadrado. Nuevamente, esta prueba será siempre de una sola cola.

Estadístico de contraste

Se acepta la hipótesis nula si , el percentil 1 – α de la distribución chi-


cuadrado con grados de libertad. Tal como ocurría en la prueba anterior lo
corriente es que queramos demostrar que dos variables son independientes, es
decir, que, habitualmente, nos veremos obligados a colocar nuestra hipótesis en la
hipótesis nula.El número de grados de libertad de la chi-cuadrado que sirve de
contraste se calcula de la siguiente forma:

A priori tendremos tantos grados de libertad como combinaciones de valores x i, yj


tengamos (I J). A este número tendremos que restarle I debido a que, para calcular
las frecuencias esperadas, necesitamos calcular las I sumas de filas en la tabla
anterior. Conocidas las sumas de filas obtenemos el número total de observaciones
sin perder ningún grado de libertad. A continuación, necesitaremos calcular, a partir
de las frecuencias observadas J - 1 de las sumas de columnas; la restante podemos
obtenerla restando la suma de las anteriores del total de observaciones (T).

En resumen, el número de grados de libertad de la prueba es el producto del número


de filas menos uno por el número de columnas menos uno.

En cuanto a la magnitud mínima necesaria de las frecuencias observadas y


esperadas, rigen las mismas normas que en el caso de la prueba de ajuste. En este
caso, si nos viéramos obligados a juntar valores para sumar frecuencias, debemos
unir columnas o filas completas (y contiguas). Obviamente, los grados de libertad
no deben calcularse hasta que no se hayan realizado todas las agrupaciones
necesarias y quede claro cuál es el número de filas y columnas de la tabla definitiva.

EJERCICIOS
1.- Una asociación de profesores universitarios quiere determinar si la satisfacción
en el trabajo es independiente del rango académico. Para ello realizó un estudio
nacional entre los académicos universitarios y encontró los resultados mostrados

24
son la tabla siguiente. Con =0.05, haga una prueba para saber si son
dependientes la satisfacción en el trabajo y el rango.

Rango
Instructor Profesor Profesor Profesor
Satisfacción en
el asociado
asistente
Mucha 40 60 52 63
trabajo Regular 78 87 82 88
Poca 57 63 66 64

Solución:

Ho; La satisfacción en el trabajo y el rango son independientes.

H1; La satisfacción en el trabajo y el rango son dependientes.

Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6

Regla de decisión:


Si X2R 12.592 no se rechaza Ho.


Si X2R > 12.592 se rechaza Ho.

Se procederá a calcular los valores esperados de cada celda. Como los grados de
libertad son 6, esto quiere decir que necesitamos calcular únicamente 6
frecuencias esperadas, y las faltantes se encuentran por diferencia.

Se calcularán los valores esperados E11, E12, E13, E21, E22 y E23.

Como se necesitan los totales de renglón y columna se mostrarán en la tabla:

Rango
Instructor Profesor Profesor Profesor Total

asistente asociado
Satisfacción en Mucha 40 60 52 63 215
el Regular 78 87 82 88 335
Poca 57 63 66 64 250
trabajo
Total 175 210 200 215 800

25
Satisfacción Instructor Profesor Profesor Profesor Total
asistente asociado
Mucha 40 60 52 63 215

(47.03) (56.44) (53.75) (57.78)


Regular 78 87 82 88 335

(73.28) (87.94) (83.75) (90.03)


Poca 57 63 66 64 250

(54.69) (65.62) (62.50) (67.19)


Total 175 210 200 215 800

Decisión y justificación:
 Como el valor de 2.75 es menor que el de tabla 12.592,


por lo tanto no se rechaza Ho y se concluye con un =0.05 que la satisfacción en
el trabajo y el rango son independientes.

2.- En un estudio de un taller, se reúne un conjunto de datos para determinar si la


proporción de defectuosos producida por los trabajadores es la misma para el turno
matutino, vespertino o nocturno. Se reunieron los siguientes datos:

Matutino Vespertino Nocturno


Defectuosos 45 55 70
No defectuosos 905 890 870

Utilice un nivel de significancia de 0.025 para determinar si la proporción de


defectuosos es la misma para los tres turnos.

26
Solución:

Ho; La proporción de artículos defectuosos es la misma para los tres turnos.

H1; La proporción de artículos defectuosos no es la misma para los tres turnos.

Grados de libertad: (r-1)(c-1) = (2-1)(3-1)=(1)(2) = 2

Regla de decisión:
Si X2R 7.378 no se rechaza Ho. Si X2R > 7.378 se rechaza Ho.

Se procederá a calcular los valores esperados de cada celda. Como los grados de
libertad son 2, esto quiere decir que necesitamos calcular únicamente 2 frecuencias
esperadas, y las faltantes se encuentran por diferencia.Se calcularán los valores
esperados E11, y E22. Como se necesitan los totales de renglón y columna se
mostrarán en la tabla:

Matutino Vespertino Nocturno Total


Defectuosos 45 55 70 170
No defectuosos 905 890 870 2665
Total 950 945 940 2835

Decisión:Si se busca este valor dentro de la tabla de ji-cuadrada con 2 grados de


libertad nos dará un valor de P aproximado a 0.04. Si se observa el valor de la ji-
cuadrada calculada de 6.29 con el valor de tabla de 7.378, se llega a la decisión
de no rechazar Ho. Sin embargo sería riesgoso concluir que la proporción de
defectuosos producidos es la misma para todos los turnos por tener un valor de P
de 0.04.

27
5.6 PRUEBAS DE BONDAD DE AJUSTE.

Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se
ajustan a una determinada distribución, esta distribución puede estar
completamente especificada (hipótesis simple) o perteneciente a una clase
paramétrica (hipótesis compuesta).

Una hipótesis estadística se definió como una afirmación o conjetura acerca de la


distribución f(x,q) de una o más variables aleatorias. Igualmente se planteó que la
distribución podía tener uno o más parámetros desconocidos, que denotamos por q
y que la hipótesis se relaciona con este parámetro o conjunto de parámetros En
otros casos, se desconoce por completo la forma de la distribución y la hipótesis
entonces se relaciona con una distribución específica f(x,q) que podamos asignarle
al conjunto de datos de la muestra. El primer problema, relacionado con los
parámetros de una distribución conocida o supuesta es el problema que hemos
analizado en los párrafos anteriores. Ahora examinaremos el problema de verificar
si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada
distribución. Las pruebas estadísticas que tratan este problema reciben el nombre
general de “Pruebas de Bondad de Ajuste”.

Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado
y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que
en estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el
nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a partir
de la muestra y l a distribución teórica que se supone debe seguir esa muestra.
Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias
significativas entre la distribución muestral y la teórica. Ambas pruebas están
basadas en las siguientes hipótesis:

H0: f(x,q) = f0(x,q)

H1: f(x,q) 1 f0(x,q)

28
Donde f0(x, q) es la distribución que se supone sigue la muestra aleatoria. La
hipótesis alternativa siempre se enuncia como que los datos no siguen la
distribución supuesta. Si se desea examinar otra distribución específica, deberá
realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva
distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por
q puede ser conocido o desconocido. En caso de que los parámetros sean
desconocidos, es necesario estimarlos mediante alguno de los métodos de
estimación analizados con anterioridad.

Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos
o criterios:

a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la


distribución que siguen los tiempos de falla de unos componentes, podríamos
pensar en una distribución exponencial, o una distribución gama o una distribución
Weibull, pero en principio no consideraríamos una distribución normal. Si estamos
analizando los caudales de un río en un determinado sitio, podríamos pensar en
una distribución logarítmica normal, pero no en una distribución normal.

b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor


indicación del tipo de distribución a considerar.

29
Prueba de independencia

EJERCICIOS
Ejercicio de Bondad de Ajuste
1.- La distribución del número de entrevistas conseguidas por los 56 alumnos que
participaron en el proyecto fue la siguiente:
La distribución Compruebe
del número la hipótesis
de entrevistas a un nivel
conseguidas por de
los 56 alumnos qu
significación del 95% participaron en el proyecto fue la siguiente:

No. De Entrevistas No. De Alumnos


0 6
1 16
2 23
3 9
4 2

Solución: Compruebe la hipótesis a un nivel de significación del 95%

Solución:
Paso 1. Redactar las hipótesis (Nula y Alternativa)
 La hipótesis Nula siempre se
Paso 1.del
redacta como una afirmación Redactar
patrón las hipótesis (Nula y Alternativa)
esperado:
La hipótesis Nula siempre se redacta como una afirmación del patrón esperad
H0: Todos los estudiantes tienen la misma probabilidad de conseguir el mismo
número de entrevistas.H0: Todos los estudiantes tienen la misma probabilidad de conseguir el mism
número de entrevistas.
H1: No Todos los estudiantes tienen la misma probabilidad de conseguir el mismo
H1: No Todos los estudiantes tienen la misma probabilidad de conseguir el m
número de entrevistas.número de entrevistas.

Paso 2. Determinar losPaso


grados de libertad los grados de libertad
2. Determinar

G.L.= Clasificaciones G.L.=


-1 Clasificaciones -1

G.L.= No. De entrevistas -1


G.L.= No. De entrevistas -1

G.L.= 5-1 = 4
G.L.= 5-1 = 4
Paso 3. Determinar el punto Crítico
Paso 3. Determinar elΧpunto
2 Crítico
(GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 4 grad
libertad por el lateral y en la parte superior de la tabla el nivel de significaci
Χ2 (GL;α) Buscamos 0,05. en la tabla de la distribución
Encontramos Chi-cuadrado
que el valor con 4 grados de
crítico es 9,49
libertad por el lateral y en la parte superior de la tabla el nivel de significación de
0,05. Encontramos que el valor crítico es 9,49

30
G.L.= 5-1 = 4

Paso 3. Determinar el punto Crítico

Χ2 (GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 4 grado


libertad por el lateral y en la parte superior de la tabla el nivel de significació
0,05. Encontramos que el valor crítico es 9,49

Prueba de independencia

Paso 4. Calcular las Esperanzas


Paso 4. Calcular las Esperanzas
Como el patrón esperado es que todos los estudiantes realicen el mismo número
de entrevistas
Como el patrónseesperado
calcula un promedio entre las
es que todos losobservaciones el númeroeldemismo número
estudiantes yrealicen
entrevistas.
de entrevistas se calcula un promedio entre las observaciones y el número de
entrevistas.

La sumatoria hasta aquí ya


No. De Entrevistas O E demuestra que sobrepasa el
punto crítico lo que indica
0 6 11,2 2,41 que se rechaza la H0
1 16 11,2 2,06
2 23 11,2 12,43
3 9 11,2
4 2 11,2
56 56

Paso 5.5.Tomar
Paso Tomar la decisión.
la decisión

SeSe rechazala
rechaza la hipótesis
hipótesis nula
nulacon un un
con 5% 5%
de significación.
de significación.

2.- Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que


́ ea de ensamblaje y él desea verificar sobre la base de los datos que
salen de una lin
siguen, los números de llantas con defectos observadas en 200 dia ́ s, si es cierto
que el 5% de todos los neumáticos tienen defecto; es decir, si el muestrea una
población binomial con n = 10 y p = 0.05

Paso 1. Establecer la hipótesis

Ho: La población es binomial

31
Ha: La población no es binomial

Paso 2.- Establecer la estadiś tica de prueba

Paso 3 Definir el nivel de significancia y la zona de rechazo

Paso 4. Calcular el estadístico de prueba

y la probabilidad de 2 ó más = 1.0 -0.599 -0 .315 = 0.086

Ahora ya podemos encontrar las frecuencias esperadas:

32

 200 (0.599) = 119.8 200(0.315) = 63 200 (0.086) = 17.2

Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de
significancia de 0.05.

Conclusión
 Se concluye que el porcentaje verdadero de neumáticos con defecto


no es el 5%.

33
5.7 APLICACIONES
Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes
o independientes.

La distribución ji cuadrada sirve para todas las inferencias sobre la variancia de una
población.

Existen muchos problemas para los cuales los datos son categorizados y los
resultados expuestos en forma de conteos o cuentas.

Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser


representado como una distribución de frecuencias.Estos valores son cuentas: él
numera de datos que caen en cada celda.

En una encuesta determinada se podría preguntar a unas personas si votarían por


los candidatos A, B o C, por lo general, los resultados se indican en una gráfica que
informa acerca del número de votantes para cada categoría posible.

34
BIBLIOGRAFIA

Berenson/Levine.(1991). Estadística para administración y economía. 1ª


edición.Mc-Graw Hill Interamericana de mexico.estado de México.

Irwin R. Miller/John E. Freud/Richard Johnson.(1992).probabilidad y


estadística para ingenieros. 4ª edición. Traducido por Ing. Virgilio González
Pozo.Prentice-Hall Hispanoamericana. Impreso en México.

Leonard Kazmier/Alfredo Díaz Mata.(1993).estadística aplicada a la


administración y a la economía.2ª edición. Traducido por Alfredo Díaz Mata.
Mc-Graw Hill Interamericana de México de C.V.Impreso en México.

http://www.virtual.unal.edu.com/cursos/sedes/marizales/403006/lecciones/
capituloes/tema7.html

http://www.facmed.unam.mx/eptos/salud/sencenseneza/planunico/spi/a
ntologia2012/s.pdf

http://eecrib.com/doc/82253086/unidad-iv-pruebas-de-hipotesis-con-dos-
muestras-y-varias-muestras-de-datos-numericos.

http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap04c.
html

35

S-ar putea să vă placă și