Sunteți pe pagina 1din 96

UNIVERSIDAD DEL VALLE

1

ESCUELA DE ESTADÍSTICA

RESUMEN DE INFERENCIA ESTADÍSTICA

CURSO: ESTADÍSTICA NO PARAMETRICA

PROFESOR: GABRIEL CONDE A.

FEBRERO DE 2015

Diapositivas basadas en material anterior del profesor de

la Escuela de Estadística Javier Olaya.

CONTRASTES DE HIPÓTESIS

En muchas situaciones el objetivo de un estudio

no es estimar un parámetro a partir de datos muestrales, si no más bien verificar el cumplimiento de una hipótesis acerca de una población.

UNA HIPÓTESIS

Acojamos la siguiente definición: una hipótesis es un enunciado acerca de una población”.

Nuestro interés es construir una procedimiento que nos permita tomar una decisión sobre si rechazamos esta hipótesis o no.

VERDAD Y VEROSIMILITUD

Como resultado final se producirá una decisión, que puede o no ser cierta. Pero, basados en

algún tipo de evidencia probabilística, no diremos

que es ciertadiremos que es creíble.

ALGUNAS HIPÓTESIS POSIBLES

1. La población es Normal

2.

El contenido promedio de las botellas es

350ml

3.

El candidato A ganará las elecciones

4.

El catalizador 1 es mejor que el catalizador 2

5.

El desempleo femenino ha aumentado

¿Cómo opera un contraste de hipótesis?

Población (N)

 ¿µ?
¿µ?

Muestra (n)

¿Cómo opera un contraste de hipótesis? Población (N)  ¿µ? Muestra (n) Evidencia ¿  

Evidencia

¿l ?

Decisiones en un contraste de hipótesis

La

recogida

representativa.

decisión

se

a

fundamenta

través

de

en

la

una

evidencia

muestra

Por ejemplo, si la media de la muestra es muy

cercana al valor l, uno tenderá a asumir que la

media de la población es l.

DOS ELEMENTOS

La decisión se toma partiendo de la evidencia que se recaba a través de una muestra

aleatoria

Se

de

probabilidades, si el cumplimiento de la

hipótesis es admisible

determina,

mediante

cálculo

Una definición más formal

Una hipótesis de investigación es una

idea o conjetura que se enuncia a priori y que se

desea contrastar a través de la realidad. Es la suposición de una verdad que aún no

se ha establecido, es decir, una conjetura que se

hace sobre la realidad que aún no se conoce y que se ha formulado precisamente con el objeto de llegar a conocimiento de nuevos hechos” Grasseau (Teoría de la Ciencia . Pág. 103)

Hipótesis estadística

10

Por otra parte, una hipótesis estadística es una

representación de la hipótesis de investigación en forma de ecuación matemática y en función de

parámetros poblacionales.

Por ejemplo:

O también:

= l > l

11

¿Contraste?

Las hipótesis de investigación se desglosan en

dos hipótesis estadísticas que se denominan

Hipótesis nula e Hipótesis Alterna, las cuales se

contrastan.

Hipótesis nula: H 0

12

La hipótesis nula se plantea como una

igualdad (semejanza, identidad), y es la afirmación que se contrasta. Es decir, las

pruebas se diseñan para valorar la fuerza de la

evidencia en contra de la hipótesis nula. En general es una afirmación de ausencia de efecto.

Hipótesis alterna: H a

13

La hipótesis alterna dependerá del conocimiento

que tenga el investigador acerca del problema o

de la hipótesis de investigación. Es una afirmación acerca de la población sobre la cual

queremos hallar evidencia a favor

14

Es decir:

Si se tiene un resultado poco probable, basado en la muestra, dado que Ho es cierta, entonces

tenemos una evidencia en contra de Ho y a

favor de Ha

Por ejemplo

15 Se presume que la media de la población toma

el valor l (afirmación en contra de la cual

intentamos hallar evidencia) y se desea contrastar esta presunción contra otra

afirmación que defiende que la media de la

población es mayor que l.

Las hipótesis estadísticas a contrastar serían:

Hipótesis nula

H 0 :

= l

Hipótesis alterna

H a :

> l

Otros contrastes

16

Otras posibles hipótesis estadísticas a

contrastar podrían ser:

1.

 

Hipótesis nula

H 0 :

= l

Hipótesis alterna

H a :

l

2.

 

Hipótesis nula

H 0 :

= l

Hipótesis alterna

H a :

< l

¿Con qué criterios rechazo o no la hipótesis nula?

La verdad o falsedad de la hipótesis no puede

conocerse con total seguridad, a menos que

pueda examinarse toda la población

La única herramienta de la cual se dispone para rechazar o no la hipótesis nula se basa

en lo que se observa en una muestra

aleatoria.

Un contraste

Se cree que la pobreza en Cali (medida a través del índice NBI) ha cambiado a un nivel

diferente del 30%.

Hipótesis nula

Hipótesis alterna

H 0 :

H a : p 0.3

p = 0.3

NBI = Necesidades Básicas Insatisfechas

¿Cómo se decide?

Se define un estadístico de prueba y se evalúa si su valor se encuentra en la región crítica

Región crítica Región de “aceptación” Región crítica Se rechaza H 0 No se rechaza H
Región crítica
Región de “aceptación”
Región crítica
Se rechaza H 0
No se rechaza H 0
Se rechaza H 0
p  0. 30
p = 0.30
p  0.30
0.25
0.30
0.35
Valores Críticos

20

ACEPTACIÓN

“Se debe entender que la “aceptación” de una

hipótesis nula implica tan solo que los datos no

arrojaron suficiente evidencia que indique que esta no se cumple (o se rechace)”.

EJECUCIÓN DE UN CONTRASTE DE HIPÓTESIS

21

1. Plantear una hipótesis de investigación.

2. Traducir la hipótesis de investigación en

hipótesis estadísticas

3. Fijar Nivel de Significancia

4. Determinar un estadístico de prueba con distribución conocida (verificar supuestos)

EJECUCIÓN DE UN CONTRASTE DE HIPÓTESIS (2)

22

5. Determinar la región de rechazo

6. Evaluar el valor de estadístico de prueba en la muestra obtenida aleatoriamente, asumiendo que la H 0 es cierta

7. Contrastar el valor del estadístico de prueba

con la región de rechazo. Rechazar Ho si y

solo si el valor del estadístico de prueba cae

en la región de rechazo

Forma de la Región de Rechazo

La forma región de rechazo depende de cómo se plantee la hipótesis alterna:

1. Hipótesis alterna unilateral (Una sola cola) 2. Hipótesis alternas bilaterales (dos colas)

la hipótesis alterna: 1. Hipótesis alterna unilateral (Una sola cola) 2. Hipótesis alternas bilaterales (dos colas)
la hipótesis alterna: 1. Hipótesis alterna unilateral (Una sola cola) 2. Hipótesis alternas bilaterales (dos colas)
la hipótesis alterna: 1. Hipótesis alterna unilateral (Una sola cola) 2. Hipótesis alternas bilaterales (dos colas)
la hipótesis alterna: 1. Hipótesis alterna unilateral (Una sola cola) 2. Hipótesis alternas bilaterales (dos colas)
la hipótesis alterna: 1. Hipótesis alterna unilateral (Una sola cola) 2. Hipótesis alternas bilaterales (dos colas)

PENSIONES

ASOFONDOS es la asociación que regula los fondos de

pensiones. Esta entidad sugiere que la edad de

jubilación debe incrementarse, debido a que las condiciones de riesgo de los individuos en la actualidad

ha disminuido, logrando incrementar su esperanza de vida, que hasta hace algunos años se había calculado en 70 años. Su afirmación la plantean fundamentándose en una muestra de 100 registros de muertes que dio como resultado una edad promedio de muerte de 71,8 años con desviación de 15 años.

¿Qué opina?

¿Cree Usted que los resultados de este estudio

demuestran que se ha incrementado la edad promedio de los colombianos y que, por tanto, se

justifica aumentar la edad de jubilación?

SOLUCIÓN

Paso 1. Planteamiento de Hipótesis de Investigación

La edad promedio de muerte es superior a 70 años

La edad promedio de muerte es superior a 70 años   70 Paso 2. Planteamiento

70

Paso 2. Planteamiento de Hipótesis Estadísticas

H

0

: 70

VS

H

1

: 70

Paso 3. Selección nivel de significancia

Paso 4. Selección y cálculo del estadístico de prueba

z c

x   0  n
x 
0
n

71.8  70 15 100
71.8
 70
15
100

1,2

SOLUCIÓN

Paso 5. Determinación Región de Aceptación, Rechazo

Paso 6. Contraste del estadístico de prueba

Paso 7. Decisión

Región de z 1.64 Aceptación 0.05 Z 1,2 c
Región de
z 1.64
Aceptación
0.05
Z 1,2
c

No se rechaza Ho No existe suficiente evidencia para pensar que la esperanza de vida ha aumentado

El valor P como Criterio de Decisión

Diremos que el valor p es la probabilidad de que

el estadístico de contraste arroje un resultado tan extremo o más extremo que el observado

cuando la Hipótesis nula es verdadera. Cuanto

menor sea el valor p mayor es la evidencia, que proporciona la muestra, en contra de Ho

El valor P como Criterio de Decisión

Por tanto, si el valor p es relativamente grande

(valor p > significancia), es razonable pensar que la hipótesis nula puede sea cierta.

Pero si el valor p puede juzgarse como muy

pequeño (valor p < significancia), es razonable

pensar que la hipótesis nula no es cierta.

Decimos entonces que los datos son

“estadísticamente significativos a un nivel

El valor P como Criterio de Decisión

Significativo en estadística expresa que “es poco

probable que ocurra por el azar”

Significativo a un nivel 0.01 se expresa diciendo que “los resultados son significativos (p < 0.01)”

El valor p nos da más información que el nivel . Ya que podemos valorar la significación para diferentes

valores que escojamos. Así es como:

p = 0.03 es significativo a un nivel de significación =

Muestras pareadas

En un programa de Control de Enfermedades

Crónicas, la hipertensión está incluida como la

primera patología a controlar. 15 pacientes

hipertensos son sometidos al programa y controlados en su tensión asistólica antes y

después de 6 meses de tratamiento. Los datos

son los siguientes:

Hipertensos

Inicio

180

200

160

170

180

190

190

180

190

160

170

190

200

210

220

Fin

140

170

160

140

130

150

140

150

190

170

120

160

170

160

150

¿Es eficaz este tratamiento?

Estadístico de prueba

d  d o T   t s d n
d  d
o
T 
 t
s
d n

n 1

En este caso se obtienen las diferencias por

parejas y el análisis se hace con la muestra de las diferencias observadas.

ERRORES EN LOS CONTRASTES DE HIPÓTESIS

35

La

(semejanza, identidad), y es la afirmación que se

contrasta (evidenciar su rechazo).

igualdad

hipótesis

nula

plantea

se

como

una

Se debe entender que la “aceptación” de una hipótesis nula implica tan solo que los datos no arrojaron

suficiente evidencia que indique que esta no se cumple.

Condición real H 0 verdadera H 0 falsa Decisión Rechazar H 0 Error Tipo I
Condición real
H 0 verdadera
H 0 falsa
Decisión
Rechazar H 0
Error Tipo I
ok
No rechazar H 0
ok
Error Tipo II

ERRORES EN LOS CONTRASTES DE HIPÓTESIS

36

Si reconocemos la lógica binaria (falso verdadero)

podemos re-escribir la tabla de la siguiente forma:

Condición real H 0 verdadera H a verdadera Decisión Rechazar H 0 Error Tipo I
Condición real
H 0 verdadera
H a verdadera
Decisión
Rechazar H 0
Error Tipo I
ok
No rechazar H 0
ok
Error Tipo II

37

ES DECIR

Un error tipo I ocurre cuando se rechaza una hipótesis nula que es verdadera

Un error tipo II ocurre cuando no se rechaza una hipótesis nula que es falsa

PROBABILIDADES DE EQUIVOCARNOS

38

P(Error Tipo I) = = P(RHoHoV) = P(RHoHaF)

P(Error Tipo II) = = P(NHoHoF) = P(NHoHaV)

Potencia de la prueba = 1-= P(RHoHaV) = P(RHoHoF)

NOMBRES RESERVADOS

39

Llamaremos

nivel

de significancia”,

del

contraste, al valor

Y definiremos como potencia del contrastea la cantidad 1-, que no es otra cosa que la capacidad que tiene el contraste de rechazar una hipótesis nula cuando esta es falsa.

Comentariosobre y

40

Lo ideal seria que tanto como sean muy

pequeños, pero cuando disminuye, crece. Así que se debe llegar a algún tipo de acuerdo

entre los valores de estas dos probabilidades

de error. Una alternativa es fijar y aumentar el

tamaño de la muestra para disminuir .

y se relacionan de manera inversa

41

 y  se relacionan de manera inversa 41 Nótese cómo los errores en contrastes de

Nótese cómo los errores en contrastes de hipótesis depende de una manera inversa

42

Cálculo de

Ejemplo:

Partamos de la siguiente prueba de hipótesis

Ho: = 15

n = 36.

media y varianza de las 36 muestras: 17 y 9

= 0.05

Ha: > 15

vs

Nótese cómo el error tipo II en contrastes de hipótesis depende de Ha (un valor en especial)

43

Nótese cómo el error tipo II en contrastes de hipótesis depende de Ha (un valor en

44

El error tipo II en contrastes de

hipótesis depende de Ha (un valor

en especial)
en especial)

45

El error tipo II en contrastes de

hipótesis depende de Ha (un valor

en especial)
en especial)

46

46

TAMAÑO DE MUESTRA

47

n = ((Z + Z β ) 2 2 )/(a - 0 ) 2 ¿La deducimos?

Aplicar para ejemplo anterior con

= β = 0.05

DEDUCCIÓN FORMULA TAMAÑO DE MUESTRA

48

= P[Xt > Kµ = µ 0 ] = P[(Xt - µ 0 )/(/n) > (K - µ 0 ) /(/n)] = P[Z > Z ]

β =

P[(Xt - µ a )/(/n) (K - µ a ) /(/n)] = P[Z -Z β ]

P[Xt Kµ = µ a ] =

(K - µ 0 ) /(/n) = Z (K - µ a ) /(/n)] = -Z β

Eliminando k de las dos ecuaciones obtenemos una expresión para el tamaño de muestra n (dada en la diapositiva anterior).

Ejercicios para entregar

49

Una muestra aleatoria de 37 estudiantes que practican deporte obtuvieron calificaciones de habilidad manual con una media de 32.19 y una S = 4.34.

Una muestra independiente del mismo grupo que no practican deporte

obtuvieron calificaciones de habilidad manual con una media de 31.68 y una desviación estándar de 4.56.

a) Aplique una prueba para ver si hay suficiente evidencia que indique que

los estudiantes que practican deporte poseen un promedio de habilidad manual mayor de aquellos que no lo practican. Escoja usted el nivel .

b) Con la región de rechazo utilizada en a) calcule β cuando 1 - 2 = 3.

c) Calcule los tamaños de muestra cuando = β = al nivel escogido en a) y

50

Entregar por escrito la solución de los problemas 6.67 y 6.68 del libro de D. Moore.

En el problema 6.67 utilice su software preferido

para obtener una curva característica de operación.

52

PRUEBAS DE HIPÓTESIS REFERENTES A

VARIANZAS

PRUEBAS PARA UN VALOR FIJO DE LA VARIANZA

53

X 1 , X 2 …, X n muestra aleatoria de una distribución normal (, 2 )

Ho: 2 = 2 0

Ha: 2 > 2 0 (cola superior)

2 < 2 0 (cola inferior)

2  2 0 (dos colas)

PRUEBAS PARA VALOR FIJO DE LA VARIANZA

… continuación

54

Estadístico de prueba (n 1)S 2 /2 0  2

RR:

2 > 2

2 < 2 1- 2 > 2 /2 ó 2 < 2 1-/2

(cola superior)

(cola inferior)

(dos colas)

En cada caso la distribución 2 tiene n-1 g.l. Tener en cuenta que P(2 > 2 ) =

RR:

2 > 2

(cola superior)

RR:  2 >  2  (cola superior)

RR:

2 < 2 1-

(cola inferior)

RR:  2 <  2 1 -  (cola inferior)

RR:

2 > 2 /2

ó

2 < 2 1-/2

(dos colas)

RR:  2 >  2  / 2 ó  2 <  2 1

58

EJEMPLO 1: Una fabrica de partes de automóviles, cuyos diámetros tienen una varianza

no mayor de 0.0002 (los Ø están en pulgadas).

Una muestra aleatoria de 10 partes arrojó una varianza muestral de 0.0003. Pruebe Ho: 2 = 0.0002 vs Ha: 2 > 0.0002

SOLUCIÓN:

59

Suponemos que las mediciones provienen de una población normal.

Estadístico de prueba: (n 1)S 2 /2 0  2 (v = 9)

Cola superior: rechazamos Ho para valores de este estadístico mayores que 2 0.05 = 16.919, con 9 g.l.

Valor calculado del estadístico: 9*0.0003/0.0002 = 13.5

Entonces no rechazamos Ho.

Ejercicio: calcular o aproximar el valor p

60

Ejemplo: Un investigador está convencido de que su equipo de medición tiene una variabilidad referida por una desviación estándar de 2. 16 mediciones arrojaron un resultado de S 2 = 6.1. ¿Contradicen los datos su apreciación? Determine el valor de p para esta prueba. ¿Qué

ocurre si = 0.05

SOLUCIÓN:

61

Ho: 2 = 4

vs Ho: 2 4

Valor para el estadístico de prueba 15*6.1/4 = 22.875.

Basándonos en la tabla de la 2 observamos que para 15 gl 2 0.10 = 22.3070 y 2 0.05 = 24.9958. la porción de p de la cola superior está entre 0.05 y

0.10, lo que implica que 0.1 < p < 0.2.

Si = 0.05 < 0.1 entonces < p no rechazamos.

COMPARACIÓN DE VARIANZAS

62

X 1 , X 2 …, X n1 y X 1 , X 2 …, X n2 m. a. con distribución normal, medias desconocidas y varianzas desconocidas 2 1 y 2 2

Consideremos la siguiente prueba:

Ho: 2 1 = 2 2

Ha:

2 1 > 2 2

COMPARACIÓN DE VARIANZAS

… continuación

63

Estadístico de prueba:

F = {(n 1 1) S 2 1 /(n 1 1) 2 1 }/{(n 2 1) S 2 2 /(n 2 1) 2 2 }

= (S 2 1 /2 2 )/(S 2 2 /2 1 ) =, bajo Ho, = S 2 1 /S 2 2

Región de rechazo: F > F donde F se elige de tal manera que P(F > F ) = F tiene n 1 1 g.l en el numerador y n 2 1 g.l. en el denominador

La distribución F (u, v)

La distribución F (u, v)

EJEMPLO:

65

Queremos comparar la variación de los diámetros de las partes

producidas por una compañía de autos con la variación de los

diámetros de las partes producidas por un competidor. La

varianza muestral de la compañía, basada en n = 10 es S 2 1 = 0.0003. La varianza muestral de las mediciones de los diámetros

de 20 partes de la competencia es S 2 2 = 0.0001, ¿Proporcionan los datos suficiente información que indique una variación menor en los diámetros de la competencia. Calcule el valor p, además

use un nivel de significancia = 0.05 para obtener una conclusión.

Ho: 2 1 = 2 2

Ha:

66

2 1 > 2 2

Estadístico de prueba: F = S 2 1 /S 2 2 con v 1 = 9 y v 2 =

19.

Rechazaremos Ho con valores F mayores que F 0.05 =

2.948

F CALCULADO = S 2 1 /S 2 2 = 0.0003/0.0001 = 3.00 > 2.948

Rechazamos Ho

NOTA:

67

Si queremos probar Ho: 2 1 = 2 2 frente a Ha: 2 1  2 2 a un nivel podemos emplear el estadístico F = S 2 1 /S 2 2 (n 1 1, n 2 1) rechazar Ho si el valor calculado de F se localiza en la cola superior o en la cola inferior de /2 de la distribución F.

La siguiente relación puede facilitar la búsqueda de

algunas áreas bajo la curva de la distribución F:

F 1-,u,v = (F ,v,u ) -1 = 1/ (F ,v,u )

EJEMPLO:

68

Un experimento para estudiar los umbrales de dolor

provocados por descargas eléctricas en hombres y

mujeres reveló los datos que aparecen en la tabla. ¿Muestran estos datos evidencia suficiente que indique

que la variabilidad de los umbrales de dolor en hombres y

mujeres difiere en forma significativa entre unos y otros? Utilice = 0.10. ¿Qué se puede decir del valor de p?

 

HOMBRES

MUJERES

n

14

10

yt

16,2

14,9

S

2

12,7

26,4

Ejercicio:

70

En 1993 investigadores norteamericanos tomaron mediciones de la

presión muscular (en mm de Hg) en 10 corredores y 10 ciclistas saludables. También tomaron mediciones de la presión en

corredores y ciclistas cuyo consumo de oxígeno era máximo. En la

siguiente tabla se resumen los datos

 

CORREDORES

CICLISTAS

ESTADO

MEDIA

S

MEDIA

S

REPOSO

14,5

3,92

11,1

3,98

80% DE

       

CONSUMO DE

12,2

3,49

11,5

4,95

O2

CONSUMO MAX O2

19,1

16,9

12,2

4,67

71

¿Hay suficiente evidencia que apoye la afirmación de

que la variabilidad de la presión muscular entre corredores y ciclistas en reposo es diferente? = 0.05.

¿Qué se puede decir del valor p asociado?

¿Hay suficiente evidencia que apoye la afirmación de

que la variabilidad de la presión muscular entre

corredores y ciclistas con consumo máximo de O2 es diferente? = 0.05. ¿Qué se puede decir del valor p

asociado?

74

INFERENCIAS PARA RELACIONES ENTRE

VARIABLES CATEGORICAS (TABLAS DE CONTINGENCIA)

EJEMPLO DISTRIBUCION CONJUNTA

EDUCACION VS EDAD

 

ESCOLARIDAD SEGÚN EDAD

 
 

GRUPO DE EDADES

 

EDUCACION

25 a 34

35 a 54

> 55

TOTAL

No completaron Bto

5325

9152

16035

30512

Completaron Bto

14061

24070

18320

56451

1 a 3 cursos U

11659

19926

9662

41247

> 4 cursos U

10342

19878

8005

38225

TOTAL

41387

73026

52022

166435

EJEMPLO DISTRIBUCION CONJUNTA

EDUCACION VS EDAD

 

ESCOLARIDAD SEGÚN EDAD

 
 

GRUPO DE EDADES

 

EDUCACION

25 a 34

35 a 54

> 55

TOTAL

No completaron Bto

0,03199

0,05499

0,09634

0,18333

Completaron Bto

0,08448

0,14462

0,11007

0,33918

1 a 3 cursos U

0,07005

0,11972

0,05805

0,24783

> 4 cursos U

0,06214

0,11943

0,0481

0,22967

TOTAL

0,24867

0,43877

0,31257

1

EJEMPLO DISTRIBUCION CONJUNTA

EDUCACION VS EDAD

EDUCACION

0,18333

0,33918

0,24783

0,22967

1.00000

EDADES

0,24867

0,43877

0,31257

1.00000

EJEMPLO DISTRIBUCION CONJUNTA

EDUCACION VS EDAD

ESCOLARIDAD SEGÚN EDAD

 
 

GRUPO DE EDADES

EDUCACION

25 a 34

35 a 54

> 55

No completaron Bto

0,12866

0,12533

0,30823

Completaron Bto

0,33974

0,32961

0,35216

1 a 3 cursos U

0,28171

0,27286

0,18573

> 4 cursos U

0,24989

0,2722

0,15388

TOTAL

1

1

1

P(completo Bto edad 25 a 34) = P[(completo Bto)(25 a 34)]/P[(25 a 34)] = 0.33974 (CONDICIONAL)

PREGUNTA: ¿QUE DEBE CUMPLIRSE PARA QUE LAS DOS VARIABLES SEAN INDEPENDIENTES?

INDEPENDENCIA ESTADISTICA ENTRE VARIABLES

INDEPENDENCIA ESTADISTICA ENTRE VARIABLES

EJEMPLO

En este

ejemplo,

observamos que se cumple

la condición:

f ij = f i. X f .j

para todo

i = 1,2,3.

j = 1,2,3,4

Las variables

X e Y son e.i.

OTRO EJEMPLO

DEPENDENCIA (mas ilustrativo)

OTRO EJEMPLO DEPENDENCIA (mas ilustrativo)
OTRO EJEMPLO DEPENDENCIA (mas ilustrativo)

INDICADORES DE DEPENDENCIA O

INDEPENDENCIA ENTRE VARIABLES

EJEMPLO:

INDICADORES DE DEPENDENCIA O INDEPENDENCIA ENTRE VARIABLES EJEMPLO:

Nota: En toda tabla de frecuencias esperadas

se cumplirá que:

Nota: En toda tabla de frecuencias esperadas se cumplirá que:

¿Qué tanto se aleja la tabla real de la tabla con valores esperados?

Para responder propongamos el siguiente indicador

¿Qué tanto se aleja la tabla real de la tabla con valores esperados? Para responder propongamos
¿Qué tanto se aleja la tabla real de la tabla con valores esperados? Para responder propongamos

Entonces hagamos la siguiente modificación:

Entonces hagamos la siguiente modificación: Es necesario estandarizar

Es necesario estandarizar

Entonces hagamos la siguiente modificación: Es necesario estandarizar

Si queremos que este indicador no dependa de n entonces podemos dividir por n para obtener

el cuadrado medio de contingencia

queremos que este indicador no dependa de n entonces podemos dividir por n para obtener el

En nuestro ejemplo de las alturas y pesos tenemos:

En nuestro ejemplo de las alturas y pesos tenemos:

COMENTARIO SOBRE LA CHI CUADRADO

INFERENCIA PARA TABLAS DE CONTINGENCIA

Comparaciones múltiples: se quieren comparar más de dos proporciones. Por ejemplo:

p 1 = p 2 = p 3 ?

Tenemos las hipótesis:

H 0 : p 1 = p 2

H o : p 1 = p 3

H 0 : p 2 = p 3

Si se hacen las tres pruebas obtenemos tres valores P

CONTEOS ESPERADOS

Queremos probar la hipótesis de que las tres proporciones

son iguales conjuntamente:

H 0 : p 1 = p 2 = p 3

H a no se cumple p 1 = p 2 = p 3

Si H 0 es cierta se cumple que los conteos observados son iguales a los conteos esperados (excepto por azar).

Si tales diferencias son grandes es una evidencia en contra de H 0

CONTEOS ESPERADOS

El conteo esperado para cualquier celda en una tabla de contingencia cuando H 0 es cierta, es:

CONTEOS ESPERADOS  El conteo esperado para cualquier celda en una tabla de contingencia cuando H

ESTADISTICO JI CUADRADO

El estadístico Ji cuadrado es una medida de la diferencia de los conteos observados y los conteos esperados en una tabla de contingencia:

observados y los conteos esperados en una tabla de contingencia:  la suma se hace sobre

la suma se hace sobre el total de celdas (#Fx#C)

DISTRIBUCIONES JI CUADRADO

El gráfico muestra las funciones de densidad de algunas distribuciones Ji cuadrado. Observar la asimetría. La

distribución Ji cuadrado tiene un solo parámetro: los grados de libertad.

X 2

1 g. l.

Observar la asimetría. La distribución Ji cuadrado tiene un solo parámetro: los grados de libertad. X

X 2

4 g. l.

X 2 4 g. l.

X 2

8 g. l.

X 2 8 g. l.

LA PRUEBA Ji CUADRADO PARA TABLAS DE

CONTINGENCIA

Los valores críticos de la distribución Ji cuadrado, con (f-

1)x(c-1) g. l. en relación a una tabla de contingencia de f filas y c columnas, se usan para la prueba de diferencias

de proporciones en la tabla.

El valor P es el área a la derecha de X 2 calculado por debajo de la curva.

Ejemplo: La siguiente tabla resume la relación entre tratamiento y las proporciones de algún

efecto

TRATAMIENTO

GRUPO

#SUJETOS

EFECTO

PROPORC

T1

1

24

14

0,583

T2

2

24

6

0,250

T3

3

24

4

0,167

LA TABLA DE CONTINGENCIA CORRESPONDIENTE

ES:

 

EFECTO

 

TRATAMIENTO

SI

NO

TOTAL

T1

14

10

24

T2

6

18

24

T3

4

20

24

TOTAL

24

48

72

Hacer la prueba para H 0 : p 1 = p 2 = p 3 Utilizar calculadora y comparar con salidas en Minitab