Sunteți pe pagina 1din 37

Anlisis de

datos
+
categricos

+
Anlisis de
proporciones de una
poblacin

CONTENIDO:
1.

Inferencia sobre una


proporcin.

2.

Inferencia sobre la diferencia


de dos proporciones.

3.

Pruebas estadsticas para


diferencia entre dos
proporciones.

4.

Prueba exacta de Fisher.

5.

Prueba de ajuste Chicuadrada.

6.

Tablas de contingencia:
Pruebas para independencia y
Homogeneidad.

+1. Inferencia sobre una


proporcin,

DISTRIBUCION BINOMAIL

Es una distribucin de
probabilidad discreta que
cuenta el nmero de xitos
en una secuencia de n
ensayos independientes
entre s, con una
probabilidad fija p de
ocurrencia del xito entre
los ensayos.
Los experimentos se los
conoce como Bernoulli
(experimento aleatorio en la
que se puede obtener solo
dos resultados) =
dicotmico.

(1- )

Probabilidad de xito

Probabilidad de falla

+ 1. Inferencia sobre una

proporcin,

Si:

y = nmero de xitos.

n = nmero de ensayos.

Esta distribucin puede ser aproximada a una


distribucin normal con una media y error estndar.

+ 1. Inferencia sobre una

proporcin,

Ejemplo: Se quiere evaluar la efectividad de una vacuna


inactivada para New castle. La nueva vacuna fue
probada en 200 pollitos bebes de los cuales 50
desarrollaron la enfermedad. Cul fue la proporcin de
efectividad de esta vacuna?
= 50/200 = 0.25
= (0.25)(1-0.25)/200 = 0.03
IC
IC
IC
IC

90%
90%
90%
90%

=
=
=
=

0.25
0.25
0.25
0.25

1.645 (0.03)
0.049
+ 0.049 = 0.29
0.049 = 0.20

Cuando la muestra no es
representativa el IC puede
ser no certero.

2. Inferencia sobre
+ diferencia entre dos
proporciones, 1 y 2
Introduccin

Comparacin entre dos parmetros binomiales.

Se asume que las dos muestras random son


independientes de dos poblaciones binomiales con
parmetros desconocidos designados como 1 y 2.

Si:
y1 = random xitos observados de una muestra random n1
de la poblacin 1.
y2 = random xitos observados de una muestra random n2
de la poblacin 2.
,

2. Inferencia sobre
diferencia entre dos
proporciones
ser
2
Esta distribucin puede
a una
1 ,aproximada
distribucin normal con una media y estndar
error.

+ 2. Inferencia sobre

diferencia entre dos


Ejemplo: Se prueba dos tipos de vacunas para New
proporciones
1 , 2 se evalua de
castle: activa e inactiva. La efectividad
acuerdo a la formacin de ttulos de anticuerpos
mayores a 3.0.
Ac. >3.0
Total

Activa

Inactiva

80

34

120

105

= 80/120 = 0.66

= 34/105 = 0.32

= (0.66)(1-0.66)/120 + (0.32)(1-0.32)/105 = 0.062


IC95% = 0.66 0.32 1.96 (0.062)
IC95% = 0.34 + 0.12 = 0.46
IC95% = 0.34 0.12 = 0.23

+3. Pruebas estadsticas para


diferencia entre dos
proporciones
Ho:

Ha:

1 2 0

1 2 > 0

1 2 0

1 2 < 0

1 2 = 0

1 2 0

AR : Z > Z

+3. Pruebas estadsticas para


diferencia entre dos proporciones.

Ejemplo: Se disean 2 tipos de alimento balanceado (tipo


1 y 2) para mejorar la calidad de leche en vacas. De
forma aleatoria 120 vacas fueron asignada con el
alimento tipo 1 y 180 vacas fueron asignadas con el
alimento tipo 2. Al final de 6 meses de estudio, muestras
de leche de todas las vacas bajo estudio fueron
examinadas. Los resultados son resumidos en la tabla a
continuacin:
Calidad de
leche

Alimento tipo
1

Alimento tipo
2

Mejora

92

118

No mejora

28

62

120

180

Total

La administracin de alimento tipo 1 incrementa la probabilidad de


mejorar la calidad de leche en comparacin con el alimento tipo 2?

3. Pruebas estadsticas para


diferencia entre dos proporciones.
Ho:

Ha:

1 2 0

1 2 > 0

Tamao
muestra
!

AR : Z > Z = 1.96
= 92/120 = 0.766

= 118/180 = 0.655
= 2.13 > 1.96, Ho rechazada.

IC 95% = 0.111 1.96 (0.052)


IC95% = 0.111 + 0.101 = 0.212
IC95% = 0.111 0.101 = 0.01

Se concluye que el alimento


1 es mejor que el alimento 2.
Las vacas que mejoraron la
calidad de leche estn entre
el 1 % al 21%

3. Pruebas estadsticas para


diferencia entre dos proporciones.

Cuando al menos una de las siguiente condiciones se


cumple:

La aproximacin a la distribucin de la prueba


estadstica para tamao de muestras grandes es
invalada!!!

Otra
prueba !

+ 4. Prueba exacta de Fisher


Caractersticas:

Sir Ronal Fisher.Fuente:


http://en.wikipedia.org/wiki/Ronal
d_Fisher

Variables dictmicas: si/no.


Usado para testear significancia de
asociacin entre dos tipos de
poblaciones.
Dispuestos en un tabla f x c. No
necesariamente f = c.
Su nombre dado por ser una prueba
precisa cuando las frecuencias son
pequeas. Aunque vlida para todo
tamao de muestra.

Bajo la Ho de independencia
(no asociacin) sigue una
distribucin hipergeomtrica.

Categor
a
1

Total

n11

n12

n1

n21

n22

n2

Total

n.1

n.2

Poblaci
n

+
4. Prueba exacta de Fisher
Caractersticas:

Distribucin hipergeomtrica: Distribucin de una


probabilidad discreta que describe la probabilidad de k
xitos. Aplica a un muestreo sin reemplazo de una
poblacin finita, cuyos elementos pueden ser
clasificados en dos catergoras mutualmente
excluyentes: e.g. macho/hembra, enfermo/no enfermo,
etc. Berkopec, Ales (2007).

Una variable discreta x sigue una distribucin


hipergeomtrica si la funcin de masa de su
probabilidad est dada por:

+
4. Prueba exacta de Fisher
Caractersticas

P-valor de la prueba = suma de todas las probabilidades de una


respuesta dada por los datos observados.

El test de significancia bajo la Ho es exacta, no una


aproximacin (que se vuelve exacta a medida que el tamao de
muestra incrementa).

Ejemplo: Un ensayo para probar el


efecto de dos tratamientos para
mastitis:
Ho: 1 2
Ha: 1 = 2

Tratamient
o

Total

38

42

14

21

Total

52

11

63

+
4. Prueba exacta de Fisher

Conclusin: P-valor = 0.02536 > 0.025, no hay evidencia


significativa que la proporcin de vacas con mastitis
responden mejor al tratamiento 1 que al tratamiento 2.
Ha = el tratamiento 1 es igual al tratamiento 2.

+ 4. Prueba exacta de Fisher


Ejemplo:

En una hacienda lechera con 26 vacas, reporta casos de mastitis


clnica durante los ltimos 6 meses. Mediante un estudio se cuenta
los casos positivos en dos razas diferentes y se compara las
probabilidades de presentacin de la infeccin en ambas razas.

Categor
a
Poblacin

Total

Yersey

12

13

Holstein

13

Total

20

26

+ 4. Prueba exacta de Fisher


Ejemplo:
Ho: 1 2
Ha: 1 < 2

Categor
a
Poblaci
n

Total

Yersey

12

13

Holstein

13

Total

20

26

P(0 o 1)= 0.0075 +


0.0727
P=0.08 >0.05 , por lo
tanto Ho es rechazada.
http://software-nanono.blogspot.com/2011/11/pqrs-32-statisticalsoftware.html

+ 5. Prueba de Chi-cuadrada
Generalidades:

Tambin referida como prueba de X2.

La distribucin de la muestra de la prueba estadstica


sigue una distribucin de chi-cuadrado, cuando la
hiptesis nula es verdadera.

Usada para determinar cuando existe o no una diferencia


significativa entre las frecuencias esperadas y las
frecuencias observadas en una o ms categoras.

Es la diferencia entre el esperado y el observado dado por la


variacin de la muestra o es esta verdadera?

Es el nmero de individuos u objetos de cada categoria


significativamente diferentes del nmero que es esperado?

+
5. Prueba de Chi-cuadrada
Clasificacin

+ 5.1 Prueba de bondad de ajuste


Chi-cuadrada
Generalidades:

Para evaluar qu tan probable


es que cualquier diferencia
observada entre los conjuntos
surgi por casualidad.

Adecuado para datos impares


de muestras grandes.

Cuando frecuencias absolutas


son mayores a 5 en un 20%.
Karl Pearson, por Elliott & Fry, 1890.
Fuente:
http://en.wikipedia.org/wiki/Karl_Pearson

5.1 Prueba de bondad de ajuste


Chi-cuadrada

Caractersticas:
Consiste en n idnticos ensayos.

Experiment
o
Multinomial

Cada ensayo resulta en un k resultado.


La probabilidad que un solo ensayo
resulte en una respuesta i es i ,
siendo i = 1.
Cada ensayo en independiente.

+ 5.1 Prueba de bondad de ajuste


Chi-cuadrada
Generalidades:

Probabilidad distribucin
multinomial = n ensayos
resultan en una de K posibles
resultados - probabilidades, p1
.. Pk, donde p1 + + pk = 1.

Modelo de probabilidades: Se
puede hipotetizar valores
especficos para
probabilidades y luego
determinar si los datos de las
muestras concuerdan con las
valores hipotetizados.

+5.1 Prueba de bondad de ajuste


Chi-cuadrada
Generalidades:

Para testear: comparar los valores esperados con los


observados. Ver si los datos observados concuerda con
los datos esperados.

ni = es el nmero de observaciones
por cada categora.

E = nmero esperado de resultados


n*p.

Bajo Ho, X2 sigue una distribucin chicuadrado, con (K-1) grados de libertad.

Bajo H1, X2 tiende a tener valores


grandes, por eso se usa el lado
derecho (regin de rechazo).

Gl= k-1

+ 5.1 Prueba de bondad de ajuste


Chi-cuadrada
Ejemplo: Se evalua el no pastoreo con la presencia de cojeras,
para estandarizar un sistema de pastoreo. Despus de una
secuencia estudios en localidades diferentes, varios grupos, se
logr determinar el % de casos de animales sufriendo laminitis y
la catergorizacin de 4 grupos. Posteriormente se observaron
200 animales bajo esas mismas categorias, obtuviendo:
Categora

Porcetaje

N. casos

Ausente

50

120

Leve

25

60

200 * 0.25 = 50

Moderado

10

10

200 * 0.10 = 20

Severo

15

10

200 * 0.15 = 30

Esperados
200 * 0.50 = 100

Pose la caracterstica multinomial con n = 200 y k = 4 posibles resultados

+ 5.1 Prueba de bondad de


ajuste Chi-cuadrada

Ho: p1=0.5, p2=0.25, p3=0.10 y p4=0.15.

Ha: al menos una de las probabilidades no es igual.


X2 = 24.33

= 0.05
Gl= k-1 = 3

Se rechaza Ho si X2 es
mayor al valor de la
tabla.
Test Statistics

CATEGORY
1
2
3
4
Total

Observed N
120
60
10
10
200

Expected N
100.0
50.0
20.0
30.0

Residual
20.0
10.0
-10.0
-20.0

Chi-Square a
df
Asymp. Sig.
Exact Sig.
Point Probability

CATEGORY
24.333
3
.000
.000
.000

a. 0 cells (.0%) have expected frequencies less than


5. The minimum expected cell frequency is 20.0.

+
5.1 Prueba de bondad de ajuste Chi-cuadrada

Tabla de distribucin Chi-cuadrado

+
5.1 Prueba de bondad de ajuste Chi-cuadrada

Resultado con PQRS:

+6. Tablas de contingencia: Pruebas de


independencia y homogenidad (f x c)
Independencia:

Dependencia = una variable


tiene algn valor para
predecir otro valor.
Se prueba si la dependencia
en los datos es dada por
casualidad (variabilidad
datos).
Datos resultan de una
muestra random simple
(misma poblacin)
Si las proporciones totales de
f y c son independientes 11=
n1n.1

Categora
Poblaci
n

Tota
l

n11

n1j

n1c

n1

ni1

nij

nic

ni

nr1

nrj

nrc

nr

Total

n.1

n.j

n.c

+ 6. Tablas de contingencia: Pruebas


de independencia

Prueba de independencia:

Bajo la Ho de independencia
(no asociacin), los valores
esperado para f y c es:

AR: Se rechaza Ho si X2 > X2.

Gl= (f-1)(c-1).

Prueba estadstica referida como


Chi- cuadrado de Pearson.

Ho: no asociacin (independientes),


Ha: asociacin (no independientes).

+ 6. Tablas de contingencia: Pruebas


de independencia

Ejemplo:

Poblacin de vacas lecheras N=216: Clasificadas en categorias.


Categoria f: Calidad de leche i = 1f (Buena, regular, mala).
Categoria c: Edad j= 1c (1, 2, 3 y 4).

Cuando r y c no estn
asociados
(independientes), la
probabilidad para calidad
de leche i y edad j es el
producto de las
probabilidades separadas.

Categora de
Edades
Calidad
de
leche

Total

Buena

15

32

18

70

Regular

29

23

18

78

Mala

20

25

22

68

Total

24

81

66

45

216

+ 6. Tablas de contingencia:
Pruebas de independencia

FF

FF

IIC
C

EE

O
O
PP

11
22
33

TT
22

LL 1
C
C
1
22E
77
E
C
C
22E
8E
8
C
C
22E
77
E
oo C
2C
2
88E
44
E

C
C

FF
AA 33o
5o
5
2266x.8.8
x
22oo88
2299x.7x.7
22oo11
2255x.6x.6
tata 88o
4o
4
6611xx.0.0

11

FF
22
N
N1122uu
1111.3.3pp
2299uu
1133.3.3pp
2200uu
1100.5.5pp
ll 6611uu
224466.0.0pp

(24 x 70)/216
rro
o
IIC
C

33
88 nn
7744 .4.4ee
1133 nn
7766 .8.8ee
2255 nn
6644 .8.8ee
224466 nn
1155 .0.0ee

ss

ss

EE
TT44
77 55 tt
00 .6.6 cc
7788 tt
88 .3.3 cc
6622 tt
88 .2.2 cc
1155 tt
66 .0.0 cc

00
.0.0
88
.0.0
88
.0.0
66
.0.0

oo

tta
a

Pearson Chi-Square
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases

26.014

Exact Sig.
(2-sided)
.000
.000
.000

Exact Sig.
(1-sided)

6
6

Asymp. Sig.
(2-sided)
.000
.000

.000

.000

.000

df

216

a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.56.
b. The standardized statistic is 5.100.

ll

tte
e

dd

tte
e

dd

tte
e

dd

tte
e

dd

Chi-Square Tests
Value
27.135a
30.586
28.801

tta
a

Point
Probability

.000

+6. Tablas de contingencia:


Pruebas de independencia
Chi cuadrado de Pearson: Asociacin

Conclusin: X2 = 27.13 > 12.59, Ho es rechazada, existe


asociacin entre la calidad de leche y la edad de la vaca.
Independecia: indica que la asociacin entre las variables no
es dada por casualidad. No fuerza o tipo de asociacin!.

+ 6. Tablas de contingencia:
Pruebas de homogenidad

Homogenidad de distribuciones

Muestras random separadas


son tomadas de subpoblaciones
definidos como f o c variable.
Igual procedimiento, difiere
planteamiento de hiptesis y
aplicacin de frmula.
H0: la distribucin de las
columnas es homognea (no
existe diferencia).
Ha:la distribucin de las
columnas no es homognea
(existe diferencia).
Gl = (f - 1)(c - 1)

Categora de
Edades
Calidad
de
leche

Total

Buena

15

32

18

70

Regular

29

23

18

78

Mala

20

25

22

68

Total

24

81

66

45

216

Inters: La distribucin de las


proporciones de cada c es igual a las
proporciones en f.

+6. Tablas de contingencia:


Pruebas de homogenidad
Prueba de Pearson para Homogenidad de distribuciones.
Categora de
Edades
Calidad
de
leche

Total

Buena

15

32

18

70

Regular

29

23

18

78

Mala

20

25

22

68

Regla: 1 o no ms
del 20% de los
valores esperados
puede ser menos
de 5, con la
finalidad de
obtener un p-valor
razonable.

Total
24 81 66 45 216
Ho: la calidad de leche es
independiente a la edad de la vaca.
Ha: la calidad de leche depende de la
edad de lo vaca.
X2 = 27.13 > 12.59, Ho rechazada.

+
Conclusiones

Tablas tiles para resumir datos, frecuencias.

Ambas pruebas estadsticas variables categricas.

Chi-square = distribucin multinomial, importante el


clculo de valores esperados.

Fisher, es un prueba de probabilidad exacta, que sigue


distribucin hipergeomtrica.

Muestras pequeas, variables dictmicas = Fisher

Muestras grandes, varias variables = Chi- square de


Pearson: independencia y homogenidad.

Referencias

Berkopec, Ale (2007). "HyperQuick algorithm for discrete


hypergeometric distribution". Journal of Discrete Algorithms 5 (2):
341.
R. Lyman Ott y Michael Longnecker (2010). An introduction to
Statistical Methods and Data Analysis, sexta edicin.
http://members.home.nl/sytse.knypstra/PQRS/

Enlaces para mayor informacin:

https://www.youtube.com/watch?v=MKdmkAItQP4

https://www.youtube.com/watch?v=-osaBBWFIDk

S-ar putea să vă placă și