Analisis de Datos Categoricos-chi2-Practica7

Práctica 7.
Análisis de Datos Categóricos 1
Práctica 7
ANÁLISIS DE DATOS CATEGÓRICOS
Objetivos:
En esta práctica utilizaremos el paquete SPSS para realizar diferentes tipos de análisis
de datos categóricos. En concreto, consideraremos la estimación de proporciones de
categorías, la comparación de frecuencias de categorías con frecuencias esperadas según
una hipótesis previa y la independencia / homogeneidad en un contexto de tablas de
contingencia.
Índice:
1. Estudio de una proporción
2. Bondad de ajuste
3. Tablas de contingencia
4. Ejercicios
______________________________________________________________________
Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 7. Análisis de Datos Categóricos 2
1. Estudio de una proporción.

Para estudiar una proporción (porcentaje de individuos que cumplen determinada
característica de interés), podemos utilizar el hecho de que toda proporción es la media
de una variable dicotómica: sólo hemos de codificar esa variable como 1 cuando se
cumple la característica que deseamos estudiar y como 0, en otro caso.
Así, al pedirle a SPSS Analizar / Estadísticos Descriptivos / Explorar... obtendremos

un estimador puntual de la proporción que vendrá dado por la media de la variable.
También obtendremos una estimación por intervalos, con el nivel de confianza que
deseemos (Estadísticos), mediante el intervalo sobre la media que proporciona
Explorar...
Ejercicio 1
Abre el banco de datos Ambiente, en él vamos a estudiar la proporción observaciones

con nivel elevado de ozono. La variable ozono ya está codificada como 1 en la
característica que nos interesa (nivel elevado) y como 0, en otro caso, por lo que ya
podemos analizarla directamente. Utilizando Analizar / Estadísticos Descriptivos /
Explorar..., trabaja con ozono como variable dependiente, pide sólo los estadísticos
pues no necesitamos ningún gráfico de esta variable, y pide un intervalo de confianza
del 90%.
Comprobamos que el estimador puntual es p = 0.52, y el intervalo de confianza al 90%

es (0.47, 0.57).
Ejercicio 2
Estudia el porcentaje de observaciones con concentración baja de sulfato (mayor que 0

y menor o igual que 3).
Para ello, tendrás que definir una nueva variable que valga 1 si la concentración es baja
y 0, en otro caso (Transformar / Recodificar / En distintas variables). Obtén la
estimación puntual de ese porcentaje, y los intervalos de confianza al 90%, al 95% y al
99%.
Si queremos resolver un contraste de hipótesis sobre una proporción, lo podemos hacer

pidiendo Analizar / Pruebas no paramétricas / Binomial....
Ejercicio 3
En el banco de datos Ambiente vamos a estudiar si la proporción de niveles altos de

ozono es distinta de 0.45 o, equivalentemente, si la de nivel normal es distinta de 0.55.
Para ello, trabaja con Analizar / Pruebas no paramétricas / Binomial..., utiliza ozono
en Contrastar variables, y escribe 0.55 en Contrastar proporción (debemos poner
aquí la proporción de la categoría del primer dato, en este caso normal que está
codificado con 0. Alternativamente, puedes escribir 0 en Punto de corte).

El resultado, mostrado aquí abajo, da un p-valor unilateral de 0.009, donde la hipótesis

nula es π = 0.55 y la alternativa es π < 0.55.
Prueba binomial
Proporción Prop. de Sig. asintót.

Categoría N observada prueba (unilateral)
OZONO Grupo 1 Normal 144 .48 .55 .009a,b
Grupo 2 Alto 156 .52
Total 300 1.00
a. La hipótesis alternativa establece que la proporción de casos del primer grupo
sea < .55.
b. Basado en la aproximación Z.
Recuerda la diferencia entre los p-valores de los contrastes bilaterales y unilaterales: el

p-valor del contraste bilateral es el doble del p-valor del contraste unilateral. Así, el p-
valor asociado a la hipótesis nula π = 0.55 y a la alternativa π ≠ 0.55, vale en este caso
0.018. Como el resultado del p-valor unilateral que da SPSS es una aproximación
existen ocasiones extremas en las que da un valor mayor de 0.5, lo cual no tiene sentido
pues supondría un p-valor bilateral mayor que 1.
SPSS decide automáticamente entre una hipótesis bilateral (cuando π = 0.5) o unilateral
(en cualquier otro caso). Así pues, es nuestra labor construir el p-valor que nos interese
a partir del proporcionado por SPSS.
Con mucha frecuencia, en los estudios sobre una proporción, los datos no han sido
introducidos directamente en el ordenador sino que han sido resumidos en una tabla de
frecuencias. En esos casos, podemos introducir directamente los datos y sus frecuencias
en SPSS y, después, construir los intervalos de confianza y los contrastes de hipótesis,
como se ha indicado anteriormente.
Para ello, hay que introducir dos columnas: una con los dos valores posibles de la
variable dicotómica y, la otra, con el número de individuos en cada categoría. Luego
seleccionaremos Ponderar casos... en el menú Datos, y elegiremos como Variable de
frecuencia la columna que recoge el número de individuos en cada categoría.
Ejercicio 4:
Visitando los colegios de cierta ciudad, se ha obtenido una muestra aleatoria de tamaño
200 de niños de 8 años de edad de esa ciudad. En ella se ha observado que 56 niños
presentaban caries. Se desea estudiar el porcentaje de caries en esa población.
Para ello:
1. Introduciremos estos datos en SPSS.
2. Calcularemos un intervalo de confianza al 90% sobre dicho porcentaje.
3. Contrastaremos la hipótesis nula ‘El porcentaje de caries es igual al 35%’.

Para introducir esos datos (con el editor de datos SPSS) hay que crear una variable que
indique la presencia o ausencia de caries. Se le puede llamar, por ejemplo, caries y
codificarla como 1 si presencia y 0, como ausencia. Una segunda variable, a la que se le
puede llamar niños, debe recoger la frecuencia absoluta de cada uno de los valores de
la variable caries. Así pues, una vez introducidos los datos, el editor de datos
mostrará:
A continuación hay que ponderar los datos por la variable niños:
Ahora ya podemos Analizar / Estadísticos Descriptivos / Explorar... la variable

caries para obtener el intervalo de confianza sobre el porcentaje de niños con caries
(la categoría de la variable caries codificada con 1). Debemos cambiar el contenido
del intervalo, desde el botón Estadísticos..., pues el calculado por defecto es del 95%.
El resultado obtenido es:

Descriptivos
Estadístico Error típ.

CARIES Media ,28 3,18E-02
Intervalo de confianza Límite inferior ,23
para la media al 90% Límite superior
,33
Media recortada al 5% ,26
Mediana ,00
Varianza ,203
Desv. típ. ,45
Mínimo 0
Máximo 1
Rango 1
Amplitud intercuartil 1,00
Asimetría ,987 ,172
Curtosis -1,036 ,342

Así pues, el intervalo de confianza al 90% sobre la presencia de caries en esa población
resulta ser (0.23, 0.33), es decir, entre un 23% y un 33%.
El contraste de hipótesis se obtiene pidiendo Analizar / Pruebas no paramétricas /

Binomial... y contrastando la proporción 0.35 (recordad que la proporción a contrastar
es la asociada a la categoría del primer dato, en este caso presencia de caries.
Alternativamente, puedes trabajar con la categoría ausencia de caries, contrastando la
proporción 0.65 y escribiendo 0 en Punto de corte). El resultado obtenido es:
Prueba binomial
Proporción Prop. de Sig. asintót.

Categoría N observada prueba (unilateral)
CARIES Grupo 1
Presencia a,b
56 ,28 ,35 ,023
de caries
Grupo 2 Ausencia
144 ,72
de caries
Total 200 1,00
a. La hipótesis alternativa establece que la proporción de casos del primer grupo sea
< ,35.
b. Basado en la aproximación Z.
Lo que permite rechazar la hipótesis nula para cualquier nivel de significatividad

superior o igual a 0.023, en particular el habitual 0.05.
Al haber pedido un intervalo de confianza al 90%, no haría falta pedir contrastes de

hipótesis bilaterales con un nivel de significatividad de 0.1, pues ambas cosas son
equivalentes. Con cualquier valor en la hipótesis nula no incluido en el intervalo de
confianza, se rechazaría la hipótesis nula; por el contrario, esta hipótesis no se
rechazaría si su valor estuviera incluido en el intervalo de confianza. Sin embargo, la
relación entre intervalos de confianza y contrastes de hipótesis no es tan sencilla si la
hipótesis alternativa es unilateral.
2. Bondad de ajuste.
Para analizar una muestra de una variable categórica, evaluando una hipótesis previa
sobre la probabilidad de cada categoría, realizamos un contraste de hipótesis Chi-
cuadrado de bondad de ajuste.
El estadístico Chi-cuadrado:
( O − E)
2
χ =∑
2
donde O representa las frecuencias observadas y E las frecuencias esperadas en cada

categoría, permite comparar las frecuencias observadas con las esperadas.
Bajo la hipótesis nula, el estadístico resultante sigue aproximadamente una distribución

Chi-cuadrado. Los grados de libertad de esta distribución son el número de categorías
menos uno. Esta aproximación es adecuada si ninguna de las frecuencias esperadas es

demasiado pequeña.
Este procedimiento es especialmente útil cuando se quiere contrastar si un conjunto de

frecuencias observadas es compatible con la hipótesis nula. Un valor del estadístico
Chi-cuadrado grande indica que las distribuciones de las frecuencias observadas y
esperadas son bastante diferentes, mientras que un valor pequeño del estadístico indica
que hay poca diferencia entre ellas.
Utilizando por ejemplo el banco de datos Ambiente, al seleccionar Analizar / Pruebas

no paramétricas / Chi-cuadrado... entramos en la siguiente ventana de SPSS:
Este procedimiento tabula una variable en categorías, calcula un estadístico chi-

cuadrado y compara las frecuencias observadas y esperadas en cada categoría para
contrastar si todas las categorías contienen la misma proporción de valores (opción por
defecto) o si, alternativamente, cada categoría contiene una proporción de valores
especificada por el usuario.
Contrastar variables. La variable de contraste debe ser una variable categórica

numérica. Para convertir las variables alfanuméricas en variables numéricas, hay que
utilizar el procedimiento Recodificar / En distintas variables..., disponible en el menú
Transformar, o bien, dependiendo de la situación, el procedimiento Recodificación
automática... también disponible en el menú Transformar.
Rango esperado. Por defecto, cada valor distinto de la variable se define como una
categoría. Para establecer categorías dentro de un rango específico, seleccionar Usar
rango especificado e introducir valores enteros para los límites inferior y superior. Se
establecerán categorías para cada valor entero dentro del rango inclusivo y los casos con
valores fuera de los límites se excluirán. Por ejemplo, si se especifica 1 como límite
inferior y 4 como límite superior, únicamente se utilizarán los valores enteros entre 1 y
4, ambos inclusive, para la prueba de chi-cuadrado. Así, las observaciones 4 ó 4.32 se
considerarán dentro de la categoría 4 mientras que las observaciones 5 ó 5.27 no se

utilizarán.
Valores esperados. Por defecto, todas las categorías tienen proporciones esperadas
iguales. El usuario puede, alternativamente, especificar otras proporciones esperadas
para las categorías. Para ello, hay que seleccionar Valores, introducir un valor entero
mayor que 0 para cada categoría de la variable de contraste y pulsar Añadir. Cada vez
que se agregue un valor, éste aparecerá al final de la lista de valores. El orden de los
valores es importante; corresponde al orden ascendente de los valores de categoría de la
variable de contraste. El primer valor de la lista corresponde al valor de grupo mínimo
de la variable de contraste y el último valor corresponde al valor máximo. Los
elementos de la lista de valores se suman y, a continuación, cada valor se divide por esta
suma para calcular la proporción de casos esperados en la categoría correspondiente.
Por ejemplo, una lista de valores de 3, 4, 5, 4 especifica unas proporciones esperadas de
3/16, 4/16, 5/16 y 4/16.
La aproximación realizada por SPSS es adecuada si las frecuencias esperadas para cada
categoría (proporción esperada x tamaño de la muestra) valen 1 como mínimo y no más
de un 20% de las categorías tienen frecuencias esperadas menores que 5.
Ejercicio 5:
La concentración de sulfato puede clasificarse en cuatro categorías: baja (0,3], media

(3,6], alta (6,9] y muy alta (>9). ¿Son compatibles los datos del fichero Ambiente con
la hipótesis de que las probabilidades de obtener concentraciones bajas, medias, altas y
muy altas de sulfato son 0.4, 0.3, 0.2 y 0.1, respectivamente?
Para ello, tendrás que definir una nueva variable cod_sulf que codifique los valores
de sulfato en las cuatro categorías (0 = baja, 1 = media, 2 = alta, 3 = muy alta).
Aplica la prueba chi-cuadrado con valores esperados 4, 3, 2 y 1.
El resultado, aquí mostrado, indica un p-valor de 0.153 por lo que existe compatibilidad.
COD_SULF
N observado N esperado Residual

.00 137 120.0 17.0
1.00 89 90.0 -1.0
2.00 49 60.0 -11.0
3.00 25 30.0 -5.0
Total 300
Estadísticos de contraste
COD_SULF
Chi-cuadradoa 5.269
gl 3
Sig. asintót. .153
a. 0 casillas (.0%) tienen frecuencias
esperadas menores que 5. La frecuencia
de casilla esperada mínima es 30.0.

3. Tablas de contingencia.
Para estudiar la asociación de variables o comparar proporciones en dos o más
poblaciones debemos utilizar un test Chi-cuadrado. Para ello debemos pedir Analizar /
Estadísticos Descriptivos / Tablas de contingencia....
Ejercicio 6:
Utilizando los datos del fichero Ambiente, queremos saber si hay evidencia suficiente
para afirmar que las categorías de concentraciones de sulfato se distribuyen de manera
diferente en las tres provincias.
Para ello, colocamos la variable cod_sulf en filas y la variable provin en

columnas; marcamos Chi-cuadrado en el botón Estadísticos y Observadas y
Esperadas en el botón Casillas. Si quisiéramos conocer los porcentajes por filas y/o
por columnas, marcaríamos Fila y/o Columna en el botón Casillas.
En este procedimiento, para definir las categorías de cada variable, podemos utilizar
tanto valores de una variable numérica que representen categorías como valores de una
variable de cadena corta (ocho caracteres o menos). Por ejemplo, en una hipotética
variable género, podríamos codificar los datos como 1 y 2 o como varón y mujer.
A continuación podemos ver la pantalla del procedimiento Chi-cuadrado, la tabla de

contingencia asociada a los datos con los porcentajes por filas y por columnas, y la tabla
con los resultados: un estadístico chi-cuadrado = 1.977, 6 grados de libertad y un p-
valor = 0.922.

Tabla de contingencia COD_SULF * Provincia
Provincia
ALICANTE CASTELLON VALENCIA Total
COD_SULF ,00 Recuento 48 45 44 137
Frecuencia esperada 45,7 45,7 45,7 137,0
% de COD_SULF 35,0% 32,8% 32,1% 100,0%
% de Provincia 48,0% 45,0% 44,0% 45,7%
1,00 Recuento 26 31 32 89
% de COD_SULF 29,2% 34,8% 36,0% 100,0%
% de Provincia 26,0% 31,0% 32,0% 29,7%
2,00 Recuento 18 14 17 49
% de COD_SULF 36,7% 28,6% 34,7% 100,0%
% de Provincia 18,0% 14,0% 17,0% 16,3%
3,00 Recuento 8 10 7 25
% de COD_SULF 32,0% 40,0% 28,0% 100,0%
% de Provincia 8,0% 10,0% 7,0% 8,3%
Total Recuento 100 100 100 300
% de COD_SULF 33,3% 33,3% 33,3% 100,0%
% de Provincia 100,0% 100,0% 100,0% 100,0%
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 1.977a 6 .922
Razón de verosimilitud 1.994 6 .920
Asociación lineal por
.005 1 .942
lineal
N de casos válidos 300
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 8.33.
Ejercicio 7:
Utilizando el banco de datos Ambiente, queremos comparar el porcentaje de

observaciones con valores de ph inferiores o iguales a 6, en las tres provincias.
Para ello, debemos crear primero una variable dicotómica, ph_6, recodificando la
variable ph; esta nueva variable sólo tomará dos valores distintos, según sea el valor de
ph inferior o igual (ph_6 = 0) o superior a 6 (ph_6 = 1).
Posteriormente hay que pedir Tablas de Contingencia... y colocar las variables ph_6 y
provin como filas y columnas de la tabla.

Los resultados nos muestran la tabla de contingencia asociada a los datos con
porcentajes por filas
Tabla de contingencia PH_6 * Provincia
Provincia
ALICANTE CASTELLON VALENCIA Total
PH_6 .00 Recuento 60 51 62 173
Frecuencia esperada 57.7 57.7 57.7 173.0
% de PH_6 34.7% 29.5% 35.8% 100.0%
1.00 Recuento 40 49 38 127
% de PH_6 31.5% 38.6% 29.9% 100.0%
Total Recuento 100 100 100 300
% de PH_6 33.3% 33.3% 33.3% 100.0%
y la tabla adjunta, a la que le corresponde un estadístico Chi-cuadrado = 2.813, con 2

grados de libertad, y un p-valor = 0.245.
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 2.813a 2 .245
Razón de verosimilitud 2.802 2 .246
Asociación lineal por
.082 1 .775
lineal
N de casos válidos 300
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 42.33.
Las tablas de contingencia también pueden introducirse directamente desde el teclado,

utilizando el comando ponderar de forma similar a como se hizo en un apartado
anterior. Veámoslo con un ejemplo:
Ejercicio 8:
En un estudio sobre úlceras pépticas se determinó el grupo sanguíneo de 1655 pacientes

ulcerosos y 10000 controles, los datos se muestran en la tabla adjunta.
¿Existe alguna relación entre el grupo sanguíneo y la úlcera péptica?

O A B AB
pacientes 911 579 124 41
controles 4578 4219 890 313
Tras introducir los datos, como muestra la figura adjunta,

y ponderar los casos por la variable frec, pediremos Tablas de Contingencia... y

colocaremos las variables grupo y tipo como filas y columnas de la tabla. Los
resultados son:
Tabla de contingencia GRUPO * TIPO
TIPO
Control Paciente Total
GRUPO O Recuento 4578 911 5489
Frecuencia esperada 4709,6 779,4 5489,0
A Recuento 4219 579 4798
B Recuento 890 124 1014
AB Recuento 313 41 354
Total Recuento 10000 1655 11655
Se obtiene un valor del estadístico Chi-cuadrado de 49.016 que, con 3 grados de

libertad, proporciona un p-valor inferior a 0.001:

Por lo tanto, existe una relación estadísticamente significativa entre los grupos
sanguíneos y la presencia de úlcera péptica.
4. Ejercicios complentarios.
1. En la década de los ochenta se observó que el 25% de los tumores malignos de intestino
delgado eran linfomas primarios. Durante el último año se han observado 80 tumores
malignos de intestino delgado, de los cuales 32 han sido linfomas primarios. ¿Hay
evidencia suficiente para asegurar que el porcentaje de linfomas ha variado en los
últimos años?
2. Al último examen de Bioestadística se presentaron 118 estudiantes, de los que

aprobaron 89. ¿Son estos datos compatibles con una tasa de suspensos del 10%? ¿Y del
20%? ¿Y del 30%? ¿Y del 40%?
3. Con los datos del banco Glucosa contrastar si el porcentaje de mujeres con valores de
g1des inferiores a 80 mg/dl depende de si el valor de g1antes era inferior o superior
a 80 mg/dl. Obtener la tabla de contingencia, el estadístico Chi-cuadrado y el p-valor
asociado.
4. Con los datos del banco Dedos contrastar si el sexo influye en el hecho de ser diestros
(no utilizar los ambidextros), o se trata de dos variables independientes. Obtener la tabla
de contingencia, el estadístico Chi-cuadrado y el p-valor asociado.
5. En un ensayo biológico se buscaba comprobar la eficacia de un tratamiento combinado

de Vicamina y Piracetam que, al actuar sobre el metabolismo de la neurona, interfieren
favorablemente en el tratamiento de distintos procesos psicoorgánicos. Se dividió al
azar en dos grupos a 40 pacientes, administrando el tratamiento a uno de ellos y placebo
al otro, obteniéndose:
Resultado
Muy bueno Bueno Regular Malo
Tratamiento 3 8 4 5
Placebo 0 1 5 14
¿Existe suficiente evidencia estadística a favor de la eficacia del tratamiento?
6. Mitchell et al. (1976, Annals of Human Biology) estudiaron la distribución de los grupos
sanguíneos en varias regiones de Sur-Oeste de Escocia, obteniendo los resultados que se
muestran en la tabla adjunta. ¿Se distribuyen los grupos sanguíneos de igual manera en
las diferentes regiones?
Eskdale Annandale Nithsdale
A 33 54 98 185
B 6 14 35 55
0 56 52 115 223
AB 5 5 5 15
100 125 253 478
7. En un estudio sobre el cruce de variedades de cebada, se observaron dos características:

Presentar 2 filas de granos (a) o no (A, dominante), y tener color verde (B, dominante) o
ser planta clorótica (b). La combinación de estas características nos da cuatro
posibilidades: verdes sin dos filas de granos, verdes con dos filas, cloróticas sin dos filas
y cloróticas con dos filas. Se recogieron datos de cruces entre heterozigóticos (AaBb),
resultando:
Verde sin 2 filas Verde con 2 filas Clorótica sin 2 filas Clorótica con 2 filas
1178 291 273 156
¿Se cumple la segregación normal dihíbrida con dominación completa:
(AaBb x AaBb -> 9 A-B-; 3 aaB-; 3 A-bb; 1 aabb)?
8. Un programa de detección y seguimiento de la hipertensión (HDFP) realizado en 1979,

informó que cuatro años después del comienzo del programa, el 62% de los pacientes
participantes en un tratamiento de seguimiento por etapas, tenía niveles de presión
diastólica en el nivel deseado de los objetivos del tratamiento. En un hospital se ha
analizado a 20 pacientes hipertensos propios, a los que se les ha seguido durante 4 años.
Sólo 7, el 35% de ellos, están en el nivel deseado. Los responsables del hospital se
preguntan si los resultados obtenidos por ellos se pueden considerar diferentes a los del
programa HDFP, asumiendo que el tipo de pacientes es similar y que el tratamiento es
tan efectivo como el HDFP. ¿Qué puedes concluir en base a los datos?
9. Como continuación del estudio enunciado en el problema anterior, el conocimiento de

que la terapia para la hipertensión que está empleando el hospital no es tan buena como
podría ser, los responsables continúan las investigaciones para determinar si sus
resultados son diferentes de los del hospital vecino. En esta ocasión se han revisado un
total de 40 pacientes con su método y 30 del hospital vecino. En total, 18 de sus
pacientes están en las medidas deseadas, mientras que 20 de los del otro hospital están
en ese mismo objetivo. Extrae tus propias conclusiones.
10. En algunas áreas metropolitanas de los Estados Unidos se han detectado altas
concentraciones de ozono. Para detectar si estos niveles de ozono eran superiores en las
zonas urbanas que en las rurales, se midieron dichas concentraciones de ozono en 30
grandes ciudades y en 50 puntos en zonas rurales seleccionados aleatoriamente por todo
el país. La concentración de ozono se clasificó como dentro del nivel normal, en un
nivel alto o alcanzando un nivel peligroso, Tan solo 5 ciudades tenían un nivel normal
de ozono mientras que había un nivel alto en 18 de ellas y se llegaba a niveles
peligrosos en las otras 7. En cuanto a las zonas rurales, se observaron 9 puntos en los
que el nivel era peligroso y 19 con nivel alto. ¿Se puede concluir del estudio que hay

variaciones en la concentración de ozono de las zonas urbanas en comparación con las

rurales?
11. Hasta casi el final del siglo XIX, la mortalidad asociada con las operaciones
quirúrgicas era extremadamente alta. El mayor problema eran las infecciones. La teoría
de les gérmenes como causantes de la transmisión de las enfermedades era todavía
desconocida, por lo que no existía el concepto de esterilización. Como resultado,
muchos pacientes morían por complicaciones postoperatorias. La solución llegó
finalmente cuando Joseph Lister comenzó a leer parte del trabajo realizado por Louis
Pasteur. En una serie de experimentos clásicos, Pasteur había demostrado que las
bacterias jugaban un papel importantísimo en la fermentación. Lo que Lister conjeturó
era que las infecciones humanas podían tener un origen similar. Para comprobar su
teoría, comenzó a usar ácido carbólico como desinfectante en la sala de operaciones.
Aunque los resultados eran fabulosos, sus recomendaciones tardaron casi 10 años en
ponerse en práctica.
El objetivo era comprobar si la supervivencia asociada a las amputaciones era
independiente de la utilización o no del desinfectante durante la operación. Durante un
largo período de años, antes y después de conjeturar su teoría, Lister realizó 75
amputaciones: 40 de ellas se hicieron con ácido carbólico y 35 no. La tasa de mortalidad
para el primer grupo era del 15%, comparado con el 46% para el segundo grupo.
Extraer las conclusiones oportunas.
Con desinfectante Sin desinfectante

Paciente NO vivía 6 16 22
Paciente SI vivía 34 19 43
40 35 75

Analisis de Datos Categoricos-chi2-Practica7

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analisis de Datos Categoricos-chi2-Practica7

Încărcat de

Drepturi de autor:

Formate disponibile

Práctica 7.

Análisis de Datos Categóricos 1

ANÁLISIS DE DATOS CATEGÓRICOS

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

1. Estudio de una proporción.

Así, al pedirle a SPSS Analizar / Estadísticos Descriptivos / Explorar... obtendremos

Abre el banco de datos Ambiente, en él vamos a estudiar la proporción observaciones

Comprobamos que el estimador puntual es p = 0.52, y el intervalo de confianza al 90%

Estudia el porcentaje de observaciones con concentración baja de sulfato (mayor que 0

Si queremos resolver un contraste de hipótesis sobre una proporción, lo podemos hacer

En el banco de datos Ambiente vamos a estudiar si la proporción de niveles altos de

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

El resultado, mostrado aquí abajo, da un p-valor unilateral de 0.009, donde la hipótesis

Proporción Prop. de Sig. asintót.

Recuerda la diferencia entre los p-valores de los contrastes bilaterales y unilaterales: el

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

A continuación hay que ponderar los datos por la variable niños:

Ahora ya podemos Analizar / Estadísticos Descriptivos / Explorar... la variable

El resultado obtenido es:

Estadístico Error típ.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

El contraste de hipótesis se obtiene pidiendo Analizar / Pruebas no paramétricas /

Proporción Prop. de Sig. asintót.

Lo que permite rechazar la hipótesis nula para cualquier nivel de significatividad

Al haber pedido un intervalo de confianza al 90%, no haría falta pedir contrastes de

donde O representa las frecuencias observadas y E las frecuencias esperadas en cada

Bajo la hipótesis nula, el estadístico resultante sigue aproximadamente una distribución

menos uno. Esta aproximación es adecuada si ninguna de las frecuencias esperadas es

Este procedimiento es especialmente útil cuando se quiere contrastar si un conjunto de

Utilizando por ejemplo el banco de datos Ambiente, al seleccionar Analizar / Pruebas

Este procedimiento tabula una variable en categorías, calcula un estadístico chi-

Contrastar variables. La variable de contraste debe ser una variable categórica

considerarán dentro de la categoría 4 mientras que las observaciones 5 ó 5.27 no se

La concentración de sulfato puede clasificarse en cuatro categorías: baja (0,3], media

N observado N esperado Residual

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Para ello, colocamos la variable cod_sulf en filas y la variable provin en

A continuación podemos ver la pantalla del procedimiento Chi-cuadrado, la tabla de

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Tabla de contingencia COD_SULF * Provincia

Utilizando el banco de datos Ambiente, queremos comparar el porcentaje de

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Tabla de contingencia PH_6 * Provincia

y la tabla adjunta, a la que le corresponde un estadístico Chi-cuadrado = 2.813, con 2

Las tablas de contingencia también pueden introducirse directamente desde el teclado,

En un estudio sobre úlceras pépticas se determinó el grupo sanguíneo de 1655 pacientes

¿Existe alguna relación entre el grupo sanguíneo y la úlcera péptica?

Tras introducir los datos, como muestra la figura adjunta,

y ponderar los casos por la variable frec, pediremos Tablas de Contingencia... y

Tabla de contingencia GRUPO * TIPO

Se obtiene un valor del estadístico Chi-cuadrado de 49.016 que, con 3 grados de

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

2. Al último examen de Bioestadística se presentaron 118 estudiantes, de los que

5. En un ensayo biológico se buscaba comprobar la eficacia de un tratamiento combinado

7. En un estudio sobre el cruce de variedades de cebada, se observaron dos características:

(AaBb x AaBb -> 9 A-B-; 3 aaB-; 3 A-bb; 1 aabb)?

8. Un programa de detección y seguimiento de la hipertensión (HDFP) realizado en 1979,

9. Como continuación del estudio enunciado en el problema anterior, el conocimiento de

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

variaciones en la concentración de ozono de las zonas urbanas en comparación con las

Con desinfectante Sin desinfectante

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

S-ar putea să vă placă și