Documente Academic
Documente Profesional
Documente Cultură
Práctica 7
Objetivos:
En esta práctica utilizaremos el paquete SPSS para realizar diferentes tipos de análisis
de datos categóricos. En concreto, consideraremos la estimación de proporciones de
categorías, la comparación de frecuencias de categorías con frecuencias esperadas según
una hipótesis previa y la independencia / homogeneidad en un contexto de tablas de
contingencia.
Índice:
1. Estudio de una proporción
2. Bondad de ajuste
3. Tablas de contingencia
4. Ejercicios
______________________________________________________________________
Ejercicio 1
Ejercicio 2
Para ello, tendrás que definir una nueva variable que valga 1 si la concentración es baja
y 0, en otro caso (Transformar / Recodificar / En distintas variables). Obtén la
estimación puntual de ese porcentaje, y los intervalos de confianza al 90%, al 95% y al
99%.
Ejercicio 3
Para ello, trabaja con Analizar / Pruebas no paramétricas / Binomial..., utiliza ozono
en Contrastar variables, y escribe 0.55 en Contrastar proporción (debemos poner
aquí la proporción de la categoría del primer dato, en este caso normal que está
codificado con 0. Alternativamente, puedes escribir 0 en Punto de corte).
Prueba binomial
SPSS decide automáticamente entre una hipótesis bilateral (cuando π = 0.5) o unilateral
(en cualquier otro caso). Así pues, es nuestra labor construir el p-valor que nos interese
a partir del proporcionado por SPSS.
Con mucha frecuencia, en los estudios sobre una proporción, los datos no han sido
introducidos directamente en el ordenador sino que han sido resumidos en una tabla de
frecuencias. En esos casos, podemos introducir directamente los datos y sus frecuencias
en SPSS y, después, construir los intervalos de confianza y los contrastes de hipótesis,
como se ha indicado anteriormente.
Para ello, hay que introducir dos columnas: una con los dos valores posibles de la
variable dicotómica y, la otra, con el número de individuos en cada categoría. Luego
seleccionaremos Ponderar casos... en el menú Datos, y elegiremos como Variable de
frecuencia la columna que recoge el número de individuos en cada categoría.
Ejercicio 4:
Visitando los colegios de cierta ciudad, se ha obtenido una muestra aleatoria de tamaño
200 de niños de 8 años de edad de esa ciudad. En ella se ha observado que 56 niños
presentaban caries. Se desea estudiar el porcentaje de caries en esa población.
Para ello:
1. Introduciremos estos datos en SPSS.
2. Calcularemos un intervalo de confianza al 90% sobre dicho porcentaje.
3. Contrastaremos la hipótesis nula ‘El porcentaje de caries es igual al 35%’.
Para introducir esos datos (con el editor de datos SPSS) hay que crear una variable que
indique la presencia o ausencia de caries. Se le puede llamar, por ejemplo, caries y
codificarla como 1 si presencia y 0, como ausencia. Una segunda variable, a la que se le
puede llamar niños, debe recoger la frecuencia absoluta de cada uno de los valores de
la variable caries. Así pues, una vez introducidos los datos, el editor de datos
mostrará:
Así pues, el intervalo de confianza al 90% sobre la presencia de caries en esa población
resulta ser (0.23, 0.33), es decir, entre un 23% y un 33%.
2. Bondad de ajuste.
Para analizar una muestra de una variable categórica, evaluando una hipótesis previa
sobre la probabilidad de cada categoría, realizamos un contraste de hipótesis Chi-
cuadrado de bondad de ajuste.
El estadístico Chi-cuadrado:
( O − E)
2
χ =∑
2
Rango esperado. Por defecto, cada valor distinto de la variable se define como una
categoría. Para establecer categorías dentro de un rango específico, seleccionar Usar
rango especificado e introducir valores enteros para los límites inferior y superior. Se
establecerán categorías para cada valor entero dentro del rango inclusivo y los casos con
valores fuera de los límites se excluirán. Por ejemplo, si se especifica 1 como límite
inferior y 4 como límite superior, únicamente se utilizarán los valores enteros entre 1 y
4, ambos inclusive, para la prueba de chi-cuadrado. Así, las observaciones 4 ó 4.32 se
Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València
Práctica 7. Análisis de Datos Categóricos 7
Valores esperados. Por defecto, todas las categorías tienen proporciones esperadas
iguales. El usuario puede, alternativamente, especificar otras proporciones esperadas
para las categorías. Para ello, hay que seleccionar Valores, introducir un valor entero
mayor que 0 para cada categoría de la variable de contraste y pulsar Añadir. Cada vez
que se agregue un valor, éste aparecerá al final de la lista de valores. El orden de los
valores es importante; corresponde al orden ascendente de los valores de categoría de la
variable de contraste. El primer valor de la lista corresponde al valor de grupo mínimo
de la variable de contraste y el último valor corresponde al valor máximo. Los
elementos de la lista de valores se suman y, a continuación, cada valor se divide por esta
suma para calcular la proporción de casos esperados en la categoría correspondiente.
Por ejemplo, una lista de valores de 3, 4, 5, 4 especifica unas proporciones esperadas de
3/16, 4/16, 5/16 y 4/16.
La aproximación realizada por SPSS es adecuada si las frecuencias esperadas para cada
categoría (proporción esperada x tamaño de la muestra) valen 1 como mínimo y no más
de un 20% de las categorías tienen frecuencias esperadas menores que 5.
Ejercicio 5:
Para ello, tendrás que definir una nueva variable cod_sulf que codifique los valores
de sulfato en las cuatro categorías (0 = baja, 1 = media, 2 = alta, 3 = muy alta).
Aplica la prueba chi-cuadrado con valores esperados 4, 3, 2 y 1.
El resultado, aquí mostrado, indica un p-valor de 0.153 por lo que existe compatibilidad.
COD_SULF
Estadísticos de contraste
COD_SULF
Chi-cuadradoa 5.269
gl 3
Sig. asintót. .153
a. 0 casillas (.0%) tienen frecuencias
esperadas menores que 5. La frecuencia
de casilla esperada mínima es 30.0.
3. Tablas de contingencia.
Para estudiar la asociación de variables o comparar proporciones en dos o más
poblaciones debemos utilizar un test Chi-cuadrado. Para ello debemos pedir Analizar /
Estadísticos Descriptivos / Tablas de contingencia....
Ejercicio 6:
Utilizando los datos del fichero Ambiente, queremos saber si hay evidencia suficiente
para afirmar que las categorías de concentraciones de sulfato se distribuyen de manera
diferente en las tres provincias.
En este procedimiento, para definir las categorías de cada variable, podemos utilizar
tanto valores de una variable numérica que representen categorías como valores de una
variable de cadena corta (ocho caracteres o menos). Por ejemplo, en una hipotética
variable género, podríamos codificar los datos como 1 y 2 o como varón y mujer.
Provincia
ALICANTE CASTELLON VALENCIA Total
COD_SULF ,00 Recuento 48 45 44 137
Frecuencia esperada 45,7 45,7 45,7 137,0
% de COD_SULF 35,0% 32,8% 32,1% 100,0%
% de Provincia 48,0% 45,0% 44,0% 45,7%
1,00 Recuento 26 31 32 89
Frecuencia esperada 29,7 29,7 29,7 89,0
% de COD_SULF 29,2% 34,8% 36,0% 100,0%
% de Provincia 26,0% 31,0% 32,0% 29,7%
2,00 Recuento 18 14 17 49
Frecuencia esperada 16,3 16,3 16,3 49,0
% de COD_SULF 36,7% 28,6% 34,7% 100,0%
% de Provincia 18,0% 14,0% 17,0% 16,3%
3,00 Recuento 8 10 7 25
Frecuencia esperada 8,3 8,3 8,3 25,0
% de COD_SULF 32,0% 40,0% 28,0% 100,0%
% de Provincia 8,0% 10,0% 7,0% 8,3%
Total Recuento 100 100 100 300
Frecuencia esperada 100,0 100,0 100,0 300,0
% de COD_SULF 33,3% 33,3% 33,3% 100,0%
% de Provincia 100,0% 100,0% 100,0% 100,0%
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 1.977a 6 .922
Razón de verosimilitud 1.994 6 .920
Asociación lineal por
.005 1 .942
lineal
N de casos válidos 300
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 8.33.
Ejercicio 7:
Para ello, debemos crear primero una variable dicotómica, ph_6, recodificando la
variable ph; esta nueva variable sólo tomará dos valores distintos, según sea el valor de
ph inferior o igual (ph_6 = 0) o superior a 6 (ph_6 = 1).
Posteriormente hay que pedir Tablas de Contingencia... y colocar las variables ph_6 y
provin como filas y columnas de la tabla.
Los resultados nos muestran la tabla de contingencia asociada a los datos con
porcentajes por filas
Provincia
ALICANTE CASTELLON VALENCIA Total
PH_6 .00 Recuento 60 51 62 173
Frecuencia esperada 57.7 57.7 57.7 173.0
% de PH_6 34.7% 29.5% 35.8% 100.0%
1.00 Recuento 40 49 38 127
Frecuencia esperada 42.3 42.3 42.3 127.0
% de PH_6 31.5% 38.6% 29.9% 100.0%
Total Recuento 100 100 100 300
Frecuencia esperada 100.0 100.0 100.0 300.0
% de PH_6 33.3% 33.3% 33.3% 100.0%
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 2.813a 2 .245
Razón de verosimilitud 2.802 2 .246
Asociación lineal por
.082 1 .775
lineal
N de casos válidos 300
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 42.33.
Ejercicio 8:
TIPO
Control Paciente Total
GRUPO O Recuento 4578 911 5489
Frecuencia esperada 4709,6 779,4 5489,0
A Recuento 4219 579 4798
Frecuencia esperada 4116,7 681,3 4798,0
B Recuento 890 124 1014
Frecuencia esperada 870,0 144,0 1014,0
AB Recuento 313 41 354
Frecuencia esperada 303,7 50,3 354,0
Total Recuento 10000 1655 11655
Frecuencia esperada 10000,0 1655,0 11655,0
Por lo tanto, existe una relación estadísticamente significativa entre los grupos
sanguíneos y la presencia de úlcera péptica.
4. Ejercicios complentarios.
1. En la década de los ochenta se observó que el 25% de los tumores malignos de intestino
delgado eran linfomas primarios. Durante el último año se han observado 80 tumores
malignos de intestino delgado, de los cuales 32 han sido linfomas primarios. ¿Hay
evidencia suficiente para asegurar que el porcentaje de linfomas ha variado en los
últimos años?
3. Con los datos del banco Glucosa contrastar si el porcentaje de mujeres con valores de
g1des inferiores a 80 mg/dl depende de si el valor de g1antes era inferior o superior
a 80 mg/dl. Obtener la tabla de contingencia, el estadístico Chi-cuadrado y el p-valor
asociado.
4. Con los datos del banco Dedos contrastar si el sexo influye en el hecho de ser diestros
(no utilizar los ambidextros), o se trata de dos variables independientes. Obtener la tabla
de contingencia, el estadístico Chi-cuadrado y el p-valor asociado.
6. Mitchell et al. (1976, Annals of Human Biology) estudiaron la distribución de los grupos
sanguíneos en varias regiones de Sur-Oeste de Escocia, obteniendo los resultados que se
Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València
Práctica 7. Análisis de Datos Categóricos 13
muestran en la tabla adjunta. ¿Se distribuyen los grupos sanguíneos de igual manera en
las diferentes regiones?
Eskdale Annandale Nithsdale
A 33 54 98 185
B 6 14 35 55
0 56 52 115 223
AB 5 5 5 15
100 125 253 478
Verde sin 2 filas Verde con 2 filas Clorótica sin 2 filas Clorótica con 2 filas
1178 291 273 156
¿Se cumple la segregación normal dihíbrida con dominación completa:
10. En algunas áreas metropolitanas de los Estados Unidos se han detectado altas
concentraciones de ozono. Para detectar si estos niveles de ozono eran superiores en las
zonas urbanas que en las rurales, se midieron dichas concentraciones de ozono en 30
grandes ciudades y en 50 puntos en zonas rurales seleccionados aleatoriamente por todo
el país. La concentración de ozono se clasificó como dentro del nivel normal, en un
nivel alto o alcanzando un nivel peligroso, Tan solo 5 ciudades tenían un nivel normal
de ozono mientras que había un nivel alto en 18 de ellas y se llegaba a niveles
peligrosos en las otras 7. En cuanto a las zonas rurales, se observaron 9 puntos en los
que el nivel era peligroso y 19 con nivel alto. ¿Se puede concluir del estudio que hay
11. Hasta casi el final del siglo XIX, la mortalidad asociada con las operaciones
quirúrgicas era extremadamente alta. El mayor problema eran las infecciones. La teoría
de les gérmenes como causantes de la transmisión de las enfermedades era todavía
desconocida, por lo que no existía el concepto de esterilización. Como resultado,
muchos pacientes morían por complicaciones postoperatorias. La solución llegó
finalmente cuando Joseph Lister comenzó a leer parte del trabajo realizado por Louis
Pasteur. En una serie de experimentos clásicos, Pasteur había demostrado que las
bacterias jugaban un papel importantísimo en la fermentación. Lo que Lister conjeturó
era que las infecciones humanas podían tener un origen similar. Para comprobar su
teoría, comenzó a usar ácido carbólico como desinfectante en la sala de operaciones.
Aunque los resultados eran fabulosos, sus recomendaciones tardaron casi 10 años en
ponerse en práctica.
El objetivo era comprobar si la supervivencia asociada a las amputaciones era
independiente de la utilización o no del desinfectante durante la operación. Durante un
largo período de años, antes y después de conjeturar su teoría, Lister realizó 75
amputaciones: 40 de ellas se hicieron con ácido carbólico y 35 no. La tasa de mortalidad
para el primer grupo era del 15%, comparado con el 46% para el segundo grupo.
Extraer las conclusiones oportunas.