Documente Academic
Documente Profesional
Documente Cultură
ISBN 978-987-1536-37-5
Estadística para las Ciencias de la Salud
María del Pilar Díaz
Licenciada en Matemática (FaMAF, UNC, Argentina),
Doctora en Estadística Aplicada a las Ciencias Biológicas (USP, Brasil).
Profesora Titular de Estadística y Bioestadística (Escuela de Nutrición, Facultad de Ciencias Médicas,
Universidad Nacional de Córdoba, Argentina).
Laura Rosana Aballay
Licenciada en Nutrición (FCM, UNC, Argentina), Doctora en Ciencias de la Salud (FCM, UNC).
Profesora Asistente de Estadística y Bioestadística (Escuela de Nutrición, Facultad de Ciencias Médicas,
Universidad Nacional de Córdoba, Argentina).
Sonia Alejandra Pou
Licenciada en Nutrición (FCM, UNC, Argentina), Doctora en Ciencias de la Salud (FCM, UNC).
Profesora Asistente de Estadística y Bioestadística (Escuela de Nutrición, Facultad de Ciencias Médicas,
Universidad Nacional de Córdoba, Argentina).
Natalia Tumas
Licenciada en Nutrición (FCM, UNC, Argentina), Magister en Salud Materno Infantil (FCM, UNC).
Instructora Docente de Estadística y Bioestadística (Escuela de Nutrición, Facultad de Ciencias Médicas,
Universidad Nacional de Córdoba, Argentina) y Profesora Titular de Estadística y Bioestadística
(Licenciatura en Nutrición, Facultad de Medicina, Universidad Católica de Córdoba, Argentina).
Prólogo
Este libro es una introducción al estudio de la Bioestadística y a la aplicación de técnicas
numéricas para la obtención de información confiable acerca de fenómenos biológicos
abordados en el marco del método científico. Está dirigido a alumnos de grado y postgrado
de carreras y cursos en el área de las Ciencias de la Salud. Por ello, el propósito principal de
esta obra es presentar a la Estadística desde el punto de vista de sus aplicaciones, sin
ahondar en demostraciones ni profundizar en temas especializados. Por otro lado, aquellos
investigadores que necesitan analizar datos provenientes de estudios propios de su campo
de trabajo, bajo situaciones de incertidumbre, también pueden encontrar en este libro, los
contenidos y métodos estadísticos necesarios para la obtención de resultados y extracción
de conclusiones.
Considerando que el estudiante o alumno ha de ser sujeto activo y responsable en su
formación, cada vez más gestor de su aprendizaje, esta obra presenta conceptos básicos y
desarrolla los métodos estadísticos útiles para la descripción y estudio de variables
biológicas así como la toma de decisiones acerca de sus comportamientos. Si bien la
Estadística es una materia fundamental en la Ciencia y en la Tecnología que permite dar
informaciones objetivas en todas las áreas disciplinares, este libro contiene todas sus
aplicaciones, ejemplos y ejercicios en el campo de las Ciencias de la Salud, con especial
énfasis en la Nutrición.
En esta obra se presentan los temas de forma gradual y secuenciada, especificando las
hipótesis necesarias y razonando los procedimientos. Se intercalan ejemplos y ejercicios
resueltos, ayudando a comprender el procedimiento estadístico y a valorar las ventajas de
las herramientas que facilitan la obtención e interpretación de los resultados.
Este libro está dividido en nueve capítulos, siendo los dos primeros dedicados a los
conceptos y aplicaciones de la Estadística Descriptiva. El tercer capítulo introduce a la
probabilidad y presenta las herramientas requeridas en el estudio subsecuente de la
incertidumbre. Del capítulo 5 en adelante, se distingue entre población y muestra y se
comienza con el estudio de la variabilidad inherente y las nociones básicas de Inferencia
Estadística. Así, los capítulos 6, 7 y 8 desarrollan los procedimientos de estimación y prueba
de hipótesis, tanto sobre parámetros que caracterizan a las distribuciones de las variables
1
aleatorias como acerca de asociaciones entre dos o más variables.
Los autores desean agradecer a todas las personas que han motivado esta obra y
contribuido con su elaboración, comenzando por los alumnos del curso de Estadística de la
Escuela de Nutrición (Facultad de Ciencias Médicas, Universidad Nacional de Córdoba), de
varias cohortes pasadas. Este libro nació por ellos y es en virtud de nuestra experiencia
docente y de investigación que lo concebimos. Agradecemos, de manera muy especial, a
nuestras compañeras en el trabajo docente: Lic. Paula Díaz, Lic. Julia Becaria Coquet, Dra.
Camila Niclis, así como las alumnas Malena Bocco y Gabriela Revollo, por todo lo aportado
en la redacción y crítica de las innumerables ediciones anteriores, y manifestamos un
reconocimiento particular a la Lic. Daniela Fernández, por su arduo y valioso trabajo en la
versión inicial de esta obra y a la Lic. Julia Becaria, por su ayuda desinteresada en las últimas
y corrección de este original. Por último, también estaremos muy agradecidos a todos
aquellos que deseen remitirnos sus opiniones, sugerencias o comentarios a la siguiente
dirección: pdiaz@fcm.unc.edu.ar.
Esta obra está dedicada a los futuros alumnos y a los investigadores que necesiten hacer uso
de la Estadística. Si a las personas que utilicen este libro les resulta provechoso, entonces
habremos alcanzado nuestro objetivo y nos sentiremos satisfechos.
María del Pilar Díaz
Universidad Nacional de Córdoba
Córdoba, Argentina.
2
CAPÍTULO 1: INTRODUCCIÓN A LA ESTADÍSTICA
3
4
Introducción a la Estadística
En las ciencias de la salud, como en otras disciplinas, la investigación juega un papel
fundamental para el mejoramiento de la práctica profesional, estableciendo fundamentos o
conocimientos científicos. La Estadística cumple un rol importante en la investigación, en
tanto funciona como una herramienta para diseñar experiencias, analizar datos y extraer
conclusiones a partir de los mismos. Dichas conclusiones sirven para confirmar
conocimientos existentes o generar nuevos, los que forman parte de una ciencia.
Ciencia y conocimiento científico
La palabra ciencia deriva del latín “Scire”, que significa saber y conocer. La ciencia implica
un conjunto de conocimientos racionales, ciertos o probables, que obtenidos de manera
metódica y verificados, nos dirigen hacia una aproximación de la verdad. Éstos son
susceptibles de ser transmitidos.
Cuando se habla de conocimiento deben distinguirse dos fuentes de conocimiento: el
conocimiento habitual y el científico.
El conocimiento habitual es la manera común, corriente y espontánea de aprender.
Ocurre cuando ciertos hechos son transmitidos por vía de la tradición o de las costumbres,
aceptándose como verdades sin que se exijan pruebas sobre ellos. Este tipo de conocimiento
es:
• Superficial porque se conforma con lo aparente.
• Sensitivo porque se percibe mediante las vivencias, estados de ánimo, emociones.
• Subjetivo porque la misma persona es la que organiza las experiencias y
conocimiento de manera no sistemática.
Con todo esto, el conocimiento habitual suele ser vago e inexacto.
El conocimiento científico es el resultado de la investigación científica, la que se vale a su
vez por el método científico, que se define como el conjunto de reglas que constituyen la
manera de llegar al mismo. Este tipo de conocimiento es:
• Objetivo porque es independiente de los gustos y creencias del investigador.
• Fáctico porque se atiene a los hechos.
• Se vale de la investigación empírica, lo que significa que las pruebas tienen base en la
realidad objetiva.
A diferencia del conocimiento habitual, el conocimiento científico es claro y preciso, y se
basa en el denominado método científico.
5
Introducción a la Estadística
Método científico
El método científico puede ser definido como el modo con el cual la ciencia aborda o
inquiere en lo desconocido, es el conjunto de reglas que constituyen la manera de llegar al
conocimiento científico.
El método científico es objetivo, fáctico, formula proposiciones generales relacionando
hechos particulares (no se ocupa de hechos aislados) y se vale de la verificación empírica.
Las etapas del método científico son:
1. Observación: Se contemplan los hechos o fenómenos de manera metódica y objetiva.
2. Formulación de hipótesis: Se da una explicación posible a lo observado.
3. Verificación de hipótesis: Las hipótesis se someten a un proceso de prueba que
determinará su validez o no.
4. Resolución de hipótesis: Se acepta o rechaza la hipótesis planteada en base a los
resultados obtenidos en la verificación.
Tipos de investigación
Más allá de poder clasificar a la investigación científica en base a sus funciones y objetivos
(descripción, exploración, explicación, etc.) también se la puede clasificar en función de su
utilidad en la práctica: la investigación básica o pura está diseñada con el objetivo de
ampliar la base de conocimientos teóricos de una disciplina en aras del conocimiento por sí
mismo. La investigación aplicada está dirigida a encontrar soluciones para problemas
inmediatos. Su objetivo es aplicar y utilizar los conocimientos y descubrimientos de la
investigación básica.
Para determinar el grado de profundidad en la indagación de un problema es necesario
identificar los niveles de investigación. El nivel descriptivo consiste en describir un hecho o
fenómeno: ¿qué es?, ¿cómo es?, ¿dónde está?, etc. El nivel clasificatorio exige un mayor
esfuerzo, ya que ordena, dispone y agrupa los datos obtenidos en clases sobre la base de
características comunes. El nivel explicativo trata de responder al por qué ocurren los
hechos o fenómenos, buscando determinar relaciones causa – efecto.
La estadística surgió como un auxiliar del método científico, aportando diseños para la
recolección, tratamiento, resumen, presentación, análisis e interpretación de datos.
6
Introducción a la Estadística
Estadística y Bioestadística
La Estadística, entonces, es una ciencia que provee metodología analítica con el objetivo
de recoger datos, organizarlos, resumirlos, presentarlos, analizarlos y extraer conclusiones.
Dos ramas principales de la estadística son:
a) la estadística descriptiva: describe una realidad determinada de la población (universo)
o de un grupo de la misma (muestra).
b) la estadística inferencial o inductiva: se basa en los resultados obtenidos del análisis
de una muestra de la población para inferir o aplicar esas conclusiones al universo.
La Bioestadística o Biometría es la aplicación de procedimientos estadísticos al estudio de
los problemas biológicos y de salud, sean individuales o comunitarios.
7
8
CAPÍTULO 2: PRIMERA ETAPA DEL ANÁLISIS
ESTADÍSTICO. ESTADÍSTICA DESCRIPTIVA
9
Estadística Descriptiva
1. Concepto de población, muestra y unidad observacional
En toda investigación tenemos un problema que resolver, dicho problema sucede o se
presenta en una población determinada, la cual se está investigando. Cuando esta población
no es muy grande y el tipo de trabajo lo permite se trabaja con la totalidad de ella. La
definición de población como un conjunto global de casos que satisface una serie
predeterminada de criterios, de ninguna manera se restringe a los seres humanos.
En determinados casos, por el carácter de la investigación, no se puede trabajar con la
totalidad de la población, sino que se trabaja con una parte de la misma que debe ser
representativa de ella, llamada muestra. A su vez, cada elemento u objeto de estudio de la
muestra o población recibe el nombre de unidad observacional o experimental.
La relación entre la población y muestra de estudio se esquematiza en la Figura 1.
Estadística Descriptiva
Población
Muestra
Estadística Inferencial
Figura 1: Población y muestra.
Teniendo en cuenta lo antedicho podemos citar como ejemplo:
¾ Si se quiere conocer en Malagueño la cantidad de niños en edad escolar que
asisten a la escuela en el año 2001, la población en estudio será “Todos los niños
en edad escolar que asisten a la escuela en Malagueño, en el año 2001”. La unidad
observacional será un niño en edad escolar de Malagueño, que asiste a la escuela
en el año 2001.
¾ Si se desea estudiar la composición química de galletitas de una harina especial
realizada en una empresa XXXX, durante un mes, la población en estudio será
“Todas las galletitas realizadas con dicha harina en esa empresa, en el mes
Estadística Descriptiva
determinado” y la unidad observacional será una galletita realizada con dicha
harina en esa empresa durante el mes indicado.
¾ Si se quiere investigar la presencia de mastitis en vacas de los tambos de la
provincia de Córdoba durante los meses de junio y julio del 2001, la población
estará constituida por “Todas las vacas que están en los tambos de la provincia de
Córdoba, durante los meses de junio y julio del 2001” y la unidad observacional
será una vaca de los tambos de la provincia de Córdoba, durante los meses de
junio y julio del 2001.
2. Variables
En cada objeto de estudio, sean individuos, animales, alimentos, instituciones, etc. se
encuentran características, propiedades o atributos que los diferencian entre sí y que
pueden expresarse mediante valores numéricos o categorías. Estas característica (numéricas
o no) son lo que se conoce como variables, las cuales se clasifican como se muestra en la
Figura 2.
Las variables pueden ser:
Continuas
Cuantitativas
Discretas
VARIABLES
Cualitativas o Ordinales
Categóricas
Nominales
Figura 2: Clasificación de variables
Las variables cuantitativas son susceptibles de ser medidas y se expresan numéricamente.
Las continuas son las que pueden asumir infinitos valores entre dos datos, y se expresan
utilizando decimales o fracciones. Las variables discretas, en cambio, son aquellas variables
12
Estadística Descriptiva
que surgen de conteos, son finitas o infinitas numerables y se expresan con números
enteros.
Las variables cualitativas o categóricas se clasifican en base a una cualidad, permitiendo
distinguir individuos que poseen determinada característica de aquellos que no. Nos
referimos a variables ordinales cuando las mismas se clasifican ordenando categorías de
manera jerárquica, mientras que las variables nominales no enumeran las categorías según
jerarquía ni grados en que se manifiestan.
Para medir las variables y para darles números a las observaciones se utilizan las escalas
de clasificación, donde se enuncian las posibles alternativas de una variable.
Toda escala debe ser exhaustiva, es decir, incluir todas las posibles categorías de la
variable en cuestión. Las alternativas o clases determinadas deben ser mutuamente
excluyentes, no debe haber dudas acerca de donde incluir una observación.
A continuación se presentan ejemplos de variables, su correspondiente clasificación y
escala:
Variable Tipo Escala
Edad Cuantitativa Continua
Sexo Categórica Nominal
Estado civil Categórica Nominal
Tiempo trabajado Cuantitativa Continua
Cantidad de habitaciones Cuantitativa Discreta
Tipo de vivienda Categórica Nominal
Consumo de cigarrillos Categórica Nominal
Cantidad de cigarrillos Cuantitativa Discreta
fumados por día
Nivel de Instrucción Categórica Ordinal
Ejercicios de aplicación: 2.1 a 2.4
13
Estadística Descriptiva
3. Organización de datos
En una investigación, luego de la recolección de datos se procede a su ordenamiento para
ser analizados, interpretar los resultados y sacar conclusiones. Una forma de ordenar los
datos, es armando una base de datos que contenga todas las encuestas realizadas.
En la Figura 3 se observa un ejemplo de base de datos de una muestra de 14 estudiantes
que realizaron el ciclo de nivelación en la Facultad de Ciencias Médicas (FCM) de la
Universidad Nacional de Córdoba en Febrero de 2009. Se les registró sexo, edad y escuela a
la que asistieron, y se les midió el peso y la talla para luego evaluar el estado nutricional.
Cada columna de la base de datos está encabezada por el nombre de la variable en estudio,
y en ella se registra el valor o categoría de la misma perteneciente a cada elemento
muestral. En cada fila se registran los datos de cada encuestado.
estado
encuesta sexo edad peso talla IMC escuela
nutricional
Figura 3: Ejemplo de base de datos de una muestra de 14 estudiantes de la FCM.
14
Estadística Descriptiva
4. Descripción de datos
Al realizar una observación obtenemos datos de cada uno de los objetos de estudio de
una población o muestra, que corresponden a las variables de interés para la investigación.
Debemos ordenar estos datos para tratarlos analíticamente, luego interpretarlos y sacar
conclusiones.
En primer lugar debemos realizar una descripción de los datos, lo que implica:
1. Construir tablas
2. Construir gráficos
3. Calcular Medidas Resumen
4. Interpretar
4.1 Construcción de tablas
Cuando se tienen los resultados de una investigación o estudio, estos datos sólo son un
número de observaciones difíciles de interpretar si no están ordenados, resumidos y
presentados de manera apropiada.
Una tabla es entonces un cuadro que presenta un resumen de la información (serie de
observaciones) de manera conveniente.
Las tablas pueden ser construidas para resumir información referida a una, dos o más
variables. De acuerdo a esto se denominan tablas simples, de doble entrada o a dos vías de
clasificación y tablas de tres o más vías de clasificación. Ejemplos de las mismas son
presentados en las Tablas 1 a 3 más abajo.
En una tabla los resultados se expresan en términos de sus frecuencias. La frecuencia
absoluta es el número de veces que se observa un resultado dado y se denota con ni. La
frecuencia relativa es la relación entre la frecuencia absoluta de un resultado (ni) y el
número total de objetos observados, y se denota con fi.
En el caso de las variables cuantitativas, suele ser de utilidad presentar frecuencias
acumuladas, que no es otra cosa que la sumatoria de las frecuencias absolutas o relativas a
partir del primer dato o intervalo de la distribución hasta el que está en cuestión. Se denotan
Ni y Fi respectivamente.
Es importante destacar que las frecuencias acumuladas solo son aplicables a variables
15
Estadística Descriptiva
cuantitativas o categóricas ordinales, no así a variables categóricas nominales, donde su
interpretación carece de sentido.
Tabla 1. Ejemplo de tabla simple o univariada
Edad de los niños que asisten al Centro de Salud X, en Octubre de 1998.
Tabla 2. Ejemplo de tabla de doble entrada o a dos vías de clasificación
Edad de los niños que asisten al Centro de Salud X, según sexo en Octubre de 1998.
Sexo
Edad Total
Femenino Masculino
(Años)
ni fi % ni fi % Σni Σfi %
[0 ; 1) 6 33,3 2 20 8 28,6
[1 ; 2) 2 11,1 2 20 4 14,2
[2 ; 3) 2 11,1 1 10 3 10,7
[3 ; 4) 2 11,1 1 10 3 10,7
[4 ; 5) 4 22,2 3 30 7 25,1
[5 ; 6) 2 11,1 1 10 3 10,7
Total 18 100 10 100 28 100
16
Estadística Descriptiva
Tabla 3. Ejemplo de tabla a tres vías.
Distribución de la población según estado nutricional, sexo y tipo de consumo de
alimentos de alta densidad energética (ADE). Santa Fe, 2005.
¿Cómo agrupar una serie de datos?
En algunos casos los datos de naturaleza cuantitativa son numerosos, por lo que para
resumirlos en una tabla o gráfico solo es posible si se los trabaja en forma agrupada.
Los datos se agrupan en intervalos, teniendo en cuenta la cantidad y amplitud
conveniente de los mismos. En una serie de datos (a) donde el menor valor encontrado es el
16 y el mayor es el 42; se realiza la diferencia entre estos (b) y al valor encontrado lo
dividimos por el número deseado de intervalos, que se simboliza k, que en este caso será
cinco (c); permitiéndonos saber la amplitud de cada uno de los intervalos.
Ejemplo:
a) Considere la siguiente serie de datos:
40; 41; 32; 28; 22; 21; 16 ; 41; 28; 33; 26; 31; 27; 29; 22; 36; 40; 41; 22; 27; 39; 28; 17; 29;
19; 30; 18; 34; 23; 35; 20; 24; 37; 25; 35; 39; 42; 17; 28; 31; 38; 38.
b) La diferencia entre el mayor y menor valor puede ser calculada como:
42 – 16 = 26
c) Para obtener k intervalos, debemos efectuar la división del valor obtenido
17
Estadística Descriptiva
anteriormente por el número deseado de intervalos (es decir, k):
26 / 5 = 5,2 k =5
d) Los intervalos quedarán formados de la siguiente manera, siendo la amplitud del
intervalo (a)= 5,2.
Xi ni
[16 – 21,2) 7
[21,2 – 26,4) 7
[26,4 – 31,6) 11
[31,6 – 36,8) 6
[ 36,8 – 42] 11
Total 42
Si observamos el intervalo [16 – 21,2) podemos decir que es de tipo semi‐abierto, dado
que en su notación comienza con corchete (lo cual establece que se puede incluir en este
intervalo desde el número señalado, en este caso 16) y termina con paréntesis (indicando
que llega hasta el número que está inmediatamente anterior al escrito pero sin incluir al
mismo). Es decir que, si en este caso se tuviera como dato el valor 21,2, éste pertenecerá al
intervalo siguiente.
En términos generales, la cantidad de intervalos debe aumentar a medida que aumenta n.
Por convención, el número k de intervalos aconsejables de acuerdo al tamaño de la
población o muestra es:
Tamaño de la muestra o Número de intervalos
población aconsejados
n ≤ 50 k = 5 ó 6
18
Estadística Descriptiva
Ejercicios de aplicación: 2.5 al 2. 6
4.2 Construcción de Gráficos
Mediante un gráfico se representan los datos en forma ilustrativa, de modo tal que al
observarlo se obtenga una idea acerca de la distribución de las frecuencias y el
comportamiento de la variable en cuestión. En el momento de realizar un gráfico es
necesario tener en cuenta qué tipo de variable es la que se quiere representar, ya que no
todos los gráficos son apropiados para cualquier tipo de variable.
Si se desea ilustrar la distribución de frecuencias de variables cuantitativas continuas el
tipo de gráfico que se debe emplear es el histograma y polígono de frecuencias (Figura 4).
Cuando trabajamos con variables categóricas o cualitativas la distribución de frecuencias
de las mismas se pueden ilustrar mediante pictogramas, barras simples (Figura 5 y 6),
diagramas de sectores o torta (Figura 7), barras agrupadas (Figura 8), barras proporcionales
(Figura 9). Estos dos últimos gráficos permiten representar simultáneamente el
comportamiento de dos variables, por lo que denominan bivariados. Los gráficos
univariados, por su parte, son aquellos donde se representa o ilustra la frecuencia absoluta o
relativa de solo una variable (Figura 4 a 7).
Los diagramas de barras también pueden emplearse en el caso de variables cuantitativas
discretas.
19
Estadística Descriptiva
Niveles de colesterol en sangre en hombres de más de
50 años en la ciudad de Córdoba en el año 2007
30
N° de observaciones 25
20
15
10
5
0
(120 , 150] (150 , 180] (180 , 210] (210 , 240] (240 , 270]
mg %
Figura 4: Histograma y polígono de frecuencias absolutas. Variable: nivel de colesterol en
sangre. Tipo: cuantitativa continua.
30
25
N° de mujeres
20
15
10
0
0 1 2 3 4
Figura 5: Gráfico de barras simples. Variable: Cantidad de veces que las mujeres consultan
al ginecólogo en un año. Tipo: cuantitativa discreta.
20
Estadística Descriptiva
10
N° de trabajadores
9
8
7
6
5
4
3
2
1
0
Primario completo Secundario Universitario
Completo
Tipo de Escolaridad
Figura 6: Gráfico de barras simples. Variable: Escolaridad de los trabajadores de una
empresa. Tipo: categórica.
Universitario Primario
30% completo
25%
Secundario
Completo
45%
Figura 7: Diagrama de sectores o torta. Variable: Escolaridad de los trabajadores de una
empresa. Tipo: categórica.
21
Estadística Descriptiva
6
5
4
3
2
1
0
Primario completo Secundario completo Universitario
Tipo de escolaridad
Sexo masculino Sexo femenino
Figura 8: Gráfico de barras agrupadas para dos variables.
7
6
5
4
3
2
1
0
Primario completo Secundario completo Universitario
Tipo de escolaridad
Figura 9: Gráfico de barras proporcionales para dos variables.
También las variables cuantitativas pueden representarse en gráficos bivariados que las
relaciones. Uno de los más empleados son los denominados diagrama de dispersión (Figura
22
Estadística Descriptiva
10), en el que se muestra la ubicación de los pares de observaciones (X, Y) en un sistema de
coordenadas cartesianas.
92,20
80,10
peso(kg)
68,00
55,90
43,80
55,65 68,58 81,50 94,42 107,35
circunferencia cintura(cm)
Figura 10: Diagrama de dispersión para dos variables cuantitativas.
Como se muestra en este tipo de gráficos, en término de la relación entre dos variables
de tipo cuantitativo pueden observarse:
‐ Asociación Lineal Positiva: si a medida que aumentan los valores de la variable X
también aumentan los valores de la variable Y (Figura 11).
Figura 11: Diagrama de dispersión para dos variables con asociación lineal positiva
23
Estadística Descriptiva
‐ Asociación Lineal Negativa: si a medida que aumentan los valores de la variable X
disminuyen los valores de la variable Y (Figura 12).
Figura 12: Diagrama de dispersión para dos variables con asociación lineal negativa.
‐ Ausencia de Asociación Lineal: cuando los puntos se dispersan en el plano y no siguen
ningún patrón (Figura 13).
16
14
12
10
Y 8
0
0 5 10 15 20
Figura 13: Diagrama de dispersión para dos variables sin asociación lineal
Ejercicios de aplicación: 2.7 a 2.10
24
Estadística Descriptiva
5. Medidas Resumen
Las medidas resumen permiten que por medio de un valor se pueda conocer la posición o
tendencia central del conjunto de datos y se acompañan de otras medidas denominadas de
dispersión, que informan cómo se encuentran distribuidos los mismos en torno al valor
central.
Se debe tener en cuenta la naturaleza y distribución de cada variable para seleccionar el
tipo de medidas resumen a utilizar, como se muestra en Figura 14.
Media
Variables Cuantitativas Mediana
(Continuas y Discretas)
Moda o Modo
Medidas de Posición
Variables Categóricas Moda o Modo
Varianza
Desvío Estándar
Variables Cuantitativas Rango
Medidas de Dispersión (Continuas y Discretas) Rango Intercuartílico
Coeficiente de Variación
Figura 14: Medidas resumen de posición y dispersión para variables cuantitativas y
categóricas.
5.1 Variables cuantitativas
5.1.1 Medidas de posición
Las medidas de posición o tendencia central son índices que se expresan mediante una
sola cifra y que representan el promedio o valor típico de un conjunto de puntuaciones.
Para su cálculo deben considerarse dos situaciones diferenciales: si se cuenta con los
datos en series simples (uno a uno) o si estos se encuentran agrupados (resumidos en
tablas), como se explica a continuación.
25
Estadística Descriptiva
5.1.1.1 Cálculos a partir de datos en series simples
Media Aritmética
La media es el promedio aritmético de todos los valores de una distribución. Este índice,
denotado como X , es el que se utiliza con mayor frecuencia.
n
x + x 2 + x 3 + x 4 + .... + x n
∑x i
X = 1 , o lo que es lo mismo X = i =1
,
n n
siendo xi el valor de la observación i para la variable X, y n el total de observaciones.
Ejemplo:
Edad en años de las maestras de una escuela
Datos: 25; 32; 22; 21; 25; 30; 45; 50; 27; 28; 25
25 + 32 + 22 + 21 + 25 + 30 + 45 + 50 + 27 + 28 + 25 330
X= = = 30
11 11
La media de la edad de las maestras de esa escuela es 30 años, o en otros términos, la
edad promedio de las maestras de la escuela es de 30 años.
Mediana
Además de la media, existen otras medidas de posición que pueden informar algo más
acerca de la distribución de la variable en estudio.
Si se ordenan los datos de menor a mayor la mediana es el dato que queda en el medio y
deja por debajo de ella el 50% de los datos y por encima el otro 50%. Se denota como Me.
Ordenados los datos de la variable de menor a mayor, la mediana es el valor que
corresponde al dato central cuando el n es impar.
26
Estadística Descriptiva
Ejemplo:
Edad de las maestras de una escuela (n = 11)
Datos: 25; 32; 22; 21; 25; 30; 45; 50; 27; 28; 25
Ordenando:
21; 22; 25; 25; 25; 27; 28; 30; 32; 45; 50
50% Me 50%
Me: mediana = 27 años
El 50% de las maestras tienen 27 años o menos y el otro 50% tienen 27 años o más.
Si n es par, la mediana es igual al promedio de los dos datos centrales.
Ejemplo: Edad de las maestras de una escuela (n = 10)
Datos: 25; 32; 22; 21; 25; 30; 45; 50; 27; 28
Ordenando:
21; 22; 25; 25; 27; 28; 30; 32; 45; 50
50% 50%
27 + 28
Me = = 27,5 años
2
Moda
Es el punto en la escala en el que se registra la máxima frecuencia de una distribución.
Coincide con el valor que se presenta con mayor frecuencia.
En el ejemplo anterior la moda es 25 años, lo que nos permite decir que si bien la edad de
las maestras de la escuela va desde los 21 a los 50 años, la edad más frecuente es 25 años.
Para distribuciones simétricas unimodales la media, la mediana y la moda corresponden
al mismo valor.
27
Estadística Descriptiva
5.1.1.2 Cálculo a partir de datos en series agrupadas
Como fue mencionado, los cálculos de estas medidas resumen difieren según la manera
en que se disponen los datos a analizar. El cálculo a partir de datos en series agrupadas a su
vez puede dividirse según se presenten en intervalos o no.
Datos agrupados en intervalos (variables cuantitativas continuas y discretas)
Media
En este caso, para el cálculo de X se emplea la siguiente ecuación:
k
∑m i ⋅ ni
X = i =1
,
n
siendo:
k= cantidad de intervalos
mi= centro del intervalo o marca de clase
ni= frecuencia absoluta de cada intervalo
n= total de observaciones
Ejemplo:
Edad de las maestras de un colegio de la ciudad de Río IV, en el año 2007.
27,5 ⋅ 10 + 42,5 ⋅ 19 + 57,5 ⋅ 8
X = = 41,68
37
28
Estadística Descriptiva
Mediana
Para el cálculo de Me considere la siguiente ecuación:
n
− N i −1
Me = Li + a ⋅ 2 ,
ni
donde:
n
= es el número total de observaciones dividido 2.
2
n
Ni‐1 = es la mayor de las frecuencias acumuladas que no supera a
2
n
ni = frecuencia absoluta del intervalo en donde cae
2
n
Li= es el extremo inferior del intervalo que tiene como frecuencia acumulada
2
a = es la amplitud de dicho intervalo
Existen situaciones donde los datos se distribuyen de manera asimétrica y más del 50 %
de ellos están incluidos en el primer intervalo, por lo que no se podrá obtener el dato Ni‐1,
n
(frecuencia acumulada que no supera a ). En ese caso se utilizará el valor de la marca de
2
clase del primer intervalo en reemplazo de Ni‐1,.
Ejemplo:
Edad de los Pacientes del Centro de Salud XX, año 2012
29
Estadística Descriptiva
n
Siendo = 50, entonces:
2
100
− 28
Me = 30 + 15 ⋅ 2 = 40,31años
32
Moda
La moda es considerada la marca de clase del intervalo modal, que es aquel que tiene la
mayor frecuencia absoluta.
Variable ni
[8, 10] 6
(10, 12] 12
(12, 14] 7
Total 25
Si el intervalo modal es (10,12], la moda es 11.
Otra manera de calcularla es la siguiente:
f1
Moda = Li + a ⋅ ,
f1 + f 2
siendo:
Li = extremo inferior del intervalo modal
a = amplitud del intervalo modal
f1= frecuencia absoluta del intervalo modal menos frecuencia del intervalo anterior
f2 = frecuencia absoluta del intervalo modal menos frecuencia absoluta del intervalo
posterior
En el ejemplo anterior sería:
f1= 12 ‐ 6 = 6
f2= 12 ‐ 7 = 5
30
Estadística Descriptiva
12 − 6
Moda = 10 + 2 ⋅
(12 − 6) + (12 − 7)
6
= 10 + 2 ⋅
11
= 10 + 1,09
= 11,09
Otras medidas de posición a partir de datos agrupados en variables cuantitativas
continuas
Cuantil: Los cuantiles son aquellos valores de la variable, que ordenados de menor a
mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el
mismo número de frecuencias. Es la expresión más general de medidas de posición y
comprende a las otras; el valor que tome el cuantil “X” es el valor que deja por debajo de sí
al “X” % de los datos. Casos particulares son los percentiles, cuartiles, deciles y quintiles.
Percentil: Valor que divide al conjunto de datos en 100 partes iguales (de 0 a 100).
Decil: Valor que divide al conjunto de datos en 10 partes iguales (de 0 a 10).
Cuartil: Valor que divide al conjunto de datos en 4 partes iguales (de 0 a 4).
La Figura 15 esquematiza las medidas de posición antes descriptas.
Mediana Me
Figura 15: Medidas resumen de posición: percentil, decil, cuantil, cuartil y mediana.
31
Estadística Descriptiva
Cálculo de Cuantil
Si se desea calcular el cuantil n, entonces:
(n ⋅ N ) − N i −1
C n = Li + a ⋅ ,
ni
donde:
Li = límite inferior del intervalo que contiene a n.N
n = cuantil que quiero investigar
N = total de datos
Ni‐1 = frecuencia acumulada anterior al intervalo que contiene a n.N
ni = frecuencia absoluta del intervalo que contiene a n.N
a = amplitud del intervalo
Ejemplo:
Edad de los pacientes en años
32
Estadística Descriptiva
70 − 60
C 0,7 = 45 + 15 ⋅
18
= 45 + 0,55 ⋅ 15
= 45 + 8,25
= 53,25
Interpretación: El 70% de los pacientes tiene 53,25 años o menos y el 30% tiene más de
esa edad.
Cálculo de Percentil
De manera similar al cálculo de cuantiles, si se pretende conocer el valor del percentil n,
la ecuación a aplicar es la siguiente:
n⋅N
− N i −1
Pn = Li + a ⋅ 100 ,
ni
donde:
n⋅N
Li = límite inferior del intervalo que contiene a
100
n = percentil que quiero investigar.
N = total de datos.
n⋅N
Ni‐1 = frecuencia acumulada anterior al intervalo que contiene a
100
n⋅N
ni = frecuencia absoluta del intervalo que contiene a
100
a = amplitud del intervalo.
Supongamos que para el mismo ejemplo anterior se quiere calcular el percentil 40.
Entonces:
33
Estadística Descriptiva
n ⋅ N 40 ⋅ 100
= = 40
100 100
Se debe buscar en la columna de frecuencias acumuladas en qué intervalo está contenido
el dato de orden 40 (el cual está en el segundo intervalo).
Luego, siendo:
Li= 30
Ni‐1 = 28
ni= 32
a = 15
se tiene:
40 − 28
P40 = 30 + 15 ⋅
32
= 30 + 0,375 ⋅ 15
= 30 + 5,625
= 35,6
Interpretación: el 40% de los pacientes tienen menos de 35,6 años y el 60% tiene más de
esa edad.
Nota: en variables con distribución simétrica las medidas resumen más adecuadas son
media y desvío estándar, y para variables con distribución asimétrica son mediana y rango
intercuartílico, debido a que estas dos últimas son menos sensibles a valores atípicos.
Datos agrupados sin intervalos (variables cuantitativas discretas)
Media
Aquí el promedio se conoce como media aritmética ponderada, y se calcula como:
n
∑x
i =1
i ⋅ ni
X=
n
34
Estadística Descriptiva
donde:
xi= el valor de la observación i para la variable X
ni= frecuencia absoluta de cada intervalo
n= total de observaciones
Ejemplo:
Cantidad de camas en las habitaciones del hospital XX, en la ciudad de Villa María, 2006.
Mediana
n
En este caso, se debe calcular el número total de observaciones sobre dos ( ), y buscar
2
en la columna de frecuencias acumuladas absolutas el intervalo que incluya el valor del
resultado anterior.
35
Estadística Descriptiva
Ejemplo:
Cantidad de camas en las habitaciones del hospital XX,en la ciudad de Villa María, 2006.
También en el caso de datos agrupados sin intervalos para variables cuantitativas
discretas la Moda corresponde al valor de la variable que registra la máxima frecuencia.
5.1.2 Medidas de dispersión
La variabilidad se refiere a la diseminación o dispersión de los datos de una distribución
en torno a un valor central. Como en el caso de las medidas de posición, su cálculo también
difiere conforme los datos se presenten en series simples o agrupados.
5.1.2.1 Cálculos a partir de datos en series simples
Varianza
En términos generales, representa la distancia promedio de los datos a su media. Se la
define como la sumatoria de los desvíos al cuadrado de cada dato respecto de la media,
dividido por el total de datos. En caso de trabajar con una muestra se divide por el total de
36
Estadística Descriptiva
datos menos uno.
∑ (x )
n
2
i −X
S2 = i =1
,
n −1
siendo:
xi= el valor de la observación i para la variable X
X = la media muestral
n= total de observaciones
Ejemplo:
Dada la variable Y= "Cantidad de materias aprobadas por alumno de la carrera
Licenciatura en Letras", respecto de la cual se obtuvieron los siguientes datos:
Datos: 2, 4, 4, 4, 6, 7, 7, 8, 9, 10 X = 6,1
S2 =
(2 − 6,1)2 + (4 − 6,1)2 .3 + (6 − 6,1)2 + (7 − 6,1)2 .2 + (8 − 6,1)2 + (9 − 6,1)2 + (10 − 6,1)2
10 − 1
S 2 = 6,54 materias2
La varianza nos indica cuánto distan en promedio los valores de la variable (cantidad de
materias aprobadas) de su media.
Desvío Estándar
Se obtiene extrayendo la raíz cuadrada de la varianza. Tanto la varianza como el desvío
estándar muestran la dispersión de los valores observados con respecto a la media. La
diferencia entre ellas es que la varianza está dada en unidades al cuadrado (si la variable se
mide en Kg, la varianza en Kg2); mientras el desvío estándar tiene la misma unidad de
medida que la media.
Siguiendo el ejemplo anterior,
S = S2
S = 6,54
37
Estadística Descriptiva
S = 2,56 materias ≅ 3 materias
En el ejemplo, se tiene una media de 6 materias aprobadas con un desvío estándar de 3
materias.
X = 6 materias
S = 3 materias
Esto quiere decir que el promedio de materias aprobadas es de 6 y que un porcentaje
considerable de los alumnos tiene aprobadas entre 3 y 9 materias. Esto se denota: 6 ± 3
(media ± 1 DE).
Mientras más grande es el desvío estándar, mayor es la dispersión de los datos y la
muestra o población es más heterogénea con respecto a la variable en cuestión. Por el
contrario, al ser más pequeño el desvío estándar la muestra o población es más homogénea.
Nota: En la calculadora, cuando se trabaja con una muestra, se usa σn‐1 para calcular el
desvío estándar, que no es otra cosa que la raíz cuadrada de la varianza. Y se usa σn al
trabajar con la población.
Rango
Es la diferencia entre el menor y el mayor valor de una serie de datos.
El rango sólo tiene en cuenta los valores extremos, por lo que no influyen en él los demás
elementos de la distribución. Es poco estable estadísticamente y por ello muy poco
representativo de la verdadera distribución de los datos.
Rango Intercuartílico
Es la diferencia entre el tercer y el primer cuartil, longitud del intervalo que contiene al 50
% central de los datos.
RI = Q3 – Q1
El cuartil 1 (Q1) es el valor de la variable que tiene por debajo el 25 % de los datos, y por
38
Estadística Descriptiva
Es una medida de la homogeneidad o variabilidad de los datos. Nos permite comparar
distintas series de datos o variables, independientemente de la medida de cada una, ya que
es adimensional. Generalmente se expresa en porcentaje y se simboliza “CV”.
El CV permite, por ejemplo, comparar la homogeneidad del peso de niños recién nacidos
en dos poblaciones diferentes, o comparar la variabilidad en los datos sobre dos variables
distintas en la misma población (ej. la talla y el peso al nacer en niños de Córdoba).
Se calcula realizando un cociente entre el desvío estándar (S) y la media de los datos ( X ),
multiplicado por cien. La ecuación correspondiente es entonces:
S
CV = ⋅ 100 .
X
Así, el CV de la variable edad de estudiantes, cuya media y desvío estándar son 20 y 1
años respectivamente, sería:
1
CV = ⋅ 100 = 5
20
Es importante recordar que a medida que el coeficiente de variación disminuye se
observa una mayor homogeneidad de los datos.
Ejemplo:
En una población determinada se quiere conocer quiénes tienen peso más homogéneo,
los niños al nacer o al cumplir un año de vida.
Para ello se extrae una muestra de 10 niños recién nacidos y 10 niños con 1 año de edad,
obteniéndose los siguientes resultados:
39
Estadística Descriptiva
Peso de niños recién nacidos y de 1 año de edad,en una población X, en el año 2004
Niños recién nacidos Niños de 1 año
X 3,200 Kg 11 Kg
S 0,800 kg 2 Kg
S
CV = ⋅ 100
X
0,800 2
CVRN = ⋅100 = 25% CV1 A = ⋅100 = 18,2%
3,200 11
Si bien el desvío estándar de los niños al año de edad es mayor que al nacer, su
coeficiente de variación es menor, lo cual indica que el peso es más homogéneo en este
grupo que en el de recién nacidos.
5.1.2.2 Cálculos a partir de datos en series agrupadas
Datos agrupados en intervalos (Variables cuantitativas continuas y discretas)
Varianza
A partir de datos agrupados en intervalos, el cálculo de la varianza debe efectuarse
empleando la siguiente ecuación:
∑ n (m )
k
2
i i −X
S2 = i =1
,
n −1
siendo:
k= cantidad de intervalos
mi= centro del intervalo o marca de clase
ni= frecuencia absoluta de cada intervalo
X = la media muestral
n= total de observaciones
40
Estadística Descriptiva
Desvío estándar
Como en el caso de los datos en serie simple, el desvío estándar se calcula como la raíz
cuadrada de la varianza:
∑ n (m )
k
2
i i −X
S= i =1
.
n −1
Rango
Es la diferencia entre el extremo superior del último intervalo y el extremo inferior del
primer intervalo.
Datos agrupados sin intervalos (Variables cuantitativas discretas)
Varianza
Si los datos a partir de los cuales se desea calcular la varianza provienen de una variable
cuantitativa discreta cuyas frecuencias se disponen en tablas (es decir, no se cuenta con los
datos en serie simple), la fórmula a aplicar sería:
∑ n (x )
n
2
i i −X
S2 = i =1
,
n −1
donde:
xi= el valor de la observación i para la variable X
ni= frecuencia absoluta de cada intervalo
X = media muestral
n= total de observaciones
Desvío estándar
También en este caso el desvío estándar se calcula como la raíz cuadrada de la varianza,
entonces:
41
Estadística Descriptiva
∑ n (x )
n
2
i i −X
S= i =1
.
n −1
Comparación de los Estadísticos de Dispersión
El rango brinda una rápida visualización de la variabilidad de la muestra, aunque solo
utiliza los valores extremos de la misma. Por su parte la varianza utiliza toda la información
de la muestra pero la unidad de medida está elevada al cuadrado, siendo el desvío estándar
el cual conserva la unidad de medida de los datos. Sin embargo, si el interés es comparar la
variabilidad de dos o más muestras, el desvío estándar no es aconsejable pues su valor está
en la magnitud de los datos; en ese caso el coeficiente de variación es el apropiado.
5.2 Variables categóricas
Moda
En el caso de las variables categóricas solo es aplicable la Moda como medida de posición.
La misma corresponde a la categoría de la variable que registra la mayor frecuencia.
Ejemplo:
Distribución de frecuencias del tipo de deporte que practican
los socios de un determinado club
Deporte ni fi
Básquet 59 0,32
Natación 39 0,21
Fútbol 42 0,23
Jockey 32 0,17
Tenis 14 0,07
Total 186 1
Moda: Básquet
El deporte que más se practica en dicho club es el básquet.
42
Estadística Descriptiva
6. Diagramas de caja (Box plot)
Este tipo de gráficos se utiliza para presentar los aspectos más relevantes de una
distribución de frecuencias, en forma sintética.
Para construir los mismos se necesitan realizar los cálculos de algunas medidas resumen
como el valor mínimo, máximo, mediana, cuartil 1 y cuartil 3.
Su representación se muestra en la Figura 16.
127
112
Peso
97
81
66
Figura 16: Diagrama de caja.
En el gráfico, la mediana está representada por una línea dentro de la caja. Las líneas
horizontales que encierran a esta corresponden a los valores de los cuartiles 1 y 3. Las dos
líneas que se encuentran fuera de la caja se llaman patillas y se extienden desde el valor
mínimo al máximo del conjunto de datos.
Este tipo de gráficos nos informa rápidamente la simetría de los datos, al comparar la
ubicación de la mediana en relación a los cuartiles, o comparando la longitud de las patillas.
Ejercicios de aplicación: 2.11 a 2.22
43
Estadística Descriptiva
EJERCICIOS DE APLICACIÓN 2.1 A 2.22
EJERCICIO 2.1
Un centro especializado en osteoporosis desea conocer los valores sanguíneos de calcio
(Ca) en mujeres entre 45 y 55 años de edad de la ciudad de Córdoba en el año 2010.
i. Definir la población en estudio.
ii. Identificar la unidad de observación.
iii. Definir la variable en estudio.
iv. Establecer a qué tipo de variable corresponde.
EJERCICIO 2.2
A. Para cada uno de los siguientes ejemplos indicar la Unidad Observacional o
Experimental y definir Muestra y Población.
i. Para determinar el peso seco de una serie de productos enlatados de la empresa XX,
en el mes de enero del 2003, se seleccionaron aleatoriamente 16 productos y se
midió el peso de los mismos.
ii. Para realizar un estudio acerca de la presencia de ciertos parásitos en niños de 0 a 13
años de edad de la escuela E. F. Olmos, en el año 1999, se realizó un análisis
coproparasitológico a 36 niños, aplicándoles cierta técnica de detección de
parásitos y registrando la presencia o ausencia de los mismos.
iii. A fin de estimar el número de controles odontológicos por año en niños de edad
escolar en la ciudad de Bell Ville en el año 2004, se escogió una muestra de 20
niños y se contaron dichos controles según datos registrados en la historia clínica.
B. En las situaciones anteriores determinar y clasificar las variables en estudio.
EJERCICIO 2.3
Clasificar las siguientes variables:
i. Cantidad de raciones servidas al día en un comedor escolar.
ii. Incremento en gramos del peso de lactantes alimentados al pecho.
44
Estadística Descriptiva
iii. Ingresos mensuales en pesos de la persona encargada de los gastos del hogar.
iv. Procedencia de los alumnos de una facultad.
v. Cantidad de vacunas colocadas al año.
vi. Cantidad de calorías consumidas al día.
vii. Cantidad de horas destinadas a la realización de actividad física por semana.
viii. Cantidad de biberones dados por día en una maternidad.
ix. Peso de adolescentes.
x. Niveles séricos de hierro en mujeres embarazadas.
xi. Promedio de notas de exámenes rendidos en un año.
xii. Estado civil de los ingresantes a una facultad.
xiii. Nivel de instrucción materno.
xiv. Tipo de medio de transporte usado.
xv. Grado de dificultad de un examen.
EJERCICIO 2.4
La Secretaría de Deportes de la provincia de Salta deseaba conocer el rendimiento
deportivo de los jugadores de primera división de fútbol, para lo que decidió realizar una
investigación. Se los evaluó antropométricamente (peso, talla, pliegues cutáneos) y
deportivamente (test de saltabilidad, resistencia, velocidad, coordinación).
Las variables deportivas estudiadas se operacionalizaron como sigue:
Saltabilidad: centímetros alcanzados
Coordinación: Adecuada‐ inadecuada
Resistencia: Baja (hasta 2000 metros en el tiempo establecido), Moderada (desde 2000
a5000metros), Alta (más de 5000 metros)
Velocidad: poco veloz ‐ medianamente veloz ‐ muy veloz
i. Indicar de qué tipo de variables se tratan.
EJERCICIO 2.5
Conociendo los siguientes pesos (en gramos) de manzanas dispuestas para la venta en
distintos centros comerciales:
45
Estadística Descriptiva
100; 124; 130; 80; 85; 85; 90; 199; 220; 250; 128; 135; 150; 220; 245; 260; 124; 136; 210;
240; 260.
i) Elaborar una tabla de distribución de frecuencias agrupando los datos en 3 intervalos.
ii) Elaborar otra tabla agrupando pero presentando los datos en 4 intervalos.
EJERCICIO 2.6
Teniendo en cuenta los resultados que se muestran en la siguiente tabla:
Peso de los niños que asisten al Centro de Salud X, en el mes de octubre de 1998.
Los nutricionistas que participaron en las Jornadas Nacionales sobre Alimentación y Salud
en la provincia de Mendoza en el año 2011 fueron clasificados según su lugar de
procedencia, obteniéndose los resultados que se muestran en la tabla siguiente:
Distribución de frecuencias de la procedencia de los Nutricionistas que participaron en las
46
Estadística Descriptiva
Jornadas Nacionales sobre Alimentación y Salud en la provincia de Mendoza en el año
2002.
Provincia ni
Santa Fe 130
Buenos Aires 800
Corrientes 8
Chubut 8
Santa Cruz 1
Entre Ríos 102
La Pampa 50
Mendoza 9
San Luis 13
Santiago del Estero 11
Río Negro 5
San Juan 8
Tucumán 3
Córdoba 170
Chaco 4
Total 1322
i. ¿Cuál es la unidad experimental u observacional en este estudio?
ii. ¿Los datos de la tabla corresponden a una población o a una muestra?
iii. ¿Cuál es la variable estudiada?
iv. Graficar la información presentada en la tabla de frecuencias.
EJERCICIO 2.8
A partir de la siguiente tabla:
Cantidad de controles por año a embarazadas en un
Centro de Salud de Córdoba, Marzo 2012
Cantidad de Controles ni
0 0
1 2
2 4
3 8
4 4
47
Estadística Descriptiva
5 2
Total 20
i. Completar la tabla de distribución de frecuencias.
ii. Realizar un gráfico que represente tal distribución de manera conveniente.
EJERCICIO 2.9
En base a los siguientes gráficos:
i. ¿Cuál es la tendencia de la disponibilidad de calcio y qué diferencia tiene con la de los
otros nutrientes?
ii. Si tuviera que comparar la cantidad de mg disponibles de cada nutriente en el
periodo 93–95, ¿cuál de los dos gráficos utilizaría?
iii. ¿Qué gráfico elegiría si tuviera que comparar miligramos disponibles de cada uno de
los nutrientes en los distintos periodos?
Figura 1. Distribución de frecuencias de la disponibilidad de calcio, vitamina C y colesterol
en Argentina según período en estudio.
1000
900
800
700
600
mg
500
400 Periodo Años
300
200 I [63‐65]
100
0
II [78‐80]
I II III
Periodos III [93‐95]
Calcio Vitamina C Colesterol
48
Estadística Descriptiva
Figura 2. Distribución de frecuencias de la disponibilidad de calcio, vitamina C y colesterol
en Argentina según período en estudio.
Periodo Años
I [63‐65]
II [78‐80]
III [93‐95]
EJERCICIO 2.10
Se estudió durante 5 años consecutivos la cantidad de alumnos inscriptos en la
facultad “M” de la ciudad de Córdoba. Se obtuvieron los siguientes datos:
Distribución de frecuencias de la cantidad de alumnos inscriptos en la facultad “M” de
Córdoba, periodo 1996‐2000.
Año ni
1996 200
1997 262
1998 290
1999 340
2000 384
Total 1476
i. Definir la población en estudio.
ii. Definir la variable estudiada.
iii. Completar la tabla de distribución de frecuencias.
49
Estadística Descriptiva
iv. Representar los datos mediante un gráfico.
EJERCICIO 2.11
En una institución de salud se realizaron análisis de laboratorio a 57 mujeres de 45 a 55
años, obteniéndose los siguientes valores de calcio en sangre, en mg/100 ml:
Distribución de frecuencias de los valores de Calcio sanguíneo en mujeres de 45 a 55 años.
Calcio (mg/100 ml) ni
(6,2 ; 7,5] 9
(7,5 ; 8,8] 25
(8,8 ; 10,1] 13
(10,1 ; 11,4] 8
(11,4 ; 12,7] 2
Total 57
i. Completar la tabla de distribución de frecuencias.
ii. Representar los datos gráficamente.
iii. Considerando que los valores normales de calcio sanguíneo son de 8,9 a 10,1 mg/100
ml, ¿qué porcentaje de mujeres tienen: a) valores superiores a lo normal y b)
inferiores a lo normal?
iv. Calcular el cuantil 0,5 y 0,9. ¿Cuál es la interpretación de dichos valores?
v. Calcular la media y desvío estándar.
vi. Interpretar los resultados.
EJERCICIO 2.12
Los siguientes datos representan las edades de las personas que asistieron a la guardia
nocturna de un centro asistencial determinado de la ciudad de Córdoba.
50
Estadística Descriptiva
i. Representar estos datos en una tabla de distribución de frecuencias utilizando una
amplitud de 10 años.
ii. Presentar los datos en un histograma.
iii. Graficar un polígono de frecuencias relativas.
iv. Graficar un polígono de frecuencias relativas acumuladas.
v. Calcular la media e interpretar.
vi. Calcular el desvío estándar e interpretar.
EJERCICIO 2.13
Se obtuvieron los siguientes datos en cuanto a la cantidad de exámenes rendidos en
un año en un total de 50 alumnos, seleccionados aleatoriamente del total de estudiantes
que concurren a una facultad determinada. Dados los siguientes datos recabados:
6 7 7 10 2 3 4 4 5 9
1 2 8 8 7 6 6 5 6 6
7 5 6 3 6 7 7 6 5 9
9 7 6 8 8 0 5 3 4 4
6 6 7 7 5 8 6 6 5 2
i. Construir la tabla de distribución de frecuencias para la variable "cantidad de
exámenes rendidos por año" en esta muestra.
ii. Realizar una representación gráfica adecuada de la distribución de los datos.
iii. Calcular las medidas resumen adecuadas e interpretar los resultados obtenidos.
EJERCICIO 2.14
En un estudio sobre consumo de sal en un grupo de personas con antecedentes de
hipertensión se obtuvo una media de 12 g/día, con una desviación estándar de 4 g/día.
i. ¿Cómo se interpretan estos datos?
51
Estadística Descriptiva
EJERCICIO 2.15
Los siguientes datos corresponden a la disminución de peso por semana de un grupo
de pacientes sometidos a una dieta experimental hipocalórica.
600 620 400 560 320 300 660 525
430 645 300 425 760 920 830 715
220 610 630 515 430 720 685 940
i. Agrupar los datos en una tabla de distribución de frecuencias con cinco intervalos.
ii. Calcular la media aritmética de los datos originales y de los datos agrupados e
interpretar.
iii. Calcular la mediana de los datos originales y de los datos agrupados e interpretar.
iv. Calcular el desvío estándar de los datos originales y de los datos agrupados e
interpretar.
EJERCICIO 2.16
Se estudiaron los centímetros incrementados en talla en un año en un grupo de niños que
se atendían en un Centro de Salud de la ciudad de Alta Gracia en el año 2004.
Distribución de frecuencias del incremento de talla en los niños que se atendieron en el
centro de salud Xen la ciudad de Alta Gracia, Octubre del 2004.
Incremento (cm) ni
(3 , 5] 4
(5 , 7] 7
(7 , 9] 16
(9 , 11] 6
(11 , 13] 3
Total 36
i. ¿Qué porcentaje de niños creció más de 9 cm en un año?
ii. ¿Qué porcentaje de niños creció hasta 7 cm en un año?
52
Estadística Descriptiva
iii. Calcular el cuantil 0,5 de la distribución.
iv. ¿Qué significa el cuantil obtenido en el punto anterior?
EJERCICIO 2.17
En un centro comercial se realiza periódicamente el control de la mercadería en bodega.
En uno de esos controles, se encontró que en 15 cajas de latas de leche la cantidad de latas
abolladas que debían desecharse fueron:
0 2 4 1 3 2 2 1 6 5 4 4 0 1 3
i. Construir la tabla de distribución de frecuencias para la variable "cantidad de latas
abolladas por caja".
ii. Obtener la media y varianza muestral.
iii. Interpretar los resultados obtenidos.
EJERCICIO 2.18
Los datos de la tabla corresponden a dos muestras de salarios (en $) de los docentes con
diversos grados de dedicación, de dos instituciones universitarias.
i. Calcular para cada muestra los estadísticos de posición y compararlos.
ii. Según lo obtenido en i) ¿reflejan los estadísticos de posición la situación salarial de
los docentes de ambas universidades? Justificar.
iii. Calcular los estadísticos que crea conveniente para reflejar lo observado en ii).
iv. Representar gráficamente y discutir la relación entre los valores de los estadísticos y
la forma de los gráficos.
Universidad A Universidad B
2000 3000
2000 3000
2000 3000
3000 3000
3000 3000
53
Estadística Descriptiva
3000 3000
3000 3000
9000 4000
EJERCICIO 2.19
A. Dar un ejemplo de:
i. una muestra de tamaño “n”, con media 5 y dispersión nula;
ii. dos muestras con igual media y distinta varianza;
iii. una muestra de 7 datos de manera que el estadístico más representativo sea la
moda.
B. Si en una granja hay pollos cuyos pesos varían entre 2,8 kg y 3,8 kg:
i. ¿Puede el peso medio tomar los valores 2,1 kg o 4,2 kg? ¿Por qué?
ii. ¿Es posible que la varianza sea nula?
EJERCICIO 2.20
En cada uno de los siguientes ejemplos decidir si es posible que los estadísticos tomen los
valores que se informan:
i. En 5 vacunos se encontró que el mínimo porcentaje de grasa en la leche fue del 4%,
el promedio fue de 14% y el rango de 14%.
ii. Para otro grupo de 5 vacunos, se encontró el mismo valor mínimo de porcentaje de
grasa, pero en cambio el rango fue de 10% y el valor más frecuente fue el 14%.
iii. En una quinta se seleccionaron 8 repollos y se contó el número de larvas de cierto
insecto que contenían, además de determinar su peso. Para la primera variable el
rango fue de 6 larvas, mientras que en la segunda variable el rango fue de 0,5 kg.
Ambas muestras estadísticas carecieron de moda.
iv. En una muestra de huevos de gallinas ponedoras blancas el rango de pesos fue de 9
g, con un valor más frecuente de peso de 45 g. El huevo más pesado presentó un
peso de 45 g.
v. Siete gallinas ponedoras, de las mencionadas en el punto anterior, fueron
seleccionadas para ser pesadas. Los valores de peso encontrados oscilaron entre
54
Estadística Descriptiva
1,4 kg y 2,4 kg. El ave más liviana tuvo un peso de 1,4 kg.
EJERCICIO 2.21
En un Laboratorio Bromatológico se seleccionaron un total de 25 muestras de 100 gramos
de quesos Sbrinz, determinándose el contenido de vitamina B6 (en mcg) y obteniéndose la
siguiente muestra:
75 82 87 96 96
76 84 89 100 98
75 85 89 98 97
79 92 94 98 96
91 94 95 97 99
Además se construyó el histograma para las frecuencias relativas de los contenidos de
vitamina B6, como se presenta a continuación:
Distribución de frecuencias relativas del contenido de vitamina B6 en muestras de queso Sbrinz
45
40
35
30
25
%
20
15
10
5
0
75, 80 80, 85 85, 90 90, 95 95, 100
B6 (mcg)
i. Calcular los estadísticos que crea conveniente para reflejar el comportamiento de los
datos mostrado en el histograma.
ii. A continuación se muestra un histograma, el cual grafica los contenidos de vitamina
B6 (en mcg) para 25 muestras de Queso Fundido. ¿Qué diferencias substanciales
encuentra entre este nuevo gráfico y el histograma para las muestras de queso
Sbrinz? Intuitivamente ¿cómo se reflejaría este cambio del comportamiento de los
contenidos de vitamina B6 en los estadísticos de posición y dispersión?
55
Estadística Descriptiva
Distribución de frecuencias relativas del contenido de vitamina B6 en muestras de Queso Fundido.
45
40
35
30
% 25
20
15
10
5
0
75, 80 80, 85 85, 90 90, 95 95, 100
B6 (mcg)
EJERCICIO 2.22
Dados los siguientes diagramas de caja indique si los datos son simétricos o no.
i)
100
90
Cintura
80
70
60
56
Estadística Descriptiva
ii)
18
14
Barra
10
57
Estadística Descriptiva
RESOLUCIONES EJERCICIOS 2.1 A 2.22
EJERCICIO 2.1
i. Todas las mujeres de la ciudad de Córdoba entre 45 y 55 años de edad, en el año
2000.
ii. Unidad Experimental u Observacional: Una mujer de la ciudad de Córdoba entre 45 y
55 años de edad, en el año 2000.
iii. Niveles de calcio en sangre.
iv. Cuantitativa continua.
EJERCICIO 2.2
A.
i. Unidad Experimental u Observacional: un producto enlatado de la empresa XX, en
el mes de enero del 2003.
Muestra: 16 productos enlatados de la empresa XX, en el mes de enero del 2003.
Población: Todos los productos enlatados de la empresa XX, en el mes de enero del
2003.
ii. Unidad Experimental u Observacional: un niño entre 0 y 13 años de edad de la
escuela E. F. Olmos, en el año 1999.
Muestra: 36 niños entre 0 y 13 años de edad de la escuela E. F. Olmos, en el año
1999.
Población: Todos los niños entre 0 y 13 años de edad de la escuela E. F. Olmos, en el
año 1999.
iii. Unidad Experimental u Observacional: un niño en edad escolar de la ciudad de Bell
Ville en el año 2004.
Muestra: 20 niños en edad escolar de la ciudad de Bell Ville en el año 2004.
Población: Todos los niños en edad escolar de la ciudad de Bell Ville en el año 2004.
58
Estadística Descriptiva
B.
i. Variable: Peso seco de los productos enlatados.
Clasificación: Cuantitativa continua.
ii. Variable: Presencia de ciertos parásitos en niños entre 0 y 13 años de edad.
Clasificación: Categórica nominal.
iii. Variable: Cantidad de controles odontológicos por año.
Clasificación: Cuantitativa discreta.
EJERCICIO 2.3
i. Discreta.
ii. Continua.
iii. Continua.
iv. Categórica, nominal.
v. Discreta.
vi. Continua.
vii. Continua.
viii. Discreta.
ix. Continua.
x. Continua.
xi. Continua.
xii. Categórica, nominal.
xiii. Categórica, ordinal.
xiv. Categórica, nominal.
xv. Categórica, ordinal.
EJERCICIO 2.4
a) Saltabilidad: cuantitativa continua.
b) Coordinación: categórica nominal.
c) Resistencia: categórica ordinal
59
Estadística Descriptiva
d) Velocidad: categórica ordinal.
EJERCICIO 2.5
Ordeno los datos:
80, 85, 85, 90, 100, 124, 124, 128, 130, 135, 136, 150, 199, 210, 220, 220, 240, 245, 250,
260, 260.
Diferencia entre mayor y menor valor: 260 – 80 = 180
Divido por el número de intervalos deseado: 180 / 3 = 60 y 180 / 4 = 45
i)
Peso (gramos) ni
[80 , 140] 11
(140 , 200] 2
(200 , 260] 8
Total 21
ii)
Peso (gramos) ni
[80 , 125] 7
(125 , 170] 5
(170 , 215] 2
(215 , 260] 7
Total 21
EJERCICIO 2.6
i. El peso de los niños entrevistados oscila entre 10 Kg y 69 Kg.
ii. El 57 % de los entrevistados tiene menos de 40 Kg.
iii. Los entrevistados con más de 30 Kg son 65 y representan el 65 % del total.
iv. El intervalo de peso más frecuente es el que abarca desde los 20 a29 Kg.
60
Estadística Descriptiva
EJERCICIO 2.7
i. Unidad Experimental u Observacional: un nutricionista que haya participado en las
Jornadas Nacionales sobre Alimentación y Salud en la provincia de Mendoza en el
año 2002.
ii. Los datos corresponden a una población.
iii. La variable estudiada es: lugar de procedencia de los nutricionistas.
iv.
900
Nº de Nutricionistas
800
700
600
500
400
300
200
100
0
Lugar de Procedencia
61
Estadística Descriptiva
EJERCICIO 2.8
i.
Distribución de frecuencias de la cantidad de controles por año a Embarazadas en un
Centro de Salud de Córdoba en Marzo del 2006
ii. Gráficos:
9
.
8
7
Cantidad de embarazadas
6
5
4
3
2
1
0
1 2 3 4 5
Cantidad de controles
62
Estadística Descriptiva
Distribución de frecuencias de la cantidad de controles por año a Embarazadas en un
Centro de Salud de Córdoba en Marzo del 2006
10% 10%
1
2 20% 20%
3
4
5 40%
EJERCICIO 2.9
iii. Todos los alumnos inscriptos en la facultad “M” de la ciudad de Córdoba durante los
años 1996 a 2000.
iv. Cantidad de alumnos. Cuantitativa discreta.
v. Tabla de distribución de frecuencias.
63
Estadística Descriptiva
Distribución de frecuencias de la cantidad de alumnos inscriptos en la facultad “M” de la
ciudad de Córdoba, entre los años 1996 y 2000
350
300
250
200
ni
150
100
50
0
1996 1997 1998 1999 2000 Años
64
Estadística Descriptiva
b)
ni
200
150
100
50
0
1996 1997 1998 1999 2000
Años
EJERCICIO 2.11
i)
Distribución de frecuencias de los valores de Calcio sanguíneo en mujeres de 45 a 55 años
Calcio sanguíneo
(mg %) ni Ni fi % Fi %
(6,2 ; 7,5] 9 9 15,8 15,8
(7,5 ; 8,8] 25 34 43,9 59,7
(8,8 ; 10,1] 13 47 22,8 82,5
(10,1 ; 11,4] 8 55 14,0 96,5
(11,4 ; 12,7] 2 57 3,5 100
Total 57 ‐ 100 ‐
65
Estadística Descriptiva
ii)
30
25
N° de observaciones
20
15
10
0
(6.2 , 7.5] (7.5 , 8.8] (8.8 , 10,1] (10.1 , 11.4] (11.4 , 12.7]
mg %
iii)
a)Tienen valores de calcio superiores a lo normal el 17,5% de las mujeres.
b) El 59,7% de las mujeres tiene valores inferiores a lo normal.
iv) Pueden ocurrir dos situaciones: calcular el cuantil 0,5 o el percentil 50, que es lo mismo.
En el primer caso:
(n ⋅ N ) − N i −1
C 0,5 = Li + a ⋅ .
ni
En el segundo caso:
n.N
− N i −1
P50 = Li + a. 100 ,
ni
donde:
n.N
Li = límite inferior del intervalo que contiene a (n.N ) ó
100
n = cuantil o percentil que quiero investigar (en este caso 0,5 o 50, respectivamente).
N = total de datos.
n.N
Ni‐1 = frecuencia acumulada anterior al intervalo que contiene a (n.N ) ó
100
66
Estadística Descriptiva
n.N
ni = frecuencia absoluta del intervalo que contiene a (n.N ) ó
100
a = amplitud del intervalo.
Entonces:
n ⋅ N 50 ⋅ 57
= = 28,5
100 100
Busco en la frecuencia acumulada en que intervalo está el dato 28,5. Está en el segundo
intervalo.
Li= 7,5
Ni‐1 = 9
ni = 25
a= 1,3
28,5 − 9
P50 = 7,5 + 1,3 ⋅
25
= 7,5 + 1,3 ⋅ 0,78
= 7,5 + 1,01
= 8,51
Interpretación: el 50% de las mujeres entre 45 y 55 años tienen valores sanguíneos de
Calcio de 8,51 mg % o inferiores y el otro 50% tienen valores superiores a 8,51mg %.
Cuantil 0,9
(n ⋅ N ) = 0,9 ⋅ 57 = 51,3
Busco en la frecuencia acumulada en qué intervalo se encuentra el dato 51,3. Está en el
cuarto intervalo.
Li= 10,1 a = 1,3
Ni‐1 = 47 ni= 8
67
Estadística Descriptiva
51,3 − 47
C 0,9 = 10,1 + 1,3 ⋅
8
= 10,1 + 1,3 ⋅ 0,54
= 10,1 + 0,7
= 10,8
Interpretación: El 90% de las mujeres tienen valores sanguíneos de calcio de 10,8 mg % o
inferiores y el 10% restante tienen valores de 10,8 mg % o superiores.
Nota: el Percentil 90 (P90); coincide con el Cuantil 0,9(C0,9)
v) El cálculo de la Media ( X ) es:
∑m i ⋅ ni
X = ,
n
siendo:
∑ = sumatoria
mi = centro del intervalo o marca de clase
ni = frecuencia absoluta de cada intervalo
n= total de observaciones
Calcio sanguíneo
(mg%) ni mi nimi (mi‐ X ) (mi‐ X )2 ni (mi‐ X )2
(6,2 ; 7,5] 9 6,85 61,65 ‐ 1,89 3,57 32,13
(7,5 ; 8,8] 25 8,15 203,75 ‐ 0,59 0,35 8,75
(8,8 ;10,1] 13 9,45 122,85 0,71 0,5 6,5
(10,1 ;11,4] 8 10,75 86,0 2,01 4,04 32,32
(11,4 ;12,7] 2 12,05 24,1 3,31 10,96 21,92
Total 57 498,35 101,62
498 ,35
X = = 8,74 mg %
57
68
Estadística Descriptiva
El cálculo del Desvío Estándar (S) es:
∑ n (m )
2
i i −X
S=
n −1
101,2
S=
56
Personas que asistieron a la guardia nocturna de un centro asistencial determinado de la
ciudad de Córdoba.
i.
a = 10 años
74 ‐ 4 = 70/10 = 7 intervalos.
Distribución de frecuencias de la edad de las personas que asistieron a la guardia
nocturna de un centro asistencial determinado de la ciudad de Córdoba
Edad (años) ni Ni fi % Fi %
[4 ; 14] 4 4 11,8 11,8
(14 ; 24] 4 8 11,8 23,6
(24 ; 34] 6 14 17,6 41,2
(34 ; 44] 8 22 23,5 64,7
(44 ; 54] 5 27 14,7 79,4
(54 ; 64] 4 31 11,8 91,2
(64 ; 74] 3 34 8,8 100
Total 34 ‐ 100 ‐
69
Estadística Descriptiva
ii) Histograma
iii)Polígono de frecuencias relativas
25
Frecuencias relativas
20
15
10
0
(4 , 14] (14 , 24] (24 , 34] (34 , 44] (44 , 54] (54 , 64] (64 , 74]
Edad (años)
70
Estadística Descriptiva
iv) Polígono de frecuencias relativas acumuladas
90
80
70
60
50
40
30
20
10
0
(4 , 14] (14 , 24] (24 , 34] (34 , 44] (44 , 54] (54 , 64] (64 , 74]
Edad (años)
v) Medidas resumen
Edad (años) ni mi nimi (mi‐ X ) (mi‐ X )2 ni (mi‐ X )2
[4 ; 14] 4 9 36 ‐ 28,8 829,44 3317,76
(14 ; 24] 4 19 76 ‐18,8 353,44 1413,76
(24 ; 34] 6 29 174 ‐8,8 77,44 464,64
(34 ; 44] 8 39 312 1,2 1,44 11,52
(44 ; 54] 5 49 245 11,2 125,44 627,20
(54 ; 64] 4 59 236 21,2 449,44 1797,76
(64 ; 74] 3 69 207 31,2 973,44 2920,32
Total 34 1286 10552,96
∑ m ⋅n i i
X =
n
1286
X = = 37 ,8 años
34
vi)
∑ n (m )
2
i i −X
S=
n −1
71
Estadística Descriptiva
10552,96
=
33
= 319,79
= 17,88 ≅ 18 años
Interpretación: la edad promedio de las personas que fueron atendidas en la guardia
nocturna del centro asistencial fue de 38 años, con un desvío estándar de 18 años, lo que
quiere decir que la mayoría de las personas atendidas tenían entre 20 y 56 años.
EJERCICIO 2.13
Distribución de frecuencias de la cantidad de exámenes rendidos por alumno en un año,
en la facultad X.
72
Estadística Descriptiva
ii)
Frecuencia absoluta
10
8
6
4
2
0
Cantidad de exámenes
iii)
∑m i ⋅ ni
X =
n
285
X= = 5,7 ≅ 6 exámenes
50
∑ n (x )
2
i i −X
S=
n −1
226,5
S=
49
73
Estadística Descriptiva
EJERCICIO 2.14
i. El consumo promedio de sal de la población es de 12 gramos al día, siendo que la
mayoría consume entre 8 y 16 gramos al día de sal.
EJERCICIO 2.15
Disminución de peso por semana de un grupo de pacientes sometidos a una dieta
experimental hipocalórica
i. Construcción de tabla de frecuencias con 5 intervalos.
940 – 220 = 720/5 = 144 gramos
Distribución de frecuencias del peso disminuido (en gramos) por semana en pacientes
sometidos a dieta hipocalórica
Gramos
ni Ni fi (%) Fi (%)
disminuidos
[220 ; 364] 4 4 16,67 16,67
(364 ; 508] 4 8 16,67 33,34
(508 ; 652] 8 16 33,33 66,67
(652 ; 796] 5 21 20,83 87,5
(796 ;940] 3 24 12,5 100
Total 24 ‐ 100 ‐
i)
Media aritmética de los datos originales:
X =
∑x i
n
13760
X= = 573,3 gramos disminuidos por semana.
24
Los pacientes sometidos a dieta hipocalórica disminuyen en promedio 573,3 gramos por
semana.
74
Estadística Descriptiva
Gramos
disminuidos ni mi ni.mi (mi‐ X ) 2
(mi‐ X ) ni (mi‐ X )2
[220 ; 364] 4 292 1168 ‐ 282 79524 318096
(364 ; 508] 4 436 1744 ‐ 138 19044 76176
(508 ; 652] 8 580 4640 6 36 288
(652 ; 796] 5 724 3620 150 22500 112500
(796 ; 940] 3 868 2604 294 86436 259308
Total 24 13776 766368
Media aritmética de datos agrupados:
∑m i ⋅ ni
X =
n
13776
X = = 574 gramos
24
Los pacientes sometidos a dieta hipocalórica disminuyen en promedio 574 gramos por
semana.
iii) Mediana de los datos originales:
Ordenando los datos de menor a mayor, busco los dos datos centrales (dado que n es
par):
220, 300, 300, 320, 400, 425, 430, 430, 515, 525, 560, 600, 610, 620, 620, 645, 660, 685,
715, 720, 760, 830, 920, 940
600 + 610
Me = = 605 gramos
2
El 50% de los pacientes con dieta hipocalórica disminuye por semana 605 g o menos y el otro
50%, 605 g o más.
Mediana en datos agrupados:
n
− N i −1
Me = Li + a ⋅ 2
ni
12 − 8
Me = 508 + 144 ⋅
8
Me = 580
75
Estadística Descriptiva
El 50% de los pacientes con dieta hipocalórica disminuye por semana 580 g o menos y el otro
50%, 580 g o más.
iv) Desviación estándar de los datos originales:
∑ (x )
2
i −X
S=
n −1
S = 194,03 gramos
Los pacientes sometidos a dieta hipocalórica disminuyen en promedio 573,3 gramos por
semana, con una desviación estándar de 194,03 gramos; es decir que la mayoría de ellos
pierde entre 379,27 y 767,33 gramos por semana.
Desviación estándar de los datos agrupados:
∑ n (m ) 2
i i −X
S=
n −1
766368
S= = 182,53 gramos
24 − 1
Los pacientes sometidos a dieta hipocalórica disminuyen en promedio 574 gramos por
semana, con una desviación estándar de 182,53 gramos; es decir que la mayoría de ellos
pierde entre 391,47 y 756,53 gramos por semana.
EJERCICIO 2.16
i) El 25 %de los niños creció más de 9 cm en un año.
ii) El 30,5 %de niños creció hasta 7 cm en un año.
iii) El cuantil 0,5 de la distribución fue 7,88 cm ≅8 cm.
iv) Significa que el 50 % de los niños tuvo un incremento de 8 cm o menos y el otro 50 %
creció 8 cm o más en un año.
76
Estadística Descriptiva
EJERCICIO 2.17
i. Cantidad de latas de leche abolladas por caja. Tabla de distribución de
frecuencias y de cálculo.
Xi ni Ni fi % Fi % (Xi – X ) (Xi – X )2 ni (Xi – X )2
0 2 2 13,4 13,4 ‐2,53 6,4 12,8
1 3 5 20 33,4 ‐ 1,53 2,34 7,02
2 3 8 20 53,4 ‐ 0,53 0,28 0,84
3 2 10 13,4 66,8 0,47 0,22 0,44
4 3 13 20 86,8 1,47 2,16 6,48
5 1 14 6,6 93,4 2,47 6,1 6,1
6 1 15 6,6 100 3,47 12,04 12,04
Total 15 100 45,72
Xi ni Xi * ni
0 2 0
1 3 3
2 3 6
3 2 6
4 3 12
5 1 5
6 1 6
15 38
ii)
∑x i ⋅ ni
X =
n
38
X = = 2,53 ≅ 3 latas
15
∑ n (x )
2
i i −X
S2 =
n −1
45,72
S2 = = 3,26 latas2
14
S = S2
77
Estadística Descriptiva
iii) Interpretación: Se encontró un promedio de tres latas abolladas por caja, con un desvío
estándar de ± 2 latas, lo que significa que en la mayoría de las cajas entre 1 y 5 latas de leche
están abolladas y deben desecharse.
EJERCICIO 2.18
i. Estadísticos de Posición:
Establecimiento A: X = $3375 Mediana = $3000 Moda = $3000
Establecimiento B: X = $3125 Mediana = $3000 Moda = $3000
El promedio de salario en pesos de la universidad A es mayor que el de la universidad B,
mientras que la mediana y la moda son iguales en ambas instituciones.
ii) Los estadísticos de posición no reflejan la situación salarial de ambas universidades,
porque los salarios de la universidad A presentan valores muy extremos y la universidad B
valores más homogéneos, con lo que el mayor promedio de la universidad A podría deberse
solo a la presencia de un salario muy elevado (9000).
En el establecimiento B los estadísticos de posición son más representativos de la
situación salarial.
iii) Para reflejar lo observado en ii) se calculó:
Establecimiento A: S: $2326 Rango: $7000 Coef. Variación: 68,9%
Establecimiento B: S: $353,5 Rango: $1000 Coef. Variación: 11,3%
Al analizar las medidas de dispersión calculadas se puede observar que existe mayor
variación en los salarios de la universidad A.
78
Estadística Descriptiva
i) iv)
Los datos están más concentrados en el gráfico correspondiente a la universidad B,
mientras que están más dispersos en el de la universidad A.
EJERCICIO 2.19
A
i) Una muestra de tamaño “n”, con media 5 y dispersión nula.
Calificaciones de un examen de inglés en una escuela secundaria de la ciudad de Córdoba,
en el año 2006.
Muestra: 5 5 5 5 5 5 n = 6
79
Estadística Descriptiva
ii) Dos muestras con igual media y distinta varianza.
Calificaciones de un examen de matemática en una escuela secundaria de la ciudad de
Córdoba, en el año 2006.
Muestra A: 4 610253 X =5 S = 2,82
Muestra B:59831 4 X =5 S = 3,03
iii) Una muestra de 7 datos de manera que el estadístico más representativo sea la
moda.
Calificaciones de un examen de química en una escuela secundaria de la ciudad de
Córdoba, en el año 2006.
Muestra 3 3 4 10 1 2 9
B.
i) El peso promedio no puede tomar valores 2,1 Kg o 4,2 Kg, porque el peso medio debe
estarentre 2,8 y 3,8 Kg. Nunca puede estar fuera de esos valores ya que de esta
manera no correspondería a la muestra o población enunciada.
ii) Noes posible que la varianza sea nula, ya que para que la varianza sea nula debe existir
un solo valor en el peso de los pollos; y si este varía entre 2,8 y 3,8 significa que
existen al menos dos pesos diferentes.
EJERCICIO 2.20
Decidir si es posible que los estadísticos tomen los valores que se informan.
i. Puede ser posible que en 5 vacunos se encontró que el mínimo porcentaje de grasa
en la leche fue del 4%, el promedio fue de 14% y el rango de 14%.
Ej: 4; 18; 12;12; 12; 12
ii. Puede ser posible que para otro grupo de 5 vacunos en el punto anterior, se encontró
el mismo valor mínimo de porcentaje de grasa, pero en cambio el rango fue de 10% y
el valor más frecuente fue el 14%.
80
Estadística Descriptiva
Ej: 4; 14; 14; 14; 10
iii. No es posible que ambas muestras estadísticas carecieron de moda, ya que el rango
para el contenido de larvas es 6, y el número de repollos es 8, es decir que si o si se
debe repetir algún valor del contenido de larvas en los repollos, existiendo así moda
para ella, no pasando lo mismo en el peso, ya que es una variable de tipo cuantitativa
continua y puede tomar infinitos valores en un intervalo, en este caso el rango.
iv. Puede ser posible que en una muestra de huevos de ponedoras blancas el rango de pesos
sea de 9 g, el valor más frecuente de peso sea 45 g y el huevo más pesado presente un peso
de 45 g.
Ej: 45; 36; 45
v.Puede ser posible que si se seleccionan siete ponedoras para ser pesadas, los valores de
peso encontrados oscilen entre Ej: 1,4; 2,4; 1,4; 2,3; 1,4; 2; 1,1
EJERCICIO 2.21
i) Moda: 96 y 98 mcg es bimodal.
Mediana: 94 mcg.
Rango: 25 mcg.
Desvío estándar: 8,01 mcg.
Coef. de Variación: 8,85%
Debido a que la distribución no es simétrica (los datos están concentrados a la derecha),
creemos conveniente calcular mediana y medidas de dispersión.
ii) El queso Fundido presenta una distribución más simétrica en cuanto al contenido de
vitamina B6, la mayoría de los datos se ubican en torno al intervalo central,
registrándose baja frecuencia en los valores extremos. En cambio, en el histograma
correspondiente al queso Sbrinz los datos se concentran en los valores extremos,
principalmente en los intervalos más altos, lo que indica mayor asimetría de la
muestra.
81
Estadística Descriptiva
Es posible que la media del contenido de Vit B6 del queso Sbrinz sea mayor que la del
queso Fundido debido a la alta frecuencia de muestras con un valor muy elevado de Vit B6.
EJERCICIO 2.22
i) Es asimétrico, porque al visualizar la mediana en relación a los cuartiles no está
centrada y además la longitud de las patillas es diferente.
ii) En este caso podemos decir que prácticamente los datos son simétricos, ya que se
visualiza que las patillas tienen similar longitud y la mediana está en el centro de la
caja.
82
CAPÍTULO 3: VARIABLES ALEATORIAS
83
84
Variables Aleatorias
Probabilidad
Para introducir el concepto de probabilidad, es necesario manejar conocimiento previo
acerca de experimentos o fenómenos de tipo determinístico y experimentos o fenómenos
de tipo aleatorio.
Un experimento es determinístico cuando el resultado del mismo es perfectamente
previsible, por ejemplo: todos los días después de la noche, amanecerá. En cambio, un
experimento es aleatorio cuando se ignora de antemano cuál puede ser el resultado, siendo
no previsible, como por ejemplo, si se selecciona una ficha aleatoriamente del total de
alumnos de primer año, no es posible saber cuál será el nombre de la persona que saldrá.
La probabilidad es un concepto asociado a los experimentos o fenómenos aleatorios..
Objetivos de la probabilidad
Concepto de probabilidad
Entonces:
N °de casos favorables
P ( A) = ,
N °de casos posibles
donde casos favorables son aquellos relacionados con el evento A de interés.
• La definición frecuencial expresa que si se repite un experimento aleatorio muchas
85
Variables Aleatorias
veces, la probabilidad de un evento en particular puede asimilarse a la frecuencia
relativa.
• Desde el enfoque axiomático se establece que la probabilidad de un evento A de un
experimento es un valor numérico P(A) que satisface los siguientes tres axiomas:
1. Si A es un evento contenido en un espacio muestral, la P(A) ≥ 0 para todo A.
2. Si W representa al conjunto de todos los resultados posibles del experimento
aleatorio, la P(W) = 1.
3. Si A1, A2 ,…, Ak son eventos mutuamente excluyentes,
P(A1U A2 ...U Ak) = P(A1) + P( A2) +…..+P(Ak).
Nota: en esta asignatura se trabajará, principalmente, con la definición clásica..
Definiciones relacionadas con probabilidad
Los siguientes son conceptos claves para comprender el cálculo de probabilidad.
Espacio muestral: es el conjunto de todos los resultados posibles de un experimento u
observación. Se denota con la letra griega Ω (omega).
Punto muestral: es cada uno de los elementos del conjunto Ω o espacio muestral. Se
representa con la letra ω.
Evento: es cualquier subconjunto del espacio muestral. Se denotan con letras, por
ejemplo A, B, C, etc.
Si A y B son dos eventos de Ω, la unión de ambos eventos forma un nuevo conjunto que
contiene tanto los puntos muestrales de A como los de B. Esta unión se denota A ∪ B. Por
otro lado, la intersección de estos eventos forma un nuevo conjunto que contiene a los
puntos muestrales que pertenecen a A y que también pertenecen a B. Esta intersección se
denota A ∩ B. Luego, se satisface que:
A ∪ B = A + B – A ∩ B.
Eventos mutuamente excluyentes: son aquellos que no pueden presentarse
conjuntamente, en otras palabras, son aquellos que no contienen elementos en común (la
intersección de ambos eventos es un conjunto vacío) (A ∩ B = Ø).
Eventos no mutuamente excluyentes: son aquellos que poseen elementos en común.
86
Variables Aleatorias
Ejemplo:
Supongamos dos estudiantes y se desea conocer si terminan o no de cursar cada uno su
carrera. Denotamos con E1 al primer estudiante yE2 al segundo, con (+) si terminó de cursar
y (‐) si no terminó de cursar. Para listar los elementos del espacio muestral construimos el
diagrama de árbol que representa a los puntos muestrales (Figura 1), esto es:
+ ⇒ ++
+
‐ ⇒ + ‐ o,
+ ⇒ ‐ +
‐
‐ ⇒ ‐ ‐
Figura 1. Diagrama de árbol para determinar el espacio muestral de un experimento de dos
elementos y dos posibles resultados.
Así cuatro resultados son posibles para ese experimento: (++), (+ ‐), (‐ +) y (‐ ‐). Es decir
que el espacio muestral tiene 4 elementos. puede interesar el evento A que describe “ambos
estudiantes estén en condición de recibirse”, esto es A = (++), cuya probabilidad es de
P(A)=¼=0,25. Otro evento podría ser B, representando a “al menos un estudiante terminó
de cursar”, o sea, B={(‐ +), (++), (+ ‐)}, cuya probabilidad es P(B)= ¾=0,75.
Es útil e intuitivo para calcular el espacio muestral usar la siguiente técnica: si por
ejemplo, el experimento se basa en el lanzamiento de una moneda, el espacio muestral
tiene dos elementos, cara ( c ) y seca ( s ),o sea, Ω = {c , s}. Si se basa en el lanzamiento
simultáneo de dos monedas, el espacio muestral tiene 4 elementos, esto es
Ω = { (c , c) , (c , s) , (s , c) , (s , s) }.
Así, por ejemplo, si se lanzan tres monedas, el espacio muestral es
Ω = { (c , c , c) , (c , c , s) , (c , s , c) , (c , s , s) , (s , c , c) , (s , c , s) , (s , s , c) , (s , s , s)},
y tiene así 8 elementos. Generalizando, si se lanzaran n monedas (con dos posibles
resultados), se tendría 2n elementos.
87
Variables Aleatorias
Ejemplo:
Una biblioteca recibió una donación de libros de un autor, algunos eran de una edición
moderna y otros de una antigua, y los mismos estaban encintados de a tres ejemplares. El
bibliotecario necesitaba saber si eran de edición nueva o antigua. Suponiendo que cada uno
de esos resultados (edición nueva o edición antigua) tiene la misma probabilidad e ocurrir,
se tiene que existen dos posibilidades (antiguo y nuevo) para cada uno de los tres libros, y 23
= 8 puntos muestrales. Así, denotando N y A como nuevo y antiguo respectivamente, se
tiene que el espacio muestral es: Ω={(A,A,A); (N,N,N); (N,A,A); (A,N,A); (A,A,N); (N,N,A);
(A,N,N); (N,A,N)}.
Definamos los eventos: C = dos libros de edición nueva, D = al menos un libro de edición
nueva y E = ningún libro de edición vieja. Entonces, P (C)= 3/8, P (D) = 7/8 y P(E) = 1/8. En
aquellos experimentos que cuentan con una gran cantidad de puntos muestrales, realizar un
diagrama de árbol para obtener el espacio muestral resulta prácticamente imposible; en
estas situaciones se utilizan las técnicas de conteo.
Técnicas de conteo
Permutaciones
En ocasiones podemos estar interesados en un espacio muestral que contiene como
elementos a todos los posibles arreglos de un conjunto de objetos. Estos diferentes arreglos
se denominan permutaciones. Una permutación es un arreglo de todo un conjunto de
objetos en el que el orden de éstos es importante. Dado un número natural n, el número de
permutaciones de n objetos distintos es igual a
n P n = n!,
donde n!= n (n‐1) (n‐2)….(1).
Ejemplo:
A un consultorio privado llegan 7 personas, las mismas deben aguardar hasta ser
atendidas en la sala de espera que cuenta con 7 asientos. El número de formas posibles en
que pueden disponerse estas personas en los asientos es:
n Pn = n!, 7 P7 = 7 ⋅ 6 ⋅ 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅ 1 = 5040 .
88
Variables Aleatorias
Variaciones
Se llaman variaciones a los grupos de r elementos que se pueden formar con los n
elementos dados, en donde el orden de éstos es importante. El número de variaciones de n
objetos distintos tomados de r a la vez es definido por:
n!
n V r = .
(n − r )!
Ejemplo:
Supongamos que en la sala de espera del ejemplo anterior sólo hay 3 asientos
disponibles. La cantidad de formas posibles que pueden ubicarse en los asientos 3 personas
del total de 7, es dado por:
7! 7! 5040
7 V 3 = = = = 210.
(7 − 3)! 4! 24
O sea, existen 210 formas posibles en que pueden acomodarse estas 7 personas en los 3
asientos.
Combinaciones
En algunas situaciones puede ser necesario conocer el número de formas de seleccionar r
objetos de n elementos sin importar el orden. Estas selecciones reciben el nombre de
combinaciones. El número de combinaciones de n objetos distintos tomados de r a la vez es
dado por:
n!
nCr = .
r!(n − r )!
Ejemplo:
Una clase cuenta con 21 alumnos con los cuales hay que formar ternas para evaluarlos.
¿Cuántas ternas se podrán formar? Se trata de formar todas las ternas posibles, sin repetir
elementos en cada una, y sin importar el orden de los mismos. Comencemos con este
cálculo. Primeramente, para elegir el primer elemento hay 21 posibilidades, para el segundo
quedan 20 posibilidades, y para el tercero 19, por lo tanto el número de ternas posibles está
dado por:
21!
21 V 3 = = 7980 .
( 21 − 3)!
89
Variables Aleatorias
Cada terna aparece repetida en distinto orden, por ejemplo tendremos: ABC, ACB, BAC,
BCA, CAB y CBA. Son seis ternas con los mismos elementos, que está dado por el factorial de
3. En este caso significa lo mismo seleccionar la terna ABC, que la CBA o cualquiera de las
seis ternas, y por lo tanto al total de ternas obtenido (7980), hay que dividirlo por 6 para
obtener el resultado adecuado de las formas de organizarlas, esto es 7980/6 = 1330.
Como este es un problema de combinación, si llamamos n al número de elementos del
conjunto y r al número que integrará cada uno de los conjuntos que debemos formar, de
modo que los elementos de cada uno sean diferentes y no importe el orden, aplicando la
fórmula:
n! 21!
nCr = = = 1330.
r!(n − r )! 3!( 21 − 3)!
O sea, se pueden organizar las ternas de alumnos de 1330 maneras diferentes.
Probabilidad de la Intersección de eventos aleatorios:
En ocasiones se necesita conocer la probabilidad de la ocurrencia de dos eventos en
forma simultánea, es decir la intersección de dos eventos. Supongamos una población de 50
niños clasificados por sexo y estado nutricional, de la siguiente manera:
Estado Nutricional
Bajo peso Eutrófico Sobrepeso Total
Sexo
90
Variables Aleatorias
O, se desea conocer la probabilidad de que un niño seleccionado aleatoriamente sea del
sexo femenino y presente sobrepeso, esto es P(B∩C),
Cantidad de Niños de sexo Femenino con Sobrepeso 7
P(B∩C) = = = 0,14.
Total de Niños 50
Probabilidad Condicional
Esta probabilidad es usada cuando a partir de una condición previa se quiere conocer la
probabilidad de ocurrencia de otro evento. Continuando con el ejemplo anterior, se desea
saber la probabilidad de que un niño tenga bajo peso condicionado a que sea de sexo
femenino. Los resultados favorables será la cantidad de niños de sexo femenino y con bajo
peso, pero los casos posibles no serán la totalidad de los niños, sino solo los de sexo
femenino. Se impone una condición previa: ser mujer, por lo cual la cantidad total se acota a
21. Así,
P(D/B) = P(Bajo Peso/Sexo Femenino),
esto es, la probabilidad de bajo peso dado que es de sexo femenino (la condición impuesta
P(D I B)
es que el niño sea de sexo femenino) es dada por P(D/B) = . Luego
P(B)
2 / 50 2
P(D/B) = = = 0,095 .
21 / 50 21
Así generalizando, para dos eventos A y B que pertenecen al mismo espacio muestral la
probabilidad condicional se define según:
P(A I B)
P(A/B) = ,
P(B)
lo que equivale a
P(A ⋅ B)
P(A/B) = ,
P(B)
interpretado como la probabilidad condicional de que ocurra A, cuando ya ocurrió B.
Teorema de Bayes
Este resultado es muy utilizado cuando se quieren resolver problemas de determinar una
probabilidad condicional conociendo la probabilidad condicional inversa. La probabilidad
condicional se denota P(Ai/B) y su correspondiente inversa P(B/Ai). Si se considera un
experimento realizado en dos etapas, donde en la primera de ellas los sucesos A1, ……., An son
91
Variables Aleatorias
mutuamente excluyentes, con probabilidades conocidas, P(Ai), tales que:
n
∑ P ( A ) = 1.
i +1
i
En la segunda etapa, los resultados posibles, B, dependen de los de la primera, siendo
probabilidades condicionales conocidas, P(B/Ai). Luego se realiza el experimento y no se
conoce el resultado de la primera etapa Ai, aunque sí es conocido el resultado de la segunda
etapa, es decir las probabilidades condicionadas. Entonces, el teorema de Bayes permite
calcular las probabilidades de la primera etapa conociendo los resultados de la segunda (B).
Supongamos que en cierta investigación se desea calcular la probabilidad de que un niño
presente una cierta enfermedad estando vacunado. Se conoce que la probabilidad de que
esté vacunado, dado que contrajo la enfermedad, es 0,20. Para este caso se tiene que el
experimento aleatorio E es "elegir al azar un niño". Al espacio muestral se lo puede pensar
como la unión de los siguientes sucesos:
A1={el niño contraiga la enfermedad} y
A2={el niño no contraiga la enfermedad},
entonces S = A1∪ A2 y además A1∩ A2 = ∅. Luego si tenemos el suceso B = {el niño está
vacunado}, entonces
B = B ∩ S = B ∩ (A1∪ A2) = (B ∩ A1) ∪ (B ∩ A2),
y aplicando probabilidad a ambos miembros se obtiene
P( B) = P( B ⋅ A1 ) + P( B ⋅ A2 )
= P( B / A1 ) ⋅ P( A1 ) + P( B / A2 ) ⋅ P( A2 ),
Se conoce que la probabilidad condicional es
P( A1 ⋅ B ) P(B ⋅ A1 )
P ( A1 / B ) = y P ( B / A1 ) = , P( B ⋅ A1 ) = P(B / A1 ) ⋅ P( A1 ) ,
P( B) P ( A1 )
y además,
P( A1 ⋅ B) = P(B ⋅ A1 ) .
Luego, la expresión de la probabilidad que se desea determinar es
P ( B / A1 ) ⋅ P ( A1 )
P ( A1 / B ) = .
P ( B / A1 ) ⋅ P ( A1 ) + P ( B / A2 ) ⋅ P ( A2 )
En términos del problema se tiene lo siguiente. La probabilidad de que un niño contraiga
la enfermedad es 0,75 y la probabilidad de que un niño esté vacunado sabiendo que no
contrajo la enfermedad es 0,70. Entonces,
92
Variables Aleatorias
0,20 ⋅ 0,75
P ( A1 / B ) = = 0,46.
0,20 ⋅ 0,75 + 0,70 ⋅ 0,25
Este resultado está indicando que aproximadamente el 46 % de los niños que están
vacunados presentan la enfermedad.
Variable Aleatoria
Una variable aleatoria es una función que asocia a cada elemento del espacio muestral Ω
un número real. Una variable aleatoria es aquella cuyos valores surgen asignando números a
los resultados de un experimento aleatorio.
Ejemplo:
Se realiza un control de mercadería en donde se observa la fecha de vencimiento de un
producto enlatado observando cuatro latas en un orden determinado, cada una de las cuales
puede estar Apta para el consumo (A) o Vencida (V) con la misma probabilidad. El espacio
muestral de este experimento es definido como:
Ω = {AAAA, AAAV, AAVA, AAVV, AVAA, AVAV, AVVA, AVVV, VVVV, VVVA, VVAV,
VVAA, VAVV, VAVA, VAAV, VAAA}.
Se define la variable aleatoria X como la cantidad de latas vencidas. La Figura 2
representa la asignación del valor de la variable X para cada punto muestral,
Puntos Muestrales Números Reales
Ω ℜ
AAAA 0
AAAV
AAVA 1
AVAA Figura 2. Asignación de un valor de
VAAA
la variable aleatoria, en los números
AAVV
AVAV Reales, a cada elemento del espacio
AVVA 2 muestral Ω.
VVAA
VAVA
VAAV
AVVV
VVVA 3
VVAV
VAVV
VVVV 4
93
Variables Aleatorias
Existen tantos resultados posibles como puntos muestrales tiene el espacio muestral.
Los resultados que toma dicha variable son: 0 ,1 , 1 , 1 , 1, 2 , 2 , 2, 2, 2, 2, 3, 3, 3, 3, 4.
Asumiendo igual probabilidad para cada punto muestral, se tiene que
P(X = 0) = 1/16, P(X = 1) = 4/16, P(X = 2) = 6/16, P(X =3) = 4/16, P(X = 4) = 1/16.
La Variable Aleatoria X toma solamente los valores 0, 1, 2, 3 y 4, por lo cual es una
variable aleatoria discreta. Su distribución de probabilidad es la siguiente y puede ser
representada por la Figura 3.
P(X = 0) = 0,0625
P(X = 1) = 0,25
P(X = 2) = 0,375
P(X =3) = 0,25
P(X = 4) = 0,0625 P
0,4
0,3
0,2
0,1
Figura 3. Distribución de probabilidad de la variable aleatoria X.
A cada valor de la variable aleatoria se le puede asignar un valor de probabilidad y esto se
realiza por medio de una función de probabilidad. Siguiendo el ejemplo anterior, se puede
construir una tabla como la siguiente:
94
Variables Aleatorias
Valores de la Función de
Variable aleatoria Probabilidad probabilidad
P(X=x) acumulada
F(X)=P(X≤x)
0 0,0625 0,0625
1 0,25 0,3125
2 0,375 0,6875
3 0,25 0,9375
4 0,0625 1,00
Total 1,00
donde en la tercera columna aparece la función de probabilidad acumulada F(X) que se
denomina función de distribución de probabilidad. Este es el caso de obtener la función de
distribución de probabilidad de una variable aleatoria discreta.
La definición y por ende el comportamiento de una función de probabilidad para una
variable aleatoria continua no es el mismo que para el caso de variables discretas, ya que la
probabilidad de que una variable aleatoria continua asuma cualquier valor particular es cero,
debido a que el cociente entre cualquier número e infinito es cero. Por esta razón para
variables continuas se pueden tomar probabilidades asociadas con intervalos y no
probabilidades asociadas con puntos, como en el caso de variables discretas.
Para calcular probabilidades asociadas a intervalos se utiliza una función no negativa (≥ 0)
en x denominada función de densidad de probabilidad, denotada con f(x). Así, para un
intervalo a≤ X ≤ b se tiene que
b
P(a ≤ X ≤ b) = ∫ f ( x)dx,
a
donde f(x) es la función de densidad y x es el valor de la variable aleatoria.
Cuando se considera una variable aleatoria y su correspondiente función de probabilidad,
la media aritmética de esta variable aleatoria se denomina esperanza matemática.
Esperanza de una variable aleatoria
Con el fin de resumir el comportamiento de una variable aleatoria, esta sección presenta
95
Variables Aleatorias
una medida que estudia la tendencia central de dicha variable, llamada esperanza o valor
esperado de una variable aleatoria. A modo de ilustración de las innumerables situaciones
cotidianas en que, sin percibir, tratamos con el valor esperado, presentamos dos ejemplos.
Supongamos que:
‐En un restaurant, cuando hacemos el pedido de nuestra comida elegida, le preguntamos
al mozo cuánto tiempo demora en estar lista y traerla a la mesa. Lo que el mozo va a
proveernos es un valor esperado, o sea, el tiempo medio en que la comida demora en estar
lista.
‐Cuando estamos en la parada del ómnibus y le consultamos a una persona que está a
nuestro lado sobre el tiempo que tenemos que esperar para que llegue el próximo ómnibus,
nos dará como respuesta el valor esperado, valor que sólo consiguió constatar después de
algún tiempo de experiencia en esa espera.
En esos ejemplos, tanto el mozo como la persona que estaba esperando el ómnibus
resumieron toda la información (experiencia) de un modelo en un único número, el valor
esperado. Al igual que la función de distribución de probabilidad, éste se calcula
dependiendo de la naturaleza de la variable aleatoria.
La esperanza o valor esperado de una variable aleatoria discreta es la suma de cada valor
que asume dicha variable multiplicado por su probabilidad de ocurrencia. Así, si X es una
variable aleatoria discreta que asume x1, x2, ….xn como valores posibles, y sus posibilidades
son representadas por p(xi), entonces la esperanza de X se calcula de la siguiente manera:
n
E ( X ) = ∑ xi p( xi ).
i =1
Para una variable aleatoria continua, la esperanza se calcula mediante la integral de todos
los valores y la función de densidad f(x):
∞
E( X ) = ∫
−∞
xf ( x ) dx ,
cuya interpretación es similar a lo mencionado para variables discretas. La esperanza de una
variable aleatoria se denota con la letra griega μ.. A lo largo de este material, toda
característica que describa el comportamiento de una variable aleatoria se denominará
parámetro y de denotará con letra griega.
Ejemplos:
‐En una fábrica de fideos del norte cordobés (Dean Funes), la previsión de los costos de
96
Variables Aleatorias
insumos para la manufactura del próximo mes, indica que éstos estarán en torno a: (miles de
pesos) 9, 10, 11, 12 y 13. Suponiendo que dichos gastos fuesen realmente desconocidos, la
empresa asume que las siguientes probabilidades pueden atribuirse a dichos valores,
respectivamente: 0,30; 0,20; 0,25; 0,05 y 0,20. Sea X la variable aleatoria "costo de insumos
referente al mes i, i = 1, ... , 5". Luego, el conjunto de valores posibles que asume X es A={9,
10, 11, 12, 13} y la distribución de probabilidad es:
Mes Costo de P(X)
Insumos (X)
1 9 0,30
2 10 0,20
3 11 0,25
4 12 0,05
5 13 0,20
El valor esperado del costo es dado por:
n
E ( X ) = ∑ xi p ( xi )
i =1
= 9 ⋅ 0,30 + 10 ⋅ 0,20 + 11 ⋅ 0,25 + 12 ⋅ 0,05 + 13 ⋅ 0,20 = 10,65.
Luego, para la fábrica cordobesa se espera un costo promedio en insumos de $ 10,650.
‐Sea f(x) la función de densidad de una variable aleatoria X, dada por
⎧⎪ 1
x, 0 ≤ x ≤ 2;
f ( x) = ⎨ 2
⎪⎩ 0, c.c.
y representada en la figura 4.
Figura 4. Función de densidad de la variable aleatoria X
97
Variables Aleatorias
A partir de la definición del valor esperado para una variable continua, se tiene que:
∞ 2 2
1 4
E( X ) = ∫ xf ( x)dx =∫ xf ( x)dx =∫ 2 x dx = ,
2
−∞ 0 0
3
o sea, se espera que el valor central de dicha variable sea 1,33.
Propiedades de la Esperanza
La esperanza de una variable aleatoria (v.a.) tiene algunas propiedades que son útiles
desde el punto de vista matemático. Dichas propiedades se demuestran fácilmente a partir
de su definición. Sean X e Y, variables aleatorias, cuna constante. Luego,
1. La esperanza de la suma de una variable más una constante, es igual a la
suma de la esperanza de la variable más la constante. Esto es,
E ( X + c) = E ( X ) + c.
2. La esperanza de la suma de dos variables aleatorias, idénticamente
distribuidas, es igual a la suma de las esperanzas de cada variable. Es decir,
E ( X + Y ) = E ( X ) + E (Y ).
3. La esperanza del producto de una constante y una variable es igual al
producto de la constante por la esperanza de la variable. Esto es,
E (aX ) = a.E ( X ).
Ejemplos:
‐En un Casino, las reglas definidas para un juego de dados son las siguientes: si sale 2, 3 ó 5
el jugador que apuesta gana el valor del número en pesos, pero si sale 1, 4 ó 6 pierde ese
número, en pesos. ¿Cuánto se espera que gane o pierda un jugador si se repite 60 veces el
juego? Primeramente, se debe definir a la variable aleatoria. Sea X igual al número que
aparece al lanzar un dado. Para esta variable, la función de distribución de probabilidad es:
xi 1 2 3 4 5 6
P(X=xi) 1/6 1/6 1/6 1/6 1/6 1/6
98
Variables Aleatorias
Luego, su valor esperado es, por definición:
n
E ( X ) = ∑ xi p ( xi )
i =1
Para responder a la pregunta, se debe aplicar la propiedad 3, ya que el experimento plantea
repetir idénticos lanzamientos o juegos. Si b representa el número de veces que se repite el
juego, entonces:
lo cual indica que el jugador espera perder $10 en 60 juegos.
‐Sea X la variable aleatoria definida como el número de balanzas, de una marca A y de
calidad estándar, vendidas por una firma conocida en Argentina, en un día de la semana.
Para esa variable, la función de distribución de probabilidad es la siguiente:
xi 0 1 2 3 4 5
P(X=xi) 0,1 0,1 0,2 0,3 0,2 0,1
Supóngase que se obtiene una ganancia de $50 por la venta de cada unidad y que el costo
fijo diario es de $20 (incluyendo los intermediarios de ventas). ¿Cuál es la ganancia neta
esperada? Para resolverlo, se deben considerar por lo menos dos de las propiedades
enunciadas para el valor esperado de una variable aleatoria. Así, para xi unidades vendidas
en un día, la ganancia esperada es de $ 50xi. Restando el costo fijo, se obtiene la utilidad
neta de 50x – 20. Luego, si E(X) es tal que:
n
E ( X ) = ∑ xi p ( xi )
i =1
Usando las propiedades enunciadas 2 y 3 del valor esperado, se obtiene:
99
Variables Aleatorias
Varianza de una variable aleatoria
Sea X una variable aleatoria tal que E(X)=2, ¿qué significa eso? En función a lo visto
anteriormente, esa afirmación significa que si consideramos un número grande de
determinaciones de X, x1, ... , xn, la media de esos valores, si n es suficientemente grande,
estará próxima de 2. Pero, qué medida informa esa proximidad? qué significa "estará
próxima"?
La varianza es una medida de la dispersión de una variable aleatoria X respecto a su
esperanza E(X).Se la define como:
Var(X) = E[X - E(X)] 2 .
Se denota con σ 2y puede expresarse como un promedio ponderado de los cuadrados de
los desvíos respecto de la esperanza. Su raíz cuadrada es el desvío estándar, σ.
Utilizando la definición del valor esperado, esta medida de dispersión asume las
siguientes expresiones para variables discretas y continuas. Si X es una v.a. discreta,
n
Var ( X ) = ∑ (x i - E[X] ) 2 .P(X = x i ),
i =1
Para una variable aleatoria continua, conμ= E(X), la varianza es dado por:
∞ ∞
Var ( X ) = ∫ ( X − E ( X )) . f ( x)dx = ∫ ( X − μ ) . f ( x)dx.
2 2
−∞ −∞
Así, para una variable aleatoria discreta, σ 2 se define como la suma de los desvíos de
cada valor que toma la variable aleatoria con respecto a la esperanza, elevados al cuadrado y
multiplicados por su respectiva probabilidad, ya para una v.a. continua, la suma infinita
ponderada por la función de densidad.
Propiedades de la Varianza
Siguiendo una analogía con aquellas presentadas para el valor esperado, pueden
obtenerse las propiedades de la varianza, cuyas demostraciones son inmediatas
considerando las definiciones anteriores. Así, si X e Y son variables aleatorias y c una
constante tal que c∈ℜ, entonces:
1. La varianza de una constante es cero (si X no varía, su varianza es nula),
Var ( X ) = Var (c) = 0.
100
Variables Aleatorias
2. La varianza del producto de una constante con la v.a. X es igual al cuadrado de la
constante por la varianza de la variable,
3. La varianza de la suma de una variable y una constante es igual a la varianza de la
variable,
Var ( X + c) = Var ( X ).
4. La varianza de la suma o resta de dos variables independientes es igual a la suma de
las varianzas de dichas variables,
Var ( X ± Y ) = Var ( X ) + Var (Y ).
A modo de ejercitación, obtenga las expresiones de las varianzas, usando estas
propiedades, para los ejemplos anteriores (juego de dados en Casino y costo de venta de
balanzas).
Ejercicios de aplicación: 3.1 a 3.10
101
Variables Aleatorias
EJERCICIOS DE APLICACIÓN 3.1 A 3.10
EJERCICIO 3.1
Considerando el estudio donde se observan las notas de los 4 parciales de una
materia anual determinada.
i. RepresentarΩ, donde “A” denotará si el parcial fue aprobado y “D” si fue
desaprobado.
ii. Determinar cuántos puntos muestrales tiene el espacio muestral definido.
Representar en forma de conjunto los siguientes eventos:
iii. A: “al menos un examen aprobado y dos desaprobados”,
iv. B: “dos exámenes desaprobados”,
v. C: “al menos tres exámenes aprobados”.
vi. Calcular la probabilidad de ocurrencia de cada uno de los eventos anteriores.
vii. Representar el evento D= B∪C (B unión C) y E= B∩C (B intersección C). Calcular la
probabilidad de D y de E.
viii. Representar al evento F: “al menos tres exámenes sean desaprobados” y al evento
G= A∪F. Calcular la probabilidad de los eventos F y G.
ix. Siendo la variable aleatoria (v.a) X = número de parciales aprobados, ¿cuántos
valores posibles y distintos puede tomar X?
x. Calcular la probabilidad de que X tome cada uno de estos valores, P (X = 0)
a. P (X =1), etc.
xi. Representar gráficamente la distribución de probabilidades de la variable número
de parciales aprobados.
EJERCICIO 3.2
Se tienen 3 fichas, de un lado son color rojo (R) y del otro son de color verde (V). Se
tiran las tres juntas una sola vez.
i. Representar Ω.
ii. Calcular la probabilidad de ocurrencia de cada punto muestral.
Construir los eventos:
iii. A: “al menos dos lados rojos”,
iv. B: “dos lados verdes”,
102
Variables Aleatorias
v. C: “al menos un lado verde”.
vi. Representar el evento D= A∪B (A unión B) y E= A∩C (A intersección C).
vii. Calcular la probabilidad de D y de E.
viii. Definir la variable aleatoria X = número de lados verdes. Construir la distribución
de probabilidad de dicha variable.
ix. Graficar la función de distribución acumulada de X.
EJERCICIO 3.3
i. De un grupo de cinco estudiantes D, E, F, G y H, dos deben entregar un trabajo
práctico.
ii. Representar Ω.
iii. Determinar la cantidad de puntos muestrales de dicho espacio.
Representar en forma de conjunto los siguientes eventos:
iv. A: “que D sea seleccionado”,
v. B: “que F y G sean seleccionados”,
vi. C: “que H no sea seleccionado”,
vii. D: “que E o F sean seleccionados”.
viii. Calcular la probabilidad de cada evento.
EJERCICIO 3.4
El Servicio de Nutrición de un Hospital de la Provincia de Córdoba desea ordenar 5
muestras gratis de Productos Nutricionales que recientemente el laboratorio XX les ha
otorgado. Estas muestras corresponden a: Ensure, Glucerna, Jevity, Osmolite y Pulmocare.
i) ¿De cuántas formas pueden ser ordenadas un en estante?
EJERCICIO 3.5
De un grupo de nueve individuos que requieren control nutricional, se quiere formar
subgrupos de tres para ser controlados. Es importante el orden de selección porque será el
respetado para su posterior atención. ¿Cuántos puntos muestrales tiene Ω?
103
Variables Aleatorias
EJERCICIO 3.6
En un centro geriátrico se estudió la aceptación de un nuevo menú según el sexo,
obteniendo los siguientes resultados:
Sexo
Femenino Masculino Total
Aceptación
Si 12 6 18
No 8 4 12
Total 20 10 30
i) Calcular la probabilidad de que el menú sea aceptado.
ii) Si se toma al azar un anciano:
a‐ ¿Cuál es la probabilidad de que sea varón?
b‐ ¿Cuál es la probabilidad de que sea varón o que acepte el menú?
c‐ ¿Cuál es la probabilidad de que sea varón y que acepte el menú?
iii) Si se toma una anciana:
a‐ ¿Cuál es la probabilidad de que acepte el menú?
iv) Si se toma uno de los que no aceptaron el menú:
a‐ ¿Cuál es la probabilidad de que sea mujer?
b‐ ¿Cuál es la probabilidad de que sea varón?
EJERCICIO 3.8
Se verifican como verdaderas las siguientes situaciones para los eventos A, B y C
mutuamente excluyentes, pertenecientes a un mismo experimento y donde no hay ningún
caso fuera de ellos.
104
Variables Aleatorias
i. ¿Qué situaciones no son formas permitidas de asignar probabilidades a los
eventos? Justificar en cada caso la respuesta.
EJERCICIO 3.9
En el servicio de nutrición de un hospital de niños se atendieron 1260 niños durante 6
meses. Luego de la atención, se les entregó un plan de alimentación a 120 niños celíacos y a
245 niños diabéticos entre otros.
i. ¿Cuál es la probabilidad de atender a un niño celíaco?,
ii. ¿Cuál es la probabilidad de atender a uno diabético?,
iii. ¿Cuál es la probabilidad de atender a un niño que no tenga ninguna de estas
patologías?
EJERCICIO 3.10
Una familia integrada por dos adultos y dos niños de 8 y 9 años deciden cruzar todos
juntos un puente colgante que soporta hasta 220 kilogramos. La variable peso de los adultos
tiene una distribución normal con μ= 78Kg y σ2=36Kg2, y el peso de los niños tiene
distribución normal μ= 25Kg y σ2= 16 Kg2.
i) Si toda la familia sube al puente, ¿cuál es la probabilidad de que éste se caiga?
105
Variables Aleatorias
RESOLUCIONES EJERCICIOS 3.1 AL 3.10
EJERCICIO 3.1
i. = {AAAA, AAAD, AADA, ADAA, DAAA, AADD, ADAD, ADDA, DDAA, DAAD, DADA,
DDDA, ADDD, DDAD, DADD, DDDD}
ii. 16.
iii. A = {AADD, ADAD, ADDA, DDAA, DAAD, DADA, DDDA, ADDD, DDAD, DADD}
B= {AADD, ADAD, ADDA, DDAA, DAAD, DADA}
C= {AAAD, AADA, ADAA, DAAA, AAAA}
iv. P (A) = 10/16 = 0,625
Existe una probabilidad iguala 0,625 que de cuatro parciales de una materia anual,
al menos un examen está aprobado y dos desaprobados.
P (B) = 6/16 = 0,375
Un 0,375 de probabilidad que de cuatro parciales de una materia anual, dos sean
desaprobados.
P (C) = 5/16 = 0,312
Y un 0,312 de probabilidad que de cuatro parciales de una materia anual, al menos
tres sean aprobados.
v. D= {AADD, ADAD, ADDA, DDAA, DAAD, DADA, AAAD, AADA, ADAA, DAAA, AAAA}
P (D) = 11/16 = 0,687
P (E) = 0
vi. F= {DDDA, ADDD, DADD, DDAD, DDDD}
P (F) = 5/16
= 0,3125
Un 0,3125 de probabilidad que de cuatro parciales de una materia anual, al menos
tres sean desaprobados.
G = A∪F
= A + F ‐ A∩F
= {AADD, ADAD, ADDA, DDAA, DAAD, DADA, DDDA, ADDD, DADD, DDAD, DDDD}
P (G) = 11/16
= 0,6875
106
Variables Aleatorias
Hay 0,6875 de probabilidad de que ocurra el evento G.
vii. X = cantidad de parciales aprobados
0, 1, 2, 3, 4
viii. P (X = 0) = 1/16 = 0,062
P (X = 1) = 4/16 = 0,25
P (X = 2) = 6/16 = 0,375
P (X = 3) = 4/16 = 0,25
P (X = 4) = 1/16 = 0,062
ix. Probabilidad acumulada de aprobar parciales de una materia anual
Probabilidad
P
1
0.5
0 1 2 3 4 X
Cantidad de parciales
EJERCICIO 3.2
i. Ω = {RRR, RRV, RVR, RVV, VRV, VRR, VVR, VVV}
ii. 1/8 = 0,125
iii. A = {RRR, RRV, RVR, VRR}
B = {RVV, VRV, VVR}
C = {RRV, RVR, RVV, VRV, VRR, VVR, VVV}
iv. D = {RRR, RRV, RVR, VRR, RVV, VRV, VVR}
E = {RRV, RVR, VRR}
107
Variables Aleatorias
v. P (D) = 7/8 = 0,875
P (E) = 3/8 = 0,375
vi. X = “número de lados verdes”
0, 1, 1, 1, 2, 2, 2, 3
P (X = 0) = 1/8 = 0,125
P (X = 1) = 3/8 = 0,375
P (X = 2) = 3/8 = 0,375
P (X = 3) = 1/8 = 0,125
Probabilidad de Número de lados verdes
P
0.5
0 1 2 3 4 X
EJERCICIO 3.3
i) Ω = {DE, DF, DG, DH, EF, EG, EH, FG, FH, GH}
i)
5!
5 C2 =
2!(5 − 2)!
120
5 C2 =
2.6
5 C2 = 10
Rta: 10.
ii) A = {DE, DF, DG, DH}
B = {FG}
C = {DE, DF, DG, EF, EG, FG}
D = {DE, DF, EF, EG, EH, FG, FH}
108
Variables Aleatorias
iii) P (A) = 4/10 = 0,4
P (B) = 1/10 = 0,1
P (C) = 6/10 = 0,6
P (D) = 7/10 = 0,7
Existe una probabilidad igual a0,6 que D salga seleccionado, 0,10 de probabilidad que F y
G sean seleccionados, un 0,6 de probabilidad de que H no sea seleccionado y 0,7 de que E o
F sean seleccionados.
EJERCICIO 3.4
5P5 = 5!
= 5 * 4 * 3 * 2 * 1
=120
Los productos nutricionales pueden ser acomodados de 120 formas distintas.
EJERCICIO 3.5
n = 9 r = 3
9!
9V3 =
(9 − 3)!
= 504
Rta: Ω tiene 504 puntos muestrales.
EJERCICIO 3.6
Ω = {0, 1, 2, 3, 4, 5, 6, .....................}
i) A = {0,1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11}
B = {7, 8, 9, 10, 11, 12, 13}
EJERCICIO 3.7
i) 18/30 = 0,6 es la probabilidad de que sea aceptado el menú.
109
Variables Aleatorias
ii)
a‐ 10/30 = 0,33 es la probabilidad de que sea varón.
b‐ 10/30 + 18/30 ‐ 6/30 = 0,33 + 0,6 ‐ 0,2 = 0,73 es la probabilidad de que sea varón
o que acepte el menú.
c‐ 6/30 = 0,2 es la probabilidad de que sea varón y que acepte el menú
iii)
a‐ 12/20 = 0,6 es la probabilidad de que una anciana acepte el menú
iv)
a‐ 8/12 = 0,67 es la probabilidad de que de los que no aceptaron sea mujer.
b‐ 4/12 = 0,33 es la probabilidad de que de los que no aceptaron sea varón.
EJERCICIO 3.8
La situación a) porque la suma de las probabilidades no puede ser mayor a 1 y la situación
b) porque la probabilidad no puede ser negativa.
EJERCICIO 3.9
i. 120/1260 = 0,095 ó 9,5% de los niños atendidos serán celíacos.
ii. 245/1260 = 0,195 ó 19,5% de los niños atendidos serán diabéticos.
iii. 895/1260 = 0,71 ó 71% de los niños no tendrán ninguna de estas patologías.
EJERCICIO 3.10
Variable Peso de adulto: N(78, 36), μ=78Kg, σ2 =36Kg2, σ= 6,
Variable Peso de niño: N(25, 16), μ = 25Kg y σ2 = 16 Kg2, σ = 4.
Luego, por propiedades de la esperanza y varianza se tiene que:
E(X) = 78 + 78 + 25 + 25
= 206 Kg,
Var(X) = 36 + 36 + 16 + 16
= 104 Kg2.
Xi~N(206, 104). Luego, la
P(Xi> 220) = 1 – P (Xi< 220)
110
Variables Aleatorias
= 1 – P( Z <220 – 206)
10,2
= 1 – P(Z < 1,37)
= 1 – 0,91
= 0,09.
Rta: Si toda la familia se sube al mismo tiempo al puente, la probabilidad de que éste se
caiga es de 0,09.
111
112
CAPÍTULO 4: DISTRIBUCIÓN DE VARIABLES
ALEATORIAS
113
114
Distribución de Variables Aleatorias
La distribución de una variable aleatoria se puede diferenciar según el tipo de variable que
representa, agrupándose en:
• Distribuciones de variables aleatorias discretas,
• Distribuciones de variables aleatorias continuas
Distribución de variables aleatorias discretas
Supongamos que tenemos algunos de los siguientes interrogantes en los servicios de
Nutrición del Sistema Sanitario provincial:
1. ¿Cuántos pacientes vendrán hoy a una hora determinada?
2. ¿Cuál es la probabilidad de atender pacientes que presenten trastornos alimentarios
en una semana determinada?
3. ¿Cuál es la probabilidad de que una dieta sea eficaz en un tratamiento dado?
Todos estos interrogantes pueden responderse, en su mayoría, definiendo de manera
adecuada a ciertas variables aleatorias y haciendo uso de sus distribuciones de
probabilidades.
Muchos de los problemas en el campo de la salud involucran a variables aleatorias
discretas, como es el caso que presentaremos a continuación. En esta sección se
introducirán los conceptos claves y definiciones de variables aleatorias discretas con
distribución Binomial (B) y Poisson (P). Para presentar sus definiciones usaremos el concepto
de Probabilidad basado en la distribución de frecuencias.
En términos generales y para toda variable discreta, una distribución de probabilidades
deberá incluir un listado mutuamente excluyente de todos los resultados numéricos posibles
para esa variable aleatoria, tal que una probabilidad específica de ocurrencia se asocia con
cada resultado.
Sus características principales serán regidas por la esperanza E(X) o valor esperado y la
varianza (σ2). El valor esperado de una variable aleatoria discreta es un promedio ponderado
de todos los posibles resultados, donde las ponderaciones son las probabilidades asociadas
con cada uno de los resultados. Esto es,
115
Distribución de Variables Aleatorias
N
μ = E ( X ) = ∑ xi P ( X = xi ),
i =1
donde xi es el i‐ésimo resultado de X, la variable discreta de interés y P(X=xi) es la
probabilidad de ocurrencia del i‐ésimo resultado de X.
La varianza de una variable aleatoria discreta (σ2) se define como el promedio ponderado
de los cuadrados de las diferencias entre cada resultado posible y su media (los pesos son las
probabilidades de los resultados posibles). Esto es,
N 2
σ = ∑ [xi − E ( X )] P( X = xi ).
2
i =1
Como mencionamos, las distribuciones de probabilidades discretas más usadas en el campo
científico son:
• Distribución Binomial
• Distribución de Poisson
Distribución Binomial, B(n, p).
Una variable aleatoria discreta X tiene distribución Binomial si se satisfacen las cinco
condiciones siguientes:
1. Existe una serie de N ensayos (pruebas),
2. En cada ensayo hay sólo dos posibles resultados,
3. En cada ensayo, los dos resultados posibles son mutuamente excluyentes,
4. Los resultados de cada ensayo son independientes entre sí, y
5. La probabilidad de cada resultado posible en cualquier ensayo es la misma de un
ensayo a otro.
Cuando se cumplen estas condiciones, la distribución binomial es una ley que proporciona
cada resultado posible de los N ensayos y la probabilidad de obtener cada uno de estos
resultados. Para este tipo de distribución de probabilidad, la función matemática que la
define es la siguiente: X es una variable aleatoria con distribución Binomial, B(n, p), si
satisface que
116
Distribución de Variables Aleatorias
n!
P( X ) = p x (1 − p) n− X , [1]
X !(n − X )!
donde P(X) es la probabilidad de X éxitos dados los parámetros n y p, n es el tamaño de la
muestra, p es la probabilidad de éxito, 1 – p es la probabilidad de fracaso, X es el número de
éxitos en la muestra, con X = 0, 1, 2, …, n.
En esta expresión general [1], el término p x (1 − p ) n − X indica la probabilidad de obtener X
éxitos de n observaciones en una secuencia específica; en cambio, el término
n!
indica cuántas combinaciones de los X éxitos entre n observaciones son posibles.
X !(n − X )!
Luego, dado el número de observaciones n y la probabilidad de éxito p, la probabilidad de X
éxitos es:
P(X) = (número de secuencia posibles) * (probabilidad de un secuencia especifica),
Veamos el siguiente ejemplo: supongamos que en cierta población, en un momento
dado, el 52% de todos los nacimientos que se registraron son varones. Si aleatoriamente se
escogen cinco registros de nacimientos dentro de esa población ¿cuál es la probabilidad de
que exactamente tres de ellos pertenezcan a varones? Pensemos en qué datos tenemos de
la situación planteada: n=5, X=3, p=0,52. Colocando estos valores en la expresión [1] se
obtiene que P(X=3)=0,3239.
Un caso particular de la distribución Binomial es cuando n=1, lo que se denomina
Distribución de Bernoulli. Esto es, la idea es realizar un experimento aleatorio una sola vez y
observar si cierto suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y
q=1‐p el que no lo sea (fracaso). Se trata entonces de una ley que describe probabilidades de
una variable dicotómica, es decir aquella que únicamente puede tomar dos modalidades (lo
que comúnmente es adoptado como éxito y/o fracaso a los dos posibles resultados). Así,
podríamos definir este experimento mediante una v.a. discreta X que toma los valores X=0 si
el suceso no ocurre, y X=1 en caso contrario, y que se denota X~B(p), directamente, o
X~Ber(p), esto es:
⎧0, P[X = 0] = 1 − p = q
X~Ber(p) ⇔ X = ⎨
⎩1, P[X = 1] = p.
Un ejemplo típico de este tipo de variables aleatorias consiste en lanzar una moneda al
117
Distribución de Variables Aleatorias
aire y considerar la siguiente variable aleatoria:
⎧ 1
0→q=
⎪⎪ 2
X= número de caras obtenidas = ⎨
1
⎪1 = p = ,
⎪⎩ 2
La función de probabilidad de una v.a. Bernoulli es:
⎧q si x = 0
⎪
⎪
f ( x) = ⎨ p si x = 1 [2]
⎪
⎪0 en cualquier otro caso;
⎩
y, por ende, su función de distribución es la función acumulada de probabilidad, es decir:
⎧0 si x < 0
⎪
⎪
F ( x) = ⎨q si 0 ≤ x < 1
⎪
⎪1 si x ≥ 1.
⎩
Igualmente que para el caso B(n, p), las principales características de la X Bernoulli se
calculan directamente:
E[ X 2 ] = ∑x
xi =0,1
2
i f ( xi ) = 0 2 ⋅ f (0) + 12 f (1) = 0.q + 1. p = p,
Var [ X ] = E[ X 2 ] − E[ X ] 2 = p − p 2 = p ⋅ (1 − p ) = p ⋅ q.
A modo de integración, se dice que una v.a. X sigue una ley binomial, de parámetros n y p,
si es la suma de n v.a. independientes de Bernoulli con el mismo parámetro, p, esto es:
X~B (n,p) ⇔ X = X 1 + ... + X n , donde Xi~Ber(p), ∀i = 1,..., n .
Esta definición la podemos interpretar de la siguiente manera. Supongamos que
realizamos n pruebas de Bernoulli, Xi, donde en todas ellas, la probabilidad de éxito es la
misma (p), y queremos calcular el número de éxitos, X, obtenidos en el total de las n
pruebas. Su ley de probabilidad es la que expresamos en [2], y su función de distribución de
118
Distribución de Variables Aleatorias
probabilidad es dada por
⎛n⎞
f (k ) = P[ X = k ] = ⎜⎜ ⎟⎟ p k q n − k ∀k = 0,1,..., n ,
⎝k ⎠
Por tanto, su función de distribución o probabilidad acumulada resulta:
⎧0 si x < 0
⎪
⎪⎪ [ x ] ⎛ n ⎞
F ( x) = ⎨∑ ⎜⎜ ⎟⎟ p k q n−k si 0 ≤ x < n
⎪ k =0 ⎝ k ⎠
⎪
⎪⎩1 si x ≥ n.
Así, para representar la función de probabilidad de una v.a. B(n, p) para n pequeño y para
cuando n es grande, se construyen las siguientes figuras 1 y 2.
0.5
0.4 0.3
Probabilidad
0.2 0.1
0
0 1 2 3 4 5
Variable aleatoria X, tal que X~B(5; 0,50)
Figura 1. Función de distribución de probabilidad de una variable aleatoria B(n,p), para n
pequeño.
119
Distribución de Variables Aleatorias
0.2
0.15
Probabilidad
0.1
0.05
0
0 2 4 6 8 10 12 14 16 18 20
Variable aleatoria X, tal que X~B(20; 0,50)
Figura 2. Función de distribución de probabilidad de una variable aleatoria B(n,p), para n
grande.
De las expresiones anteriores, surge que el valor esperado y la varianza son:
E(X) = n.p,
Var(X) = n.p.q = n.p.(1‐p).
Veamos el siguiente ejemplo. Un médico aplica un test a 10 alumnos de un colegio para
detectar una enfermedad (evento que llamaremos E), cuya prevalencia sobre una población
de niños es del 10%. La sensibilidad del test (esto es, lo que detecta como positivo y es
enfermo, T+) es del 80% y la especificidad (esto es, lo que detecta como negativo y es sano,
T‐) 75%. Se desea conocer ¿cuál es la probabilidad de que exactamente a cuatro personas les
dé un resultado positivo? Se dispone de lo siguiente: P(E)= 0,1 la prevalencia de la
enfermedad en la población, o la probabilidad a priori de estar enfermo; P(T+|E)=0,8 la
P (T + ) = P (T + | E ) P ( E ) + P (T + | E ) P ( E )
1424 3 123
1− P ( T − E ) 1− P ( E )
120
Distribución de Variables Aleatorias
donde, como se mencionó, E es el conjunto complemento del conjunto E.
Llamando a X1 a la v.a. que representa el número de resultados positivos, es claro que
p1=P(T+), y se tiene que X sigue una distribución binomial,
⎛n ⎞ k n1 − k
X ~ B ( n = 10, p = 0,305 ) ⇔ P ( X = k ) = ⎜⎜ ⎟ p .q
⎟ ,
⎝k ⎠
con n=10 y p=0,305. Luego, la probabilidad de que a cuatro personas le resulte positivo el
⎛10 ⎞
test es: P( X 1 = 4) = ⎜⎜ ⎟⎟0,3054 ⋅ 0,6956 = 0,2048.
⎝4 ⎠
Ejercicios de aplicación: 4.1 a 4.4
Distribución de Poisson
Una v.a. X sigue una función de distribución Poisson si se satisface que
e − λ λk
f (k ) = P[ X = k ] = , k = 0, 1, 2, ...
k!
donde P(X) es la probabilidad de X=k éxitos, dado el valor de λ, la esperanza del número de
éxitos; e es la constante matemática, con valor aproximado 2,71828, y k es el número de
éxitos por unidad.
En términos generales, decimos que existe un proceso Poisson cuando podemos observar
eventos discretos en un intervalo continuo (de tiempo, longitud, superficie, etc.) de tal
manera que si este intervalo continuo se reduce lo suficiente,
1. La probabilidad de observar exactamente un éxito en el intervalo es constante.
2. La probabilidad de obtener más de un éxito en el intervalo es 0.
3. La probabilidad de observar un éxito en cualquier intervalo es estadísticamente
independiente de la de cualquier otro intervalo.
121
Distribución de Variables Aleatorias
¿Cuándo usamos esta distribución como ley de asignación de probabilidades? Su utilidad
en el área de la salud es muy amplia. Por ejemplo, la podemos aplicar para describir
situaciones como:
• El número de pacientes que llegan al servicio de emergencia de un hospital en un
intervalo de tiempo.
• El número de radiaciones radiactivas que se recibe en un lapso de tiempo.
• El número de glóbulos blancos que se cuentan en una muestra dada.
• El número de partos triples por año.
Se demuestra fácilmente que para una variable aleatoria discreta con distribución
Poisson, su valor esperado y su varianza coinciden, esto es:
E(X)=λ y Var(X)=λ.
La distribución de Poisson se considera una buena aproximación a la distribución
Binomial, en el caso que np<10 y p< 0,10 ó n> 100 y p< 0,05 y en ese caso λ= np. El interés
por reemplazar a la distribución Binomial por una del tipo Poisson se debe a que esta última
depende únicamente de un parámetro, λ, y la Binomial (como ya vimos) de dos, n y p.
Ejemplo:
Supongamos que, en promedio, llegan tres pacientes por minuto al servicio de
emergencia del Hospital de Niños Santísima Trinidad (Córdoba Capital), durante la hora del
almuerzo. Se desea conocer ¿cuál es la probabilidad de que en un minuto dado, lleguen
exactamente dos pacientes? y ¿cuál es la probabilidad de que lleguen más de dos pacientes
en ese minuto?
¿De qué datos disponemos? Por el enunciado, el intervalo continuo es el minuto y “…en
promedio llegan 3 pacientes…” nos permite establecer al valor esperado, λ, como λ= 3
pacientes por minuto. Luego, usamos la ley de probabilidad para el cálculo de P(X=2). Así,
e − λ λk
P( X = k ) = ,
k!
e −3 32
P( X = 2) = = 0,2240 .
2!
122
Distribución de Variables Aleatorias
Este tipo de leyes matemáticas se aplican a sucesos con probabilidad muy baja de ocurrir,
obteniéndose como la distribución límite de una sucesión de variables binomiales, donde
np = λ, cuando nÆ∞ (tiende a infinito).
Ejemplo:
Supongamos que estamos estudiando una determinada enfermedad cuya prevalencia en
la población de interés es muy baja, es decir tiene probabilidad pequeña de ocurrir,
p=1/100.000. Se desea conocer:
1) la probabilidad de que en una ciudad, de características semejantes a la que estamos
indagando y con 500.000 habitantes, haya más de 3 personas con dicha enfermedad.
2) el número esperado de habitantes que la padecen.
Si consideramos como variable aleatoria de estudio X, la cantidad de personas que
padecen la enfermedad, es claro que esta variable sigue un modelo de distribución binomial
(ya que está acotada por el número de habitantes). No obstante, por lo mencionado arriba
(p muy pequeño y n muy grande), podemos aproximar su comportamiento de manera
razonable mediante un modelo Poisson, de modo que:
⎛ 1 ⎞
X~B ⎜ n = 500.000, p = ⎟ ⇒ X~P (λ=5.)
⎝ 100.000 ⎠
Así, el número esperado de personas que padecen la enfermedad es E(X)=5. Notemos que
como en el caso Poisson, la media y la varianza coinciden, existe una dispersión bastante
grande, por lo que no sería extraño encontrar que, en realidad, hay muchas más personas, o
menos, que están enfermas. La probabilidad que estamos buscando, de que haya más de
tres personas enfermas es la siguiente:
P(X>3) = 1 – P(X≤ 3)
= 1 – P(X= 0) ‐ P(X= 1) ‐ P(X= 2) ‐ P(X= 3) y reemplazando en la expresión de la función
de distribución de una Poisson, se tiene:
e −5 50 e −5 51 e −5 5 2 e −5 53
P(X>3) = 1 − − − −
0! 1! 2! 3!
= 0,742.
123
Distribución de Variables Aleatorias
Resumiendo, el cuadro siguiente presente a las 3 distribuciones vistas, con sus respectivas
características.
Modelo Parámetros Variables Esperanza Varianza
XBER: Presencia de
Bernoulli p E (XBER) = p Var (XBER)= p. q
éxito
Xb : Número de éxitos
Binomial n y p E (Xb) = n. p Var (Xb) = n .p . q
en las n repeticiones
Xp : Número de éxitos
Poisson λ en cierto intervalo de E (Xp) = λ Var (Xp) = λ
tiempo o espacio
Ejercicios de aplicación: 4.5 a 4.6
Distribución de variables aleatorias continuas
Distribución Normal
Una variable aleatoria continua tiene como valor esperado una media poblacional
simbolizada μ y una varianza poblacional denotada con σ2. Podemos decir que dicha variable
aleatoria es Normal si su distribución de probabilidad o función de densidad (sólo llamada
así cuando X es una v.a. continua) es representada con la siguiente curva (Figura 3):
P 0,40
0,30
0,20
0,10
0,00
-5,00 -2,50 0,00 2,50 5,00 X
Figura 3: Función de densidad para una variable aleatoria con distribución normal.
124
Distribución de Variables Aleatorias
Dicha curva recibe el nombre de Curva normal o Campana de Gauss, con media μ y
varianza σ2 si su función de densidad es:
−
( x − μ )2
1
f ( x) = e 2σ 2
,
σ 2π
donde μ y σ2 representan a la esperanza y la varianza de la v.a., respectivamente, π es la
constante numérica (3,1416....). La notación para una variable aleatoria continua X normal,
con media μ y varianza σ2, es X ~ N(µ, σ2).
Ejemplo: Si el peso de recién nacidos es denotado por W y sigue una distribución normal
con media μ igual a 2,8 Kg y varianza σ2igual a 2 Kg2, entonces W ~ N (2,8 ; 2).
Una variable aleatoria que sigue una distribución normal tiene las siguientes
características:
• Es simétrica en torno a la media.
• Coinciden la media, mediana y moda.
• Sus valores (espacio de definición o soporte de la variable) van desde menos
infinito a más infinito.
Puede haber infinitas distribuciones normales, dependiendo de los valores que toma μ y
σ2, que son los parámetros de la distribución. Precisando, μ es el punto en el eje de las X
coincidente con el eje de simetría de la curva normal, que separa a la misma en dos partes
iguales y σ determina la forma de la curva en cuanto a la agudeza, ya que mientras más
grande es el valor de σ es menos alta la curva y más expandida, por lo contrario cuando el
valor de σ es menor la curva se torna más aguda o alta y menos expandida.
Existen tres posibilidades en las que dos poblaciones tienen diferente distribución
cambiando la forma del área bajo la curva, o bien manteniendo la forma del área y
cambiando el centro de la distribución. Las Figuras 4 a 6 ilustran esas posibilidades.
1‐ Medias iguales y diferentes varianzas:
125
Distribución de Variables Aleatorias
Función de densidad
P P0,40
0,40
0,30 0,30
Densidad
0,20 0,20
0,10 0,10
0,00 0,00
-5,00 -2,50 0,00 2,50 5,00 -5,00 -2,50 0,00 2,50 5,00
X X
Figura 4: Funciones de de densidad de dos variables con distribución normal, con iguales
medias y diferentes varianzas.
2‐ Distintas medias e iguales varianzas:
P 0,40
P 0,40
0,30
0,30
0,20
0,20
0,10
0,10
0,00
0,00
-5,00 -2,50 0,00 2,50 5,00
X -2,00 0,50 3,00 5,50 8,00
X
Figura 5: Funciones de densidad de dos variables con distribución normal, distintas medias
e iguales varianzas.
126
Distribución de Variables Aleatorias
3‐ Distintas medias y distintas varianzas:
P P
0,40 0,40
0,30 P 0,30 P
D e n sid a d
D e n sid a d
0,20
0,20
0,10 0,10
0,00 0,00
-2,00 0,50 3,00 5,50 8,00 -5,00 -2,50 0,00 2,50 5,00
X X
Figura 6: Funciones de densidad de dos variables con distribución normal, distintas medias
y distintas varianzas.
Al comparar dos poblaciones con iguales medias y diferentes varianzas, interpretamos
que es más homogénea aquella que posee menor varianza, esto es, sus observaciones más
concentradas en torno a la media. Una población es más heterogénea cuando presenta una
varianza mayor, por lo que sus datos tendrán una mayor dispersión.
0,40 0,40
P P
0,30 0,30
0,20 0,20
0,10 0,10
0,00 0,00
-5,00 -2,50 0,00 2,50 5,00 -5,00 -2,50 0,00 2,50 5,00
X X
Población más homogénea Población menos homogénea
Figura 7: Comparación de la distribución de probabilidad de dos poblaciones con
diferentes varianzas.
127
Distribución de Variables Aleatorias
Cálculo de probabilidades de variables con distribución normal
Es muy útil poder determinar valores de probabilidad de una variable aleatoria continua,
y para ello debemos aprender a utilizar una distribución normal estándar N(0,1) o de
referencia, llamada distribución normal estandarizada. Ésta nos permitirá conocer valores de
probabilidad de diferentes variables aleatorias continuas, con una simple transformación a la
variable estándar, caracterizada por tener μ = 0 y σ2= 1. La curva normal estándar está
tabulada, es decir, existen tablas que presentan los valores de probabilidad acumuladas a la
izquierda de cualquier punto en su intervalo de definición, por lo que al usarla es posible
conocer los valores de probabilidad bajo la misma. Para transformar una variable aleatoria
normal (X) a una variable aleatoria normal estándar se realiza un proceso de transformación
denominado estandarización.
X −μ
Para ello se aplica la siguiente expresión Z = ,
σ
donde:
Z es el valor estandarizado de la variable aleatoria normal,
X es el valor de la variable aleatoria normal que se desea estandarizar
Ejemplo:
Se conoce que la v.a. peso (en kg) de recién nacidos es tal que W ~ N (2,8 ; 2). Se
desea conocer la probabilidad de que existan recién nacidos con peso menor a 2,5 kg. Esto
es, P (W ≤ 2,5), aplicando la estandarización se tiene:
X −μ 2,5 − 2,8
Z= = =‐0,21.
σ 1,41
Este valor de Z nos permite conocer los valores de probabilidad utilizando la Tabla de
Distribución Normal Estándar (ver anexo). Dicha tabla nos da los valores de probabilidad
situados hacia la izquierda del valor de la variable aleatoria estandarizada (Z), o sea
acumulando hasta ese valor calculado de Z. En este caso P(Z≤‐0,21)=0,4 y se concluye que
existe una probabilidad igual a 0,40 de que 1 niño al nacer pese menos o igual a 2,5kg.
Ejercicios de aplicación: 4.7 a 4.13
128
Distribución de Variables Aleatorias
Variables aleatorias continuas no normales
En este ítem se presentan las distribuciones de otras v.a. continuas (unidimensionales)
importantes, además de la distribución Normal. Como hemos visto, el dominio o soporte de
una v.a. continua se define como aquella región de ℜ donde su densidad es no nula, f(x)≠0.
Para las distribuciones que enunciaremos, χ2 (chi‐cuadrado), t de Student y F de Snedecor,
el dominio a definir podrá serℜ, o ℜ+=(0, ∞), o bien un segmento de la forma [a, b]∈ℜ.
Recordemos un aspecto principal de este tópico. Las distribuciones de probabilidad de
variables aleatorias continuas se definen mediante una función y=f(x) llamada función de
probabilidad o función de densidad. Así como en el histograma la frecuencia observada se
representa con el área, en la función de densidad la probabilidad está dada por el área bajo
la curva, por lo que:
• El área encerrada bajo la curva es 1.
• Para obtener la probabilidad P(a<X<b), calculamos la proporción de área que hay
bajo la curva desde a hasta b.
• La probabilidad de sucesos puntuales (puntos) es 0, P(X=a)=0.
Distribución Chi Cuadrado (χ2)
La distribución χ2 es muy usada para describir los comportamientos de estadísticos de
dispersión, como la varianza muestral. Se la puede definir directamente a partir de la normal
estándar, esto es, si consideramos una v.a. Z~N(0, 1), la v.a. X=Z2 se distribuye según una ley
de probabilidad distribución χ2 con un grado de libertad, lo que se representa como
X ~ χ 12 . Ahora bien, si nuestro experimento o situación involucra a n v.a. independientes
Z~N(0, 1), se demuestra que la suma de sus cuadrados respectivos es una nueva variable
aleatoria cuya distribución es una chi‐cuadrado con n grados de libertad, esto es
n
{Z i }in=1 ~ N (0,1) ⇒ ∑ Z i2 ~ χ n2 . Su función de densidad es de la forma:
i =1
129
Distribución de Variables Aleatorias
⎧0 si x ∈ (−∞,0)
⎪
⎪ n n
fx n ( x) = ⎨
2 1 2
−1 −
x e 2 si x ∈ (0, ∞ ) .
⎪ n2 ⎛ n ⎞
⎪ 2 Γ⎜ ⎟
⎩ ⎝2⎠
Se prueba que si n representa a sus grados de libertad, las características principales,
valor esperado y varianza, de esta variable son respectivamente:
E( X ) = n
Var ( X ) = 2n.
Los percentiles de esta distribución que aparecen con más frecuencia en la práctica se
encuentran tabulados en función a su único parámetro, los grados de libertad. A
continuación, en Figuras 8‐9, se muestran diversas funciones de densidad de variables
aleatorias con distribución Chi‐cuadrado, para valores pequeños y grandes de n.
Figura 8: Función de densidad deχ para valores pequeños de n.
2
130
Distribución de Variables Aleatorias
Figura 9: Función de densidad deχ2para valores grandes de n.
A modo de generalización y en consecuencia de lo anterior, si tenemos X1, X2, ..., Xn, v.a.
2
⎛ X − μi
n
⎞
independientes, donde cada Xi ~ N(μi, σ ), se tiene ∑ ⎜⎜ i
2
⎟⎟ ~ X n2 . La función de
i
i =1 ⎝ σi ⎠
distribución de probabilidad χ2muestra su importancia cuando queremos determinar la
variabilidad (en valor absoluto, sin signo) de cantidades que se distribuyen en torno a un
valor central siguiendo un mecanismo normal. Como ilustración tenemos el siguiente
ejemplo: Supongamos que estamos estudiando el comportamiento de un instrumento,
utilizado para medir el nivel de glucemia en sangre, el cual ofrece resultados bastantes
razonables en relación a su referencia (aproximados con la realidad), aunque existe cierta
cantidad de error que se distribuye de modo normal con media 0 y desvío estándar σ=2.
Esto es, estamos definiendo implicitamente un modelo del tipo:
X real = X esperado + ε ,
ε ~ N ( μ = 0, σ 2 = 2 2 )
Para probarlo, se diseña una experiencia: se realizan mediciones de los niveles de
glucemia dados por el instrumento en un grupo de n=100 pacientes. Nos interesa medir la
cantidad de error que se acumula en las mediciones de todos los pacientes. Para ello,
podemos plantear varias estrategias para medir los errores acumulados, entre las que
destacamos las siguientes:
131
Distribución de Variables Aleatorias
1. Definimos el error acumulado en las mediciones de todos los pacientes como
n
E1 = ∑ ε i , luego, ¿cuál es el valor esperado para E1?
i =1
2. Definimos el error acumulado como la suma de los cuadrados de todos los errores (así
n
preservamos cantidades positivas) como E 2 = ∑ ε i2 , luego ¿cuál es el valor esperado para
i =1
E2?
A la vista de los resultados, ¿cuál de las dos cantidades, E1 y E2, le parece más conveniente
utilizar en una estimación del error cometido por un instrumento? Pensemos en sus ventajas
y desventajas. Suponiendo que las mediciones entre pacientes son independientes, se tiene
que:
n
E1 = ∑ ∈i = ∈ {1 + ∈ {2 + ... + ∈ ⇒ E[ E1 ] = μ = 0.
{n
N (μ ,σ ) N (μ ,σ ) N (μ ,σ )
i =1 2 2 2
1 444 42444 43
(
N μ , n⋅σ 2 )
De este modo, el valor esperado para E1 es 0, esto es, los errores i van a tender a
compensarse entre unos pacientes y otros. Obsérvese que si la media μno fuera conocida a
E1
priori, podríamos utilizar E1, para obtener una aproximación de μ, haciendo μ ≈ . Sin
n
embargo, el resultado E1 no indica en qué medida hay mayor o menor dispersión en los
errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente:
⎛∈ ⎞ ⎛∈ ⎞
2 2
⎛∈ ⎞
n n 2
E 2 = ∑∈ = σ ∑ ⎜ i ⎟ = σ 2 [⎜ 1 ⎟ + ... + ⎜ n ⎟ ] ⇒ E[ E 2 ] = n ⋅ σ 2 = 400.
2 2
i =1 ⎝ σ ⎠ ⎝σ ⎝1σ2⎠3
i
i =1
1 23 ⎠
χ12
14 44244χ4
12
3
χ2 n
En este caso, los errores no se compensan entre sí (no suman cero), y si σ2 no fuera
E2
conocido, podría ser estimado por un estadístico conocido σ 2 ≈ . Mas, por
n
contrapartida, si usamos este enfoque desde E2, no obtenemos ninguna información con
respecto a μ. Concluyendo, E1 podría ser utilizado para calcular de manera aproximada a μ, y
E2 para calcular de modo aproximado a σ2. Las dos cantidades ayudan a describir el
comportamiento del instrumento y por ende son de interés, y ninguna es más importante
132
Distribución de Variables Aleatorias
que la otra, pues ambas forman parte de la medición del error y nos aportan información.
El siguiente resultado, que involucra a la distribución Chi‐cuadrado, es de importancia en
la teoría de muestreo (distribuciones en el muestreo) y nos afirma que la media de variables
aleatorias independientes con distribuciones normales es normal pero con menor varianza y
relaciona los grados de libertad de una v.a. con distribución χ2, con los de un estadístico
como la varianza.
Cálculo de probabilidad en una distribución Chi Cuadrado (χ2)
Si se desea calcular valores de probabilidad en una distribución χ2se procede de la
siguiente manera, como se ejemplifica a continuación. Se desea conocer la probabilidad de
encontrar valores de Chi cuadrado menores a 26,2 con 12 grados de libertad, esto es,
P( χ212< 26,2):
1. Se grafica la probabilidad buscada.
P
Chi cuadrado(12): p(evento)=0.9899
0.09
0.07
0.04
0.02
0.00
X
0.00 9.12 18.25 27.37 36.49
Figura 10: Función de densidad de una variable con distribución χ2.
2. Se identifican los grados de libertad, que en el ejemplo son 12.
3. Se consulta en la tabla de cuantiles de la Distribución Chi‐cuadrado, que al igual
que la distribución normal, acumula valores de probabilidad hacia la izquierda del
punto seleccionado. En la misma:
• Se ingresa por la primera columna correspondiente a los grados de libertad (υ).
• Se desplaza hacia abajo hasta el valor correspondiente, 12.
• Posteriormente hacia la derecha hasta el valor de la variable buscado que para este
133
Distribución de Variables Aleatorias
caso es 26,2.
• Una vez encontrado el valor de Chi cuadrado se observa a qué valor de probabilidad
corresponde en la parte superior, 0,99.
La Probabilidad de que χ2sea menor a 26,2 es 0,99, con 12 grados de libertad.
Ejercicios de aplicación: 4.14 a 4.15
Teorema de Cochran:
Sean X1, X2, ..., Xn, v.a. independientes, donde cada Xi ~ N(μi, σ 2i ), entonces se tiene que:
1 n
X = ∑ Xi ~ N
⎛ σ2
⎜⎜ μ ,
⎞ n
(
X −X
⎟⎟ , ∑ i 2
)
2
~ χ n2−1 , y
n i =1 ⎝ n ⎠ i =1 σ
n
(X −X ) 2
X y ∑
i =1
i
σ2
son v.a. independientes .
Distribución t de Student
La distribución t‐Student se define a partir del cociente entre una v.a. normal y la raíz
cuadrada de una v.a. χ2, independientes entre sí. Esto es, T es una v.a. con distribución t‐
Student con n grados de libertad, tn, si es definida como:
Z
t= ~ t n. ,
χ n2
n
donde Z~N(0, 1) yχ2 ~χn2.
Este tipo de distribuciones aparece usualmente cuando debemos estudiar n+1 v.a.
normales e independientes Xi ~ N(μi, σ 2i ), i=1,…n, y nos interesa la distribución de:
X −μ
T= σ ~ t n .
2
1 ⎛ X i − μi
n
⎞
∑⎜
n i =1 ⎜⎝ σ i
⎟⎟
⎠
En otras palabras, cuando a las distribuciones normales involucradas no se les conoce el
valor del parámetro de dispersión o varianza, entonces la función de densidad de t, con n
134
Distribución de Variables Aleatorias
grados de libertad es la adecuada. Su expresión es la siguiente y su ilustración se presenta en
la Figura 11.
⎛ n +1⎞
Γ⎜ ⎟ −
n +1
⎝ 2 ⎠ ⎛ x2 ⎞ 2
f T ( x) = ⎜⎜1 + ⎟ , ∀t ∈ ℜ.
⎛n⎞ ⎝ n ⎟⎠
Γ ⎜ ⎟ nπ
⎝2⎠
P
Figura 11: Función de densidad de una variable con distribución t de Student.
La distribución t de Student comparte una propiedad con la Normal Estándar, esto es, su
media es cero y simétrica con respecto a la misma, pero es algo más dispersa que la normal,
y la varianza decrece hasta 1 cuando el número de grados de libertad aumenta como se
muestra a continuación en la Figura 12.
P
X
Figura 12: Comparación entre las funciones de densidad de t de Student y N(0,1).
Para un número elevado de grados de libertad, n, la distribución de Student se puede
aproximar a una normal, es decir, tnÆ N(0, 1), cuando nÆ∞ (Figura 13).
135
Distribución de Variables Aleatorias
X
Figura 13: Aproximación de la distribución t a la N(0,1), a medida que aumentan los
grados de libertad.
Al igual que para la distribución Chi‐cuadrado, los percentiles de la distribución t que
aparecen con más frecuencia en la práctica se encuentran tabulados en función a su único
parámetro, los grados de libertad.
Cálculo de probabilidad en una distribución t de Student
Para calcular los valores de probabilidad en una distribución t de Student se procede
según el ejemplo. Si una muestra de tamaño 21 proviene de una población normalmente
distribuida y se desea conocer la probabilidad de encontrar valores de t menores a 2,845,
esto es, P(t20< 2,845), entonces:
1. Se grafica la probabilidad buscada (Figura 14),
P T Student(20): p(evento)=0.9950
0.39
0.30
0.20
0.10
0.00
-5.27 -2.64 0.00 2.64 5.27
X
136
Distribución de Variables Aleatorias
Figura 14: Función de densidad de una variable con distribución t de Student.
2. Se identifican los grados de libertad, que en el ejemplo son 20.
3. Se consulta en la tabla de cuantiles de la distribución t de Student, que al igual
que la distribución normal, acumula valores de probabilidad hacia la izquierda
del punto seleccionado. En la misma:
• Se ingresa por la primera columna correspondiente a los grados de libertad (υ),
• se desplaza hacia abajo hasta el valor correspondiente, 20,
• posteriormente hacia la derecha hasta el valor de la variable buscado que para este
caso es 2,845,
• una vez encontrado el valor de t se observa a qué valor de probabilidad corresponde
en la parte superior, 0,995.
La probabilidad de que t20sea menor que 2,845 es 0,995, con 20 grados de libertad. Se
sugiere que en caso de no encontrarse el valor de t buscado se utilizará el inmediato inferior.
Ejercicios de aplicación: 4.16 a 4.17
Distribución F de Snedecor
Otra de las distribuciones importantes asociadas a la distribución normal es la que se
define como cociente de dos distribuciones χ2 independientes, relacionando de esa manera
a dos estadísticos de dispersión, como la varianza, provenientes de muestras aleatorias
independientes. Sean X ~χn2 e Y ~χm2, dos v.a. independientes, luego definimos a la variable
1
X
mX
F= n = ~ Fn,m,
1 n Y
Y
m
como una F con distribución de probabilidad de Snedecor, con (n,m) grados de libertad.
Esto postula como variable a un cociente de dos varianzas, provenientes de muestras de
tamaño n y m (numerador y denominador) respectivamente. Su característica principal y por
137
Distribución de Variables Aleatorias
representar a estadísticos de dispersión, es su asimetría (semejante a la chi‐cuadrado), ya
que sólo tienen densidad de probabilidad distinta de cero los punto de ℜ+. Obsérvese que la
variable definida como Fn,m no es la misma que Fm.,n, pero se demuestra que si F ~ Fn,m,
entonces 1/F ~ Fm,n. De esta ley de probabilidad lo que interesa es su función de distribución
(acumulada), es decir, FF(x)=P(F<x), y para ello, como en todas las distribuciones asociadas a
la normal, disponemos de una tabla de percentiles, ahora asociada al par de grados de
libertad. A continuación, se representa a esa distribución, para un determinado par de
grados de libertad (Figura 15).
P
Figura 15: Función de densidad de una variable con distribución F de Snedecor.
Cálculo de probabilidad de una variable con distribución F
Para calcular los valores de probabilidad en una distribución F se procede según el
ejemplo. Teniendo dos variables aleatorias independientes con distribución χ2, con 12 y 9
grados de libertad respectivamente. Entonces:
χ122
F = 2 , se simboliza según F(12, 9). Supongamos se desea calcular la probabilidad de
χ9
encontrar valores de F menores a 3,87, esto es: P(F12,9< 3,87).
138
Distribución de Variables Aleatorias
Luego,
1. Se grafica la probabilidad buscada(Figura 16),
0.6
0.4
0.2
0.0
0.00 1.60 X
3.20 4.80 6.40
Figura 16: Función de densidad de una variable con distribución F.
2. se identifican los grados de libertad, que en el ejemplo son 12 y 9,
3. se consulta en la tabla de cuantiles de la distribución F de Snedecor, que al igual que
las otras distribuciones, acumula valores de probabilidad hacia la izquierda del punto
seleccionado.
En la misma:
• Se busca la página en cuyo margen superior izquierdo, primera columna, figuran los
grados de libertad de la primera χ2que para el ejemplo corresponde a 12,
• una vez identificada la tabla correspondiente, se desplaza hacia abajo hasta el valor
correspondiente a los grados de libertad de la segunda χ2para el ejemplo es 9,
• luego, desplazarse hacia la derecha hasta el valor de la variable buscado,3,87,
• una vez encontrado el valor de F se observa a qué valor de probabilidad corresponde
en la parte superior, 0,975.
La probabilidad de que F12,9 sea menor que 3,87 es 0,975.
Ejercicio de Aplicación: 4.18
139
Distribución de Variables Aleatorias
EJERCICIOS DE APLICACIÓN 4.1 a 4.18
EJERCICIO 4.1
Si X tiene distribución binomial con n=10 y p= 0,20, Calcular P(X=3), P(X=6), P(X=1).
EJERCICIO 4.2
Calcular la esperanza matemática y la desviación estándar de una variable con
distribución binomial y con parámetros p=0,70 y n=20.
EJERCICIO 4.3
Un epidemiólogo conoce que la tasa de prevalencia de pre‐obesidad en una ciudad es de
30%. Si en su trabajo atiende diariamente 12 pacientes de esa ciudad, el quiere determinar
la probabilidad de que diariamente se presenten 6 pacientes afectados con preobesidad.
Determinar el número promedio esperado de pacientes preobesos.
EJERCICIO 4.4
Suponiendo que la probabilidad de que un niño que nace sea varón es 0,51, hallar la
probabilidad de que una familia de 6 hijos tenga por lo menos una niña, y por lo menos un
niño.
EJERCICIO 4.5
Se supone que la cantidad de bacterias por mm3 de agua en un estanque es una variable
aleatoria X con distribución de Poisson de parámetro λ = 0,5. ¿Cuál es la probabilidad de que
en un mm3 de agua del estanque no haya ninguna bacteria?
EJERCICIO 4.6
Se sabe que el 3% de las personas con pancreatitis aguda muere al cabo de un año. Un
investigador médico comienza a estudiar a 150 pacientes que presentaban la enfermedad y
desea saber,
a) ¿Cuál será la probabilidad de que al cabo de un año mueran 5 pacientes?,
b) ¿Cuál será el número esperado de pacientes que morirá al cabo de un año?
140
Distribución de Variables Aleatorias
EJERCICIO 4.7
Utilizando la tabla de cuantiles de la Distribución Normal, obtener los siguientes valores
de probabilidades y representar gráficamente el área encontrada.
i) P (Z ≤1,6)
ii) P (Z ≥ 2,1)
iii) P (Z ≥ 1,05)
iv) P (Z ≤ 2,1)
v) P (‐1,6 ≤ Z ≤ 1,6)
vi) P (0,35 ≤ Z ≤ 1,5)
vii) P (‐2 ≤ Z ≤ ‐0,5).
EJERCICIO 4.8
La variable peso de mujeres adultas se distribuye normalmente con media de 68
kilogramos y σ2 de 25 kilogramos2. Encontrar los valores de probabilidades de los siguientes
eventos:
viii) Mujeres con peso entre 60 y 70 kilogramos.
ix) Mujeres con peso mayor a 75 kilogramos.
x) Mujeres con peso menor a 68 kilogramos.
xi) Mujeres con peso entre 58 y 78 kilos.
EJERCICIO 4.9
La variable gramos de grasa consumidos al día sigue una distribución normal con media μ
de 30 gramos y σ2 de 36 gramos2. Encontrar los valores de probabilidades de los siguientes
eventos:
i) P (24 ≤ X ≤ 36)
ii) P (X ≥ 30)
iii) P (X ≤ 30)
iv) P (X ≤ 36)
v) P (X ≥ 24).
141
Distribución de Variables Aleatorias
EJERCICIO 4.10
El tiempo de amamantamiento de niños que se atienden en un centro de salud de la
ciudad de Córdoba sigue una distribución normal con media de 10 meses y desviación
estándar de 7 meses. Responda, calculando:
i) ¿Cuál es la probabilidad de que un niño sea amamantado por más de 24 meses?
ii) ¿Cuál es la probabilidad de que sea amamantado por menos de 2 meses?
EJERCICIO 4.11
El peso al nacer de niños prematuros en un hospital materno infantil sigue una
distribución normal con media igual a 2620 gramos y desvío estándar de 460 gramos.
Encuentre:
i) La probabilidad de que un niño al nacer pese3000 gramos o más,
ii) la probabilidad de que un niño al nacer pese menos de 1500 gramos,
iii) ¿Cuál es el valor de la variable que presenta una probabilidad igual a 0,50 de no ser
superado?
EJERCICIO 4.12
Sea X una variable aleatoria continua con distribución normal, con media cero y varianza
1, esto es X ~ N (0, 1). Hallar y representar gráficamente:
i) P(X ≤ ‐1,96)
ii) P(X ≥ 0)
iii) P(X ≥ 2,45)
iv) P(‐1,64 ≤ X≤ 1,64).
EJERCICIO 4.13
Bajo el supuesto de que X~N(0,1), determinar el valor de a tal que:
i) P(X≤ a) = 0,025 ii) P(X ≥ a) = 0,975 iii) P(X≤ a) = 0,90
iv) P(X ≥ a) = 0,10 v) P(X≤ a) = 0,6844 vi) P(X ≤ a) = 0,1075
vii) P(X ≥ a) = 0,0668 viii) P(X ≥ a) = 0,8554 ix) P(X ≥ a) = 0,20.
142
Distribución de Variables Aleatorias
EJERCICIO 4.14
Calcular las siguientes probabilidades:
i) P(χ216<9,31)
ii) P(χ29>6,39)
iii) P(17,1<χ223<22,33)
EJERCICIO 4.15
Encontrar el valor de χ20 si la P(χ232>χ20) = 0,05.
EJERCICIO 4.16
En una variable con distribución t de Student con 11 grados de libertad, calcular las
siguientes probabilidades:
i) P(t< ‐0,697),
ii) P(‐1,796< t < 4,437),
EJERCICIO 4.17
Encontrar el valor de t0 si la P(t <t0) = 0,99, con 11 grados de libertad.
EJERCICIO 4.18
En una distribución F con 5 y 7 grados de libertad, calcular:
i) P(F< 5,29),
ii) P(3,97< F < 9,52).
143
Distribución de Variables Aleatorias
RESOLUCIONES EJERCICIOS 4.1 AL 4.18
EJERCICIO 4.1
i. n=10 y p= 0,20
n!
ii. P(X=3) = p x (1 − p) n− x
X !(n − X )
10!
iii. P(X=3) = ⋅ 0,23 ⋅ 0,87
3!⋅7!
= 0,2013
iv. P(X=6) = 0,0055
v. P(X=1) = 0,2684
EJERCICIO 4.2
E(X) = np Var(X) = npq
E(X) = 20 . 0,70 Var(X) = 20 . 0,70 . 0,30
E(X)= 14 Var(X)= 4,2
EJERCICIO 4.3
p = 0,3 n = 12 q = 0,7
12!
i. P(X=6) = ⋅ 0,36 ⋅ 0,76
6!⋅6!
P(X=6) = 0,0792
ii. E(X) = np
E(X) = 12 . 0,3
E(X)= 3,6 (entre 3 y 4 pacientes)
144
Distribución de Variables Aleatorias
EJERCICIO 4.4
n = 6 p = 0,51 q = 0,49 p =probabilidad de ser varón; q = es probabilidad de ser mujer
i) P(X ≤ 5) = 1 – P(X = 6)
6!
= 1 – ⋅ 0.516 ⋅ 0,490
6!⋅0!
= 1‐ 0,0175
= 0,9825
ii) P(X ≥1) = 1 – P(X = 0)
6!
= 1 – ⋅ 0,510 ⋅ 0,496
0!⋅6!
= 1‐ 0,01384
= 0,9861
EJERCICIO 4.5
λ = 0,5
e −λ λk
P( X = k ) =
k!
e −0.5 0.50
P( X = 0) =
0!
= 0,606
EJERCICIO 4.6
n =150 p =0,03
e −4.5 4,55
i) P( X = 5) =
5!
= 0,1708
ii) E (X) = λ
λ = np
145
Distribución de Variables Aleatorias
= 4,5
Se espera que entre 4 y 5 pacientes mueran al cabo de un año.
EJERCICIO 4.7
i) 0,94
ii) 1 – P( Z ≥ 2,1) = 1 – 0,98 = 0,02
iii) 1 – P( Z ≥ 1,05) = 1 – 0,85 = 0,15
iv) 0,98
v) P (Z ≤ 1,6) – P (Z ≤ ‐1,6) = 0,94 – 0,05 = 0,89
vi) P (Z ≤ 1,5) – P (Z ≤ 0,35) = 0,93 – 0,63 = 0,30
vii) P (Z ≤ ‐0,5) – P (Z ≤ ‐2) = 0,30 – 0,02 = 0,28.
EJERCICIO 4.8
Se debe estandarizar.
X −μ
Z= , N (68, 25), μ = 68 Kg, σ = 5 Kg.
σ
I. P(60<X<70)=P (X ≤ 70) – P (X ≤ 60). Luego, estandarizando:
⎛ X − 68 70 − 68 ⎞ ⎛ X − 68 60 − 68 ⎞
P (60 < X < 70) = P⎜ ≤ ⎟ − P⎜ ≤ ⎟
⎝ 5 5 ⎠ ⎝ 5 5 ⎠
= P (Z ≤ 0,4) – P (Z ≤ ‐1,6)=0,65542 – 0,05480 = 0,6.
Existe una probabilidad igual a 0,60 de que las mujeres adultas pesen entre 60 y 70
kilogramos.
⎛ X − 68 75 − 68 ⎞
P (X ≥ 75) = 1 − P⎜ ≤ ⎟ = 1 − P (Z ≤ 1,4 ) = 1 − 0,91924 = 0,08.
⎝ 5 5 ⎠
Existe una probabilidad igual a 0,08 de que las mujeres adultas pesen más de 75
kilogramos.
II. P (X ≤ 68) =
146
Distribución de Variables Aleatorias
⎛ X − 68 68 − 68 ⎞
P⎜ ≤ ⎟ = P (Z ≤ 0 ) = 0,50
⎝ 5 5 ⎠
Existe una probabilidad igual a 0,5 de que las mujeres adultas pesen menos de 68
kilogramos.
i) P (X ≤ 78) – P (X ≤ 58) =
⎛ X − 68 78 − 68 ⎞ ⎛ X − 68 58 − 68 ⎞
= P⎜ ≤ ⎟ − P⎜ ≤ ⎟
⎝ 5 5 ⎠ ⎝ 5 5 ⎠
= P (Z ≤ 2) – P (Z ≤ ‐2) = 0,97725 – 0,02275 = 0,95
Existe una probabilidad igual a 0,95 de que las mujeres adultas pesen entre 58 y 78
kilogramos.
EJERCICIO 4.9
N(30, 36), μ = 30 gramos, σ = 6 gramos.
i) P (X ≤ 36) – P (X ≤ 24)
⎛ X − 30 36 − 30 ⎞ ⎛ X − 30 24 − 30 ⎞
P (X ≤ 36) - P (X ≤ 24) = P⎜ ≤ ⎟ − P⎜ ≤ ⎟
⎝ 6 6 ⎠ ⎝ 6 6 ⎠
= P (Z ≤ 1) – P (Z ≤ ‐1) = 0,84134 – 0,15886 = 0,68.
Existe una probabilidad igual a 0,68 de que un individuo consuma entre 24 y 36 gramos
de grasa por día.
⎛ X − 30 30 − 30 ⎞
ii) 1 − P⎜ ≤ ⎟ = 1 − P (Z ≤ 0 )
⎝ 6 6 ⎠
= 1 – 0,50 = 0,50
Los individuos tienen un 0,5 de probabilidad de que el consumo diario de grasa sea mayor
o igual a 30 gramos.
147
Distribución de Variables Aleatorias
⎛ X − 30 30 − 30 ⎞
iii) P⎜ ≤ ⎟ = 0,50
⎝ 6 6 ⎠
Los individuos tienen un 0,5 de probabilidad de consumir diariamente 30 gramos o menos
de grasa.
⎛ X − 30 36 − 30 ⎞
P⎜ ≤ ⎟ =0,84134
⎝ 6 6 ⎠
Hay un 0,84 de probabilidad de que los individuos tengan un consumo diario de grasa
menor o igual a 36 gramos.
⎛ X − 30 24 − 30 ⎞
i) 1 − P⎜ ≤ ⎟ = 1 − P (Z ≤ −1)
⎝ 6 6 ⎠
= 1 – 0,15866 = 0,84134
Hay un 0,84 de probabilidad de que los individuos tengan un consumo diario de grasa
mayor o igual a 24 gramos.
EJERCICIO 4.10
μ = 10 meses y σ = 7 meses.
⎛ X − 10 24 − 10 ⎞
i) P (X ≥ 24)= 1 − P⎜ ≤ ⎟ = 1 – P (Z ≤ 2)
⎝ 7 7 ⎠
= 1 – 0,97725
= 0,02275
Hay 0,022 de probabilidad de que los niños sean amamantados por más de 24 meses.
ii) P (X ≤ 2)=
⎛ X − 10 2 − 10 ⎞
P⎜ ≤ ⎟ = P (Z ≤ -1,14) = 0,125.
⎝ 7 7 ⎠
Hay 0,125 de probabilidad de que los niños sean amamantados por 2 meses o menos.
EJERCICIO 4.11
i) P (X ≥ 3000)=
148
Distribución de Variables Aleatorias
X∼N (0;1)
i) P(X ≤ ‐1,96) = 0,025
P
Normal(0,1): p(evento)=0,0250
0,40
0,30
0,20
0,10
0,00
-5,00 -2,50 0,00 2,50 5,00 X
149
Distribución de Variables Aleatorias
ii) P(X ≥ 0) = 1 –P(X ≤ 0)
= 0,5
P Normal(0,1): p(evento)=0,5000
0,40
0,30
0,20
0,10
0,00
-3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 X
iii) P(X ≥ 2,45) = 1 – P(X ≤ 2,45)
= 1 – 0,99
= 0,01
P 0,40 Normal(0,1): p(evento)=0,0071
0,30
0,20
0,10
0,00
-3,00 -2,00 -1,00 0,00 1,00 2,00 3,00
X
150
Distribución de Variables Aleatorias
iv) P(‐1,64 ≤ X ≤ 1,64) = P(X ≤ 1,64) – P(X ≤ ‐1,64)
= 0,94 –0,05
= 0,89
P Normal(0,1): p(evento)=0,8990
0,40
0,30
0,20
0,10
0,00
-3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 X
EJERCICIO 4.13
i) P(X ≤ a) = 0,025 → a = ‐1,95
ii) P(X ≥ a) = 0,975
1 – P(X ≤ a) = 0,975
P(X ≤ a) = 1 – 0,975
= 0,025. Luego, a = ‐1,96
iii) P(X ≤ a) = 0,9, entonces a = 1,3
iv) P(X ≥ a) = 0,1
= 1 – P(X ≤ a)
= 0,1
P(X ≤ a) = 1 – 0,1
= 0,9, luego a = 1,3
v) P(X ≤ a) = 0,6844, luego a = 0,45
vi) P(X ≤ a) = 0,1075, entonces a = ‐1,3
vii) P(X ≥ a) = 0,0668
= 1 – P(X ≤ a)
= 0,0668
P(X ≤ a) = 1 – 0,0668
151
Distribución de Variables Aleatorias
= 0,9332, y entonces a = 1,5
viii) P(X ≥ a) = 0,8554
1 – P(X ≤ a) = 0,8554
P(X ≤ a) = 1 – 0,8554
= 0,1446. Así a = ‐1,1
ix) P(X ≥a) = 0,2
1 – P(X ≤ a) = 0,2
P(X ≤ a) = 1 – 0,2
= 0,8. Luego, a = 0,85
EJERCICIO 4.14
i) P(χ216<9,31) = 0,1
Chi cuadrado(16): p(evento)=0.0999
P 0.07
0.06
0.04
0.02
0.00
0.00 11.07 22.14 33.21 44.28
X
La Probabilidad de que χ sea menor a 9,31 es 0,1, con 16 grados de libertad.
2
ii) P(χ29>6,39) = 1 ‐ P(χ29<6,39)
= 1 – 0,3
= 0,7
152
Distribución de Variables Aleatorias
0.08
0.05
0.03
0.00
0.00 7.55 15.11 22.66 30.21
X
La Probabilidad de que χ sea mayor a 6,39 es 0,7, con 9 grados de libertad.
2
iii) P( 17,1<χ223 < 22,33) = P(χ223 < 22,33) ‐ P(χ223 <17,1)
= 0,5 – 0,2
= 0,3
P 0.06
Chi cuadrado(23): p(evento)=0.3039
0.05
0.03
0.02
0.00
0.00 14.23 28.46 42.68 56.91
X
La Probabilidad de que χ esté entre17,1 y 22,33 es 0,3, con 23 grados de libertad.
2
EJERCICIO 4.15
Si P(χ232>χ20) = 0,05
1 ‐ P(χ232<χ20) = 0,05
P(χ232<χ20) = 0,95
entonces χ20= 46,19
EJERCICIO 4.16
i) P(t11< 0,697) = 0,25
153
Distribución de Variables Aleatorias
T Student(11): p(evento)=0.2501
0.39
P
0.29
0.20
0.10
0.00
-5.53 -2.76 0.00 2.76 5.53 X
La Probabilidad de que t sea menor a 0,697 es 0,25, con 11 grados de libertad.
ii) P(‐1,796< t < 4,437) = P(t< 4,437) ‐ P(t< ‐1,796)
= 0,9995 – 0,05
= 0,9495
T Student(11): p(evento)=0.9495
0.39
P
0.29
0.20
0.10
0.00
-5.53 -2.76 0.00 2.76 5.53
X
La Probabilidad de que t esté entre ‐1,796 y 4,437 es 0,9495, con 11 grados de libertad.
EJERCICIO 4.17
P(t < t0) = 0,99. Luego, t0 = 2,718.
EJERCICIO 4.18
En una distribución F con 5 y 7 grados de libertad, calcular:
i) P(F< 5,29) = 0,975
154
Distribución de Variables Aleatorias
F de Snedecor(5,7,0): p(evento)=0.9751
0.7
P
0.5
0.3
0.2
0.0
0.00 2.37 4.74 7.11 9.48
X
ii) P(3,97< F < 9,52)
P(3,97< F < 9,52) = P(F< 9,52) ‐ P(F< 3,97)
= 0,995 – 0,95
= 0,045
La Probabilidad de que F esté entre 3,97 y 9,52 es 0,045.
F de Snedecor(5,7,0): p(evento)=0.0450
0.7
P
0.5
0.3
0.2
0.0
0.00 2.37 4.74 7.11 9.48
X
155
156
CAPÍTULO 5: INTRODUCCIÓN A LA INFERENCIA
ESTADÍSTICA
157
158
Introducción a la Inferencia Estadística
En los capítulos previos se presentaron contenidos que permitían calcular
probabilidades de sucesos relacionados con variables que seguían distribuciones de
parámetros conocidos previamente (μ, σ, p, entre otros). No obstante, es común que en
la realidad no se conozcan los parámetros, ya que ellos provienen de la población (peso
promedio de los niños que nacen en la Argentina, proporción de niños con diabetes de
Latinoamérica, etc). Realizar la medición de la variable de interés para conocer el valor
exacto del parámetro en poblaciones de gran tamaño es prácticamente imposible. En
este caso, la única posibilidad es obtener una aproximación del parámetro y eso se realiza
a partir de una muestra.
Teoría del muestreo
En función del objetivo de obtener a partir de una muestra información de la
población, se define como muestreo al procedimiento mediante el cual se selecciona y
obtiene una parte o subconjunto de la población. Por lo tanto el término muestra se
referirá a aquel subconjunto de unidades que forman parte de la población, denotándose
con N al tamaño de la población y con n al tamaño de la muestra.
Es fundamental que la muestra nos brinde información certera sobre la población, por
lo tanto se debe planificar y diseñar la forma de extraer la misma. Por ello, para evaluar la
calidad de un diseño de muestra es importante considerar su representatividad. Sin
embargo, nunca puede tenerse la completa seguridad de que la muestra será totalmente
representativa, ya que en las investigaciones siempre se trabaja en condiciones en las que
existe la posibilidad de cometer errores.
Los diseños de muestreo se clasifican en 1) probabilísticos y 2) no probabilísticos. El
muestreo probabilístico se basa en diferentes formas de selección aleatoria de los
elementos o unidades que conformarán la muestra. En el caso del muestreo no
probabilístico, las unidades muestrales se eligen mediante técnicas no aleatorias, por lo
que no todos los elementos de la población tienen la misma posibilidad de que se los
incluya en la muestra.
159
Introducción a la Inferencia Estadística
Muestreo probabilístico
Como se dijo anteriormente, la característica que lo distingue es la extracción aleatoria
(al azar) de los elementos de la población. En el caso que ésta sea finita, cada uno de los
elementos de la población tiene la misma posibilidad de ser incorporado a una muestra.
Los principales métodos de muestreo probabilístico son el aleatorio simple, el
aleatorio estratificado, el de conglomerados y el sistemático.
Muestreo Aleatorio Simple (M.A.S)
Este tipo de muestreo es el más aconsejado, usado y menos costoso aunque no se
adapta a todas las situaciones.. Permite, a partir de la identificación de toda la población,
obtener la muestra en la cual cada uno de los integrantes de aquella tenga la misma
chance de ser parte de la muestra. El procedimiento para obtener una muestra aleatoria,
consiste en numerar en forma consecutiva los elementos o unidades de la población y
luego con la utilización de una tabla de números aleatorios extraer el número deseado de
unidades que conformarán la muestra según el tamaño deseado. Así, la muestra obtenida
de esta manera no se encuentra sujeta a sesgos por parte del investigador ya que no hay
posibilidades de que intervengan preferencias personales. Si bien este tipo de muestreo
no asegura que la muestra sea representativa de la población, si asegura que las
diferencias en las características de la muestra y de la población se deben por completo al
azar.
Una de sus desventajas es que se debe conocer a todos los individuos de la población,
además, cuando los individuos de la población no son fijos (rotan, emigran, etc.); no se
puede saber con certeza su tamaño (N).
Ejemplo:
Estudio sanitario de niños hasta 10 años de la ciudad de Córdoba, donde el N =
1500000. Se enumera y elije al azar una muestra cuyo n = 3000.
160
Introducción a la Inferencia Estadística
Muestreo Aleatorio Estratificado (M.A.E.)
Este diseño de muestreo consiste en dividir a la población en estratos o subgrupos
dentro de cada uno de los cuales se selecciona de manera aleatoria el número de
elementos deseado. La estratificación puede realizarse en base a una gran variedad de
características, como edad, sexo, raza, entre otros. Los estratos deben ser internamente
homogéneos en cuanto a los atributos de los que se desea obtener información.
Hay que considerar que este tipo de muestreo no puede ser posible si no se cuenta
con la información necesaria acerca de las características de la población en cuanto a las
variables a estudiar y al igual que en el muestreo aleatorio simple, se necesita de
múltiples listas numeradas.
Muestreo por Conglomerados (M.C.)
Este diseño consiste en un sucesivo muestreo aleatorio de unidades de distinta
extensión. Es de gran utilidad porque muchas veces es imposible obtener una lista de
todos los elementos de una población, no se los puede tener numerados pero se conoce
algo de los mismos.
Las primeras unidades que se muestrean son grandes grupos a los que se denomina
conglomerados. Por ejemplo, si se quiere obtener una muestra de estudiantes de
nutrición, se comenzaría con una extraer una muestra aleatoria de las escuelas de
nutrición, posteriormente se extraería una muestra aleatoria de estudiantes de las
escuelas seleccionadas. Generalmente, este procedimiento se utiliza para seleccionar una
muestra general de ciudadanos y consiste en obtener muestras sucesivas de unidades
administrativas (ciudades, escuelas, dispensarios, barrios).
Otro ejemplo: Se quiere estudiar a todos los niños de 9 años de la ciudad de Córdoba.
En este caso no se tienen identificados los niños de 9 años en Córdoba, pero sí a las
familias. Luego, se extrae una muestra aleatoria simple de las familias (conglomerados), y
sólo quedan en la muestra aquellas familias que tienen niños de 9 años.
En determinados casos, suele contener más errores de muestreo que los de tipo
simple o estratificado, pero pese a esto, es mucho más práctico que otros tipos de
muestreo probabilístico, en especial cuando la población es grande y se encuentra
161
Introducción a la Inferencia Estadística
dispersa.
Muestreo Aleatorio Sistemático (MS)
Este tipo de muestreo consiste en seleccionar como elemento muestral cada i‐ésimo
caso de una lista de grupos, por ejemplo cada décima persona de una lista de estudiantes
o cada centésima persona que aparezca en una lista de números telefónicos.
Los diseños de muestreo sistemático pueden aplicarse de tal forma que permiten
obtener una muestra en esencia aleatoria. En general puede seguirse el siguiente
procedimiento: se establece en el tamaño deseado de la muestra (n), al mismo tiempo
debe conocerse el tamaño de la población (N). Las N unidades deben ordenarse de 1 a N
en un cierto orden (creciente o decreciente).Al dividir N/n se obtiene la amplitud de
intervalo que va a ser la pauta de la distancia entre los elementos que se seleccionarán
para la muestra. Por ejemplo se quiere obtener una muestra de 100 elementos de una
población de 100000, si 100000 / 100 = 1000 entonces se incluirá en la muestra un
elemento de cada 1000 elementos de la población. El primer elemento se seleccionará al
azar mediante una tabla de números aleatorios y para seleccionar los siguientes se irá
sumando de a 1000. Por ejemplo si el primer elemento incluido es el que se encuentra en
el lugar 55, entonces los siguientes serán 1055, 2055 y así sucesivamente hasta alcanzar el
tamaño muestral.
En la mayoría de los casos este tipo de muestreo se prefiere al aleatorio simple porque
más allá de obtener los mismos resultados, lo hace de manera más conveniente y eficaz.
Esta técnica es ampliamente utilizada en el área de investigación en Ciencias de la Salud.
Es importante recordar que conviene trabajar con muestras seleccionadas
sistemáticamente cuando la estructura de la población es independiente del elemento
que se mide. Si esto no ocurre, conviene seleccionar una muestra aleatoria simple.
Muestreo no probabilístico
Con este diseño de muestreo se generan muestras menos precisas y representativas
de la población. Ninguna de las herramientas estadísticas para obtener inferencia
162
Introducción a la Inferencia Estadística
estadística puede aplicarse a estos tipos de muestreos ya que no se dispone de ningún
criterio con rigor para basar dicha metodología. Los tres métodos de muestreo no
probabilístico son el muestreo por conveniencia, el muestreo por cuotas y el intencional.
Muestreo por conveniencia
Este tipo de muestreo implica la utilización de una muestra integrada por
determinados elementos cuya disposición para ser incorporados es más conveniente. El
problema radica en que muchas veces los elementos adecuados no representan a la
población con respecto a las variables en estudio, y en consecuencia los resultados
obtenidos a partir de este tipo de muestreo no se pueden extrapolar a la población.
Muestreo por cuotas
En este diseño, se identifican estratos de la población y se establece la proporción de
elementos necesarios a partir de los distintos segmentos estratificados. Se determina la
representación en la muestra en las mismas proporciones en que se presentan los
diferentes sectores en la población. Si por ejemplo se tiene como población 1500
individuos, de los cuales 600 son hombres (40%) y 900 son mujeres (60%) y para una
determinada investigación se desea una muestra de 600 individuos; la misma será
constituida por un 40% de hombres (240) y un 60% de mujeres (360).
El muestreo por cuotas no necesita de técnicas complejas ni conlleva demasiado
tiempo o esfuerzo.
Muestreo intencional
Aquí, el investigador utiliza su conocimiento acerca de la población para elegir los
casos que quedarán incluidos en la muestra. Este tipo de muestreo suele utilizarse
cuando se busca por ejemplo, una muestra de especialistas o expertos en medidas
antropométricas.
Ejercicio de aplicación: 5.1
163
Introducción a la Inferencia Estadística
Parámetros y Estadísticos
Se llaman parámetros a las características que describen la distribución de una variable
aleatoria. Aquellas medidas obtenidas a partir de una muestra aleatoria de variables
idénticamente distribuidas que intentan aproximar a los parámetros se llaman
estadísticos o estimadores. La evaluación de los estadísticos con los datos de una muestra
se denomina estimación muestral del parámetro.
Población: Parámetros Muestra: Estadísticos o
Estimadores
Media: μ Media muestral: X
Varianza Poblacional: σ
2 2
Varianza muestral: S
Desvío estándar poblacional: σ Desvío estándar muestral: S
Proporción poblacional: p Proporción muestral:
Distribuciones de muestreo
Si en base a una muestra se va a hacer una estimación de las características de la
población, es conveniente que esta muestra sea obtenida de manera que resulte
164
Introducción a la Inferencia Estadística
representativa de la población. Las muestras aleatorias son en este sentido la forma más
eficaz de obtener muestras representativas. Los procedimientos llevados a cabo en
Inferencia Estadística siempre suponen un muestreo aleatorio de la población.
Supongamos que se tiene una población de 400 estudiantes de Nutrición que
realizaron el cursillo introductorio y que la media de las puntuaciones obtenidas es 5
puntos, con un desvío estándar de 1,5 puntos. Si la población fuese mayor, tal vez sería
menos simple y probable conocer los valores de estos dos parámetros que caracterizan a
la variable puntuación. Supongamos ahora, que se desconocen estos parámetros,
debiendo ser estimados a partir de una muestra aleatoria de 16 estudiantes. En esta
situación, resultaría prácticamente improbable obtener el valor exacto de la puntuación
en la población. De esa muestra se registra una media de 6,5 puntos. Si se extrae una
nueva muestra aleatoria, distinta a la anterior (de la misma población), supongamos que
la media muestral es de 5,75 puntos. Si continuamos con este proceso indefinidamente,
lo más probable es que encontremos fluctuación de los valores o estimaciones de
muestra en muestra. Esto es representado por el error estándar (desvío estándar de la
variable Media Muestral).
Generalmente en investigaciones se trabaja con una muestra y en base a los datos
obtenidos de ella se calculan los valores estadísticos y se extraen las inferencias
correspondientes. De la población de 400 estudiantes de nutrición se extrae una muestra
de 16 y se calcula la media, se reemplazan los 16 estudiantes y se extrae una nueva
muestra y así sucesivamente; cada media calculada debe ser considerada como un
conjunto independiente de datos. Con estos datos se podría construir el gráfico
correspondiente.
165
Introducción a la Inferencia Estadística
Variable aleatoria
“media muestral del P (X=x)
promedio de notas”
3,5 1 . 1/16 = 0,0625
4 2 . 1/16 = 0,125
4,5 3 . 1/16 = 0,1875
5 4 . 1/16 = 0,25
5,5 3 . 1/16 = 0,1875
6 2 . 1/16 = 0,125
6,5 1 . 1/16 = 0,0625
0.3
0.25
0.2
f(x)0.15
0.1
0.05
0
3.5 4 4.5 5 5.5 6 6.5
Medias muestrales
Figura 1. Función de densidad de la variable aleatoria en estudio.
Este tipo de distribución de frecuencias se llama distribución de muestreo de la media
y más que una distribución real, constituye una distribución teórica, considerando que
nunca se realiza la extracción consecutiva de distintas muestras de la población y
tampoco se grafican sus medias.
Error estándar de la media
Es la desviación estándar de las medias. Se habla de error porque cuando las distintas
medias son incorporadas en la distribución de muestreo se supone un cierto error en
166
Introducción a la Inferencia Estadística
relación a la estimación de la media de la población. Se habla de estándar porque se
indica la magnitud del error o promedio.
Las medias muestrales son más precisas como estimadores del valor de la población
cuando el error estándar es pequeño, es decir, cuanto más pequeña sea su variación.
La desviación estándar de la población se estima a partir de la desviación estándar de
la muestra.
Siguiendo con el ejemplo anterior:
σ2 1,5 2
EE = = = 0,375
n 16
A partir de resultados teóricos podemos afirmar que con un tamaño muestral de 16
estudiantes, las oportunidades de que cualquier media muestral se ubique entre 4,62 y
5,37 son de aproximadamente 68 en 100; de que se ubique entre 4,25 y 5,75 son de
aproximadamente 95 en 100, lo que significa que sólo 5 de 100 veces podría extraerse
una muestra cuya media superara los 5,75 puntos o cuya media fuera inferior a los 4,25
puntos.
Para incrementar la exactitud de la estimación, partiendo del cálculo del error
estándar, solamente basta con aumentar el tamaño de la muestra. Si por ejemplo en vez
de 16 estudiantes se hubiesen tomado 95 estudiantes:
σ2 1,5 2
EE = = = 0,154
n 95
Entonces se puede decir que a medida que se incrementa el tamaño muestral, las
probabilidades de extraer una muestra con una media muy diferente a la de la población
se reducen significativamente.
Teorema Central del Límite
El teorema central del límite, estudia el comportamiento de la suma de variables
aleatorias, cuando crece el número de sumandos, asegurando su convergencia hacia una
distribución normal en condiciones muy generales. Este teorema, tiene una gran
167
Introducción a la Inferencia Estadística
aplicación en inferencia estadística, pues muchos parámetros de diferentes distribuciones
de probabilidad, como la media, pueden expresarse en función de una suma de variables.
Permite también aproximar muchas distribuciones de uso frecuente: binomial, Poisson,
chi cuadrado, t‐student, gamma, etc., a la distribución normal.
Considerando X una variable aleatoria con esperanza μ y varianza σ2, considerando Xn
como la media muestral de una muestra aleatoria de tamaño n y Zn como la variable
aleatoria definida como:
Xn − μ
Zn = .
σ/ n
Entonces la distribución de Zn se aproxima a la distribución normal estándar cuando n
se aproxima a infinito.
Teoría de la Estimación
Si se tiene una distribución normal y se conocen su media y su varianza, se pueden
determinar las probabilidades de varios eventos de interés en relación a la distribución de
sus valores. Por lo general, el problema radica en que se desconocen los parámetros que
pertenecen a la población original y por lo tanto se deben averiguar, partiendo de la
información obtenida de una muestra aleatoria única, lo máximo posible acerca de ellos.
Dada una muestra se puede determinar una estimación para el parámetro
desconocido o un intervalo de valores dentro del cual se tiene la confianza que se
encuentre el parámetro.
La Estimación de Parámetros y la Prueba de Hipótesis son dos ramas importantes de la
Inferencia Estadística.
Procedimientos de Estimación:
a) Estimación Puntual
b) Estimación por Intervalos
168
Introducción a la Inferencia Estadística
Estimación Puntual
La estimación puntual es un proceso mediante el cual se aproxima al valor del
parámetro mediante una única estimación (un punto). Se debe calcular un estadístico con
el objetivo de estimar el parámetro de la población. Recordemos que un estimador
puntual es una función de la variable aleatoria que se aproxima al valor del parámetro.
Ejemplos: la media muestral y la mediana muestral pueden utilizarse como
estimadores puntuales de la media poblacional. La desviación estándar muestral es un
estimador puntual de la desviación estándar de la población. Una frecuencia relativa
puede ser un estimador puntual de la probabilidad.
En síntesis, se puede decir que se está frente a una estimación por puntos cuando
partiendo de la información de una muestra aleatoria, se determina un sólo valor
numérico que constituya un buen indicador del valor del parámetro.
Propiedades de los estimadores
1) Insesgamiento
2) Consistencia
3) Eficiencia
1) Un estimador tiene la propiedad de ser insesgado si para cualquier tamaño
muestral, su media o valor esperado es igual al parámetro que se estima.
2) Se dice que un estimador b para un parámetro β es consistente si el valor del
estimador se aproxima al del parámetro en la medida que el tamaño de la muestra tiende
a infinito o crece.
3) Se dice que un estimador es eficiente si de varios posibles estimadores para un
mismo parámetro hay uno cuya distribución tenga menor varianza que el resto. Por
ejemplo, la media muestral y la mediana muestral estiman al mismo parámetro μ; sin
169
Introducción a la Inferencia Estadística
embargo, se puede demostrar que la varianza de la media muestral es menor que la
varianza de la mediana muestral, por lo tanto la media es más eficiente que la mediana.
Estimación por Intervalo
Es un procedimiento mediante el cual se puede afirmar, con una determinada
probabilidad, que el intervalo (a,b) encierra el verdadero valor del parámetro.
Con esta estimación se calcula a partir de una muestra, el intervalo o rango de valores
dentro del cual se encuentra el parámetro con una confianza previamente establecida.
Los intervalos estimados reciben el nombre de intervalos de confianza y los límites
inferior y superior del mismo se denominan límites de confianza.
El objetivo del procedimiento de estimación por intervalo es encontrar un intervalo
cerrado [LI , LS] donde se estima se encontrará el parámetro poblacional (θ):
P (LI ≤θ≤ LS) = 1 ‐ α.
donde (1 ‐ α) es el coeficiente de confianza y representa la confianza de la estimación.
Establecer el grado de confianza, es determinar la probabilidad de que esos sean los
límites del intervalo para el parámetro en estudio. En cierta manera es arbitrario, pero en
general se utilizan valores de confianza altos como del 0,95 y del 0,99, establecidos por el
investigador.
Para la construcción del intervalo se necesita:
)
a) Una función continua g(. , .) que relacione el parámetro θ y su estimador θ ,
)
quedando g (θ , θ )
)
b) Que g (θ , θ ) tenga una función de distribución F, entonces
)
P (q1≤ g (θ ; θ ) ≤ q2 ) = 1 ‐ α,
donde q1 corresponde al cuantil α/2 y q2 corresponde al cuantil (1 ‐ α/2) de la
distribución de la variable en estudio de la cual θ es el parámetro desconocido.
170
Introducción a la Inferencia Estadística
Estimación por intervalo de la media de la distribución de una variable aleatoria normal
Para realizar estimaciones de este parámetro es importante verificar en primera
medida los datos con los que se cuenta, ya que de ello dependerá la metodología a
utilizar para realizar las estimaciones. En este caso deben distinguirse dos situaciones:
1) Se conoce la varianza poblacional (σ2)
2) No se conoce la varianza poblacional (σ2).Estimación cuando se conoce la varianza
poblacional σ2
El procedimiento a seguir en esta situación es el siguiente:
1. Se relaciona μ y su estimador X :
g(μ,X) = (X ‐ μ) σ /n
2
,
donde:
9 σ2 es la varianza de la distribución.
9 n es el tamaño de la muestra a partir de la que se realiza la estimación.
2. La función de distribución F es en este caso N(0,1).
3. Se establece el nivel de confianza con el que se va a trabajar. Si es del 95% α = 0,05;
α/2 = 0,025; 1 ‐ α/2 = 0,975. Si la confianza es del 99% α = 0,01; α/2 = 0,005; 1 ‐ α/2 =
0,995.
4. Se obtienen los cuantiles q1 = Z (α/2) y q2 = Z (1 ‐ α/2)
donde Z = desviación de un valor con respecto de la media expresado en unidades de
desvío estándar. Trabajando con una confianza del 95%, q1 = Z (0,025) y q2 = Z (0,975)
Se busca en la Tabla de Cuantiles de la Distribución Normal Estándar (ver anexo) el
valor de Z que corresponde:
q1 = Z (0,025) = ‐ 1,96 y q2 = Z (0,975) = 1,96
5. El intervalo de confianza para la media poblacional es denotado [LI , LS] y se define
171
Introducción a la Inferencia Estadística
de la siguiente manera:
σ2 σ2
LI = X + Z (α / 2 ) ⋅ y LS = X + Z1−(α / 2) ⋅
n n
Ejercicios de aplicación: 5.2 a 5.3
Estimación cuando se desconoce la varianza poblacional σ2
En este caso se procede así:
1. La función g(μ,X) es modificada de manera tal que se sustituye σ2 por su estimador
S2.
2. Esto produce cambios en la función de distribución, la que ya no va a distribuirse
N(0,1) sino como una t (n‐1), donde n‐1 corresponden a los grados de libertad que
caracterizan a esta distribución.
Los grados de libertad se refieren al número de valores de la muestra que no pueden
ser calculados a partir de conocer otros valores, por ejemplo, si se conoce la media de
una muestra n, todos los valores menos 1 pueden variar con libertad.
3. Se establece el nivel de confianza con el que se va a trabajar.
4. Se obtienen los cuantiles q1 = t (α/2) y q2 = t (1 ‐ α/2)
Se busca en la Tabla de Cuantiles de la Distribución T (ver anexo) el valor de t que
corresponde según el nivel de confianza y los grados de libertad.
5. Por lo tanto, para obtener el intervalo cerrado [LI, LS] se prosigue de la siguiente
manera:
S2 S2
LI = X + t ( n−1);(α / 2 ) ⋅ y LS = X + t ( n−1);1−(α / 2) ⋅
n n
172
Introducción a la Inferencia Estadística
J Estimación por intervalo de la varianza de una distribución normal
En el caso que se necesite estimar la varianza poblacional, tenemos que:
a) Considerando que S2 es el estimador de σ2 para muestras de tamaño n, la función
g(. , .) puede expresarse como g (σ2, S2) = (n –1) S2/σ2
b) Se sabe que esta expresión se distribuye como una Chi 2 y que depende de sus
grados de libertad: χ2 n –1.
P
X
Figura 3. Función de densidad de la varianza de una distribución normal.
c) Siendo los cuantiles q1 = χ2(n – 1); (α/2) y q2 = χ2(n – 1); (1 ‐α/2)
d) Se obtiene entonces el intervalo cerrado [LI, LS] de la siguiente manera:
S 2 (n − 1) S 2 (n − 1)
LI = y LS =
q2 q1
Ejercicios de aplicación: 5.4 a 5.9
Amplitud de un intervalo
La amplitud de un intervalo es la diferencia entre el límite superior y el inferior del
173
Introducción a la Inferencia Estadística
mismo, a = LS –LI.
a: es la amplitud del intervalo
LS: Límite superior del intervalo
LI: Límite inferior del intervalo
Tamaño mínimo de la muestra, Inferencias sobre el valor esperado μ
Para calcular el tamaño mínimo muestral con el que se debe trabajar para hacer
inferencias o estimar la media poblacional, se debe considerar:
El nivel de confianza (1‐α), prefijado por el investigador. Éste permite obtener, en
función a la tabla de percentiles teóricos, el valor o coeficiente z(1‐α/2). Para un nivel de
confianza del 95%, éste valor es 1,96; para una del 99%, igual a 2,58.
La precisión d con que se desea estimar el parámetro, frecuentemente basada en la
amplitud del intervalo de confianza que se desea obtener, ya que 2.d es la amplitud.
La varianza σ de la variable aleatoria cuyo valor esperado se desea estimar.
2
Con esos datos, y a partir de la expresión de la amplitud de un intervalo de confianza, el
tamaño muestral resulta:
zα2 / 2σ 2
n= .
d2
Si esta expresión se la formula en términos de la amplitud directamente, se convierte en:
4.zα2 / 2σ 2
n= .
a2
Ejemplo:
Se desea estimar la media de la glucemia basal de una población, con una confianza
del 95 % y una precisión de ±3mg/dl. Para ello, se dispone de información proveniente de
un estudio piloto, la cual establece que la varianza es de 250 mg/dl. Luego,
1,96 2.250
n= = 106,7.
32
Cuando la varianza es desconocida y debe calcularse con información de una muestra,
la expresión de cálculo del tamaño muestral resulta:
174
Introducción a la Inferencia Estadística
Tamaño mínimo de la muestra, Inferencias en dos poblaciones
Si se desean estimar por intervalo y/o comparar medias o proporciones provenientes
de dos poblaciones y verificar hipótesis sobre éstas, es necesario que el diseño del
estudio considere el cálculo de tamaño muestral. Para ello, se precisa:
1. Conocer la magnitud de la diferencia a detectar que tenga interés relevante. Se
pueden comparar dos proporciones o dos medias, por ejemplo.
2. Disponer o proponer valores de los restantes parámetros (varianza, por ejemplo)
que caracterizan a la variable que se estudia (por bibliografía o estudios previos).
3. Conocer el nivel de confianza del estudio (o probabilidad de cometer un error de
tipo I).
4. Estar al tanto de la potencia del test o prueba estadística (1 ‐ β) (será introducida
en el Capítulo próximo).
5. Definir si la hipótesis es unilateral o bilateral:
Bilateral: Cualquiera de los dos parámetros a comparar (medias o
proporciones) puede ser mayor o menor que el otro. No se establece
dirección.
Unilateral: Cuando se considera que uno de los parámetros debe ser
175
Introducción a la Inferencia Estadística
mayor que el otro, indicando por tanto una dirección de las diferencias. La
hipótesis bilateral es una hipótesis más conservadora y disminuye el riesgo
de cometer un error de tipo I (rechazar la H0 cuando en realidad es
verdadera).
Para la comparación de dos proporciones, se utiliza la siguiente expresión, deducida del
intervalo de confianza para diferencia de proporciones (o del estadístico para prueba de
hipótesis para la diferencia de proporciones)
[ zα . 2( p(1 − p) + z β . ( p1 (1 − p1 ) + ( p2 (1 − p2 ) ]2
n= ,
( p1 − p2 )
donde n representa la cantidad de unidades muestrales en cada una de las muestras,
zα el percentil para un nivel de significación elegido, z β es el percentil especificando una
potencia o poder del test determinado para la prueba de hipótesis de diferencia entre
proporciones (ver cuadro A, abajo), pi representa al valor hipotético de la proporción para
la población i‐ésima, i=1,2, y p es la proporción promedio, esto es, p=(p1+p2)/2.
Cuando la diferencia se refiere a las medias muestrales (variables cuantitativas), la
expresión es semejante a la anterior
2.( zα + zβ ) 2 .σ 2
n= ,
d2
representando d a la distancia o valor mínimo de la diferencia que se desea detectar
cuando los datos son cuantitativos y σ 2 es la varianza de la variable cuantitativa que tiene
el grupo estándar o control (referencia) en la comparación de medias.
potencia) se indican en el Cuadro A.
176
Introducción a la Inferencia Estadística
Cuadro A: Valores de zα y z β para el cálculo de los tamaños muestrales en dos
poblaciones. Comparación de medias y de proporciones.
Zα
α Test unilateral Test bilateral
0,200 0,842 1,282
0,150 1,036 1,440
0,100 1,282 1,645
0,050 1,645 1,960
0,025 1,960 2,240
0,010 2,326 2,576
Potencia
β (1-β) Zβ
0,01 0,99 2,326
0,05 0,95 1,645
0,10 0,90 1,282
0,15 0,85 1,036
0,20 0,80 0,842
0,25 0,75 0,674
0,30 0,70 0,524
0,35 0,65 0,385
0,40 0,60 0,253
0,45 0,55 0,126
0,50 0,50 0,000
Ejemplos:
1) Se desea utilizar un nuevo fármaco para el control de la diabetes, considerándose
que éste sería clínicamente eficaz si lograse un descenso de 15 mg/dl respecto al
tratamiento habitual con el antidiabético estándar. Por estudios previos, se conoce que el
desvío estándar de la glucemia en pacientes que reciben el tratamiento habitual es de 16
mg/dl. Aceptando un riesgo de 0,05 y deseando una potencia del test estadístico de 90%
para detectar diferencias entre dichos fármacos (si es que existen), se calcula el tamaño
mínimo que debieran tener cada una de las dos muestras a diseñar. Esto es,
Es decir, se necesitan, por lo menos, 20 pacientes en cada grupo.
2) Se desea evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para el alivio
del dolor, por lo que se diseña un ensayo clínico. Se conoce, por datos previos, que la
177
Introducción a la Inferencia Estadística
eficacia del fármaco habitual está alrededor del 70% y se considera clínicamente
relevante si el nuevo fármaco alivia el dolor en un 90%. El nivel de significación a requerir
es fijado en 0,05 y la potencia o poder de la prueba estadística a desear, de un 80%. Así,
con esos valores p=0,80 y n resulta:
[ zα . 2( p(1 − p) + z β . ( p1 (1 − p1 ) + ( p2 (1 − p2 ) ]2
n= ,
( p1 − p2 )
1,645. 2.0,8.(1 − 0,8) + 0,842. 0,7.(1 − 0,7) + 0,9.(1 − 0,9)
=
(0,7 − 0,9) 2
= 48,
Es decir, en cada grupo se requerirán de 48 pacientes para llevar a cabo el ensayo.
Ejercicio de aplicación: 5.10
Relación entre Distribuciones Binomial, Poisson y Normal
Una propiedad importante de la distribución normal es que se puede aproximar a la
distribución Binomial y Poisson.
Se ha demostrado que si Xb ~ B(n,p), con n grande (n>30) y p no muy cercano a 0 ó
a 1, entonces la variable:
X b − np
Z ´= .
npq
se aproxima a la distribución normal estándar (resultado válido debido al teorema
central del límite). Así se puede calcular P(a ≤ Xb ≤ b) considerando a Xb∼ N (n p, ).
Del mismo modo, la distribución normal puede aproximarse a una distribución de
Poisson cuando λ>5, es decir Xp~N (λ, ).
Estimación por intervalo de la proporción de una distribución binomial.
Existen situaciones en las que se desea estimar el verdadero valor de la proporción
de éxitos (p), de una distribución binomial.
178
Introducción a la Inferencia Estadística
La proporción muestral (estimador del verdadero parámetro p a partir de la muestra)
X
es: pˆ =
n
Donde X es igual a la cantidad de éxitos del experimento o proporción muestral.
Teniendo en cuenta que la distribución binomial y la distribución normal se
encuentran relacionadas, específicamente para el caso en que el n es grande y p no está
próximo a 0 ó 1, la variable aleatoria X se distribuye aproximadamente normal. De este
modo, su esperanza y varianza se obtienen utilizando las propiedades E y V, siendo:
⎛ x⎞ 1
E ( pˆ ) = E ⎜ ⎟ = ∗ E( X ) = p
⎝n⎠ n
⎛ x⎞ ⎛x⎞ p * (1 − p )
y Var ( pˆ ) = Var ⎜ ⎟ = Var ⎜ ⎟ = .
⎝n⎠ ⎝n⎠ n
Por lo tanto
⎛ p ⋅ (1 − p ) ⎞ pˆ − p
p̂ ∼ N ⎜⎜ p, ⎟
⎟ entonces Z = ә N(0,1.
⎝ n ⎠ p ⋅ (1 − p )
n
Utilizando P(a ≤ X≤ b); entonces el intervalo de confianza para el parámetro p de nivel
(1‐α) está dado por
⎛ p ⋅ (1 − p ) p ⋅ (1 − p ) ⎞
P⎜⎜ pˆ − z < p < pˆ + z ⎟ = 1−α
⎟
⎝ n n ⎠
Donde z se obtiene de la tabla respectiva y considerando el nivel de confianza.
Así considerando que en cierta población se seleccionó aleatoriamente una
muestra de 300 personas a las que se les evaluó el estado nutricional. De ellas, 225
resultaron con preobesidad. Teniendo en cuenta esta información, estimar el porcentaje
de persona de esa población que presentaría preobesidad. Obtener, con un nivel de
confianza del 95%, un intervalo de confianza para la proporción.
El estimador puntual de p resulta p = X/n = 225/300 = 0,75 y por lo tanto el
179
Introducción a la Inferencia Estadística
intervalo de confianza es
Esto se interpreta: con un 95% de confianza se puede concluir que la proporción
de personas que presentan preobesidad es un valor que está entre el 0,7 y 0,79.
Ejercicio de aplicación: 5.11
180
Introducción a la Inferencia Estadística
EJERCICIOS DE APLICACIÓN 5.1 a 5.11
EJERCICIO 5.1
Se desea estudiar la incidencia de casos de dengue en una zona de la Ciudad de
Córdoba y observar si existe algún factor asociado al nivel socioeconómico que esté
afectando esta incidencia. ¿Qué tipo de muestreo realizaría teniendo en cuenta esta
situación?
EJERCICIO 5.2
Dada la relación entre sobrepeso y sedentarismo, se tomó una muestra de 90 hombres
adultos y se les preguntó, entre otras cosas, acerca de cuánto tiempo dedicaban a tareas
sedentarias como mirar televisión. Se obtuvo una media de 9 hs/día, conociéndose por
investigaciones anteriores que la varianza poblacional (σ2) es de 16 (hs / día)2.
i) Construir los intervalos de confianza del 95% y del 99% para μ.
ii) Interpretar los resultados obtenidos.
EJERCICIO 5.3
En una muestra aleatoria de 345 observaciones se obtiene una media muestral X =
125 con una varianza σ2 = 144.
i) Calcular el intervalo de confianza del 95% para la media poblacional.
ii) Calcular el intervalo de confianza del 99% para la media poblacional.
EJERCICIO 5.4
181
Introducción a la Inferencia Estadística
Muestra Media Desvío Estándar
1º 77,76 8,45
2º 74,46 5,27
3º 78,58 7,29
i) A partir de los datos muestrales construir, para cada muestra, un intervalo de
confianza del 95% para la media de la distribución.
ii) ¿Contienen los intervalos al parámetro en cuestión?
iii) Explique los resultados de lo ocurrido en el punto ii) a partir del significado de
la confianza.
EJERCICIO 5.5
El supervisor de una fábrica de cereales sospecha que pudo haber errores en el llenado
de las bolsas y teme que por esta razón no puedan salir a la venta. Para comprobarlo
selecciona una muestra aleatoria de 46 bolsas donde se determina una media de 780 g,
con una desviación estándar para la muestra de S = 6 g. El peso neto indicado en cada
bolsa es de 800 g.
i) Calcular si el intervalo de confianza al 95 % contiene el peso neto impreso en cada
bolsa.
ii) ¿Pueden salir estos cereales al mercado?
EJERCICIO 5.6
Un grupo de investigación desea estimar el porcentaje medio de sacarosa en la caña
de azúcar luego de habérsele aplicado un producto compuesto con sales de molibdeno y
otros metales que tienden a inhibir procesos enzimáticos. (Suponga que el porcentaje se
distribuye normalmente). Para ello fueron seleccionadas 7 plantas de caña de azúcar a las
cuales se les aplicó el producto, obteniéndose una media de 0,84 % de sacarosa y un
desvío de 0,18% de sacarosa.
i) Estimar el porcentaje medio de sacarosa con un 90 % de confianza.
ii) ¿Podría mejorar la precisión del intervalo de confianza (disminuir la amplitud
del intervalo) para el porcentaje medio de sacarosa? ¿Cómo lo realizaría?
182
Introducción a la Inferencia Estadística
EJERCICIO 5.7
Las edades de aparición de divertículos, para una muestra de 9 individuos con esa
dolencia, tiene una distribución normal con media 55 años y una desviación estándar de 4
años.
i) Encontrar un intervalo de confianza del 95 % para la media poblacional.
ii) Interpretar el resultado obtenido.
EJERCICIO 5.8
Se quieren dar a conocer los beneficios de una nueva bebida hipercalórica para niños
con bajo peso. Este producto tiene una varianza de aumento de la ingesta calórica de 64
calorías diarias2. Luego de evaluarlo en 22 niños con bajo peso, se encontró una varianza
de aumento de la ingesta energética de 49 Calorías2 diarias.
i) Con un nivel de confianza el 95% calcular los intervalos correspondientes
ii) Interpretar.
EJERCICIO 5.9
Los límites de confianza del 95% para la media de una población son 10 y 15. ¿Cuál de
las siguientes afirmaciones es correcta?
i) De 100 medias muestrales extraídas al azar de esta población cerca de 95 estarán
entre 10 y 15.
ii) De 100 medias poblacionales extraídas al azar de esta población cerca de 95
estarán entre 10 y 15.
i) El intervalo de 10 a 15 incluirá en un 95% de los casos la verdadera media
poblacional.
183
Introducción a la Inferencia Estadística
EJERCICIO 5.10
Se quiere estudiar la talla de niños pre‐escolares que concurren a un Jardín de Infantes
de una escuela rural del norte de la provincia de Córdoba. Para ello se seleccionan de
manera aleatoria 13 niños de ambos sexos y se obtiene una media de 110 cm,
conociéndose de investigaciones anteriores que la varianza para dicha variable es de 9
cm2.
i) Considerando una confianza del 99%, calcular la amplitud del intervalo para la
estimación de la media de la variable talla.
ii) Trabajando con el mismo nivel de confianza, y dada una amplitud de intervalo de 7
cm, ¿cuál debería ser el tamaño mínimo muestral?
EJERCICIO 5.11
El dueño de un supermercado desea comprar vegetales frescos envasados de una
cierta fábrica y antes de realizar la compra desea estimar la proporción de vegetales
afectados por Escherichia Coli en dicha fábrica. Para dar una respuesta al dueño de la
cabaña se seleccionaron al azar 20 bandejas de la fábrica registrándose si estaban o no
afectados con Escherichia Coli. Si de las 20 bandejas resultaron 15 contaminadas por
Escherichia Coli, fijando un nivel de confianza del 95%. ¿Cuál será el intervalo de
confianza de p?
184
Introducción a la Inferencia Estadística
RESOLUCIÓN EJERCICIOS 5.1 AL 5.11
EJERCICIO 5.1
Se podría realizar un muestreo por etapas. Primero, se realizaría un muestreo aleatorio
estratificado considerando la variable nivel socioeconómico para definir los estratos de
los barrios en la zona de interés. Posteriormente, dentro de cada estrato o nivel
socioeconómico, se efectuaría un muestreo aleatorio simple de los barrios que lo forman,
en los que se estudiará la incidencia de casos de dengue. De esta manera estarían
representados los tres niveles socioeconómicos y los barrios de la zona a investigar.
EJERCICIO 5.2
i) n= 90
X = 9 horas/día
σ2= 16 (horas/día)2
16 16
LI = 9 − 1,96 ⋅ LS = 9 + 1,96 ⋅
90 90
= 9 − 1,96 ⋅ 0,42 = 9 + 1,96 ⋅ 0,42
= 9 − 0,82 = 9 + 0,82
= 8,18 = 9,82
[8,18 ; 9,82] α 0,05
Interpretación: Con un 95% de confianza, se puede afirmar que todos los hombres
adultos pasan entre 8,18 y 9,82 horas/día, realizando actividades pasivas.
16 16
LI = 9 − 2,57 ⋅ LS = 9 + 2,57 ⋅
90 90
= 9 − 2,57 ⋅ 0,42 = 9 + 2,57 ⋅ 0,42
= 9 − 1,08 = 9 + 1,08
= 7,92 = 10,08
185
Introducción a la Inferencia Estadística
[7,92 ; 10,08] α 0,01
Interpretación: Con un 99% de confianza, se puede afirmar que todos los hombres
adultos pasan entre 7,92 y 10,08 horas/día, realizando actividades pasivas.
ii) Ambos intervalos, con sus respectivos niveles de confianza, contienen al
verdadero valor de la media poblacional de la cantidad de horas que los hombres
adultos pasan realizando actividades pasivas.
EJERCICIO 5.3
144 144
LI = 125 − 1,96 ⋅ LS = 125 + 1,96 ⋅
345 345
= 125 − 1,96 ⋅ 0,65 = 125 + 1,96 ⋅ 0,65
= 125 − 1,27 = 125 + 1,27
= 123,73 = 126,27
[123,73 ; 126,27] α 0,05
Interpretación: Con un 95% de confianza, se puede afirmar que la media poblacional se
encuentra entre 123,73 y 126,27.
ii)
144 144
LI = 125 − 2,57 ⋅ LS = 125 + 2,57 ⋅
345 345
= 125 − 2,57 ⋅ 0,65 = 125 + 2,57 ⋅ 0,65
= 125 − 1,67 = 125 + 1,67
= 123,33 = 126,67
[123,33 ; 126,67] α 0,01
Interpretación: Con un 99% de confianza, se puede afirmar que la media poblacional se
186
Introducción a la Inferencia Estadística
encuentra entre 123,33 y 126,67.
EJERCICIO 5.4
i) Muestra 1
71,4 71,4
LI = 77,76 − 2,13 ⋅ LS = 77,76 + 2,13 ⋅
16 16
= 77,76 − 2,13 ⋅ 2,11 = 77,76 + 2,13 ⋅ 2,11
= 77,76 − 4,49 = 77,76 + 4,49
= 73,27 = 82,25
IC [73,27; 82,25] α 0,05
Muestra 2
27,77 27,77
LI = 74,46 − 2,13 ⋅ LS = 74,46 + 2,13 ⋅
16 16
= 74,46 − 2,13 ⋅ 1,31 = 74,46 + 2,13 ⋅ 1,31
= 74,46 − 2,80 = 74,46 + 2,80
= 71,65 = 77,26
IC [71,65;77,26] α 0,05
Muestra 3
53,14 53,14
LI = 78,58 − 2,13 ⋅ LS = 78,58 + 2,13 ⋅
16 16
= 78,58 − 2,13 ⋅ 1,82 = 78,58 + 2,13 ⋅ 1,82
= 78,58 − 3,88 = 78,58 + 3,88
= 74,70 = 82,46
IC [74,70; 82,46] α 0,05
ii) Los intervalos de las muestras 1 y 3 contienen al parámetro en cuestión, en cambio el
intervalo de la muestra 2no.
iii) Al trabajar con un nivel de confianza del 95% (nivel de significación de 0,05) se está
aceptando que existe un 0,05 de probabilidad de que el parámetro no se encuentre
dentro del intervalo calculado. Este podría ser el caso del resultado observado en la
muestra 2.
187
Introducción a la Inferencia Estadística
EJERCICIO 5.5
i) n = 46
X = 780 gramos.
S2= 36 gramos2
36 36
LI = 780 − 2,014 ⋅ LS = 780 + 2,014 ⋅
46 46
= 780 − 2,014 ⋅ 0,88 = 780 + 2,014 ⋅ 0,88
= 780 − 1,77 = 780 + 1,77
= 778,23 = 781,77
[778,23 ; 781,77] α 0,05
ii) Los cereales no pueden salir a la venta, porque el intervalo de confianza obtenido
no incluye al verdadero peso de cada bolsa.
EJERCICIO 5.6
n = 7
X = 0,84
S = 0,18
i)
0,032 0,032
LI = 0,84 − 1,94 ⋅ LS = 0,84 + 1,94 ⋅
7 7
= 0,84 − 1,94 ⋅ 0,068 = 0,84 + 1,94 ⋅ 0,068
= 0,84 − 0,13 = 0,84 + 0,13
= 0,71 = 0,97
[0,71; 0,97] α 0,10
Con un 90% de confianza, el contenido medio de sacarosa de la caña de azúcar se
encuentra entre 0,71 y 0,97%.
188
Introducción a la Inferencia Estadística
ii) Si, la precisión del intervalo de confianza se puede mejorar aumentando el tamaño
de la muestra o disminuyendo el nivel de confianza.
EJERCICIO 5.7
i) n = 9
X = 55 años
S = 4 años
16 16
LI = 55 − 2,30 ⋅ LS = 55 + 2,30 ⋅
9 9
= 55 − 2,30 ⋅ 1,33 = 55 + 2,30 ⋅ 1,33
= 55 − 3,059 = 55 + 3,059
= 51,9 = 58,05
[52 ; 58] α 0,05
ii) Con un 95% de confianza se puede afirmar que la media de edad para la aparición
de divertículos se encuentra entre 52 y 58 años.
EJERCICIO 5.8
i)
n= 22
σ2= 64 Cal2
S2= 49 Cal2
Siendo los cuantiles
q1 = χ2(21); (0,025) = 10,28
q2 = χ2(21); (0,975) = 35,48
S 2 (n − 1) S 2 (n − 1)
LI = LS =
q2 q1
49 ⋅ (22 − 1) 49 ⋅ (22 − 1)
LI = LS =
35,48 10,28
LI = 29,0 LS = 100,1
189
Introducción a la Inferencia Estadística
[29,0 ; 100,1] α 0,05
ii) Si se pueden dar a conocer los beneficios de la bebida, ya que la varianza
poblacional queda incluida en el intervalo obtenido.
EJERCICIO 5.9
Respuesta correcta i) y iii) son correctas.
EJERCICIO 5.10
i)
σ2 σ2
LI = X + Z (α / 2 ) ⋅ LS = X + Z (α / 2 ) ⋅
n n
9 9
LI = 110 − 2,57 ⋅ LS = 110 + 2,57 ⋅
13 13
= 110 − 2,57 ⋅ 0,83 = 110 + 2,57 ⋅ 0,83
= 110 − 2,13 = 110 + 2,13
= 107,87 = 112,13
a = LS – LI
= 112,13 – 107,87
= 4,26
Rta: la amplitud del intervalo es 4,26 cm.
4.zα2 / 2σ 2
i) n= .
a2
4.(−2,57) 2 ⋅ 3 2
n=
72
237,78
n= = 4,85
49
190
Introducción a la Inferencia Estadística
Rta: para garantizar una amplitud de intervalo de 7, se necesita un tamaño mínimo
muestral de 5 niños.
EJERCICIO 5.11
El estimador puntual de p resulta = X/n = 15/20 = 0,75 y por lo tanto el intervalo de
confianza es
IC [0,56 ; 0,939] α 0,05
Rta: Con un 95% de confianza se puede concluir que la proporción de bandejas infectadas
con escherichia coli está entre 0,56 y 0,939.
191
192
CAPÍTULO 6:
ESTADÍSTICA INFERENCIAL: PRUEBA DE HIPÓTESIS
193
194
Estadística Inferencial: Prueba de Hipótesis
La comparación estadística de parámetros poblacionales, mediante la formulación de
hipótesis, es una herramienta frecuentemente utilizada para evaluar con rigor científico
los resultados de una investigación. Este procedimiento permite concluir si los resultados
obtenidos en un estudio o experimento son sólo efecto de diferencias casuales entre los
grupos de una muestra, o bien, si reflejan verdaderas diferencias en la población. Para
esto es que se utilizan las Pruebas de Hipótesis.
Hipótesis nula y alternativa
La palabra hipótesis deriva del griego “hypóthesis” y significa la suposición de alguna
cosa, sea cierta o no, para inferir de ella una consecuencia.
Supongamos que se tienen dos poblaciones en estudio, para cada una de las cuales
corresponde uno o más parámetros respecto a una variable de interés. Así, si μ es el
parámetro media poblacional, entonces:
μ1 es la media de la variable estudiada en la población 1 ,
y μ2 es la media de la variable estudiada en la población2.
Si se desea probar si las medias poblacionales coinciden o no, la hipótesis científica
que está en juego es que μ1 sea igual a μ2. A partir de esta hipótesis, y a los fines de su
verificación, se deben construir dos hipótesis estadísticas, denominadas como nula y
alternativa.
La hipótesis nula, que se simboliza H0, es el supuesto que se cree provisoriamente
como verdadero, y que nada cambiaría si ella fuera cierta. Ella establece que no existen
diferencias entre el verdadero valor del parámetro de la población y el que se supone en
la hipótesis.
Al realizar un test de hipótesis siempre la hipótesis nula es contrastada con otra
hipótesis contraria, denominada hipótesis alternativa, que se denota H1, y en la que
generalmente el investigador incluye lo que sospecha. Luego de someter la H0 a prueba,
ésta puede aceptarse o no. En este último caso la decisión estadística resultante consiste
en aceptar la H1.
195
Estadística Inferencial: Prueba de Hipótesis
Ejemplo: Fue mencionado que cuando se está realizando un trabajo de investigación,
lo primero que se construye es la hipótesis científica, y a posteriori ésta debe ser
traducida a hipótesis estadísticas. Supongamos entonces que un Licenciado en Nutrición
dedicado a la investigación en el área de dietoterapia del paciente con enfermedades
crónicas, sospecha que cierta dieta (dieta B) produce mejores resultados que otra
indicada tradicionalmente (dieta A) a pacientes diabéticos. Este supuesto constituye su
hipótesis científica, la cual puede ser traducida en las siguientes hipótesis estadísticas:
H0: La dieta A es igual de beneficiosa que la dieta B, para pacientes diabéticos.
H1: La dieta A produce efectos más benéficos que la dieta B, para pacientes diabéticos.
Se observa que la sospecha del investigador se incluyó en el postulado de la hipótesis
alternativa (H1).
Ejemplo: Una hipótesis científica puede postular que las personas con niveles altos de
colesterol, luego de aplicada una dieta específica, disminuirán dichos niveles. Las
hipótesis estadísticas serían en este caso:
H0: Los niveles de colesterol son iguales a 200 mg/dl,
H1: Los niveles de colesterol son menores a 200 mg/dl.
Siendo μ la media poblacional de la variable de interés (colesterol en mg/dl), y μ0 el
valor a comparar para dicho parámetro (μ0= 200 mg/dl en este caso), las hipótesis
anteriores puede denotase como:
H0: μ = μ0 ,
H1: μ<μ0 .
Si en cambio, no existiera una sospecha específica acerca de μ, solo que μ no es igual a
μ0, la H1 debiera formularse como sigue:
H0: μ = μ0 ,
H1: μ≠μ0 .
196
Estadística Inferencial: Prueba de Hipótesis
En este caso, las hipótesis estadísticas postularían que:
H0: Los niveles de colesterol son iguales a 200 mg/dl,
H1: Los niveles de colesterol son diferentes a 200 mg/dl.
Alternativamente, si se quisiera probar que μ es mayor que μ0, se tendría:
H0: μ = μ0 ,
H1: μ>μ0 ,
indicando H0 que los niveles de colesterol son iguales a 200 mg/dl, y H1 que los niveles
de colesterol son mayores a 200 mg/dl.
Una vez que se han establecido las hipótesis y se ha planificado el experimento, es
decir, cómo serán obtenidos los datos, se debe seleccionar un estadístico de prueba, cuya
distribución quede completamente especificada bajo la hipótesis nula, suponiendo que lo
que especifica la hipótesis nula es verdadero.
Nivel de significación estadística
El nivel de significación se denota con α y determina la posibilidad de cometer el error
de rechazar la hipótesis nula cuando es verdadera. Los dos niveles de significación que se
utilizan con mayor frecuencia son 0,05 (5%) y 0,01 (1%). Si se utiliza un nivel de
significación de 0,05 se está aceptando el riesgo de que en 5 de 100 muestras podría
rechazarse una hipótesis nula verdadera (y por ende, aceptarse 95 veces). Con un nivel de
significación de 0,01 el riesgo de rechazar la hipótesis nula cuando es verdadera es
menor.
Error Tipo I y Tipo II
La decisión con respecto a cuándo aceptar o rechazar la hipótesis nula depende de la
consideración de cuán probable es que las diferencias observadas sean resultado de la
casualidad. Debido a que, generalmente, no se dispone de información acerca de la
población, es que resulta imposible asegurar de manera categórica que la hipótesis nula
sea verdadera o falsa. No se debe olvidar que cuando se hacen inferencias estadísticas a
197
Estadística Inferencial: Prueba de Hipótesis
partir de información parcial, siempre existe un riesgo de error. Este error puede ser de
dos tipos: se comete un error tipo I cuando se rechaza la hipótesis nula siendo ésta
verdadera y se comete error tipo II cuando se acepta una hipótesis nula siendo ésta falsa.
Región de aceptación y región de rechazo
Cuando ya se estableció el estadístico de la prueba, su distribución y el nivel de
significación, se deben establecer los límites que dividen el espacio muestral en una
región en la que se rechaza la hipótesis nula y otra en la que se acepta. Luego, la Región o
zona de rechazo de la hipótesis nula es uno o más intervalos de la recta real que
describen al evento que conduce a su rechazo y cuya probabilidad, cuando es verdadera,
es α (es decir, el nivel de significación establecido). Por su parte, la Región o zona de
aceptación de la hipótesis nula es un intervalo de la recta real que describe al evento que
conduce a su aceptación y cuya probabilidad, cuando es verdadera, es 1 ‐ α.
El límite entre la región de aceptación y rechazo de la hipótesis nula se determina
mediante la especificación de la hipótesis alternativa. Con esto, se establece el tipo de
prueba y la condición de la zona de rechazo.
Se dice que la prueba es unilateral derecha cuando la zona de rechazo se ubica a la
derecha del valor esperado del estadístico bajo hipótesis nula. EEs lo mismo decir que
cuando la hipótesis nula no es cierta el valor esperado es mayor al valor que se espera
cuando sí lo es. Esto corresponde a una hipótesis alternativa del tipo H1: μ>μ0, como se
muestra en Tabla 1.
Se dice que la prueba es unilateral izquierda cuando la zona de rechazo se ubica a la
izquierda del valor esperado del estadístico bajo hipótesis nula. Es lo mismo decir que
cuando la hipótesis nula no es cierta el valor esperado es menor al valor que se espera
cuando sí lo es. Contrariamente al caso anterior, la hipótesis alternativa sería aquí del tipo
H1: μ<μ0 (Tabla 1).
Finalmente, se dice que la prueba es bilateral cuando la zona de rechazo se ubica a la
derecha y a la izquierda del valor esperado del estadístico bajo hipótesis nula. Es lo mismo
decir que cuando la hipótesis nula no es cierta el valor esperado es distinto al valor que se
espera cuando sí lo es. Por ende, en una prueba bilateral H1: μ≠μ0.
198
Estadística Inferencial: Prueba de Hipótesis
Tabla 1. Hipótesis nula y alternativa según tipo de prueba de hipótesis.
Prueba bilateral Prueba unilateral derecha Prueba unilateral izquierda
H0: μ = μ0 H0: μ = μ0 H0: μ = μ0
H1: μ≠μ0 H1: μ>μ0 H1: μ<μ0
Siendo los puntos críticos los valores que separan la zona de aceptación de la de
rechazo, las situaciones anteriores pueden esquematizarse, gráficamente, como se
muestra en las figuras 1 a 3.
P
Figura 1. Distribución del estadístico bajo H0 en una prueba unilateral derecha.
199
Estadística Inferencial: Prueba de Hipótesis
P
Figura 2.Distribución del estadístico bajo H0 en una prueba unilateral izquierda.
P
Figura 3. Distribución del estadístico bajo H0 en una prueba bilateral.
Por último, se debe calcular el valor del estadístico propuesto para determinar si el
valor encontrado se encuentra dentro o fuera de la región de aceptación. Para esto se
determinan el /los punto/s críticos en base a qué tipo de prueba se trate (bilateral o
unilateral, derecha o izquierda).
Para todas las pruebas estadísticas se han realizado distribuciones teóricas que
permiten establecer si los valores obtenidos mediante el cálculo están más allá del rango
200
Estadística Inferencial: Prueba de Hipótesis
de probabilidad de que la hipótesis nula sea verdadera. Para obtener los puntos críticos
se debe consultar la tabla teórica correspondiente a la prueba que se ha utilizado.
Una vez obtenido el valor teórico se compara con el valor calculado. Si éste pertenece
a la región de rechazo se puede concluir que la hipótesis nula debe ser rechazada,
mientras que en caso de que el valor calculado se ubique dentro de la región de
aceptación, se concluye que no hay evidencia suficiente como para rechazar la hipótesis
nula.
Relación entre los Intervalos de Confianza y las Pruebas de Hipótesis
Se ha visto que el cálculo de intervalos de confianza sirve fundamentalmente al
objetivo de estimar parámetros, mientras que las pruebas de hipótesis se presentaron
como un instrumento útil para la toma de decisiones en relación a los valores postulados
para ellos. En muchas oportunidades los intervalos de confianza y las pruebas de hipótesis
pueden ser utilizados alternativamente. Por ejemplo, dada la estimación de μ por
intervalo de confianza, se puede observar si el valor hipotético de μ queda comprendido
dentro del intervalo, lo cual indicaría que no habría pruebas suficientes para rechazar la
hipótesis nula. En cambio, si ese valor queda por fuera del intervalo obtenido estaríamos
en condiciones de rechazarla.
Prueba de hipótesis para la media de una variable aleatoria con distribución Normal
Antes de conducir una prueba de hipótesis para el parámetro μ es necesario
considerar dos aspectos claves: si las hipótesis involucran a una o a dos poblaciones, y si
entre los datos disponibles para conducir el análisis se incluye la varianza poblacional σ2
de la variable aleatoria de interés. De esto dependerá la selección del estadístico de
contraste para la prueba. A continuación se presentan los pasos a seguir para la
realización de una prueba de hipótesis respecto a la media en una población, y en los
casos en que se conoce σ2 (A) y en que no se conoce σ2 (B).
201
Estadística Inferencial: Prueba de Hipótesis
A) Si se conoce la varianza de la variable aleatoria, los pasos a seguir son:
1. Se establecen las hipótesis de la investigación.
X − μ0
2. Como la varianza es conocida se utiliza el estadístico Z = ,
σ
n
donde Z ∼ N (0,1) bajo H0.
3. Se elige el nivel de significación con el cual se va a trabajar, definido comúnmente
como α=0,05 ó 0,01.
4. Se determinan los límites de la región de aceptación, según se trate de una prueba
bilateral, unilateral derecha o unilateral izquierda. Se busca el punto crítico que se
obtiene de la Tabla de Cuantiles de la Distribución Normal Estándar.
5. Se aplica la fórmula del estadístico seleccionado (Z).
6. Se compara este valor observado con el valor teórico (punto crítico). Si el valor
calculado se ubica dentro de la zona de rechazo, se decide rechazar la hipótesis
nula; en caso contrario, la decisión estadística correspondiente será la aceptación
de lo postulado en H0.
Ejercicios de aplicación: 6.1 a 6.3
B) Si no se conoce la varianza de la variable aleatoria, los pasos a seguir son:
1. Se establecen las hipótesis de la investigación.
X − μ0
2. Como la varianza es desconocida se utiliza el estadístico t =
S
n
202
Estadística Inferencial: Prueba de Hipótesis
que bajo H0 se distribuye como una t de Student con n – 1 grados de libertad.
3. Se elige el nivel de significación con el cual se decide trabajar ( α=0,05 ó 0,01)
4. Se determinan los límites de la región de aceptación según se trate de una prueba
bilateral, unilateral derecha o unilateral izquierda. Se busca el o los puntos críticos
que en este caso se obtienen de la Tabla de Cuantiles de la Distribución T.
5. Se aplica la ecuación correspondiente al estadístico seleccionado (t).
6. Se compara este valor observado con el valor teórico (punto crítico). Si el valor
calculado se ubica dentro de la zona de rechazo, se decide rechazar la hipótesis
nula; en caso contrario, la decisión estadística correspondiente será la aceptación
de lo postulado en H0.
Ejercicios de aplicación: 6.4 a 6.5
Potencia de un Test Estadístico
Sea T una prueba estadística para una hipótesis sobre el parámetro θ, siendo θ
cualquier parámetro (no necesariamente el valor esperado μ, o para la varianza σ2) con
región crítica denotada por C. La Potencia del Test o de la Prueba se define como la
probabilidad de rechazar la hipótesis nula (H0) dado el valor de θ. Esto es,
π (θ ) = P[rechazar ⋅H o| θ ] = P[T ∈ C (θ )],
para cualquier valor de θ.
Supongamos que se desea verificar la hipótesis H0: μ=μ0 respecto (o versus) a la
hipótesis alternativa H1: μ≠μ0. Idealmente, nos gustaría rechazar la hipótesis H0 para
cualquier valor de μ en H1 con probabilidad 1, y del mismo modo, nos gustaría aceptar (no
rechazar) la hipótesis H0 para cualquier valor de μ en H0 con probabilidad 1 (Figura 4).
203
Estadística Inferencial: Prueba de Hipótesis
Figura 4. Curvas de Potencia para Pruebas de Hipótesis, con hipótesis alternativa
bilaterales.
La potencia de un test de hipótesis puede afectarse según:
• El tamaño de la muestra: a medida que aumenta el tamaño muestral, la potencia
de la prueba se incrementa. Esto se logra manteniendo constante al resto de los
parámetros involucrados (varianza, etc).
• El nivel de significación: a medida que aumenta el nivel de significación, la
potencia de la prueba se incrementa. En otras palabras, al crecer α, se reduce la
región de aceptación y como resultado se logra una probabilidad mayor de
rechazar la hipótesis nula. Así, se tiene menos chance de aceptar la hipótesis nula
cuando ésta es falsa, esto es, menor chance de cometer un error de tipo II, y por
ende, mayor potencia de la prueba.
• El verdadero valor del parámetro a ser testeado: cuanto mayor sea la diferencia
entre el "verdadero" valor del parámetro y el valor establecido o especificado en
la hipótesis nula, mayor es la potencia del test.
Concretamente, considere el estadístico:
X − μ0
Z= ,
σ
n
para la hipótesis H0: μ=μ0 vs H1: μ≠μ0. Recordemos que el error de tipo II es error
cometido al aceptar la hipótesis nula cuando ésta es falsa (H1 verdadera), es decir
P[Error de tipo II] = P[aceptar H0| H1verdadera] = β
204
Estadística Inferencial: Prueba de Hipótesis
Si suponemos que la H0 es falsa, entonces podríamos asumir que el verdadero valor del
valor esperado o media poblacional es μ=μ0+δ. Luego, el estadístico de la prueba puede
re‐escribirse según:
X − μ0 X − (μ0 + δ ) δ
Z= = + .
σ σ σ
n n n
⎛ δ ⎞
Por lo tanto, la distribución de Z0 cuando μ=μ0+δ es Z ~ N ⎜ ,1⎟. Así, para una
⎝σ / n ⎠
prueba bilateral, la probabilidad de cometer el error de tipo II es igual a la probabilidad de
que Z0 se ubique entre –zα/2 y zα/2 dado que H1 es verdadera, lo que es calculado de la
siguiente manera:
⎛ δ ⎞ ⎛ δ ⎞
β = Φ ⎜ zα / 2 − ⎟ − Φ ⎜ − zα / 2 − ⎟,
⎝ σ/ n⎠ ⎝ σ/ n⎠
donde Φ es la función de distribución acumulada de la N(0,1).
Para hipótesis de tipo unilateral (derecha o izquierda), las probabilidades de cometer
el error de tipo II son dadas, respectivamente por
⎛ δ
⎞
β = Φ⎜ zα / 2 − ⎟,
⎝ σ/ n⎠
⎛ δ ⎞
1 − Φ⎜ − zα / 2 − ⎟.
⎝ σ/ n⎠
Como la potencia de una prueba de hipótesis es justamente 1 menos la probabilidad
de cometer ese error, es decir 1‐β, entonces las expresiones para el cálculo de dicha
potencia, resultan en el caso bilateral:
⎛ δ ⎞ ⎛ δ ⎞
P = 1 − Φ⎜ zα / 2 − ⎟ + Φ⎜ − zα / 2 − ⎟,
⎝ σ/ n⎠ ⎝ σ/ n⎠
y para el caso unilateral izquierda y derecha, respectivamente, donde (como antes), Φ es
la función de distribución acumulada de la N(0,1):
205
Estadística Inferencial: Prueba de Hipótesis
⎛ δ ⎞
P = Φ⎜ − zα / 2 − ⎟,
⎝ σ/ n⎠
⎛ δ ⎞
P = 1 − Φ ⎜ zα / 2 − ⎟,
⎝ σ/ n⎠
Este desarrollo, para el cálculo de la potencia de un test, se traslada al resto de los
estadísticos para prueba de hipótesis, como el T y T’.
Ejemplo: Un supervisor de calidad desea verificar, con base en una muestra aleatoria
de tamaño n=35 y un α=0,05 y un desvío estándar σ=2,1mm, si la profundidad promedio
de un poro (orificio) en una pieza determinada de un sistema de producción en serie es
72,4mm (μ0). Para calcular la potencia del test Z, con H0: μ=72,4mm versus H1: μ≠72,4mm,
utilizamos las expresiones enunciadas anteriormente.Esto es, si
⎛ δ ⎞ ⎛ δ ⎞
β = Φ ⎜ zα / 2 − ⎟ − Φ⎜ − zα / 2 − ⎟ = Φ (−0,8572) − Φ (−4,7772) = 0,1957,
⎝ σ/ n⎠ ⎝ σ/ n⎠
De este modo, la potencia del test en detectar una diferencia, por ejemplo de, δ=1
entre las hipótesis nula y alternativa, es dada por P=1‐β=1‐0,1957=0,8043. Luego, la
potencia del test es aproximadamente 80,43%.
Prueba de hipótesis para la varianza de una variable aleatoria con Distribución Normal
Cuando en la hipótesis científica el parámetro involucrado es la varianza poblacional
de una población (σ2) para una variable aleatoria determinada, luego de formular las
hipótesis nula y alternativa correspondientes, los pasos a seguir para la prueba de
hipótesis serán:
1. Se establecen las hipótesis de la investigación. En este caso la hipótesis nula será
H0: σ2=σ20, mientras que H1 podrá definirse entre una de las siguientes
alternativas, según el tipo de prueba de que se trate:
H1: σ2≠σ20 (prueba bilateral)
H1: σ2>σ20 (prueba unilateral derecha)
H1: σ2<σ20 (prueba unilateral izquierda)
206
Estadística Inferencial: Prueba de Hipótesis
2. En este caso el estadístico que se va a utilizar es el siguiente:
χ2 =
(n − 1)S 2 ,
σ2
el cual se distribuye como χ2(n – 1)
3. Se elige el nivel de significación α con el cual se desea trabajar.
4. Se delimitan las regiones de no rechazo y rechazo de la hipótesis nula, obteniendo
el cuantil correspondiente (punto crítico) en la Tabla de Chi Cuadrado.
5. Se aplica la ecuación del estadístico seleccionado.
6. Se comparan ambos resultados. Si el valor obtenido se ubica en la región de
rechazo, la decisión a tomar es rechazar la hipótesis nula. Si en cambio se
encuentra dentro de la región de no rechazo, H0 debe ser aceptada.
Ejercicio de aplicación: 6.6
Prueba de hipótesis para la proporción de una distribución binomial
En el campo de la salud es frecuente que la sospecha de un investigador involucre a la
proporción como parámetro a investigar. Si se conoce que la variable de interés es una
variable aleatoria que sigue una distribución binomial, basados en la relación entre la
distribución binomial y la Normal, se puede conducir una prueba de hipótesis siguiendo
estos pasos:
1. Se establecen las hipótesis de la investigación.
H0: p=p0 ,
H1: p≠p0 , si se trata de una hipótesis bilateral, ó
H1: p>p0 , ó H1: p<p0 , en el caso unilateral derecho o izquierdo, respectivamente.
2. En este caso el estadístico que se va a utilizar es el siguiente:
207
Estadística Inferencial: Prueba de Hipótesis
pˆ − p 0
Z= ,
p 0 ⋅ (1 − p 0 )
n
involucrado en la sospecha del investigador (por ende, incluido en la formulación de
hipótesis estadísticas).
3. Se estable el nivel de significación α con el cual se desea trabajar.
4. Se delimitan las regiones de no rechazo y rechazo de la hipótesis nula, obteniendo
el cuantil correspondiente a el/los valor/es crítico/s de la Tabla Normal Estándar.
5. Se calcula el estadístico seleccionado (Z).
6. Se comparan resultados. Si el valor obtenido se ubica en la región de rechazo, la
decisión a tomar es rechazar la hipótesis nula. Contrariamente, la decisión
estadística en caso de que dicho valor se ubique en la zona de no rechazo será la
de aceptar lo que postula.
208
Estadística Inferencial: Prueba de Hipótesis
EJERCICIOS DE APLICACIÓN 6.1 A 6.6
EJERCICIO 6.1
La ganancia mensual promedio de peso de los pacientes internados en UTI (Unidad de
Terapia Intensiva) que son alimentados por vía parenteral es de 650 gramos, con un
desvío estándar (σ) de 25 gramos. Se quiere determinar si modificando la composición de
la fórmula parenteral se puede aumentar la ganancia de peso de estos pacientes. Para
ello se les administra la nueva fórmula a 16 personas internadas, obteniéndose una
ganancia mensual promedio de 750 gramos. Se trabajó con un nivel de significación
α=0,05.
EJERCICIO 6.2
Se sospecha que una máquina embotelladora de leche no funciona adecuadamente. El
3
volumen promedio de leche de las botellas debe ser de 970 cm . Se supone que el desvío
3
estándar de la variable "volumen" asume un valor de 20 cm .
i) ¿Cuál es el objetivo del estudio? En función de dicho objetivo, ¿cuáles serían las
hipótesis estadísticas a contrastar?
ii) Para las hipótesis planteadas en el inciso anterior, ¿qué estadístico de contraste se
debe usar?
iii) ¿Cuáles serían en este caso el o los puntos críticos que delimiten la o las zonas de
rechazo y no rechazo de H0 para un nivel de significación de 0,05?
iv) Para poder tomar una decisión respecto a las hipótesis planteadas se seleccionaron
aleatoriamente 9 botellas, encontrándose una media de 977 cm3. ¿Hay evidencia
estadística para concluir que la máquina funciona mal?
v) ¿Cuál sería la conclusión si se hubiesen tomado 49 botellas obteniendo también un
volumen medio de 977 cm3?
209
Estadística Inferencial: Prueba de Hipótesis
EJERCICIO 6.3
En una clínica neonatal se sospecha que la media de peso de niños al nacer es menor a
2,8 Kg, que es el valor de media de peso al nacer histórico de dicha institución. Se
selecciona una muestra aleatoria de 230 niños y se obtiene una media de peso de 2,7 Kg.
Se conoce que la σ2 es 0,9 Kg2. ¿Se puede confirmar la sospecha de la clínica, con 99% de
confianza?
EJERCICIO 6.4
Un laboratorio “A” se ha dedicado a la fabricación de un estimulante del apetito y
afirma que este producto aumenta el peso promedio de niños inapetentes en más de 250
gramos semanales, que es el aumento que se consigue con un estimulante del laboratorio
“B”.
En una muestra de 25 niños seleccionados aleatoriamente, se obtuvo un aumento de
peso promedio de 255 gramos, con una desviación estándar (S) de 15 gramos. Teniendo
en cuenta los resultados de la muestra, con un nivel de significación de 0,05, ¿se puede
suponer que lo que afirma el laboratorio es correcto?
EJERCICIO 6.5
Se sabe que ciertas ratas con una alimentación tipo tiene una ganancia de peso medio
de 65 g durante los tres primeros meses de vida. Para probar el efecto de una nueva
dieta, se alimentaron 30 ratas desde el nacimiento hasta la edad de tres meses,
2
encontrándose un aumento medio de peso de 70,75 g y una varianza de 10 g ¿Hay
evidencias estadísticamente significativas para sostener, con un nivel de confianza de
0,01, que la nueva dieta aumenta la ganancia de peso promedio?
EJERCICIO 6.6
210
Estadística Inferencial: Prueba de Hipótesis
producir un aumento de la varianza del peso del material. La desviación estándar que se
obtiene con el mecanismo tradicional es de 2,5 gramos. Para evaluar el nuevo método se
seleccionaron aleatoriamente 10 instrumentos de un lote determinado. Se obtuvo una
varianza muestral de 6,5 gramos2. Comprobar si la sospecha de la empresa es cierta,
trabajando con un nivel de significación de 0,10.
211
Estadística Inferencial: Prueba de Hipótesis
RESOLUCIONES EJERCICIOS 6.1 A 6.6
EJERCICIO 6.1
H0: μ = 650 gramos H1: μ>650 gramos.
Z0,95 = 1,645
750 − 650 100
Z= = = 16
25 6,25
4
16 > 1,645, por lo que se rechaza la hipótesis nula y se concluye que la ganancia
mensual promedio de peso luego de modificar la fórmula parenteral es significativamente
mayor a 650 gramos.
EJERCICIO 6.2
i) El objetivo del estudio es verificar si la máquina embotelladora de leche funciona
adecuadamente, lo que implica probar si la media de la muestra es similar al valor
esperado.
3
Siendo 970 cm el valor esperado (μ0), las hipótesis estadísticas que de esto se derivan
serían:
H0: μ = 970
H1: μ≠ 970
X − μ0
ii) Es estadístico de elección será: Z = .
σ
n
iii) Siendo α= 0,05, entonces α/2 = 0,025 y 1 – (α/2) = 0,975. Entonces, los puntos
críticos en este caso son ‐1,96 y 1,96.
212
Estadística Inferencial: Prueba de Hipótesis
X − μ0 977 − 970
Z= = = 1,05
σ 20
n 9
Con 95% de confianza, se afirma que no hay evidencias de que la máquina funcione
mal.
v) n = 49
X = 977 σ = 20
977 − 970
Z= = 2,45
20
49
Con 95 % de confianza se puede afirmar, en este caso, que la máquina no funciona
bien.
EJERCICIO 6.3
μ = 2,8 Kg n = 230 niños
X = 2,7 Kg α = 0,01
σ2 = 0,9 Kg2
Hipótesis: H0 : μ = 2,8
H1 : μ< 2,8
X − μ0
Estadístico: Z = .
σ
n
Punto Crítico: ‐2,326
Unilateral izquierdo (zona de rechazo hacia la izquierda)
213
Estadística Inferencial: Prueba de Hipótesis
2,7 − 2,8
Z= = −1,6
0,9
230
Z= ‐1,6→ zona de Aceptación, se acepta la hipótesis nula (H0)
Con 99% de confianza no se confirma la sospecha de la Clínica, siendo la media de peso
al nacer de 2,8 Kg.
EJERCICIO 6.4
H0: μ = 250 gramos H1: μ>250 gramos
t(n – 1);(1 ‐ α) = t(24; 0,95) = 1,71
255 − 250
t= = 1,66
15
25
Como 1,66 < 1,71 no se rechaza la hipótesis nula y se concluye que no hay evidencia de
que el estimulante del apetito del laboratorio “A” produzca un aumento de peso mayor
que el del laboratorio “B”.
EJERCICIO 6.5
Alimentación tipo →μ = 65 g
Nueva Dieta → n = 30
X = 70,75 g
S2 = 10 g2
H0 : μ = 65g
H1 : μ> 65
α = 0,01 Grados de Libertad = 29 Punto Crítico = 2,46
214
Estadística Inferencial: Prueba de Hipótesis
X − μ 0 70,75 − 65
t= = = 9,965
S 3,16
n 30
Se puede concluir que existe evidencia, estadísticamente significativa, para sostener
que la nueva dieta, aumenta la ganancia de peso promedio, con un 99% de confianza.
EJERCICIO 6.6
Siendo σ0 = 2,5 gramos, se obtiene que σ20 = 6,25 gramos2
Entonces:
H0: σ2 = 6,25 gramos2 H1: σ2> 6,25 gramos2
χ2(9; 0,90) = 14,68
Estadístico χ 2 =
(n − 1)S 2 =
(10 − 1)6,5 = 9,36
σ 2
6,25
Dado que el valor observado para el estadístico calculado (9,36) está dentro de la zona
de aceptación de la hipótesis nula se concluye, con 90% de confianza, que el nuevo
mecanismo no produce un aumento de la varianza del peso medido por el instrumental.
215
216
CAPÍTULO 7: ESTADÍSTICA
INFERENCIAL:COMPARACIÓN DE POBLACIONES
217
218
Estadística Inferencial: Comparación de Poblaciones
En algunos casos, es de interés realizar comparaciones entre dos o más poblaciones
diferentes. En esta situación, se debe aplicar metodología semejante en varios aspectos a
una prueba llevada a cabo en una sola muestra, pero teniendo en cuenta algunas
consideraciones.
Prueba de diferencias entre dos medias de variables aleatorias con distribución normal
Por lo general, en un estudio o experimento se desea comparar dos grupos de sujetos con
respecto a los valores promedio de una variable dependiente. A menudo, los grupos han
recibido tratamientos diferentes o han sido expuestos a distintos entornos. Por ejemplo: se
quiere conocer si existen diferencias respecto a una determinada medición antropométrica
(por ejemplo, pliegue bicipital) entre dos grupos, experimental y control; se desea
determinar la diferencia entre el número promedio de días de internación de mujeres que
tuvieron parto normal y de mujeres que tuvieron cesárea, etc.
Del mismo modo que para una población, las estimaciones pueden ser hechas por
intervalo o por pruebas de hipótesis.
Prueba de Hipótesis y Estimación por Intervalo para la Diferencia de Medias de Dos
Variables Aleatorias Independientes con Distribuciones Normales
Como se menciona en el capítulo anterior, aquí también se distinguen dos situaciones
dependiendo de si las varianzas son conocidas (A) o desconocidas (B). En el último caso,
además se debe determinar si estas varianzas desconocidas son iguales o son diferentes.
A. Varianzas conocidas
Prueba de Hipótesis
En este caso, para llevar a cabo la prueba de diferencia de medias se cuenta con
información sobre la variable aleatoria de dos grupos diferentes. Estas variables tienen dos
distribuciones 1 y 2, con sus medias μ1 y μ2 respectivamente y, además, se presentan los
219
Estadística Inferencial: Comparación de Poblaciones
estimadores independientes de dichas medias X 1 y X 2. Como estas medias tienen
distribución normal con parámetros (μ1 y σ21 / n1) y (μ2 y σ22 / n2) el estadístico a utilizar es:
Z=
(X 1 −X2 ) ,
σ 2
σ 2
1
+ 2
n1 n2
donde σ21 y σ22 son las varianzas de las distribuciones, n1 y n2 son los tamaños de las
Estimación por intervalo
Cuando se quiere evaluar si existen diferencias de medias de una variable aleatoria, se
debe incluir en un sólo intervalo la diferencia observada entre las dos poblaciones
estudiadas. Por ejemplo, se quiere conocer si existe diferencia de las medias de peso de
recién nacidos de dos provincias P1 y P2. La condición que debe cumplirse es que las variables
sean independientes. El intervalo de confianza obtenido indicará que entre esos valores se
encuentra el μ, con una determinada confianza, aunque no se lo conozca.
Cuando en un intervalo de confianza los signos del límite inferior y del superior son
diferentes, es decir, uno es positivo y el otro es negativo, la diferencia entre ellos puede ser
cero, porque encierran al mismo. Por lo tanto, se concluye que no hay diferencia entre las
medias.
Cuando los signos de ambos límites son iguales, negativos o positivos, se concluye que las
medias son diferentes, es decir que una de ellas es mayor que la otra.
‐ Cuando ambos límites tienen signo positivo la μ1 es mayor que la μ2.
‐ Cuando ambos límites tienen signo negativo la μ2 es mayor que la μ1.
El intervalo de confianza para (μ1 – μ2) con una confianza (1 ‐ α) se construyen de la
siguiente manera:
220
Estadística Inferencial: Comparación de Poblaciones
( )
LI = X 1 − X 2 + Z (α / 2) ⋅
σ 12
n1
+
σ 22
n2
( )
LS = X 1 − X 2 + Z (1−α / 2) ⋅
σ 12
n1
+
σ 22
n2
Suponiendo que para el ejemplo anterior sobre los pesos de recién nacidos de las
provincias P1 y P2, el intervalo obtenido fuese [‐0,585; 1,380]. Trabajando con una confianza
del 95%, se puede afirmar que la diferencia de las medias de los pesos verdaderos de los
recién nacidos de estas provincias son semejantes, porque el cero se encuentra en el
intervalo obtenido.
Si en cambio el intervalo obtenido hubiese sido [0,585; 1,380] significaría que las medias
son diferentes, siendo la media de peso de los recién nacidos de la P1 mayor que la media de
peso de la P2.
Ejercicio de aplicación: 7.1
B. Varianzas desconocidas
E el caso de que las varianzas sean desconocidas, y se intente inferir acerca de dos medias
de variables con distribuciones normales, primero se debe establecer si las varianzas son
semejantes o no. Ya que de esta situación dependerá qué estadístico se utilizará para la
prueba de hipótesis o cómo se calculará la estimación por intervalo. Este paso previo a
realizar se conoce como la Prueba de Diferencia entre Varianzas. La hipótesis nula planteará
la igualdad entre varianzas y la hipótesis alternativa planteará la desigualdad.
H0: σ21 = σ22 y H1: σ21≠σ22.
El estadístico que se utiliza en esta prueba es el siguiente:
S12
F= , que se distribuye como una F con n – 1 y n – 1 grados de libertad. La región de
S 22
aceptación se determina según el nivel de significación y queda delimitada por los cuantiles
α/2 y (1 ‐ α/2), que se obtienen de la Tabla de Cuantiles de la Distribución F. Primero se
debe localizar la tabla correspondiente a los grados de libertad del numerador (n‐1) en el
221
Estadística Inferencial: Comparación de Poblaciones
encabezado de la primera columna (extremo superior izquierdo); y luego los grados de
libertad (n‐1) del denominador entre los valores de la primera columna de la tabla
previamente seleccionada.
Por ejemplo: se quiere conocer si las tallas de dos muestras de escolares son diferentes,
obteniéndose los siguientes resultados:
Muestra 1
Entonces, calculando , el estadístico se ubica dentro de la región de
aceptación de la hipótesis nula planteada, que establece la semejanza de varianzas (0,44 <
1,49 < 2,23). Ante esta situación, el estadístico que se utilizará para la prueba de hipótesis es
el estadístico T, como se muestra a continuación.
B.1 Varianzas desconocidas y semejantes
Prueba de Hipótesis
El estadístico que se utiliza para la prueba de hipótesis es el siguiente:
T=
(X 1 − X2 ) .
(n1 − 1)S1
2
+ (n2 − 1)S 22 ⎡1
⋅⎢ + ⎥
1⎤
n1 + n2 − 2 ⎣ n1 n2 ⎦
Este estadístico se distribuye como una t de Student con n1 + n2 – 2 grados de libertad. En
base al nivel de significación fijado y a los grados de libertad, se obtienen de la Tabla de
Cuantiles de la Distribución T los puntos críticos que delimitarán la zona de aceptación. Si el
222
Estadística Inferencial: Comparación de Poblaciones
valor que se obtiene luego de calcular el estadístico se ubica en la zona de aceptación, la
conclusión sería no rechazar la hipótesis nula.
Estimación por Intervalo
( ) ⎛ n + n2
LS = X 1 − X 2 + t (n1 + n2 − 2 )(1−α / 2) ⋅ ⎜⎜ S p2 ⋅ 1
n1 ⋅ n2
⎞
⎟⎟ .
⎝ ⎠
Ejercicios de aplicación: 7.2 a 7. 4
B.2 Varianzas desconocidas y diferentes
Prueba de Hipótesis
Luego de comprobar la desigualdad de varianzas se utiliza el siguiente estadístico:
T´ =
(X 1 −X2 ) .
2 2
S S
+1 2
n1 n2
Este tiene distribución t de Student con los siguientes grados de libertad:
2
⎛ S12 S 22 ⎞
⎜⎜ + ⎟⎟
v= ⎝ 1
n n 2 ⎠
− 2 .
2 2
⎛ S12 ⎞ ⎛ S 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ n1 ⎠ + ⎝ n2 ⎠
n1 + 1 n2 + 1
Estimación por Intervalo
Si en cambio, el camino para verificar si existen diferencias entre medias, hubiera sido la
construcción de un intervalo de confianza, los límites serían:
223
Estadística Inferencial: Comparación de Poblaciones
( )
LI = X 1 − X 2 + t (v;α / 2) ⋅
S12 S 22
+
n1 n2
( )
LS = X 1 − X 2 + t ( v;1−α / 2) ⋅
S12 S 22
+
n1 n2
Ejercicios de aplicación: 7.5 a 7. 7
Prueba de Hipótesis y Estimación por Intervalo para la Diferencia de Medias de Dos
Muestras dependientes (apareadas)
Existen situaciones en las que los datos que se desean comparar proceden de dos
muestras que están relacionadas, esto es: los resultados del primer grupo no son
independientes de los del segundo. Esto ocurre cuando:
y La misma unidad experimental es medida en dos ocasiones diferentes. Por ejemplo,
cuando se mide una variable dada en cada uno de los individuos de un grupo experimental
antes y después de administrarles un tratamiento determinado.
y Las mediciones se obtienen a partir de unidades experimentales relacionadas. Por
ejemplo, comparaciones entre hermanos gemelos.
La obtención de observaciones apareadas hace referencia al diseño de experimentos que
produce observaciones ¨de a pares¨ de las dos distribuciones que se comparan. En este tipo
de diseño la variable de interés es la diferencia entre los valores de cada uno de los pares
observados. El objetivo es reducir la variabilidad debida a factores que introducen efectos
extraños a aquel que se desea medir.
Si los datos de la muestra 1 se denota X1i y los de la muestra 2 se denotan X2i (siendo i = 1,
2, ..., n) las diferencias di = X1i ‐ X2i generan un conjunto de n observaciones. Esta nueva
muestra es la utilizada para la prueba de hipótesis mediante una Prueba T para
observaciones apareadas o Test T apareado. Esta prueba se basa en la distribución de la
variable diferencia entre los pares de observaciones. Partiendo del supuesto de que X1i y X2i
tienen distribución normal, entonces, las di = X1i ‐X2i tendrán distribución normal con
esperanza μd = μ1 ‐ μ2 y varianza σ2d.
224
Estadística Inferencial: Comparación de Poblaciones
Prueba de Hipótesis
Si la hipótesis nula que se quiere probar es μ1 ‐ μ2 = 0, esto implica μd = 0, es decir:
H0: μd = 0
H1: a) μd ≠ 0 b) μd > 0 c) μd < 0
d
Para probar esta hipótesis el estadístico apropiado es: T = , que se distribuye con
Sd
n
una T de Student con (n‐1) grados de libertad.
n
1 n ∑ (d i − d )2
d = ∑ di
n i =1
Sd = i =1
n −1
Estimación por Intervalos
Para la construcción del intervalo de confianza correspondiente tenemos:
⎛ S S ⎞
P ⎜ d − T( n −1);(1−α / 2) d < μ1 − μ2 < d + T( n −1);(1−α / 2) d ⎟ = (1‐ α ).
⎝ n n⎠
Por ejemplo, se quiere comparar el aumento de peso logrado con la administración de
dos fórmulas infantiles distintas. Se seleccionaron al azar 8 parejas de lactantes gemelos y se
administró la fórmula A a uno de los gemelos integrantes de cada par y la formula B al otro.
Los resultados (aumento de peso en g/día) fueron:
Fórmula A Fórmula B di
31 18 13
20 17 3
18 14 4
17 11 6
9 10 ‐1
8 7 1
10 5 5
225
Estadística Inferencial: Comparación de Poblaciones
7 6 1
X 1 = 15 X 2 = 11 d = 4
Como el objetivo fue comparar si existían diferencias entre los efectos logrados tras la
administración de las dos fórmulas se plantea la siguiente hipótesis:
H0: μd = 0 vs H1: μd ≠ 0 usando como estadístico:
d
T = , que se distribuye con una T de Student con (8‐1) grados de libertad.
Sd
n
Fijando α = 0,05, se determina la región de aceptación como el intervalo (tα/2 = ‐2.365,
t1‐α/2 = 2.365). Luego, evaluando el estadístico se obtiene:
4
T= = 2,63 .
4,30 / 8
Dado que 2,63 > 2,365, entonces se rechaza H0. Se concluye entonces que las diferencias
observadas entre el aumento de peso logrado con una u otra fórmula infantil son
estadísticamente significativas.
Otro ejemplo de aplicación sería el siguiente: se desea verificar si, luego de una dieta
determinada, los niveles de colesterol son diferentes. Un sólo grupo de sujetos se somete a
un tratamiento nutricional determinado para disminuir los niveles de colesterol, antes del
cual tenían una dieta normal.
Si a cada individuo le calculara la diferencia entre X1i – X2i , es decir, di = X1i – X2i , obtengo
un conjunto de datos [d1 d2, d3…..dn]. Lo que se observa es el efecto puro de la intervención,
en este caso la dieta. Decir que la dieta no tiene efecto es hipotetizar que la μ de la
diferencia sea cero. Para probar esta hipótesis se usa el clásico test T.
Si antes H0 ) μantes = μdespués
H1 ) μantes≠μdespués
Ahora H0 ) μdiferencia = 0
H1 ) μdiferencia≠0
Así, este problema que era de dos poblaciones queda reducido a una población donde n
226
Estadística Inferencial: Comparación de Poblaciones
es la cantidad de pares de datos de la muestra y cada par es el sujeto antes y después del
tratamiento. El estadístico T calculado se compara con un T teórico con n‐1 grados de
libertad, siguiendo el procedimiento habitual ya presentado.
Ejercicios de aplicación: 7.8 a 7.10
Prueba de hipótesis para la diferencia de proporciones de dos distribuciones binomiales
independientes
En muchas ocasiones, el interés recae en comparar las proporciones de ocurrencia de
cierto suceso en dos grupos considerados por alguna razón diferente.
Una situación de este tipo es la siguiente: se desea probar si la proporción de niños
desnutridos en dos ciudades, consideradas geográficamente distintas, son estadísticamente
diferentes. Para resolver este problema se tomaron al azar 400 niños de una de las ciudades
en estudio y se encontró que 190 de ellos estaban desnutridos, en tanto que de la otra
ciudad se seleccionaron al azar 800 niños de los cuales 300 presentaban desnutrición.
La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) es
.
Las proporciones muestrales para cada ciudad fueron: p1 = 190 / 400 = 0,475 y
p2 = 300 / 800 = 0,375.
Posteriormente, se plantearon las hipótesis estadísticas de interés:
H0: p1 – p2 = 0 H1: p1 – p2≠ 0
Estas hipótesis en el marco de la situación problemática planteada son:
H0: La proporción de niños desnutridos en las dos ciudades es la misma.
H1: La proporción de niños desnutridos en las dos ciudades es diferente.
Si X1~ B(n1,p), X2 ~ B(n2,p) con n1 y n2 grandes (mayores a 30), por la relación entre
las distribuciones Normal y Binomial, la variable aleatoria P1 ‐ P2 tiene distribución
normal con
227
Estadística Inferencial: Comparación de Poblaciones
p1 (1 − p1 ) p 2 (1 − p 2 )
E ( p1 − p2 ) = p1 − p2 y Var ( p1 − p 2 ) = + .
n1 n2
(Para verificar estas afirmaciones utilizar las propiedades de Esperanza y Varianza).
Luego el estadístico de contraste resulta:
p1 − p 2
Z= .
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2
Con p1 y p2 estimadores de p1 y p2.
Si se toma un nivel de significación del 0,05 el valor crítico es z=1,96, luego la zona de
aceptación queda comprendida entre Z=‐1,96 y z= 1,96. En este caso, el Z=3,31, por lo que se
rechaza la hipótesis nula.
Conclusión: Las proporciones de niños desnutridos en las dos ciudades en estudio son
diferentes.
La hipótesis alternativa para otras situaciones también podría plantearse como
H0: p1‐p2>0 ó H1: p1‐p2<0 considerándose pruebas de hipótesis unilaterales.
Para cada una de las pruebas presentadas en este capítulo se pueden construir intervalos
de confianza.
Ejercicio de aplicación: 7.11
Prueba de diferencias entre tres o más medias de variables aleatorias con distribución
normal
Para comparar las medias de tres o más grupos se utiliza el Análisis de la Varianza
228
Estadística Inferencial: Comparación de Poblaciones
(ANAVA), el cual calcula el estadístico conocido como F que simplemente es un cociente de
varianzas. El ANAVA descompone la variabilidad total de un conjunto de datos en dos
elementos: 1) La variabilidad que resulta de la variable independiente (tratamiento) y 2) la
variabilidad restante, resultante, por ejemplo, de diferencias individuales, del grado de
incertidumbre de las mediciones y así sucesivamente.
Para obtener la razón F, la variación entre los grupos se compara con la variación dentro
de los grupos. Si las diferencias entre los grupos que reciben diferentes tratamientos
resultan relativamente mayores que las fluctuaciones dentro de los grupos, se puede
establecer que el tratamiento se relaciona con las diferencias de los grupos, o dicho de otra
manera, con las causas de dichas diferencias.
ANAVA unidireccional
Suponiendo que se quiere comparar mediante un experimento los resultados de distintos
métodos para adelgazar. Los métodos en este caso constituye la variable independiente. Un
primer grupo de obesos se somete a una terapia de modificación del comportamiento. El
segundo grupo es tratado con una dieta hipocalórica estricta y actividad física programada y
un tercer grupo que se somete a una dieta hipocalórica, actividad física programada y
modificación de la conducta. La variable dependiente serán los kilos disminuidos durante el
tiempo que duren los tratamientos. Las hipótesis serán:
H0: μA = μB = μC H1: al menos un par de medias μi≠μj.
El objetivo del ANAVA es contrastar la hipótesis de que los efectos de los tratamientos
son nulos versus que al menos un efecto no lo es.
H0: μA = μB = μC H1: al menos un tratamiento tiene efecto no nulo.
En el contexto del ANAVA, la varianza suele llamarse por convención Cuadrado de la
Media Entre y Dentro de los grupos.
229
Estadística Inferencial: Comparación de Poblaciones
Cuadrado Medio Entre o Cuadrado Medio de Tratamiento
El Cuadrado Medio Entre es la obtención de la varianza de las medias muestrales
para, a partir de ésta, encontrar un estimador de σ2.
CME = S x2 ⋅ n
SCE a
(y ) (y ) 2 2
a‐1 grados de libertad entre tratamientos (donde a= n° de tratamientos).
Cuadrado Medio Dentro o Cuadrado Medio del Error
El Cuadrado Medio Dentro es el promedio ponderado de las varianzas estimadas en cada
SCD
tratamiento. Esto se expresa como CMD = , donde SCD (Suma de Cuadrados Dentro)=
gld
SCT (Suma de Cuadrados Totales) – SCE (Suma de Cuadrados Entre); y gld son los grados de
libertad dentro del tratamiento. El Cuadrado Medio Dentro es un estimador insesgado de σ2.
Para calcular el CMD se necesita conocer el SCE (Suma de Cuadrados Entre) y el SCT
(Suma de Cuadrados Totales).
a ni
( y • • )2
*Suma de Cuadrados Totales= SCT = ∑∑ y ij −
2
i =1 j =1 N
El CME estima a σ2 sólo si las medias de los tratamientos que se comparan son iguales
(Hipótesis nula verdadera). Estos dos estadísticos, el CMD y el CME son estimadores
independientes de σ2.
Para llevar a cabo la prueba se debe calcular el estadístico F utilizando los estimadores de
σ2E y σ2D de la siguiente manera:
CME
F=
CMD
230
Estadística Inferencial: Comparación de Poblaciones
rechaza la hipótesis nula, estableciendo que no todas las medias de tratamiento son iguales.
Dicho de otro modo, al menos una de las medias de tratamiento es diferente.
Tabla de datos para el ANAVA
Tratamien
Media
tos
1 Y11 Y12 Y1n Y1
2 Y21 Y22 Y2n Y2
. . . . .
. . . . .
a Ya1 Ya2 Yan Yn
Para entender la tabla se debe comprender que el dato Y12 representa una observación
realizada sobre la unidad experimental número 2 del tratamiento asignado como 1 y la
ni
notación yi. indica sumar sobre el índice reemplazado por el punto y i• = ∑ y ij .
j =1
Cómo realizar el análisis de la varianza (ANAVA)
Con los datos obtenidos de SCE, SCD y SCT se puede completar la tabla de análisis de la
varianza.
Ref: N= n1+n2+…+ni; a=n° de tratamientos.
Volviendo al ejemplo de los tratamientos para la obesidad, tenemos los siguientes datos:
231
Estadística Inferencial: Comparación de Poblaciones
actividad física programada
Dieta Hipocalórica, actividad 14 16 18 21 15 84
física programada y
modificación de la conducta
Y.. =202
Cálculos preliminares que deben realizarse:
202 2
SCT = 7 2 + 6 2 + 9 2 + ... + 212 + 15 2 − = 375,73
15
36 2 + 82 2 + 84 202 2
SCE = − = 294,93
5 15
SCD = 375,73 − 294,93 = 80,8
Así, la tabla de ANAVA correspondiente es:
232
Estadística Inferencial: Comparación de Poblaciones
EJERCICIOS DE APLICACIÓN 7.1 AL 7.12
EJERCICIO 7.1
Se quiere verificar si existe diferencia o no entre las medias de peso de un alimento seco
que es envasado por dos empresas distintas. Para ello se toma una muestra de 10 bolsas de
cada empresa y se las pesa. En base a esto se obtuvieron los siguientes pesos (en Kilos):
Empresa “A” 43,3 46,7 55,6 42,8 46,8 47,9 56,3 43,7 45,7 34,6
Empresa “B” 54,9 52,2 42,8 50,0 47,7 52,0 50,8 59,2 45,6 71,2
Se conocían con anterioridad las varianzas: σ21 = 39,4 Kg.2 y σ22 = 63,8 Kg.2, y se trabajó
con un α= 0,10. Analice estos conjuntos de datos de manera conveniente.
EJERCICIO 7.2
Se quiere comparar la cantidad de cenizas (minerales) en dos variedades de dulce de
leche fabricados en dos cuencas lecheras distintas. Los datos muestrales que se obtuvieron
luego del análisis químico fueron los siguientes:
Dulce de Leche “A” Dulce de Leche “B”
X A = 139 mg % X B = 128 mg%
S2A = 11,6 mg2 S2B = 7,9 mg2
nA = 9 nB = 9
Realizar la prueba de hipótesis y concluir (α = 0,05).
EJERCICIO 7.3
Con el objetivo de comparar el contenido total de nitrógeno (en gramos por 100 cm3) en
plasma de ratas albinas normales en distintos momentos de vida, se seleccionaron 6 ratas de
37 días y 6 de 180 días y se determinó el contenido de nitrógeno obteniéndose los siguientes
valores:
233
Estadística Inferencial: Comparación de Poblaciones
Tratamiento
37 días 0,98 0,83 0,99 0,86 0,90 0,91
180 días 1,20 1,18 1,13 1,21 1,2 1,07
¿Hay evidencia estadísticamente significativa para afirmar que los contenidos medios
totales de nitrógeno a los 37 días y a los 180 días son diferentes?
EJERCICIO 7.4
Se desea comparar el número de controles durante el embarazo entre mujeres de nivel
socioeconómico alto y bajo, para verificar si existen diferencias. Para ello se seleccionan de
forma aleatoria 15 nodrizas de nivel socioeconómico alto y 20 de nivel bajo, obteniéndose
los siguientes resultados:
Nº de controles durante el embarazo
Nivel Socioeconómico Alto: 4, 5, 3, 4, 5, 3, 3, 6, 1, 4, 5, 4, 4, 6, 3
Nivel Socioeconómico Bajo: 1, 5, 2, 3, 3, 1, 0, 4, 2, 2, 3, 5, 1, 5, 3, 0, 2, 4, 4, 3
Se trabaja con 90% de confianza
EJERCICIO 7.5
En una guardería de dos salitas se quiere conocer si la media de peso de los niños es igual
en ambas salas. La salita Roja funciona a la mañana y los chicos almuerzan en la guardería.
Mientras que los chicos de la salita Azul concurren a la guardería a la tarde y almuerzan en
sus casas. Para ello se tomó una muestra aleatoria de 10 niños en cada sala, obteniéndose
los siguientes resultados:
X R = 24 Kg SR = 1 Kg S2R = 1 Kg2
X A = 20 Kg SA = 5 Kg S2A = 25 Kg2
Determinar con 95 % de confianza si las medias de peso en los niños de ambas salitas son
iguales.
234
Estadística Inferencial: Comparación de Poblaciones
EJERCICIO 7.6
En un estudio experimental se desea determinar si el contenido de hemoglobina en
sangre de mujeres adultas es diferente entre nulíparas (que no han dado a luz ningún hijo) y
mujeres que han sido madres en un período no menor a 5 años. Para ello se tomaron dos
muestras de 8 mujeres cada una, obteniéndose las siguientes mediciones:
Mujeres 1 2 3 4 5 6 7 8
Un servicio de alimentación desea conocer si existe diferencia en el contenido de Ácido
Fólico en 100 g, entre la acelga y la espinaca. Selecciona dos muestras de tamaño 13 cada
una, obteniéndose los siguientes resultados:
Acelga: X = 145 mcg S = 3 mcg
Espinaca: X = 136 mcg S = 9 mcg
i) Se trabaja con 95% de confianza
EJERCICIO 7.8
En el Centro de Alto Rendimiento de Córdoba se está trabajando en la definición de un
protocolo estándar para la realización de perfiles antropométricos.
Se desea conocer si las mediciones revelan resultados diferentes según sean tomadas en
el lado derecho o izquierdo del cuerpo del individuo evaluado.
Para realizar esta comparación se tomó una muestra de 10 sujetos, en cada uno de los
cuales se realizaron valoraciones antropométricas en ambos lados corporales (derecha e
235
Estadística Inferencial: Comparación de Poblaciones
izquierda).
Los datos recabados para el pliegue subescapular (mm) fueron:
Sujeto Derecha Izquierda
1 10,6 10,14
2 9,8 9,52
3 12,3 11,98
4 9,7 9,3
5 8,8 8,48
6 12,35 12,01
7 10,55 10,09
8 8,93 8,63
9 9,24 9,00
10 10,00 9,50
De acuerdo a estos resultados: ¿Qué conclusión se puede extraer acerca del lugar de
medición del pliegue subescapular? Utilice un α = 0,05.
EJERCICIO 7.9
Un nuevo suplemento vitamínico que se promociona como estimulante de la ingesta
alimentaria salió a la venta. En un instituto de rehabilitación nutricional se desea probar si
realmente tiene tal efecto. Para ello se toma una muestra de 15 personas en quienes se
estima el valor energético total promedio consumido (Cal/día). Luego de administrarles
durante 1 mes el suplemento se realiza una nueva valoración de la ingesta, obteniéndose los
siguientes resultados:
236
Estadística Inferencial: Comparación de Poblaciones
Se desea conocer el impacto de una campaña de educación alimentaria sobre higiene de
los alimentos dirigida al personal que trabaja en comedores escolares. Para ello se tomó una
muestra de 6 manipuladores de alimentos y se les realizó un test de evaluación sobre
conocimientos en el tema previo al inicio de la campaña. Luego de haber implementado las
actividades educativas durante los 6 meses previstos, se realizó nuevamente el test a los
mismos manipuladores. ¿Se puede afirmar que la campaña de educación alimentaria tuvo
un efecto favorable, con un α = 0,05?
Manipulador de Test previo Test posterior
alimentos (% obtenido) (% obtenido)
1 80 82
2 75 79
3 93 90
4 92 92
5 89 89
6 50 55
237
Estadística Inferencial: Comparación de Poblaciones
EJERCICIO 7.11
El Servicio de Nutrición de un determinado hospital de la ciudad de Córdoba desea
estudiar si la proporción de pacientes con sobrepeso que habitan en áreas urbanas es
estadísticamente diferente de la proporción en quienes residen en contextos rurales. Para
ello, se extrajo una muestra aleatoria de personas atendidas en el Servicio, consultándose en
las historias clínicas sobre la localidad de procedencia del paciente y el estado nutricional
valorado en la primera consulta con el Servicio. Se encontró que 54 de los 402 pacientes que
residieron en áreas rurales presentaron sobrepeso, en tanto en áreas urbanas 117 pacientes
tuvieron sobrepeso de un total de 1067.
EJERCICIO 7.12
Se desea conocer si el descenso de la glucemia en pacientes con diabetes tipo 1 (insulino
dependiente) difiere según el tratamiento recibido. Para ello se formaron tres grupos que
siguieron tratamientos diferenciados:
Tratamiento 1: dieta tradicional e insulina de acción lenta
Tratamiento 2: dieta tradicional e insulina de acción rápida
Tratamiento 3: insulina de acción rápida y dieta con control del índice glucémico de los
alimentos.
Tratamiento Glucemia Totales de Tratamiento Yi
T1 130 120 110 90 450
T2 80 110 90 85 365
T3 90 50 90 70 300
Y.. =1115
238
Estadística Inferencial: Comparación de Poblaciones
RESOLUCIONES EJERCICIOS 7.1 AL 7.12
EJERCICIO 7.1
X 1 = 46,34 Kg σ21 = 39,4 Kg2
X 2 = 52,64 Kg σ22 = 63,8 Kg2
39,4 63,8
LI = ( 46,34 − 52,64) − 1,645 ⋅ +
10 10
39,4 63,8
LS = ( 46,34 − 52,64) + 1,645 ⋅ +
10 10
Como el cero no es un valor posible en el intervalo obtenido, esto indica que la media de
peso del alimento en cuestión es diferente para ambas empresas, siendo que la empresa “B”
envasa el alimento con mayor peso que la empresa “A”, esto se afirma con un 90% de
confianza.
239
Estadística Inferencial: Comparación de Poblaciones
EJERCICIO 7.2
H0: σ21 = σ22. H1: σ21≠σ22.
S12 11,6
F= = = 1,47
S 22 7,9
Región de aceptación α/2 = 0,2256 y (1 ‐ α/2) = 4,4333
1,47 se ubica dentro de la región de aceptación por lo que se acepta la semejanza de
varianzas.
H0: μ1= μ2 H1: μ1 ≠ μ2
Calculando el estadístico:
T=
(X 1 −X2 )
(n1 − 1)S12 + (n2 − 1)S 22 ⎡1 1⎤
⋅⎢ + ⎥
n1 + n 2 − 2 ⎣ n1 n 2 ⎦
T=
(139 − 128) = 7,47
8 ⋅ 11,6 + 8 ⋅ 7,9 ⎡ 1 1 ⎤
⋅⎢ + ⎥
9+9−2 ⎣9 9 ⎦
Con un α = 0,05 los puntos críticos que delimitan la región de aceptación son:
t(n1 + n2 – 2 ; α/2)y t(n1 + n2 – 2 ; 1 ‐ α/2)
t(16 ; 0,025) y t(16 ; 0,975) = ‐ 2,12 y 2,12
Como el valor calculado se ubica fuera de la región de aceptación se concluye que hay
suficiente evidencia para rechazar la hipótesis nula, estableciendo con 95% de confianza que
hay diferencia en el contenido promedio de cenizas de ambos dulces de leche.
240
Estadística Inferencial: Comparación de Poblaciones
EJERCICIO 7.3
n1 = 6 n2 = 6 α = 0,05
X 1 = 0,91 X 2 = 1,165
S1 = 0,063 S2 = 0,054
S21 = 0,004 S22 = 0,003
H0 : μ1 = μ2
H1 : μ1 ≠μ2
Varianzas Desconocidas
H0 : σ21 = σ22
H1 : σ21≠σ22
S12 0,004
F= = = 1,33
S 22 0,003 α = 0,05 α/2 = 0,025 1 ‐ α/2 = 0,975
Puntos Críticos: 0,139 y 7,146
F=1,33→ Zona de Aceptación → Las Varianzas son Semejantes
T=
(X 1 −X2 )
(n1 − 1)S + (n 2 − 1)S 22
1
2
⎡1
⋅⎢ + ⎥
1⎤
n1 + n 2 − 2 ⎣ n1 n 2 ⎦
T=
(0,91 − 1,17 )
(6 − 1) ⋅ 0,004 + (6 − 1) ⋅ 0,003 ⋅ ⎡ 1 + 1 ⎤
6+6−2 ⎢9 6 ⎥⎦
⎣
− 0,255
T= = −7,5
0,034
α = 0,05 Grados de Libertad: 10
Puntos Críticos: ‐2,22 y 2,22
241
Estadística Inferencial: Comparación de Poblaciones
T = ‐ 7,5 → se rechaza la hipótesis nula
Con 95% de confianza se afirma que los contenidos medios totales de nitrógeno a los 37 y
a los 180 días no son similares en plasma de ratas albinas normales.
EJERCICIO 7.4
F= 0,697 → Zona de Aceptación, se acepta H0 → las σ2 son semejantes
H0: μA=μB Gráfico bilateral
H1: μA≠μB Puntos críticos: ‐1,69 y 1,69
T=
(X 1 −X2 )
(n1 − 1)S12 + (n2 − 1)S 22 ⎡1 1⎤
⋅⎢ + ⎥
n1 + n 2 − 2 ⎣ n1 n 2 ⎦
242
Estadística Inferencial: Comparación de Poblaciones
T=
(4 − 2,65) = 2,7
(15 − 1) ⋅ 1,71 + (20 − 1) ⋅ 2,45 ⋅ ⎡ 1 1⎤
15 + 20 − 2 ⎢15 + 20 ⎥
⎣ ⎦
T = 2,7→ Zona de Rechazo → se rechaza H0
Con 90% de confianza se puede afirmar que el número de controles durante el embarazo
no es semejante entre las mujeres de alto y bajo nivel socioeconómico.
EJERCICIO 7.5
Prueba de diferencia de Varianzas
Hipótesis:
H0: σ2R = σ2A
H1: σ2R ≠σ2A
S12 1
F= 2
= = 0,04
Calculamos el estadístico S 2 25
Los puntos críticos determinados son 0,2484 y 4,026 y el valor de F = 0,04 se ubica en la
zona de rechazo, por lo que se rechaza la hipótesis nula (H0) y se concluye que las varianzas
(σ2) son diferentes.
Planteamos las hipótesis siguientes:
H0: μR = μA
H1: μR ≠μA
Calculamos el estadístico T’
T´ =
(24 − 20 ) = 2,48
1 25
+
10 10
Grados de Libertad:
243
Estadística Inferencial: Comparación de Poblaciones
2
⎛ S12 S 22 ⎞
⎜⎜ + ⎟⎟
v= ⎝ n1 n2 ⎠ −2
2 2
⎛ S12 ⎞ ⎛ S 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ n1 ⎠ + ⎝ n2 ⎠
n1 + 1 n2 + 1
2
⎛ 1 25 ⎞
⎜ + ⎟
v= ⎝ 2
10 10 ⎠
2
−2
⎛1⎞ ⎛ 25 ⎞
⎜ ⎟ ⎜ ⎟
⎝ 10 ⎠ + ⎝ 10 ⎠
10 + 1 10 + 1
v = 9,87 ≈ 9
Puntos críticos: ‐ 2, 26 y 2,26
Conclusión: el estadístico T’ se encuentra fuera de la zona de aceptación, rechazándose la
hipótesis nula, por lo tanto se afirma que las medias de peso de los niños de ambas salas son
diferentes, con 95% de confianza.
EJERCICIO 7.6
n1 = 8 n2 = 8 α = 0,05
X 1 = 11,8 X 2 = 11,96
2
S 1 = 1,38 S22 = 11,04
S1 = 1,175 S2 = 3,32
H0 : μ1 = μ2
H1 : μ1≠μ2
Varianzas Desconocidas
H0 : σ21 = σ22
H1 : σ21≠σ22
244
Estadística Inferencial: Comparación de Poblaciones
S12
F=
S 22
1,38
F= = 0,125
11,04
α = 0,05 α/2 = 0,025 1 ‐ α/2 = 0,975
Puntos Críticos: 0,2 y 4,99
F = 0,125 → Zona de Rechazo
Las varianzas son desconocidas y diferentes
T´ =
(X 1 −X2 )
2 2
S S
+ 1 2
n1 n2
T´ =
(11,8 − 11,96 ) = −0,128
1,38 11,04
+
8 8
Grados de Libertad
2
⎛ S12 S 22 ⎞
⎜⎜ + ⎟⎟
v= ⎝ n1 n 2 ⎠ −2
2 2
⎛ S12 ⎞ ⎛ S 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ n1 ⎠ + ⎝ n2 ⎠
n1 + 1 n2 + 1
2
⎛ 1,38 11,04 ⎞
⎜ + ⎟
v= ⎝ 8 8 ⎠
−2
2 2
⎛ 1,38 ⎞ ⎛ 11,04 ⎞
⎜ ⎟ ⎜ ⎟
⎝ 8 ⎠ +⎝ 8 ⎠
8 +1 8 +1
v = 9,22 Æ Grados de libertad
α/2= 0,025 1‐α/2= 0,975 Puntos críticos: ‐2,26 y 2,26
245
Estadística Inferencial: Comparación de Poblaciones
Con 95% de Confianza se puede afirmar que el contenido medio de hemoglobina en las
mujeres adultas es similar si no han tenido hijos y si han sido madres en un periodo mayor a
5 años.
EJERCICIO 7.7
Nivel de Confianza α = 0,05
α/2 = 0,025 1 ‐ α/2 = 0,975
Acelga: X = 145 S= 3 S2= 9 n= 13
Espinaca: X = 136 S= 9 S2= 81 n= 13
Prueba de diferencia de Varianzas
Hipótesis:
H0: σ2A = σ2E
H1: σ2A ≠σ2E
Calculamos el estadístico
S12
F=
S 22
9
F= = 0,11 Puntos Críticos: 0,3 y 3,27
81
S2E
0,11 cae en zona de rechazo, por lo que se rechaza la hipótesis nula (H0) y se concluye que
las varianzas (σ2) son diferentes.
H0: μA = μE
H1: μA ≠μE
246
Estadística Inferencial: Comparación de Poblaciones
Estadístico a utilizar: T’
Grados de Libertad:
2
⎛ S12 S 22 ⎞
⎜⎜ + ⎟⎟
v= ⎝ n1 n2 ⎠ −2
2 2
⎛ S12 ⎞ ⎛ S 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ 1 ⎠ + ⎝ n2 ⎠
n
n1 + 1 n2 + 1
2
⎛ 9 81 ⎞
⎜ + ⎟
v= ⎝ 2
13 13 ⎠
2
− 2 = 15,09 ≅ 15
⎛9⎞ ⎛ 81 ⎞
⎜ ⎟ ⎜ ⎟
⎝ 13 ⎠ + ⎝ 13 ⎠
13 + 1 13 + 1
T´ =
(145 − 136 ) = 9
= 3,4
9 81 2,63
+
13 13
Puntos críticos: ‐2,13 y 2,13
T’= 3,4 → Zona de Rechazo, se rechaza H0
Se afirma con 95% de confianza que el contenido de Ácido Fólico en 100g de vegetal es
distinto entre la acelga y la espinaca.
EJERCICIO 7.8
t α/2 = ‐2,266
t1‐α/2 = 2,266
Dado que 13,407 > 2,266 se rechaza la H0. Con una confianza del 95% se concluye
entonces que la medición del pliegue subescapular arroja resultados diferentes
(estadísticamente significativos) según se realice en el lado derecho o izquierdo del cuerpo,
lo cual deberá ser considerado en la elaboración del protocolo de mediciones
antropométricas.
EJERCICIO 7.9
EJERCICIO 7.10
Sd = 2,94
d
T = se distribuye con una T de Student con (6‐1) grados de libertad.
Sd
n
T = 1,33/ 1,2
= 1,108
t (1‐α/2)= 2,015 Gráfico unilateral derecho
Dado que 1,108<2,015 se acepta la H0. Por lo tanto, con una confianza del 95% se
concluye que la campaña de educación alimentaria no tuvo el efecto favorable esperado.
EJERCICIO 7.11
Las proporciones para cada zona (rural=1; urbano=2) son:
p1 = 54/ 402 = 0,1343
p2 = 117 / 1067 = 0,1097
Se establece:
H0: p1‐p2= 0 H1: p1‐p2≠ 0
En términos del problema:
H0: La proporción de sujetos con sobrepeso en las dos zonas en estudio es la misma.
H1: La proporción de sujetos con sobrepeso en las dos zonas en estudio es diferente.
Siendo el estadístico:
p1 − p 2
Z=
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2
249
Estadística Inferencial: Comparación de Poblaciones
0,1343 − 0,1097
Z= = ‐1,26
0,1343(1 − 0,1343) 0,1097(1 − 0,1097)
+
402 1067
Si se toma un nivel de significación del 0,05 el valor crítico es Z*= ±1,96.
El estadístico Z se ubica en la región de aceptación de H0, por lo que se concluye que las
proporciones de sujetos con sobrepeso en las dos zonas en estudio no son diferentes, con un
nivel de confianza del 95%.
EJERCICIO 7.12
Cálculos preliminares:
11152
SCT = 1302 + 1202 + 1102 + 902 + 802 + 1102 + ... + 152 − = 103602,08
12
450 2 + 365 2 + 300 1115 2
SCE = − = 2829,17
4 12
SCD = 103602,08 − 2829,17 = 2493,75
SCE
CME =
gle
gle = a − 1
gle = 3 − 1 = 2
SCE 2829,17
Entonces CME = = = 1414,58
gle 2
SCD
CMD =
gld
gld = N − a
gld = 12 − 3 = 9
250
Estadística Inferencial: Comparación de Poblaciones
SCD 2493,75
Entonces CMD = = = 277,08
gld 9
CME 1414,58
F= = = 5,11
CMD 277,08
Tabla de ANAVA correspondiente:
Fuente de Suma de Cuadrados Grados de Cuadrado F Obs.
Variación Libertad Medio
Entre 2829,17 2 1414,5 5,11
Tratamientos
Dentro (Error 2493,75 9 277,08
Experimental)
Total 103602 13
Como el F observado es igual a 5,11 y es mayor al F teórico [F(2;9; 0,95)= 4,25] se
rechaza la H0 de igualdad de medias. Esto quiere decir que al menos uno de los tratamientos
para diabéticos presenta una disminución de la glucemia en sangre diferente que el resto de
los tratamientos.
251
252
CAPÍTULO 8: ANÁLISIS DE RELACIONES
253
Análisis de Relaciones
254
Análisis de Relaciones
Hasta ahora, la revisión se ha centrado en la descripción de variables simples. La
media, la moda, la desviación estándar y las demás medidas de tendencia central y
variabilidad se aplicaron para describir los datos de una sola variable, es por ello que se
habla en este caso de estadísticas univariadas. Es común en el área de la Ciencias de la
Salud, y en particular en la de la Nutrición realizar estudios de más de dos características
o variables aleatorias en individuos extraídos de una población. Esto es lo que se llama
estudio bivariado o multivariado, para analizar esa información uno de los pasos a realizar
es la construcción de tablas de contingencia.
Tabla de Contingencia:
El objeto de las tablas de contingencia es determinar si existe o no algún tipo de
relación de dependencia entre dos o mas variables de tipo categórico o cualitativo, ya
sean de tipos nominal u ordinal . Éstas permiten tabular en forma cruzada las frecuencias
de las variables que se desean relacionar, visualizando así su distribución en las distintas
celdas que la conforman.
Para realizar la construcción de una tabla de contingencia se debe:
• Determinar el/los objeto/s de estudio: Individuos, personas, alimentos, niños,
etc.
• Determinar el/los criterios de clasificación de los mismos.
• Definir la disposición de las variables en columnas o en filas.
• Realizar la distribución de las frecuencias de las categorías de las variables en
las celdas correspondientes.
A continuación se presentan algunos ejemplos de tablas de contingencia (Tabla 1 y 2).
255
Análisis de Relaciones
Tabla 1: Rendimiento deportivo de Basquetbolistas, según tipo de dieta consumida
Tipo de Dieta Dieta A Dieta B Total
Rendimiento
Mejora 15 18 33
Mantiene 8 6 14
Declina 7 6 13
Total 30 30 60
Tabla 2: Relación entre el sexo y el tabaquismo
Sexo
Grado de Mujer Varón Total
Tabaquismo N % N % N %
No fumador 10 45,5 6 27 16 36,5
Fumador moderado 8 36,5 8 35,5 16 36,5
Muy fumador 4 18 8 36,5 12 27
Total 22 100 22 100 44 100
Una vez que se han construido las tablas de contingencia se procede al análisis de las
mismas que comprende:
• Verificar si existe asociación entre las variables
• Si existe asociación, construir un coeficiente para medir el grado de asociación
o estudiar los efectos de la variable sobre la distribución conjunta.
Tablas de 2 x 2
En este caso cada una de las variables que se están relacionando, presentan dos
categorías.
256
Análisis de Relaciones
Tabla 3: Total de niños Normales y Desnutridos Crónicos, según sexo. Córdoba, 1993.
Sexo
Estado Nutricional Femenino Masculino Total
Desnutridos 33 44 77
Normales 151 147 298
Total 184 191 375
Tabla 4: Velocidad de crecimiento según sexo. Córdoba, 1997.
Velocidad de Sexo
Total
crecimiento
Femenino Masculino
Insatisfactorio 18 15 33
Satisfactorio 18 21 39
Total 36 36 72
Luego de la construcción de la tabla se analiza si existe asociación entre las variables
utilizando el test de Chi Cuadrado.
Test de Chi cuadrado
Al analizar el Test de Chi cuadrado se busca conocer si la proporción de casos para
cada categoría de una de las variables es independiente del valor que toma la otra
variable, determinando la probabilidad de que los datos observados se ajusten a los datos
esperados
Para calcularlo se utiliza la siguiente fórmula:
( f 0 − f e )2
χ =∑2
,
fe
257
Análisis de Relaciones
donde:
fo: Frecuencias observadas en una celda.
fe: Frecuencias esperadas en una celda.
Σ: Sumatoria
fr ⋅ fc
fe = ,
n
donde:
fr: Frecuencia observada en una fila determinada.
fc: Frecuencia observada en una columna determinada.
n: Número total de sujetos, etc, de la muestra.
Se aplicará el Test con el ejemplo de la tabla de niños desnutridos crónicos según
sexo.
• Se determinan las hipótesis estadísticas:
H0 : El Estado Nutricional no está asociado al sexo.
H1: El Estado Nutricional está asociado al sexo.
• Se establece el nivel de significación a utilizar:
En este caso α = 0,05
• Se calculan los grados de libertad:
( L – 1) . ( C – 1 )
L: Líneas C: Columnas
Sería para el ejemplo:
258
Análisis de Relaciones
Grados de Libertad = (2‐1) . ( 2‐1 ) = 1
• Se calculan los valores esperados:
Ejemplo para la primera casilla de valores esperados de mujeres desnutridas:
Total de la Línea: 77 Total de la columna: 184
Total general: 375
Sexo
Femenino Masculino
Estado Nutricional Total
Valores Valores Valores Valores
Observados Esperados Observados Esperados
DESNUTRIDOS 33 38 44 39 77
NORMALES 151 146 147 152 298
Total 184 184 191 191 375
Cálculo de valor esperado para el valor observado 33:
fr ⋅ fc 77 ⋅ 184
fe = = = 37,78 ≈ 38
n 375
De igual manera se calculan el resto de las frecuencias esperadas.
• Luego se calcula el χ2 Observado
( f 0 − f e )2
χ2 = ∑
fe
χ2 =
(33 − 38)2 + (44 − 39 )2 + (151 − 146 )2 + (147 − 152 )2
38 39 146 152
χ 2 = 0,65 + 0,64 + 0,17 + 0,16 = 1,62
• Se busca el χ2 teórico en la tabla correspondiente.
259
Análisis de Relaciones
Para el ejemplo corresponde buscar en tabla el valor de χ2 para un grado de libertad
con un α= 0,05
χ2 teórico = 3,84
• Se realiza la comparación entre el χ2 observado y el χ2 teórico:
χ2 observado = 1,62 χ2 teórico = 3,84
• Esto se interpreta de la siguiente manera:
‐ Si el χ2 observado o calculado es menor o igual al teórico, aceptamos la H0
‐ Si el χ2 observado es mayor al teórico se acepta H1
Para el ejemplo citado, el χ2 observado es menor al teórico por lo que se acepta
entonces la hipótesis H0 : El estado Nutricional no está asociado al sexo.
• Se concluye que:
Con un 95 % de confianza el sexo no influye en el estado nutricional.
Nota:
Es importante aclarar que, cuando alguna de las frecuencias esperadas es menor a 0,5
ó cuando más del 20% de las frecuencias esperadas son menores que 5 no se puede usar
el estadísticoχ2. En estos casos hay que recurrir a métodos exactos para calcular las
probabilidades bajo la hipótesis H0 , como lo realiza la prueba de Irwin‐Fisher para tablas
de 2x2.
Ejercicios de aplicación: 8.1 a 8.2
Introducción al Análisis de Regresión Lineal Simple y Correlación Lineal
Hasta aquí se han presentado situaciones problemáticas que implican la medición de
una sola variable sobre cada unidad experimental.
260
Análisis de Relaciones
Sin embargo es frecuente en trabajos de investigación encontrar que se observan más
de una variable en cada objeto de estudio, con el interés de conocer la forma en que esas
variables se relacionan. El análisis de regresión y el de correlación son útiles para ello.
En este módulo sólo se trata el caso de Correlación Lineal Simple y Regresión
Lineal Simple es decir, cuando se tienen dos variables (denotadas por X e Y) evaluadas
sobre cada unidad experimental y la relación subyacente entre ambas es de tipo lineal.
La utilización de una u otra técnica depende fundamentalmente del objetivo del
investigador. Con la regresión se estudia la relación entre dos variables, donde una es
considerada explicativa (variable independiente o explicativa) y la otra efecto (variable
dependiente o respuesta), pudiendo estimarse en cuánto se puede esperar que se
modifique la variable dependiente si se modifica el valor de la variable independiente.
En tanto, el coeficiente de correlación mide la fuerza y la dirección de la relación lineal
entre dos variables cuantitativas, sin necesidad de distinguir una como dependiente y
otra como independiente. Permite investigar si dos variables X e Y son independientes
entre sí o si covarían, esto es, si varían conjuntamente. En el análisis de correlación,
ninguna de las variables puede ser fijada por el experimentador.
Los gráficos de dispersión se presentan en este capítulo como una herramienta útil en
la etapa exploratoria, tanto del análisis de regresión como de correlación. Como punto de
partida para el análisis de la relación entre las variables, este tipo de representación
gráfica, permite identificar el posible modelo funcional que caracteriza dicha relación,
siendo esta una asociación lineal positiva, negativa, o en su defecto ausencia de
asociación lineal.
Se puede decir que existe una relación o correlación positiva entre dos variables X y Y,
si al aumentar los valores de X aumentan los valores de Y, o cuando al disminuir los
valores de X disminuyen los valores de Y. En cambio, dos variables están asociadas
negativamente si al aumentar los valores de X disminuyen los valores de Y, o cuando al
disminuir los valores de X aumentan los valores de Y.
Regresión Lineal Simple
El análisis de regresión es una técnica para investigar y modelar la relación entre dos
variables cuantitativas, identificando la función que las une. Permite realizar predicciones,
261
Análisis de Relaciones
es decir, estimar el valor de una variable Y para un valor dado de la variable X. Para
realizar este análisis se supone que la relación entre las variables es lineal.
La relación lineal entre las variables X e Y puede expresarse usando el modelo de
regresión lineal simple poblacional:
Yi = α + βXi + εi,
donde
α: ordenada al origen
β: pendiente
εi: componente del error aleatorio
Los parámetros del modelo son α y β (constantes desconocidas). Como no todos los
puntos caen exactamente sobre la recta, se incluye en el modelo el término
correspondiente el error aleatorio que es una variable aleatoria con distribución normal
con media 0 y varianza σ2. Por lo tanto las Yi son variables aleatorias independientes con
distribución normal, esperanza
α + βXi y varianza común σ2.
Como el modelo es poblacional, los parámetros α y β, son desconocidos. Sin
embargo, pueden ser estimados a partir de los denominados coeficientes de regresión
muestrales (estimadores), los que se denotan como a y b respectivamente.
La ecuación de la regresión lineal básica sería la siguiente:
^
Y i = a + bXi,
donde:
^
Y i : valor predicho de la variable Y.
a: constante de intersección (ordenada al origen), indica el valor de Y para X = 0.
b: coeficiente de regresión (pendiente de la recta), indica cuanto cambia Y por cada
aumento unitario en X.
xi: valor de la variable X.
262
Análisis de Relaciones
Observando la ecuación anterior, ésta corresponde a la fórmula algebraica de una
línea recta. En definitiva, la regresión lineal representa un método para determinar una
línea recta que se ajuste a los datos, de tal manera que se reduzcan al mínimo las
desviaciones de los puntajes con respecto a la línea.
El estimador a, por ser la ordenada al origen, indica el punto en que la recta corta al
eje de las ordenadas, en tanto b, que es la pendiente de la recta, indica el cambio
producido por Y al cambiar en una unidad la X.
El método denominado de estimación por mínimos cuadrados (cuyo abordaje excede
los objetivos de este módulo) produce las siguientes expresiones para los estimadores a y
b (de α y β respectivamente):
n n
n ∑ X i ∑ Yi
∑X Y i i − i =1
n
i =1
a = Y – b X ,
b= i =1
n
n
(∑ X i ) 2
∑X − i =1
2
i
i =1 n
donde:
b: coeficiente de regresión.
a: constante de intersección.
Y : media de la variable Y.
X : media de la variable X.
x: valores de desviación de X.
y: valores de desviación de Y.
Ejemplo:
En un estudio se desea cuantificar la relación que existe entre el peso de nacimiento y
la ganancia de peso de la madre al octavo mes de embarazo.
Se obtuvieron los siguientes datos de 10 nacimientos ocurridos en un hospital de la
ciudad.
263
Análisis de Relaciones
X: ganancia de peso Y: Peso de
Paciente materno al 8vo mes Nacimiento
(en Kg) (en gramos)
1 7 2,400
2 12 3,000
3 8 2,800
4 10 3,100
5 9 2,500
6 12,5 3,250
7 18 3,750
8 13 3,250
9 15 3,600
10 9,5 3,150
El diagrama de dispersión es el siguiente:
3,82
3,45
Peso Nacimiento
3,08
2,70
2,33
6,45 9,48 12,50 15,53 18,55
Ganancia de peso
Figura 1. Peso de nacimiento en gramos según ganancia de peso materno al 8º mes de
embarazo.
El diagrama indica que hay una relación positiva entre el peso de nacimiento y la
ganancia de peso materno, y se puede postular entonces que en este caso la relación es
lineal.
Cálculos para la regresión lineal simple:
X Y XY X2
7 2,4 16,8 49
12 3,0 36,0 144
8 2,8 22,4 64
264
Análisis de Relaciones
X = 11,4 Kg,
Y = 3,080 Kg,
114 ⋅ 30,8
362,95 −
b= 10
114 2
1402,5 −
10
362,95 − 351,12
b=
1402,5 − 1299,6
b = 0,11 ,
luego
a = Y − bX
a = 3.080 − 0,1 ⋅ 11,4
a = 1,826
Para trazar la recta correspondiente, se busca el valor de Y correspondiente a una X
cualquiera. Por ejemplo, X = 11
yˆ = a + bX = 1,826 + 0,11 ⋅ 11
= 1,826 + 1,21 = 3,036
Se marca en el eje Y el valor de a para X = 0. En este caso 1,826.
Luego se busca para 11 Kg. de ganancia de peso (X) el peso de nacimiento que le
corresponde (Y), en este caso 3,036 Kg.
Y por último se unen estos dos puntos.
La representación gráfica conjunta del diagrama de dispersión y la recta de regresión
265
Análisis de Relaciones
estimada Y = 1,826 + 0,11 X sería la siguiente:
3,90
3,51
Peso Nacimiento
3,12
2,73
2,33
6,45 9,48 12,50 15,53 18,55
Ganancia de peso
Figura 2. Peso de nacimiento en gramos según ganancia de peso materno al 8º mes de
embarazo.
La estimación de una recta de regresión expresa lo que ocurre en la muestra, es decir
la recta estimada es meramente descriptiva. En caso que se desee obtener conclusiones
sobre la población para predecir valores de la variable Y para determinados valores de la
variable X se deben realizar pruebas de hipótesis.
Prueba de Significación de la Regresión (β)
La realización de una prueba para el parámetro β es llamada Prueba de significación de
266
Análisis de Relaciones
la Regresión.
Las hipótesis a probar son:
H0) β = 0 H1) β ≠ 0
que indican
H0: La variable X no explica linealmente a la variable Y.
H1: La variable X explica linealmente a la variable Y.
Lo planteado en la hipótesis nula indica que la recta poblacional tiene pendiente cero
(o sea es una recta horizontal) lo cual se interpreta como que cualquiera sea la variación
en X, Y permanece constante.
La aproximación más simple para probar β = β0 es mediante un test T.
Para contrastar estas hipótesis se define el siguiente estadístico, el cual se distribuye
como una T con n ‐ 2 grados de libertad:
b − β0
T = .
⎡ ∧ ⎤
⎢ σ 2 ⎥
⎢ ⎥
⎢⎣ ∑ x i ( ∑ i )
⎢ 2
− x
2
/ n ⎥
⎥⎦
∧
En las expresiones dadas aparece la estimación de la varianza del error ( σ 2 ). No se ha
mostrado hasta ahora, una expresión para este estimador. La técnica de estimación nos
conduce a la partición de la denominada Suma de los Cuadrados Total (SCT) de Y en una
Suma de Cuadrados Explicadas por α (SCα ), una Suma de Cuadrados Explicada por β
(SCβ) y una Suma de Cuadrados Residual (SCR). Esta descomposición de la suma de los
∧
cuadrados permite estimar σ 2 :
∧
σ 2 = SCR / ( n – 2) .
Siendo SCR = SCT ‐ SCβ
267
Análisis de Relaciones
2
⎛ n ⎞
⎜ ∑ Yi ⎟
SCT = ∑ Yi − ⎝ i =1 ⎠
n
2
i =1 n
2
⎡ n n
⎤
⎢ n ∑ X i ∑ Yi ⎥
⎢ ∑ X iYi − i =1 i =1
⎥
⎢ i =1 n ⎥
⎢⎣ ⎥⎦
SCβ = 2
.
⎛ n ⎞
⎜ ∑ Xi ⎟
X i − ⎝ i =1 ⎠
n
∑i =1
2
n
Habiendo calculado entonces el estadístico T, se elige el nivel de significación con el
cual se decide trabajar y se busca el punto crítico en la Tabla de Cuantiles de la
Distribución T. Este valor (T teórico) se compara con el valor de T observado.
Si el valor calculado se ubica dentro de la zona de rechazo de H0, se podría concluir que
la variable X explica linealmente a la variable Y. En caso contrario (aceptación de la H0) no
puede asegurarse que la pendiente de la recta de regresión estimada sea diferente de
cero. Así, si la recta de regresión tiene pendiente nula, los valores de Y son indiferentes a
los valores de X y por lo tanto la relación lineal propuesta no explica las variaciones de Y
en función de X.
Otra opción para probar la significación de la regresión (estableciendo como H0 : β = 0)
es mediante una prueba F. Para ello debemos calcular la F observada:
SC β
F observada = 1
SCR
n−2
Este valor se compara luego con un valor F crítico con 1 y n‐2 grados de libertad,
localizado en Tabla de Cuantiles de la Distribución F de acuerdo al nivel de significación
definido.
Además del uso de pruebas de hipótesis para obtener conclusiones sobre la población
y predecir valores de la variable Y para determinados valores de la variable X se pueden
268
Análisis de Relaciones
construir intervalos de confianza.
Intervalo de confianza para las predicciones de Y dado X
El intervalo de confianza al 95% de Y dado X=x se expresa de la siguiente manera:
^ ⎛ 1
⎜
y ± 1.96 σ 1 + +2 x− X (
2
)
⎞
⎟ ,
⎜ n Σx i 2 − ( Σx i ) 2 / n ⎟
⎝ ⎠
Si σ2 no se conoce y se estima, entonces el intervalo anterior se modifica,
reemplazando el valor 1.96 por el cuantil correspondiente a una T con n‐ 2 grados de
libertad y sustituyendo σ2 por su estimador.
Con los datos obtenidos del ejemplo, se puede calcular el intervalo de confianza.
Por ejemplo: se quiere saber cuánto pesaría un bebé al nacer si su madre tuvo a los 8
meses de embarazo una ganancia de peso de 11Kg.
x = 11 Kg
^
y = 3,036 Kg.
S2 = 0,185 (porque no se conoce σ2)
^ ⎛ 1
⎜
y± t S 1 + +
2 x− X ( 2
)
⎞
⎟
⎜ n Σx i − ( Σx i ) / n ⎟
2 2
⎝ ⎠
⎛
⎜
3,036 ± 2,306 0,185 ⎜1 +
1
+
(11 − 11,4 )
2
⎞
⎟
− 2 ⎟
⎝ 10 1402 ,5 (114 ) / 10 ⎠
⎛ 1 0,16 ⎞
3,036 ± 2,306 0,185 ⎜1 + + ⎟
⎝ 10 1402,5 − 1299,6 ⎠
⎛ 0 ,16 ⎞
3 , 036 ± 2 ,306 0 ,185 ⎜ 1 + 0 ,1 + ⎟
⎝ 102 ,9 ⎠
269
Análisis de Relaciones
3 , 036 ± 2 ,306 0 ,185 ⋅ 1,1015
3 , 036 ± 2 ,306 0 , 204
3 , 036 ± 1, 038
IC [1,9984‐ 4,074]
El intervalo quedaría formado de la siguiente manera [1,998 Kg ; 4,074 Kg]
Lo que se interpretaría diciendo que si la madre al octavo mes de vida tiene una
ganancia de peso de 11 Kg, con0,95 de probabilidad, su bebé al nacer tendría un peso
entre los 2 y los 4 Kg.
Correlación Lineal Simple
El análisis de correlación se utiliza cuando se desea conocer el grado de asociación
entre variables. Para ello es utilizando el coeficiente de correlación, una medida
adimensional de la relación lineal entre dos variables, que se define como:
Cov ( x, y )
ρ= ,
σ xσ y
donde Cov(x,y) es la covarianza poblacional de las variables x e y
σx y σy son las desviaciones poblacionales típicas de x y de y
Pero, como sucede en muchas ocasiones prácticas, se debe estimar ρ (parámetro
poblacional desconocido) a partir de datos muestrales. Entonces se utiliza el estimador de
ρ que es “r”.
Cov ( x, y )
r= ,
SxSy
270
Análisis de Relaciones
⎛ _
⎞⎛ _
⎞
∑⎜ xi − X ⎟⎜ y i − Y ⎟
donde la covarianza muestral Cov(x,y) es = ⎝ ⎠⎝ ⎠
n
y Sx y Sy son las desviaciones muestrales de x y de y.
Así,
( )( )
n
Σ nX i − X Yi − Y
r= i =1
( ) Σ (Y − Y )
n 2 n 2
Σ Xi − X
i =1 i =1
n n
n Σ X i Σ Yi
i =1 i =1
Σ X i Yi −
i =1 n
=
n
⎛ ⎛n ⎞
2
⎞⎛ ⎛n ⎞
2
⎞
⎜ ⎜ Σ X ⎟ ⎟⎜ ⎜ Σ Y ⎟ ⎟
⎜n ⎟ ⎜ n 2 ⎝ i =1 ⎠ ⎟
i i
⎝ i =1 ⎠
Σ − Σ −
2
X
⎜ i =1 i Y
⎟ ⎜ i =1 i ⎟
n n
⎜ ⎟⎜ ⎟
⎜ ⎟⎜ ⎟
⎝ ⎠⎝ ⎠
Para la interpretación de este estimador debemos recordar que el coeficiente de
correlación se caracteriza por lo siguiente:
• Es un número abstracto.
• Su valor no puede ser mayor a 1 ni menor que – 1.
• Si tiene signo positivo, quiere decir que las dos características estudiadas tienden a
variar en el mismo sentido, o dicho de otra manera, si aumenta el valor de una
característica (X) también aumenta el valor de la otra (Y). Si el signo es negativo, las
características difieren en sentido contrario, si aumenta el valor de una característica (X),
disminuye el de la otra (Y) y viceversa.
• Cuanto más se acerque el coeficiente de correlación a + 1 o a – 1, más estrecha
será la relación entre las características (X e Y).
• Si la relación es perfecta, el valor de r será igual a + 1 ó – 1. Si no hay relación, el
valor de r es igual a cero.
271
Análisis de Relaciones
Prueba de hipótesis sobre ρ
La simple observación de que dos variables parecen estar relacionadas nos lleva a
pensar, por un lado, qué tan estrechamente relacionadas están, y por otro, si es real la
asociación observada o si se debe simplemente al azar. Para el primer interrogante se
necesita una medida del grado de asociación, como lo es el coeficiente de correlación
hasta aquí presentado (ρ, a partir de su estimador r), y para el segundo, una prueba
estadística de hipótesis para ρ.
Si se tiene una muestra de n pares de valores (X,Y) y que respondan a la condición de
normalidad bivariada, se puede utilizar el coeficiente de correlación muestral “r” para
probar que X e Y son independientes.
Para probar la hipótesis:
H0: p = 0 H1: p ≠ 0
las cuales indican
H0: No hay asociación lineal entre las variables X e Y
H1: Hay asociación lineal entre las variables X e Y
se utiliza el siguiente estadístico:
r
t= .
1− r2
n−2
Dicho estadístico se distribuye como t de Student con n – 2 grados de libertad, donde n
corresponde al número de pares (X,Y).
Continuando con el ejemplo de la ganancia de peso al octavo mes de embarazo, se
calcula el coeficiente de correlación:
272
Análisis de Relaciones
3629,5 − 3511,2
=
(14025 − 12996) ⋅ (965,2 − 948,64)
118,3 118,3
= =
1029 ⋅ 16,56 130,53
= 0,906
El resultado nos indica que si están correlacionados el peso de nacimiento con la
ganancia de peso materno al 8vo. mes, siendo la misma positiva. Pero ¿Es esta alta
correlación estadísticamente significativa?
Para saberlo haremos una prueba de hipótesis
Donde H0: r = 0
H1: r ≠ 0
α = 0,05
Utilizando el estadístico se tiene que:
r
t=
1− r2
n−2
0,906
t=
1 − 0,906 2
10 − 2
t= 6,04
La zona de aceptación de la hipótesis nula estaría comprendida entre –2,30 y 2,30. El
valor calculado se ubica fuera de esta región por lo que se rechaza la hipótesis de
correlación nula y se concluye entonces, con una confianza del 95%, que hay una
correlación lineal estadísticamente significativa entre la ganancia de peso al octavo mes
de embarazo y el peso del recién nacido.
273
Análisis de Relaciones
Otro ejemplo:
En la siguiente tabla se muestran los contenidos de proteína bruta (PB) y de caseína
(CA) de leches en una muestra de 23 tambos de la cuenca lechera del centro del país.
274
Análisis de Relaciones
la hipótesis nula. Se concluye entonces, que con una confianza del 95 % se rechaza la
hipótesis de correlación nula, diciendo que hay una correlación lineal estadísticamente
significativa entre los porcentajes de proteína bruta y de caseína en la leche.
Ejercicios de aplicación: 8.3 a 8.7
275
Análisis de Relaciones
EJERCICIOS DE APLICACIÓN 8.1 A 8.7
EJERCICIO 8.1
En una institución de salud se desea conocer si existe asociación entre el peso de los
niños al nacer y el nivel socioeconómico de sus madres.
Para ello se tomó una muestra de 200 recién nacidos. Si se trabaja con una confianza
del 99% ¿podemos suponer que existe asociación?
Peso de niños al nacer y nivel socioeconómico de las madres
EJERCICIO 8.2
Se desea conocer si existe asociación entre el consumo de cigarrillos y el desarrollo de
cáncer de colon.
Para ello se tomó una muestra al azar de 505 mujeres y se les indagó sobre las
variables de interés. Se trabaja con una confianza del 95%.
Consumo de tabaco y diagnóstico de cáncer de colon en mujeres
276
Análisis de Relaciones
EJERCICIO 8.3
En un hospital regional de la Provincia de Córdoba se recabaron datos antropométricos
y de ingesta alimentaria correspondientes a una muestra de 12 pacientes internados HIV+
que ingresaron con desnutrición. Se desea estudiar la relación existente entre el consumo
diario de un nuevo suplemento nutricional hipercalórico utilizado como refuerzo calórico
en licuados y el índice de masa corporal (peso / talla2) para la población de estudio a los
20 días del ingreso.
X = Suplemento nutricional (g) Y = IMC (kg/m2)
42 13
45 15
50 16
55 17
68 18
69 18
70 19
73 20
80 20
90 21
92 22
94 23
i) Grafique los datos utilizando un diagrama de dispersión.
ii) Estime la recta de regresión poblacional.
iii) De acuerdo a lo anterior, cuánto se calcula que aumenta el IMC por cada gramo
de aumento en el consumo del suplemento?
iv) Realice la prueba de significación de la regresión (95% de confianza) y extraiga
conclusiones.
EJERCICIO 8.4
En un estudio antropométrico realizado en la ciudad de Mendoza se pretende estudiar
la relación existente entre el grosor del pliegue tricipital y el del pliegue subescapular en
mujeres posmenospáusicas. Se obtuvieron los siguientes resultados:
277
Análisis de Relaciones
Pliegue subescapular (mm) 12,39 12,39 12,71 9,8 12,3 10,12 11,81 11,41 9,4 11,49
Pliegue tricipital (mm) 32,27 29,39 30,8 15,6 29,8 16,87 28,11 23,29 14,11 25,37
i) ¿Cómo se espera que sea la asociación entre ambos pliegues?
ii) Calcular el coeficiente de correlación correspondiente.
iii) ¿Es significativo el coeficiente encontrado para un nivel de confianza de 95%?
iv) Elaborar conclusiones.
EJERCICIO 8.5
Se desea probar la efectividad de un nuevo suplemento nutricional para optimizar el
rendimiento deportivo. Se administraron distintas dosis en ocho equipos de deportistas
de elite. Durante seis meses se realizaron test para valorar el rendimiento físico en cada
grupo.
Finalmente se calculó el porcentaje de mejoramiento del rendimiento observado en
cada equipo. Los datos son los siguientes:
Dosis (mg) (X) 0 1 5 10 15 20 25 30
% Mejora rendimiento (Y) 5 7 10 16 17 25 26 30
i) Construir un diagrama de dispersión % Mejora del rendimiento vs Dosis.
ii) De acuerdo al gráfico obtenido, ¿es razonable proponer un ajuste lineal?
iii) Estimar los parámetros de la ordenada al origen (α) y la pendiente (β).
iv) Predecir el % de mejora en el rendimiento deportivo que se hallará si se
administraran dosis de 23 mg.
v) Calcule el intervalo de confianza al 95% de Y dado que X = 23 mg. Interprete los
resultados.
EJERCICIO 8.6
Estudios recientes sugieren que el tiempo de trabajo frente a una computadora, de por
sí sedentario, podría ser un factor relacionado con el aumento de peso corporal.
278
Análisis de Relaciones
Los siguientes datos fueron tomados en personas bajo estudio y se refieren al
aumento de peso promedio en 1 año y los minutos promedio dedicados a trabajar en la
computadora.
Aumento de peso anual (mg) Trabajo en computadora (min/día)
650 230
1000 230
1000 250
600 200
1000 220
800 300
800 230
700 190
1500 250
i) Represente gráficamente los datos de la tabla.
ii) Estime el coeficiente de correlación lineal entre las variables anteriores y pruebe su
significación.
EJERCICIO 8.7
Reducción del peso corporal (g) Ajuste calórico (Cal)
419 227
407 231
363 200
360 211
257 182
622 304
424 384
359 194
346 158
556 225
474 305
441 235
i) Construya un diagrama de dispersión con los datos anteriores.
279
Análisis de Relaciones
ii) Calcule el coeficiente de correlación lineal.
iii) ¿Es el valor obtenido un indicador de una alta correlación entre las variables o no?
Aplique el test de hipótesis correspondiente y extraiga conclusiones.
280
Análisis de Relaciones
RESOLUCIONES EJERCICIOS 8.1 AL 8.7
EJERCICIO 8.1
Ho: el peso de los niños al nacer es independiente del nivel socioeconómico de sus
madres.
H1: existe asociación entre el peso de los niños al nacer y el nivel socioeconómico de
sus madres.
Valores esperados:
Bajo peso al nacer Peso normal al nacer Total
( f 0 − f e )2
χ =∑2
fe
χ2 =
(55 − 46,74)2 + (21 − 29,26)2 + (45 − 37,51)2 + (16 − 23,48)2 + (23 − 38,74)2 + (40 − 24,25)2
46,74 29,26 37,51 23,48 38,74 24,25
χ 2 = 1,45 + 2,33 + 1,49 + 2,38 + 6,39 + 10,22 = 24,26
Punto crítico: 9,21
Se rechaza Ho, es decir que existe asociación entre el nivel socioeconómico de las
madres y el peso del niño al nacer, con 99% de confianza,
EJERCICIO 8.2
Ho: no hay asociación entre el consumo de cigarrillos y el desarrollo de cáncer de
colon, en mujeres.
H1: hay asociación entre el consumo de cigarrillos y el desarrollo de cáncer de colon, en
mujeres.
Valores esperados:
281
Análisis de Relaciones
61,16 202,8 55,83 185,16
χ 2 = 0,43 + 0,47 + 0,13 + 0,14 = 1,17
Punto crítico: 3,84
Se acepta Ho, es decir que no existe asociación entre el consumo de cigarrillos y el
desarrollo de cáncer de colon en mujeres, con 95% de confianza.
EJERCICIO 8.3
i) IMC (kg/m2) según consumo de suplemento nutricional hipercalórico (g/día) en
pacientes internados HIV+ que ingresaron con desnutrición.
25
20
15
IMC
10
0
0 50 100
ii)
X Y XY X2
42 13 546 1764
282
Análisis de Relaciones
45 15 675 2025
50 16 800 2500
55 17 935 3025
68 18 1224 4624
69 18 1242 4761
70 19 1330 4900
73 20 1460 5329
80 20 1600 6400
90 21 1890 8100
92 22 2024 8464
94 23 2162 8836
828 222 15888 60728
X = 69
Y = 18,5
a = Y – b X
⎡ 828 ⋅ 222 ⎤
15888 − ⎢ ⎥
b= ⎣ 12 ⎦ = 15888 − 15318 = 0,158
828 2 60728 − 57132
60728 −
12
a = 18,5 − 0,158 ⋅ 69 = 7,598
La regresión estimada de Y sobre X puede expresarse
yˆ = 7,598 + 0,158 X
iii) Por cada gramo de aumento en el consumo del suplemento dietario se calcula un
aumento de aproximadamente 0,16 kg/m2 en el IMC.
iv)
SCT = 95
SCβ = 90,35
283
Análisis de Relaciones
SCR = SCT ‐ SCβ = 4,65
∧
σ 2 = SCR / (n – 2) = 0,465
T observada = 0,158 / 0,011 = 14,364
T teórica = ‐ 2,228 y 2,228
Como el valor calculado se ubica dentro de la zona de rechazo de H0, se podría concluir
con un 95% de confianza que la variable X explica linealmente a la variable Y. Es decir que
la pendiente de la relación lineal es estadísticamente distinta de cero.
EJERCICIO 8.4
Relación entre pliegues tricipital y subescapular en mujeres postmenospaúsicas
35
30
Pliegue tricipital (mm)
25
20
15
10
0
8 9 10 11 12 13
i) El diagrama de dispersión sugiere que existe una tendencia lineal de pendiente
ascendente entre los dos tipos de pliegues.
ii)
X Y XY X2 Y2
12,39 32,27 399,825 153,512 1041,353
284
Análisis de Relaciones
EJERCICIO 8.5
285
Análisis de Relaciones
i) Porcentaje de mejora en el rendimiento físico según dosis de un suplemento
nutricional en deportistas de elite
35
30
20
15
10
0
0 10 20 30 40
Dosis (m g)
i) El diagrama de dispersión sugiere que es razonable proponer un modelo de
regresión lineal
iii)
X Y XY X2
0 5 0 0
1 7 7 1
5 10 50 25
10 16 160 100
15 17 255 225
20 25 500 400
25 26 650 625
30 30 900 900
106 136 2522 2276
X = 13,25
Y = 17
S
2
Y
= 9,320
286
Análisis de Relaciones
Los estimadores de la ordenada al origen (α) y la pendiente (β) son a y b
respectivamente:
⎡106 ⋅ 136 ⎤
2522 − ⎢ ⎥
b= ⎣ 8 ⎦ = 2522 − 1802 = 0,826
106 2
2276 − 1404,2
2276 −
8
a = 17 − 0,826 ⋅ 13,23 = 6,056
La regresión estimada de Y sobre X puede expresarse
= 6,056 + 0,826X
La regresión estimada de Y sobre X puede expresarse
yˆ = 6,056 + 0,826 X
iv) yˆ = a + bX = 6,056 + 0,826 ⋅ 23 = 25,054%
v) El intervalo de confianza al 95% de Y dado que X = 23 mg sería:
25,054 ± 8,098 = [33,152 ; 16,956]
Esto significa que, con un 95% de confianza, si la dosis del suplemento nutricional
administrada es de 23 mg, un deportista mejoraría su rendimiento entre 33 y 17%
aproximadamente.
EJERCICIO 8.6
i) Relación entre el aumento de peso anual (mg) y el tiempo dedicado a trabajar
frente a la computadora en una población x.
287
Análisis de Relaciones
350
Trabajo en computadora
300
(min/día)
250
200
150
100
0 500 1000 1500 2000
ii)
X Y XY X2 Y2
650 230 149500 422500 52900
1000 230 230000 1000000 52900
1000 250 250000 1000000 62500
600 200 120000 360000 40000
1000 220 220000 1000000 48400
800 300 240000 640000 90000
800 230 184000 640000 52900
700 190 133000 490000 36100
1500 250 375000 2250000 62500
8050 2100 1901500 7802500 498200
r = 0,33
iii) Dado H0: p = 0 vs H1 : p ≠0
Estadístico t = 0,924
Para α = 0,10, la zona de aceptación estaría comprendida entre 1,895 y ‐1,895.
Para α = 0,05, la zona de aceptación estaría comprendida entre 2,365 y ‐2,365.
Para α = 0,01, la zona de aceptación estaría comprendida entre 3,499 y ‐3,499.
288
Análisis de Relaciones
El estadístico t calculado se sitúa en todos los casos anteriores dentro de la zona de
aceptación de la H0, por ende se concluye que no existe una correlación lineal
estadísticamente significativa entre el tiempo destinado diariamente a trabajar frente a
una computadora y el aumento de peso anual en la población de estudio.
EJERCICIO 8.7
Relación entre ajuste calórico y reducción del peso corporal (g) en pacientes bajo
tratamiento dietoterápico por sobrepeso.
450
400
350
Ajuste calórico (Cal)
300
250
200
150
100
50
0
0 200 400 600 800
289
Análisis de Relaciones
X Y XY X2 Y2
419 227 95113 175561 51529
407 231 94017 165649 53361
363 200 72600 131769 40000
360 211 75960 129600 44521
257 182 46774 66049 33124
622 304 189088 386884 92416
424 384 162816 179776 147456
359 194 69646 128881 37636
346 158 54668 119716 24964
556 225 125100 309136 50625
474 305 144570 224676 93025
441 235 103635 194481 55225
5028 2856 1233987 2212178 723882
r = 0,547
Dado H0: p = 0 vs H1 : p ≠0
Estadístico t = 2,069
Para α = 0,05, la zona de aceptación estaría comprendida entre ‐2,228 y 2,228.
Como ‐2,228 < 2,069 < 2,228 se decide no rechazar H0. No existe evidencia
estadísticamente significativa para afirmar que las variables estén correlacionadas.
290
BIBLIOGRAFÍA
291
292
Bibliografía
293
Bibliografía
PEÑA D. (2001) Fundamentos de Estadística. Editorial Alianza, Madrid.
WALPOLE‐MYERS‐MYERS. Probabilidad y Estadística para Ingenieros.
294
TABLAS ESTADÍSTICAS
295
296
Tablas estadísticas
TABLA DE NÚMEROS ALEATORIOS
39634 62349 74088 65564 16379 19713 39153 69459 17986 24537
14595 35050 40469 27478 44526 67331 93365 54526 22356 93208
30734 71571 83722 79712 25775 65178 07763 82928 31131 30196
64628 89126 91254 24090 25752 03091 39411 73146 06089 15630
42831 95113 43511 42082 15140 34733 68076 18292 69486 80468
80583 70361 41047 26792 78466 03395 17635 09697 82447 31405
00209 90404 99457 72570 42194 49043 24330 14939 09865 45906
05409 20830 01911 60767 55248 79253 12317 84120 77772 50103
95836 22530 91785 80210 34361 52228 33869 94332 83868 61672
65358 70469 87149 89509 72176 18103 55169 79954 72002 20582
72249 04037 36192 40221 14918 53437 60571 40995 55006 10694
41692 40581 93050 48734 34652 41577 04631 49184 39295 81776
61885 50796 96822 82002 07973 52925 75467 86013 98072 91942
48917 48129 48624 48248 91465 54898 61220 18721 67387 66575
88378 84299 12193 03785 49314 39761 99132 28775 45276 91816
77800 25734 09801 92087 02955 12872 89848 48579 06028 13827
24028 03405 01178 06316 81916 40170 53665 87202 88638 47121
86558 84750 43994 01760 96205 27937 45416 71964 52261 30781
78545 49201 05329 14182 10971 90472 44682 39304 19819 55799
14969 64623 82780 35686 30941 14622 04126 25498 95452 63937
58697 31973 06303 94202 62287 56164 79157 98375 24558 99241
38449 46438 91579 01907 72146 05764 22400 94490 49833 09258
62134 87244 73348 80114 78490 64735 31010 66975 28652 36166
72749 13347 65030 26128 49067 27904 49953 74674 94617 13317
81638 36566 42709 33717 59943 12027 46547 61303 46699 76243
297
Tablas estadísticas
46574 79670 10342 89543 75030 23428 29541 32501 89422 87474
11873 57196 32209 67663 07990 12288 59245 83638 23642 61715
13862 72778 09949 23096 01791 19472 14634 31690 36602 62943
08312 27886 82321 28666 72998 22514 51054 22940 31842 54245
11071 44430 94664 91294 35163 05494 32882 23904 41340 61185
82509 11842 86963 50307 07510 32545 90717 46856 86079 13769
07426 67341 80314 58910 93948 85738 69444 09370 58194 28207
57696 25592 91221 95386 15857 84645 89659 80535 93233 82798
08074 89810 48521 90740 02687 83117 74920 25954 99629 78978
20128 53721 01518 40699 20849 04710 38989 91322 56057 58573
00190 27157 83208 79446 92987 61357 38752 55424 94518 45205
23798 55425 32454 34611 39605 39981 74691 40836 30812 38563
85306 57995 68222 39055 43890 36956 84861 63624 04961 55439
99719 36036 74274 53901 34643 06157 89500 57514 93977 42403
95970 81452 48873 00784 58347 40269 11880 43395 28249 38743
56651 91460 92462 98566 72062 18556 55052 47614 80044 60015
71499 80220 35750 67337 47556 55272 55249 79100 34014 17037
66660 78443 47545 70736 65419 77489 70831 73237 14970 23129
35483 84563 79956 88618 54619 24853 59783 47537 88822 47227
09262 25041 57862 19203 86103 02800 23198 70639 43757 52064
298
Tablas estadísticas
TABLA DE CUANTILES DE LA DISTRIBUCIÓN NORMAL ESTANDAR
z P(Z ≤ z) z P(Z ≤ z) z P(Z ≤ z) Cuantil z
-3,25 0,00058 -1,00 0,15866 1,25 0,89435 0,00001 -4,265
-3,20 0,00069 -0,95 0,17106 1,30 0,90320 0,0001 -3,719
-3,15 0,00082 -0,90 0,18406 1,35 0,91149 0,001 -3,090
-3,10 0,00097 -0,85 0,19766 1,40 0,91924 0,005 -2,576
-3,05 0,00114 -0,80 0,21186 1,45 0,92647 0,01 -2,326
-3,00 0,00135 -0,75 0,22663 1,50 0,93319 0,02 -2,054
-2,95 0,00159 -0,70 0,24196 1,55 0,93943 0,025 -1,960
-2,90 0,00187 -0,65 0,25785 1,60 0,94520 0,03 -1,881
-2,85 0,00219 -0,60 0,27425 1,65 0,95053 0,04 -1,751
-2,80 0,00256 -0,55 0,29116 1,70 0,95543 0,05 -1,645
-2,75 0,00298 -0,50 0,30854 1,75 0,95994 0,06 -1,555
-2,70 0,00347 -0,45 0,32636 1,80 0,96407 0,07 -1,476
-2,65 0,00402 -0,40 0,34458 1,85 0,96784 0,08 -1,405
-2,60 0,00466 -0,35 0,36317 1,90 0,97128 0,09 -1,341
-2,55 0,00539 -0,30 0,38209 1,95 0,97441 0,10 -1,282
-2,50 0,00621 -0,25 0,40129 2,00 0,97725 0,15 -1,036
-2,45 0,00714 -0,20 0,42074 2,05 0,97982 0,20 -0,842
-2,40 0,00820 -0,15 0,44038 2,10 0,98214 0,25 -0,674
-2,35 0,00939 -0,10 0,46017 2,15 0,98422 0,30 -0,524
-2,30 0,01072 -0,05 0,48006 2,20 0,98610 0,35 -0,385
-2,25 0,01222 0,00 0,50000 2,25 0,98778 0,40 -0,253
-2,20 0,01390 0,05 0,51994 2,30 0,98928 0,45 -0,126
-2,15 0,01578 0,10 0,53983 2,35 0,99061 0,50 0,000
-2,10 0,01786 0,15 0,55962 2,40 0,99180 0,55 0,126
-2,05 0,02018 0,20 0,57928 2,45 0,99286 0,60 0,253
-2,00 0,02275 0,25 0,59871 2,50 0,99379 0,65 0,385
-1,95 0,02559 0,30 0,61791 2,55 0,99461 0,70 0,524
-1,90 0,02872 0,35 0,63683 2,60 0,99534 0,75 0,674
-1,85 0,03216 0,40 0,65542 2,65 0,99596 0,80 0,842
-1,80 0,03593 0,45 0,67364 2,70 0,99653 0,85 1,036
-1,75 0,04006 0,50 0,69145 2,75 0,99702 0,90 1,282
-1,70 0,04457 0,55 0,70884 2,80 0,99744 0,91 1,341
-1,65 0,04947 0,60 0,72575 2,85 0,99781 0,92 1,405
-1,60 0,05480 0,65 0,74215 2,90 0,99813 0,93 1,476
-1,55 0,06057 0,70 0,75804 2,95 0,99841 0,94 1,555
-1,50 0,06681 0,75 0,77337 3,00 0,99865 0,95 1,645
-1,45 0,07353 0,80 0,78814 3,05 0,99886 0,96 1,751
-1,40 0,08076 0,85 0,80234 3,10 0,99903 0,97 1,881
-1,35 0,08851 0,90 0,81594 3,15 0,99918 0,975 1,960
-1,30 0,09680 0,95 0,82894 3,20 0,99931 0,98 2,054
-1,25 0,10565 1,00 0,84134 3,25 0,99942 0,99 2,326
-1,20 0,11507 1,05 0,85314 3,30 0,99952 0,995 2,576
-1,15 0,12507 1,10 0,86433 3,35 0,99960 0,999 3,090
-1,10 0,13587 1,15 0,87493 3,40 0,99966 0,9999 3,719
-1,05 0,14686 1,20 0,88493 3,45 0,99972 0,99999 4,265
* Si no está el número exacto que se busca, se trabaja con el inmediato inferior.
299
Tablas estadísticas
TABLAS DE CUANTILES DE DISTRIBUCIÓN T
ν 0,700 0,725 0,750 0,775 0,800 0,825 0,850 0,875 0,900 0,925 0,950 0,975 0,990 0,995
1 0,727 0,854 1,000 1,171 1,376 1,532 1,963 2,414 3,878 4,165 6,314 12,71 31,82 63,66
2 0,617 0,713 0,816 0,931 1,061 1,210 1,386 1,604 1,886 2,262 2,920 4,303 6,965 9,925
3 0,584 0,671 0,765 0,866 0,978 1,105 1,250 1,423 1,638 1,924 2,353 3,182 4,541 5,841
4 0,569 0,652 0,741 0,836 0,941 1,057 1,190 1,344 1,533 1,778 2,132 2,776 3,747 4,604
5 0,559 0,641 0,727 0,819 0,920 1,031 1,156 1,301 1,476 1,699 2,015 2,571 3,365 4,032
6 0,553 0,633 0,718 0,808 0,906 1,013 1,134 1,273 1,440 1,650 1,943 2,447 3,143 3,707
7 0,549 0,628 0,711 0,800 0,896 1,001 1,119 1,254 1,415 1,617 1,895 2,365 2,998 3,499
8 0,546 0,624 0,706 0,794 0,889 0,993 1,108 1,240 1,397 1,592 1,860 2,306 2,896 3,355
9 0,543 0,621 0,703 0,790 0,883 0,986 1,100 1,230 1,383 1,574 1,833 2,262 2,821 3,250
10 0,542 0,619 0,700 0,786 0,879 0,980 1,093 1,221 1,372 1,559 1,812 2,228 2,764 3,169
11 0,540 0,617 0,697 0,783 0,876 0,976 1,088 1,214 1,363 1,548 1,796 2,201 2,718 3,106
12 0,539 0,615 0,695 0,781 0,873 0,972 1,083 1,209 1,356 1,538 1,782 2,179 2,681 3,055
13 0,380 0,614 0,694 0,779 0,870 0,969 1,079 1,204 1,350 1,530 1,771 2,160 2,650 3,012
14 0,537 0,613 0,692 0,777 0,868 0,967 1,076 1,200 1,345 1,523 1,761 2,145 2,624 2,977
15 0,536 0,612 0,691 0,776 0,866 0,966 1,074 1,197 1,341 1,517 1,753 2,131 2,602 2,947
16 0,535 0,611 0,690 0,774 0,865 0,963 1,071 1,194 1,337 1,512 1,746 2,120 2,583 2,921
17 0,534 0,610 0,689 0,773 0,863 0,961 1,069 1,191 1,333 1,508 1,740 2,110 2,567 2,898
18 0,534 0,609 0,688 0,772 0,862 0,960 1,067 1,189 1,330 1,504 1,734 2,101 2,552 2,878
19 0,533 0,609 0,688 0,771 0,861 0,958 1,066 1,187 1,328 1,500 1,729 2,093 2,539 2,861
20 0,533 0,608 0,687 0,771 0,860 0,957 1,064 1,185 1,325 1,497 1,725 2,086 2,528 2,845
21 0,532 0,608 0,686 0,770 0,859 0,956 1,063 1,183 1,323 1,494 1,721 2,080 2,518 2,831
22 0,532 0,607 0,686 0,690 0,858 0,955 1,061 1,182 1,321 1,492 1,717 2,074 2,508 2,819
23 0,532 0,607 0,685 0,769 0,858 0,954 1,060 1,180 1,319 1,489 1,714 2,069 2,500 2,807
24 0,531 0,606 0,685 0,768 0,857 0,953 1,059 1,179 1,318 1,487 1,711 2,064 2,492 2,797
25 0,531 0,606 0,684 0,767 0,856 0,952 1,058 1,178 1,316 1,485 1,708 2,060 2,485 2,787
26 0,531 0,606 0,684 0,767 0,856 0,952 1,058 1,177 1,315 1,483 1,706 2,056 2,479 2,779
27 0,531 0,605 0,684 0,767 0,855 0,951 1,057 1,176 1,314 1,482 1,703 2,052 2,473 2,771
28 0,530 0,605 0,683 0,766 0,855 0,950 1,056 1,175 1,313 1,480 1,701 2,048 2,467 2,763
29 0,530 0,605 0,683 0,766 0,854 0,950 1,055 1,174 1,311 1,479 1,699 2,045 2,462 2,756
30 0,530 0,605 0,683 0,765 0,854 0,949 1,055 1,173 1,310 1,477 1,697 2,042 2,457 2,750
31 0,530 0,604 0,682 0,765 0,853 0,949 1,054 1,172 1,309 1,476 1,696 2,040 2,453 2,744
32 0,530 0,604 0,682 0,765 0,853 0,948 1,054 1,172 1,309 1,475 1,694 2,037 2,449 2,738
33 0,530 0,604 0,682 0,765 0,853 0,948 1,053 1,171 1,308 1,474 1,692 2,035 2,445 2,733
34 0,529 0,604 0,682 0,764 0,852 0,948 1,052 1,170 1,307 1,473 1,691 2,032 2,441 2,728
35 0,529 0,604 0,682 0,764 0,852 0,947 1,052 1,170 1,306 1,472 1,690 2,030 2,438 2,724
36 0,529 0,603 0,681 0,764 0,852 0,947 1,052 1,169 1,306 1,471 1,688 2,028 2,434 2,719
37 0,529 0,603 0,681 0,764 0,851 0,947 1,051 1,169 1,305 1,470 1,687 2,026 2,431 2,715
38 0,529 0,603 0,681 0,763 0,851 0,946 1,051 1,168 1,304 1,469 1,686 2,024 2,429 2,712
39 0,529 0,603 0,681 0,763 0,851 0,946 1,050 1,168 1,304 1,468 1,685 2,023 2,426 2,708
40 0,529 0,603 0,681 0,763 0,851 0,946 1,050 1,167 1,303 1,468 1,684 2,021 2,423 2,704
41 0,529 0,603 0,681 0,763 0,850 0,945 1,050 1,167 1,303 1,467 1,683 2,020 2,421 2,701
42 0,528 0,603 0,680 0,763 0,850 0,945 1,049 1,166 1,302 1,466 1,682 2,018 2,418 2,698
43 0,528 0,603 0,680 0,762 0,850 0,945 1,049 1,166 1,302 1,466 1,681 2,017 2,416 2,695
44 0,528 0,602 0,680 0,762 0,850 0,945 1,049 1,166 1,301 1,465 1,680 2,015 2,414 2,692
45 0,528 0,602 0,680 0,762 0,850 0,944 1,049 1,165 1,301 1,465 1,679 2,014 2,412 2,690
46 0,528 0,602 0,680 0,762 0,850 0,944 1,048 1,165 1,300 1,464 1,679 2,013 2,410 2,687
47 0,528 0,602 0,680 0,762 0,849 0,944 1,048 1,165 1,300 1,463 1,678 2,012 2,408 2,685
48 0,528 0,602 0,680 0,762 0,849 0,944 1,048 1,164 1,299 1,463 1,677 2,011 2,407 2,682
49 0,528 0,602 0,680 0,762 0,849 0,944 1,048 1,164 1,299 1,462 1,677 2,010 2,405 2,680
300
Tablas estadísticas
50 0,528 0,602 0,679 0,761 0,849 0,943 1,047 1,164 1,299 1,462 1,676 2,009 2,403 2,678
0,3 0,275 0,25 0,225 0,2 0,175 0,15 0,125 0,1 0,075 0,05 0,025 0,01 0,005
* Se comienza por los grados de libertad: v = n - 1 (n= tamaño muestral)
301