Sunteți pe pagina 1din 304

Estadística

para las Ciencias de la Salud

María del Pilar Díaz


Laura Rosana Aballay
Sonia Alejandra Pou
Natalia Tumas
El propósito principal de esta obra es presentar la Estadística como una
disciplina que aporta conceptos y metodología para la comprensión de
los fenómenos que se abordan en las Ciencias de la Salud.
Este libro está pensado como un texto para los cursos de pregrado y
postgrado de Bioestadística y constituye un buen punto de partida para
el conocimiento e interiorización de la teoría y metodología estadística.
Desarrolla los contenidos básicos de los métodos descriptivos e
inductivos, sin llegar a detenerse en extensas demostraciones, y
presenta un número considerable de ejemplos y ejercicios con soluciones
que intentan ayudar al lector a entender sus usos e interpretaciones.
Estadística : Para las Ciencias de la Salud / María del Pilar Díaz ... [et.al.]. -
1a ed. - Córdoba : Eudecor, 2013.
311 p. ; 29x21 cm.

ISBN 978-987-1536-37-5

1. Estadística. 2. Enseñanza Universitaria. I. Díaz, María del Pilar.


CDD 310.711

Fecha de catalogación: 09/04/2013


 

Estadística para las Ciencias de la Salud 

 
María del Pilar Díaz 
Licenciada en Matemática (FaMAF, UNC, Argentina),
Doctora en Estadística Aplicada a las Ciencias Biológicas (USP, Brasil).
Profesora Titular de Estadística y Bioestadística (Escuela de Nutrición, Facultad de Ciencias Médicas,
Universidad Nacional de Córdoba, Argentina). 

Laura Rosana Aballay 
Licenciada en Nutrición (FCM, UNC, Argentina), Doctora en Ciencias de la Salud (FCM, UNC).
Profesora Asistente de Estadística y Bioestadística (Escuela de Nutrición, Facultad de Ciencias Médicas,
Universidad Nacional de Córdoba, Argentina). 

Sonia Alejandra Pou 
Licenciada en Nutrición (FCM, UNC, Argentina), Doctora en Ciencias de la Salud (FCM, UNC).
Profesora Asistente de Estadística y Bioestadística (Escuela de Nutrición, Facultad de Ciencias Médicas,
Universidad Nacional de Córdoba, Argentina). 

Natalia Tumas 
Licenciada en Nutrición (FCM, UNC, Argentina), Magister en Salud Materno Infantil (FCM, UNC).
Instructora Docente de Estadística y Bioestadística (Escuela de Nutrición, Facultad de Ciencias Médicas,
Universidad Nacional de Córdoba, Argentina) y Profesora Titular de Estadística y Bioestadística
(Licenciatura en Nutrición, Facultad de Medicina, Universidad Católica de Córdoba, Argentina). 
Prólogo 

 
Este libro es una introducción al estudio de la Bioestadística y a la aplicación de técnicas 
numéricas  para  la  obtención  de  información  confiable  acerca  de  fenómenos  biológicos 
abordados en el marco del método científico. Está dirigido a alumnos de grado y postgrado 
de carreras y cursos en el área de las Ciencias de la Salud. Por ello, el propósito principal de 
esta  obra  es  presentar  a  la  Estadística  desde  el  punto  de  vista  de  sus  aplicaciones,  sin 
ahondar en demostraciones ni profundizar en temas especializados. Por otro lado, aquellos 
investigadores que necesitan analizar datos provenientes de estudios propios de su campo 
de trabajo, bajo situaciones de incertidumbre, también pueden encontrar en este libro, los 
contenidos y métodos estadísticos necesarios para la obtención de resultados y extracción 
de conclusiones. 
Considerando  que  el  estudiante  o  alumno  ha  de  ser  sujeto  activo  y  responsable  en  su 
formación, cada vez más gestor de su aprendizaje, esta obra presenta conceptos básicos y 
desarrolla  los  métodos  estadísticos  útiles  para  la  descripción  y  estudio  de  variables 
biológicas  así  como  la  toma  de  decisiones  acerca  de  sus  comportamientos.  Si  bien  la 
Estadística  es  una  materia  fundamental  en  la  Ciencia  y  en  la  Tecnología  que  permite  dar 
informaciones  objetivas  en  todas  las  áreas  disciplinares,  este  libro  contiene  todas  sus 
aplicaciones,  ejemplos  y  ejercicios  en  el  campo  de  las  Ciencias  de  la  Salud,  con  especial 
énfasis en la Nutrición. 
En  esta  obra  se  presentan  los  temas  de  forma  gradual  y  secuenciada,  especificando  las 
hipótesis  necesarias  y  razonando  los  procedimientos.  Se  intercalan  ejemplos  y  ejercicios 
resueltos, ayudando a comprender el procedimiento  estadístico y a valorar las ventajas de 
las herramientas que facilitan la obtención e interpretación de los resultados.  
Este  libro  está  dividido  en  nueve  capítulos,  siendo  los  dos  primeros    dedicados  a  los 
conceptos  y  aplicaciones  de  la  Estadística  Descriptiva.  El  tercer  capítulo  introduce  a  la 
probabilidad  y  presenta  las  herramientas  requeridas  en  el  estudio  subsecuente  de  la 
incertidumbre.  Del  capítulo  5  en  adelante,  se  distingue  entre  población  y  muestra  y  se 
comienza  con  el  estudio  de  la  variabilidad  inherente  y  las  nociones  básicas  de  Inferencia 
Estadística. Así, los capítulos 6, 7 y 8 desarrollan los procedimientos de estimación y prueba 
de  hipótesis,  tanto  sobre  parámetros  que  caracterizan  a  las  distribuciones  de  las  variables 

  1
aleatorias como acerca de asociaciones entre dos o más variables.  
Los  autores  desean  agradecer  a  todas  las  personas  que  han  motivado  esta  obra  y 
contribuido con su elaboración, comenzando por los alumnos del curso de Estadística de la 
Escuela  de  Nutrición  (Facultad  de  Ciencias  Médicas,  Universidad  Nacional  de  Córdoba),  de 
varias  cohortes  pasadas.  Este  libro  nació  por  ellos  y  es  en  virtud  de  nuestra  experiencia 
docente  y  de  investigación  que  lo  concebimos.  Agradecemos,  de  manera  muy  especial,  a 
nuestras  compañeras  en  el  trabajo  docente:  Lic.  Paula  Díaz,  Lic.  Julia  Becaria  Coquet,  Dra. 
Camila Niclis, así como las alumnas Malena Bocco y Gabriela Revollo, por todo lo aportado 
en  la  redacción  y  crítica  de  las  innumerables  ediciones  anteriores,  y  manifestamos  un 
reconocimiento  particular  a  la  Lic.  Daniela  Fernández,  por  su  arduo  y  valioso  trabajo  en  la 
versión inicial de esta obra y a la Lic. Julia Becaria, por su ayuda desinteresada en las últimas 
y  corrección  de  este  original.  Por  último,  también  estaremos  muy  agradecidos  a  todos 
aquellos  que  deseen  remitirnos  sus  opiniones,  sugerencias  o  comentarios  a  la  siguiente 
dirección: pdiaz@fcm.unc.edu.ar. 
 
Esta obra está dedicada a los futuros alumnos y a los investigadores que necesiten hacer uso 
de  la  Estadística.  Si  a  las  personas  que  utilicen  este  libro  les  resulta  provechoso,  entonces 
habremos alcanzado nuestro objetivo y nos sentiremos satisfechos.  
 
 
 
 
 
María del Pilar Díaz 
Universidad Nacional de Córdoba 
Córdoba, Argentina. 
 
 
 
 

  2
CAPÍTULO 1: INTRODUCCIÓN A LA ESTADÍSTICA 

  3
 
 

  4
Introducción a la Estadística

En  las  ciencias  de  la  salud,  como  en  otras  disciplinas,  la  investigación  juega  un  papel 
fundamental para el mejoramiento de la práctica profesional, estableciendo fundamentos o 
conocimientos  científicos.  La  Estadística  cumple  un  rol  importante  en  la  investigación,  en 
tanto  funciona  como  una  herramienta  para  diseñar  experiencias,  analizar  datos  y  extraer 
conclusiones  a  partir  de  los  mismos.  Dichas  conclusiones  sirven  para  confirmar 
conocimientos existentes o generar nuevos, los que forman parte de una ciencia. 
 
Ciencia y conocimiento científico 
La palabra ciencia deriva del latín “Scire”, que significa saber y conocer. La ciencia implica 
un  conjunto  de  conocimientos  racionales,  ciertos  o  probables,  que  obtenidos  de  manera 
metódica  y  verificados,  nos  dirigen  hacia  una  aproximación  de  la  verdad.  Éstos  son 
susceptibles de ser transmitidos. 
Cuando  se  habla  de  conocimiento  deben  distinguirse  dos  fuentes  de  conocimiento:  el 
conocimiento habitual y el científico. 
El  conocimiento  habitual  es  la  manera  común,  corriente  y  espontánea  de  aprender. 
Ocurre cuando ciertos hechos son transmitidos por vía de la tradición o de las costumbres, 
aceptándose como verdades sin que se exijan pruebas sobre ellos. Este tipo de conocimiento 
es: 
• Superficial porque se conforma con lo aparente. 
• Sensitivo porque se percibe mediante las vivencias, estados de ánimo, emociones. 
• Subjetivo  porque  la  misma  persona  es  la  que  organiza  las  experiencias  y 
conocimiento de manera no sistemática. 
Con todo esto, el conocimiento habitual suele ser vago e inexacto. 
El conocimiento científico es el resultado de la investigación científica, la que se vale a su 
vez  por  el  método  científico,  que  se  define  como  el  conjunto  de  reglas  que  constituyen  la 
manera de llegar al mismo. Este tipo de conocimiento es: 
• Objetivo porque es independiente de los gustos y creencias del investigador. 
• Fáctico porque se atiene a los hechos. 
• Se vale de la investigación empírica, lo que significa que las pruebas tienen base en la 
realidad objetiva. 
A diferencia del conocimiento habitual, el conocimiento científico es claro y preciso, y se 
basa en el denominado método científico. 

  5
Introducción a la Estadística

Método científico 
El  método  científico  puede  ser  definido  como  el  modo  con  el  cual  la  ciencia  aborda  o 
inquiere en lo desconocido, es el conjunto de reglas que constituyen la manera de llegar al 
conocimiento científico. 
El  método  científico  es  objetivo,  fáctico,  formula  proposiciones  generales  relacionando 
hechos particulares (no se ocupa de hechos aislados) y se vale de la verificación empírica. 
Las etapas del método científico son: 
1. Observación: Se contemplan los hechos o fenómenos de manera metódica y objetiva. 
2. Formulación de hipótesis: Se da una explicación posible a lo observado. 
3. Verificación  de  hipótesis:  Las  hipótesis  se  someten  a  un  proceso  de  prueba  que 
determinará su validez o no. 
4. Resolución  de  hipótesis:  Se  acepta  o  rechaza  la  hipótesis  planteada  en  base  a  los 
resultados obtenidos en la verificación. 
 
Tipos de investigación 
Más allá de poder clasificar a la investigación científica en base a sus funciones y objetivos 
(descripción, exploración, explicación, etc.) también se la  puede clasificar  en función de su 
utilidad  en  la  práctica:  la  investigación  básica  o  pura  está  diseñada  con  el  objetivo  de 
ampliar la base de conocimientos teóricos de una disciplina en aras del conocimiento por sí 
mismo.  La  investigación  aplicada  está  dirigida  a  encontrar  soluciones  para  problemas 
inmediatos.  Su  objetivo  es  aplicar  y  utilizar  los  conocimientos  y  descubrimientos  de  la 
investigación básica. 
Para determinar el grado de profundidad en la indagación de un problema es necesario 
identificar los niveles de investigación. El nivel descriptivo consiste en describir un hecho o 
fenómeno:  ¿qué  es?,  ¿cómo  es?,  ¿dónde  está?,  etc.  El  nivel  clasificatorio  exige  un  mayor 
esfuerzo,  ya  que  ordena,  dispone  y  agrupa  los  datos  obtenidos  en  clases  sobre  la  base  de 
características  comunes.  El  nivel  explicativo  trata  de  responder  al  por  qué  ocurren  los 
hechos o fenómenos, buscando determinar relaciones causa – efecto. 
La  estadística  surgió  como  un  auxiliar  del  método  científico,  aportando  diseños  para  la 
recolección, tratamiento, resumen, presentación, análisis e interpretación de datos. 
 

  6
Introducción a la Estadística

Estadística y Bioestadística 

La Estadística, entonces, es una ciencia que provee metodología analítica con el objetivo 
de recoger datos, organizarlos, resumirlos, presentarlos, analizarlos y extraer conclusiones. 
Dos ramas principales de la estadística son: 
a) la estadística descriptiva: describe una realidad determinada de la población (universo) 
o de un grupo de la misma (muestra). 
b) la estadística inferencial o inductiva: se basa en los resultados obtenidos del análisis 
de una muestra de la población para inferir o aplicar esas conclusiones al universo. 
 
La Bioestadística o Biometría es la aplicación de procedimientos estadísticos al estudio de 
los problemas biológicos y de salud, sean individuales o comunitarios. 

 
 
 
 
 
 
 
 
 
 
 
 
 

  7
 
 
 
 
 
 
 
 
 

  8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

CAPÍTULO 2: PRIMERA ETAPA DEL ANÁLISIS 
ESTADÍSTICO. ESTADÍSTICA DESCRIPTIVA 
  9
Estadística Descriptiva

1. Concepto de población, muestra y unidad observacional 

En  toda  investigación  tenemos  un  problema  que  resolver,  dicho  problema  sucede  o  se 
presenta en una población determinada, la cual se está investigando. Cuando esta población 
no  es  muy  grande  y  el  tipo  de  trabajo  lo  permite  se  trabaja  con  la  totalidad  de  ella.  La 
definición  de  población  como  un  conjunto  global  de  casos  que  satisface  una  serie 
predeterminada de criterios, de ninguna manera se restringe a los seres humanos. 
En  determinados  casos,  por  el  carácter  de  la  investigación,  no  se  puede  trabajar  con  la 
totalidad  de  la  población,  sino  que  se  trabaja  con  una  parte  de  la  misma  que  debe  ser 
representativa de ella, llamada muestra. A su vez, cada elemento u objeto de estudio de la 
muestra o población recibe el nombre de unidad observacional o experimental. 
La relación entre la población y muestra de estudio se esquematiza en la Figura 1. 
 

Estadística Descriptiva
Población  
Muestra 

Estadística Inferencial 
 

Figura 1: Población y muestra. 

Teniendo en cuenta lo antedicho podemos citar como ejemplo:  
¾ Si  se  quiere  conocer  en  Malagueño  la  cantidad  de  niños  en  edad  escolar  que 
asisten a la escuela en el año 2001, la población en estudio será “Todos los niños 
en edad escolar que asisten a la escuela en Malagueño, en el año 2001”. La unidad 
observacional será un niño en edad escolar de Malagueño, que asiste a la escuela 
en el año 2001. 
 

¾ Si  se  desea  estudiar  la  composición  química  de  galletitas  de  una  harina  especial 
realizada  en  una  empresa  XXXX,  durante  un  mes,  la  población  en  estudio  será 
“Todas  las  galletitas  realizadas  con  dicha  harina  en  esa  empresa,  en  el  mes 
Estadística Descriptiva

determinado”  y  la  unidad  observacional  será  una  galletita  realizada  con  dicha 
harina en esa empresa durante el mes indicado. 
 

¾ Si  se  quiere  investigar  la  presencia  de  mastitis  en  vacas  de  los  tambos  de  la 
provincia  de  Córdoba  durante  los  meses  de  junio  y  julio  del  2001,  la  población 
estará constituida por “Todas las vacas que están en los tambos de la provincia de 
Córdoba,  durante  los  meses  de  junio  y  julio  del  2001”  y  la  unidad  observacional 
será  una  vaca  de  los  tambos  de  la  provincia  de  Córdoba,  durante  los  meses  de 
junio y julio del 2001. 
 

2. Variables 

En  cada  objeto  de  estudio,  sean  individuos,  animales,  alimentos,  instituciones,  etc.  se 
encuentran  características,  propiedades  o  atributos  que  los  diferencian  entre  sí  y  que 
pueden expresarse mediante valores numéricos o categorías. Estas característica (numéricas 
o  no)  son  lo  que  se  conoce  como  variables,  las  cuales  se  clasifican  como  se  muestra  en  la 
Figura 2. 
 
Las variables pueden ser: 
                Continuas 
          Cuantitativas 
               
Discretas 
  VARIABLES 
                   
 
Cualitativas o  Ordinales 
 
Categóricas
 
 
Nominales 

Figura 2: Clasificación de variables 

 
Las variables cuantitativas son susceptibles de ser medidas y se expresan numéricamente. 
Las  continuas  son  las  que  pueden  asumir  infinitos  valores  entre  dos  datos,  y  se  expresan 
utilizando decimales o fracciones. Las variables discretas, en cambio, son aquellas variables 

  12
Estadística Descriptiva

que  surgen  de  conteos,  son  finitas  o  infinitas  numerables  y  se  expresan  con  números 
enteros. 
Las variables cualitativas o categóricas se clasifican en base a una cualidad, permitiendo 
distinguir  individuos  que  poseen  determinada  característica  de  aquellos  que  no.  Nos 
referimos  a  variables  ordinales  cuando  las  mismas  se  clasifican  ordenando  categorías  de 
manera jerárquica, mientras que las variables nominales no enumeran las categorías según 
jerarquía ni grados en que se manifiestan. 
 
Para medir las variables y para darles números a las observaciones se utilizan las escalas 
de clasificación, donde se enuncian las posibles alternativas de una variable. 
Toda  escala  debe  ser  exhaustiva,  es  decir,  incluir  todas  las  posibles  categorías  de  la 
variable  en  cuestión.  Las  alternativas  o  clases  determinadas  deben  ser  mutuamente 
excluyentes, no debe haber dudas acerca de donde incluir una observación.   
       
A  continuación  se  presentan  ejemplos  de  variables,  su  correspondiente  clasificación  y 
escala: 
 
Variable  Tipo  Escala 
Edad  Cuantitativa  Continua 
Sexo  Categórica  Nominal 
Estado civil  Categórica  Nominal 
Tiempo trabajado  Cuantitativa Continua  
Cantidad de habitaciones  Cuantitativa  Discreta 
Tipo de vivienda  Categórica  Nominal 
Consumo de cigarrillos  Categórica  Nominal 
Cantidad de cigarrillos  Cuantitativa  Discreta 
fumados por día 
Nivel de Instrucción  Categórica Ordinal 
 
Ejercicios de aplicación: 2.1 a 2.4 

  13
Estadística Descriptiva

3. Organización de datos 
En una investigación, luego de la recolección de datos se procede a su ordenamiento para 
ser  analizados,  interpretar  los  resultados  y  sacar  conclusiones.  Una  forma  de  ordenar  los 
datos, es armando una base de datos que contenga todas las encuestas realizadas. 
En la Figura 3 se observa un ejemplo de base de datos de una muestra de 14 estudiantes 
que  realizaron  el  ciclo  de  nivelación  en  la  Facultad  de  Ciencias  Médicas  (FCM)  de  la 
Universidad Nacional de Córdoba en Febrero de 2009. Se les registró sexo, edad y escuela a 
la  que  asistieron,  y  se  les  midió  el  peso  y  la  talla  para  luego  evaluar  el  estado  nutricional. 
Cada columna de la base de datos está encabezada por el nombre de la variable en estudio, 
y  en  ella  se  registra  el  valor  o  categoría  de  la  misma  perteneciente  a  cada  elemento 
muestral. En cada fila se registran los datos de cada encuestado. 
 
estado
encuesta sexo edad peso talla IMC escuela
nutricional

1 M 19 78,5 1,68 27,81 3 4


2 M 25 74,3 1,92 20,16 2 4
3 F 26 65,2 1,54 27,49 3 3
4 M 24 58,9 1,75 19,23 2 5
5 M 19 59,8 1,86 17,29 1 4
6 F 18 67,9 1,49 30,58 4 1
7 F 21 86,3 1,64 32,09 4 2
8 F 20 65,9 1,63 24,80 2 3
9 M 21 87,9 1,58 35,21 5 5
10 F 26 71,2 1,74 23,52 2 4
11 F 23 50,2 1,75 16,39 1 3
12 M 18 48,5 1,68 17,18 1 5
13 M 22 49 1,62 18,67 2 1
14 F 21 58,7 1,72 19,84 2 1
 

Figura 3: Ejemplo de base de datos de una muestra de 14 estudiantes de la FCM. 

  14
Estadística Descriptiva

4. Descripción de datos 
Al  realizar  una  observación  obtenemos  datos  de  cada  uno  de  los  objetos  de  estudio  de 
una población o muestra, que corresponden a las variables de interés para la investigación. 
Debemos  ordenar  estos  datos  para  tratarlos  analíticamente,  luego  interpretarlos  y  sacar 
conclusiones. 
En primer lugar debemos realizar una descripción de los datos, lo que implica:  

1. Construir tablas 
2. Construir gráficos   
3. Calcular Medidas Resumen 
4. Interpretar 
 

4.1 Construcción de tablas 

Cuando se tienen los resultados de una investigación o estudio, estos datos sólo son un 
número  de  observaciones  difíciles  de  interpretar  si  no  están  ordenados,  resumidos  y 
presentados de manera apropiada. 
Una  tabla  es  entonces  un  cuadro  que  presenta  un  resumen  de  la  información  (serie  de 
observaciones) de manera conveniente. 
Las  tablas  pueden  ser  construidas  para  resumir  información  referida  a  una,  dos  o  más 
variables. De acuerdo a esto se denominan tablas simples, de doble entrada o a dos vías de 
clasificación  y  tablas  de  tres  o  más  vías  de  clasificación.  Ejemplos  de  las  mismas  son 
presentados en las Tablas 1 a 3 más abajo. 
En  una  tabla  los  resultados  se  expresan  en  términos  de  sus  frecuencias.  La  frecuencia 
absoluta  es  el  número  de  veces  que  se  observa  un  resultado  dado  y  se  denota  con  ni.  La 
frecuencia  relativa  es  la  relación  entre  la  frecuencia  absoluta  de  un  resultado  (ni)  y  el 
número total de objetos observados, y se denota con fi.  
En  el  caso  de  las  variables  cuantitativas,  suele  ser  de  utilidad  presentar  frecuencias 
acumuladas, que no es otra cosa que la sumatoria de las frecuencias absolutas o relativas a 
partir del primer dato o intervalo de la distribución hasta el que está en cuestión. Se denotan 
Ni y Fi respectivamente. 
Es  importante  destacar  que  las  frecuencias  acumuladas  solo  son  aplicables  a  variables 

  15
Estadística Descriptiva

cuantitativas  o    categóricas  ordinales,  no  así  a  variables  categóricas  nominales,  donde  su 
interpretación carece de sentido. 
 
Tabla 1. Ejemplo de tabla simple o univariada 
 
Edad de los niños que asisten al Centro de Salud X, en Octubre de 1998. 

Edad (años)  ni  Ni  fi  %  Fi  % 


[0 ; 1)  8  8  28,6  28,6 
[1; 2)  4  12  14,3  42,9 
[2 ; 3)  3  15  10,7  53,6 
[3 ; 4)  3 18 10,7 64,3 
[4 ; 5)  7 25 25,0 89,3 
[5 ; 6)  3  28  10,7  100 
Total  28  ‐  100  ‐ 
 

Tabla 2. Ejemplo de tabla de doble entrada o a dos vías de clasificación 
 
Edad de los niños que asisten al Centro de Salud X, según sexo en Octubre de 1998. 

Sexo
Edad  Total 
Femenino  Masculino 
(Años) 
ni  fi %  ni   fi %  Σni  Σfi % 
[0 ; 1)  6  33,3  2  20  8  28,6 
[1 ; 2)  2  11,1  2  20  4  14,2 
[2 ; 3)  2  11,1  1  10  3  10,7 
[3 ; 4)  2  11,1 1 10 3  10,7 
[4 ; 5)  4  22,2  3  30  7  25,1 
[5 ; 6)  2  11,1  1  10  3  10,7 
Total  18  100  10  100  28  100 

  16
Estadística Descriptiva

Tabla 3. Ejemplo de tabla a tres vías. 

Distribución de la población según estado nutricional, sexo y tipo de consumo de 
alimentos de alta densidad energética (ADE). Santa Fe, 2005. 

Consumo de alimentos de  Exceso de peso SI Exceso de peso NO 


Alta Densidad Energética  Mujeres  Varones  Mujeres  Varones 
(ADE)  ni  fi(%)  ni   fi(%)  ni   fi(%)  ni   fi(%) 
Frecuente  10  50  25  50  75  57  82  68 
Medianamente Frecuente  6  30  22  44  49  37  34  28 
Poco Frecuente  4  20  3  6  8  6  5  4 
Total  20 100 50 100 132 100  121  100

¿Cómo agrupar una serie de datos?       

En  algunos  casos  los  datos  de  naturaleza  cuantitativa  son  numerosos,  por  lo  que  para 
resumirlos en una tabla o gráfico solo es posible si se los trabaja en forma agrupada. 
Los  datos  se  agrupan  en  intervalos,  teniendo  en  cuenta  la  cantidad  y  amplitud 
conveniente de los mismos. En una serie de datos (a) donde el menor valor encontrado es el 
16  y  el  mayor  es  el  42;  se  realiza  la  diferencia  entre  estos  (b)  y  al  valor  encontrado  lo 
dividimos  por  el  número  deseado  de  intervalos,  que  se  simboliza  k,  que  en  este  caso  será 
cinco (c); permitiéndonos saber la amplitud de cada uno de los intervalos. 
 
Ejemplo: 

a) Considere la siguiente serie de datos: 

40; 41; 32; 28; 22; 21; 16 ; 41; 28; 33; 26; 31; 27; 29;  22; 36; 40; 41; 22; 27; 39; 28; 17; 29; 
19; 30; 18; 34; 23; 35; 20; 24; 37; 25; 35; 39; 42; 17; 28; 31; 38; 38. 

b) La diferencia entre el mayor y menor valor puede ser calculada como: 

42 – 16 = 26 

c)      Para  obtener  k  intervalos,  debemos  efectuar  la  división  del  valor  obtenido 

  17
Estadística Descriptiva

anteriormente por el número deseado de intervalos (es decir, k): 
 26 / 5 = 5,2      k =5 
d)  Los  intervalos  quedarán  formados  de  la  siguiente  manera,  siendo  la  amplitud  del 
intervalo (a)= 5,2. 
 
Xi  ni 
[16 – 21,2)  7   
[21,2 – 26,4)  7   
[26,4 – 31,6)  11 
[31,6 – 36,8) 6
[ 36,8 – 42]  11 
Total  42 
 

Si observamos el intervalo [16 – 21,2) podemos decir que es de tipo semi‐abierto, dado 
que  en  su  notación  comienza  con  corchete  (lo  cual  establece  que  se puede  incluir  en  este 
intervalo  desde  el  número  señalado,  en  este  caso  16)  y  termina  con  paréntesis  (indicando 
que  llega  hasta  el  número  que  está  inmediatamente  anterior  al  escrito  pero  sin  incluir  al 
mismo). Es decir que, si en este caso se tuviera como dato el valor 21,2, éste pertenecerá al 
intervalo siguiente. 
En términos generales, la cantidad de intervalos debe aumentar a medida que aumenta n. 
Por  convención,  el  número  k  de  intervalos  aconsejables  de  acuerdo  al  tamaño  de  la 
población o muestra es: 
 
Tamaño de la muestra o  Número de intervalos 
población  aconsejados 
    n  ≤  50 k = 5 ó 6

50  <  n  ≤  100  k = 6 ó 7 

100  <  n  ≤  500  k = 7, 8 ó 9 

500  <  n  ≤  2000 k = 10, 11, 12 

    n  >  2000 k = 13, 14, ..., 20

  18
Estadística Descriptiva

Ejercicios de aplicación: 2.5 al 2. 6 

4.2 Construcción de Gráficos 

Mediante  un  gráfico  se  representan  los  datos  en  forma  ilustrativa,  de  modo  tal  que  al 
observarlo  se  obtenga  una  idea  acerca  de  la  distribución  de  las  frecuencias  y  el 
comportamiento  de  la  variable  en  cuestión.  En  el  momento  de  realizar  un  gráfico  es 
necesario tener en cuenta qué tipo de variable es la que se quiere representar, ya que no 
todos los gráficos son apropiados para cualquier tipo de variable. 
Si  se  desea  ilustrar  la  distribución  de  frecuencias  de  variables  cuantitativas  continuas  el 
tipo de gráfico que se debe emplear es el histograma y polígono de frecuencias (Figura 4).  
Cuando trabajamos con variables categóricas o cualitativas la distribución de frecuencias 
de  las  mismas  se  pueden  ilustrar  mediante  pictogramas,  barras  simples  (Figura  5  y  6), 
diagramas de sectores o torta (Figura 7), barras agrupadas (Figura 8), barras proporcionales 
(Figura  9).  Estos  dos  últimos  gráficos  permiten  representar  simultáneamente  el 
comportamiento  de  dos  variables,  por  lo  que  denominan  bivariados.  Los  gráficos 
univariados, por su parte, son aquellos donde se representa o ilustra la frecuencia absoluta o 
relativa de solo una variable (Figura 4 a 7). 
Los diagramas de barras también pueden emplearse en el caso de variables cuantitativas 
discretas. 
 

  19
Estadística Descriptiva

 
Niveles de colesterol en sangre en hombres de más de
  50 años en la ciudad de Córdoba en el año 2007

  30
N° de observaciones 25
 
20
  15
10
 
5
  0
(120 , 150] (150 , 180] (180 , 210] (210 , 240] (240 , 270]
 
mg %
Figura 4:  Histograma y polígono de frecuencias absolutas. Variable: nivel de colesterol en 
sangre. Tipo: cuantitativa continua.  

Cantidad de consultas al ginecólogo por año, de mujeres de 20 a 60


años de la ciudad de Córdoba, en el año 2007

30

25
N° de mujeres

20

15

10

0
0 1 2 3 4

Cantidad de consultas al ginecólogo en un año

Figura 5: Gráfico de barras simples. Variable: Cantidad de veces que las mujeres consultan 
al ginecólogo en un año. Tipo: cuantitativa discreta.  

  20
Estadística Descriptiva

 
 

Escolaridad de los trabajadores de la Empresa


XX, en la ciudad de Córdoba en el año 2005

10
N° de trabajadores

9
8
7
6
5
4
3
2
1
0
Primario completo Secundario Universitario
Completo

Tipo de Escolaridad

Figura  6:  Gráfico  de  barras  simples.  Variable:  Escolaridad  de  los  trabajadores  de  una 
empresa. Tipo: categórica.  

Escolaridad de los trabajadores de la Empresa


XX de la ciudad de Córdoba, en el año 2005

Universitario Primario
30% completo
25%

Secundario
Completo
45%

Figura 7: Diagrama de sectores o torta. Variable: Escolaridad de los trabajadores de una 
empresa. Tipo: categórica.  

  21
Estadística Descriptiva

Escolaridad de los trabajadores de la Empresa XX por


sexo, de la ciudad de Córdoba en el año 2005.
7
N° de trabajadores

6
5
4
3
2
1
0
Primario completo Secundario completo Universitario
Tipo de escolaridad
Sexo masculino Sexo femenino

Figura 8: Gráfico de barras agrupadas para dos variables. 

Escolaridad de los trabajadores de la Empresa XX por sexo,


de la Ciudad de Córdoba en el año 2005.
10
9
8
N° de trabajadores

7
6
5
4
3
2
1
0
Primario completo Secundario completo Universitario
Tipo de escolaridad

Sexo masculino Sexo femenino

 
Figura 9: Gráfico de barras proporcionales para dos variables. 
 
También  las  variables  cuantitativas  pueden  representarse  en  gráficos  bivariados  que  las 
relaciones. Uno de los más empleados son los denominados diagrama de dispersión (Figura 

  22
Estadística Descriptiva

10), en el que se muestra la ubicación de los pares de observaciones (X, Y) en un sistema de 
coordenadas cartesianas.  

Peso en relación a circunferencia de cintura en adultos, Córdoba, 1992

92,20

80,10
peso(kg)

68,00

55,90

43,80
55,65 68,58 81,50 94,42 107,35
circunferencia cintura(cm)
 
Figura 10: Diagrama de dispersión para dos variables cuantitativas. 

 
Como se muestra en este tipo de gráficos, en término de la relación entre dos variables 
de tipo cuantitativo pueden observarse: 
‐ Asociación  Lineal  Positiva:  si  a  medida  que  aumentan  los  valores  de  la  variable  X 
también aumentan los valores de la variable Y (Figura 11). 
 

Figura 11: Diagrama de dispersión para dos variables con asociación lineal positiva 

  23
Estadística Descriptiva

 
‐ Asociación  Lineal  Negativa:  si  a  medida  que  aumentan  los  valores  de  la  variable  X 
disminuyen los valores de la variable Y (Figura 12). 

Figura 12: Diagrama de dispersión para dos variables con asociación lineal negativa. 

 
‐ Ausencia de Asociación Lineal: cuando los puntos se dispersan en el plano y no siguen 
ningún patrón (Figura 13). 

16

14

12

10

Y 8

0
0 5 10 15 20

Figura 13: Diagrama de dispersión para dos variables sin asociación lineal 

 
Ejercicios de aplicación: 2.7 a 2.10 
 

  24
Estadística Descriptiva

5. Medidas Resumen 

Las medidas resumen permiten que por medio de un valor se pueda conocer la posición o 
tendencia central del conjunto de datos y se acompañan de otras medidas denominadas de 
dispersión,  que  informan  cómo  se  encuentran  distribuidos  los  mismos  en  torno  al  valor 
central.   
Se debe tener en cuenta la naturaleza y distribución de cada variable para seleccionar el 
tipo de medidas resumen a utilizar, como se muestra en Figura 14.   
 
Media 
  Variables Cuantitativas  Mediana 
  (Continuas y Discretas)
Moda o Modo 
Medidas de Posición 
 
Variables Categóricas  Moda o Modo 
 
 
 
Varianza 
 
Desvío Estándar 
  Variables Cuantitativas  Rango 
Medidas de Dispersión  (Continuas y Discretas) Rango Intercuartílico 
  Coeficiente de Variación 

Figura  14:  Medidas  resumen  de  posición  y  dispersión  para  variables  cuantitativas  y 
categóricas. 

5.1 Variables cuantitativas 

5.1.1 Medidas de posición 

Las medidas de posición o tendencia central son índices que se expresan mediante una 
sola cifra y que representan el promedio o valor típico de un conjunto de puntuaciones.  
Para  su  cálculo  deben  considerarse  dos  situaciones  diferenciales:  si  se  cuenta  con  los 
datos  en  series  simples  (uno  a  uno)  o  si  estos  se  encuentran  agrupados  (resumidos  en 
tablas), como se explica a continuación. 

  25
Estadística Descriptiva

      5.1.1.1 Cálculos a partir de datos en series simples 

Media Aritmética 

La media es el promedio aritmético de todos los valores de una distribución. Este índice, 

denotado como  X , es el que se utiliza con mayor frecuencia. 
 
n

x + x 2 + x 3 + x 4 + .... + x n
∑x i
X = 1 , o lo que es lo mismo  X = i =1

n n
 
siendo  xi  el valor de la observación i para la variable X, y n el total de observaciones. 

 
Ejemplo: 
 
Edad en años de las maestras de una escuela 
Datos: 25; 32; 22; 21; 25; 30; 45; 50; 27; 28; 25 
 
25 + 32 + 22 + 21 + 25 + 30 + 45 + 50 + 27 + 28 + 25 330
X= = = 30  
11 11
     
La media de la edad de las maestras de esa escuela es 30 años, o en otros términos, la 
edad promedio de las maestras de la escuela es de 30 años. 
 
Mediana 

Además  de  la  media,  existen  otras  medidas  de  posición  que  pueden  informar  algo  más 
acerca de la distribución de la variable en estudio. 
Si se ordenan los datos de menor a mayor la mediana es el dato que queda en el medio y 
deja por debajo de ella el 50% de los datos y por encima el otro 50%. Se denota como Me. 
Ordenados  los  datos  de  la  variable  de  menor  a  mayor,  la  mediana  es  el  valor  que 
corresponde al dato central cuando el n es impar. 
 

  26
Estadística Descriptiva

Ejemplo: 
Edad de las maestras de una escuela (n = 11) 
Datos: 25; 32; 22; 21; 25; 30; 45; 50; 27; 28; 25 
 
Ordenando: 
    21; 22; 25; 25; 25; 27; 28; 30; 32; 45; 50 
      50%  Me  50% 
Me: mediana = 27 años 
El 50% de las maestras tienen 27 años o menos y el otro 50% tienen 27 años o más.  
 
Si n es par, la mediana es igual al promedio de los dos datos centrales. 
 

Ejemplo: Edad de las maestras de una escuela (n = 10) 
Datos: 25; 32; 22; 21; 25; 30; 45; 50; 27; 28 
 
Ordenando: 
21; 22; 25; 25; 27; 28; 30; 32; 45; 50 
  50%      50% 
 
27 + 28
Me = = 27,5 años 
2
 

Moda 

Es  el  punto  en  la escala  en el  que se  registra  la  máxima  frecuencia  de una  distribución. 
Coincide con el valor que se presenta con mayor frecuencia. 
En el ejemplo anterior la moda es 25 años, lo que nos permite decir que si bien la edad de 
las maestras de la escuela va desde los 21 a los 50 años, la edad más frecuente es 25 años. 
 
Para distribuciones simétricas unimodales la media, la mediana y la moda corresponden 
al mismo valor. 
 

  27
Estadística Descriptiva

      5.1.1.2 Cálculo a partir de datos en series agrupadas 
 
Como fue mencionado, los cálculos de estas medidas resumen difieren según la manera 
en que se disponen los datos a analizar. El cálculo a partir de datos en series agrupadas a su 
vez puede dividirse según se presenten en intervalos o no. 
 
Datos agrupados en intervalos (variables cuantitativas continuas y discretas) 
 
Media 

En este caso, para el cálculo de  X  se emplea la siguiente ecuación: 
k
 
∑m i ⋅ ni
    X = i =1
,
n
siendo: 
k= cantidad de intervalos 
mi= centro del intervalo o marca de clase 
ni= frecuencia absoluta de cada intervalo 
n= total de observaciones 
 
Ejemplo: 
 
Edad de las maestras de un colegio de la ciudad de Río IV, en el año 2007. 

Edad en años  ni  mi 


[20; 35)  10  27,5
[35; 50)  19  42,5
[50; 65)  8  57,5
Total  37   

 
27,5 ⋅ 10 + 42,5 ⋅ 19 + 57,5 ⋅ 8
X = = 41,68  
37
 
 

  28
Estadística Descriptiva

Mediana 

Para el cálculo de Me considere la siguiente ecuación: 

n
− N i −1
Me = Li + a ⋅ 2 , 
ni

donde: 
n
  =  es el número total de observaciones dividido 2. 
2
n
  Ni‐1 = es la mayor de las frecuencias acumuladas que no supera a   
2
n
  ni  = frecuencia absoluta del intervalo en donde cae   
2
n
  Li= es el extremo inferior del intervalo que tiene como frecuencia acumulada   
2
a = es la amplitud de dicho intervalo 
 
Existen situaciones donde los datos se distribuyen de manera asimétrica y más del 50 % 
de ellos están incluidos en el primer intervalo, por lo que no se podrá obtener el dato Ni‐1, 
n
(frecuencia acumulada que no supera a ). En ese caso se utilizará el valor de la marca de 
2
clase del primer intervalo en reemplazo de Ni‐1,. 
 
Ejemplo: 
 Edad de los Pacientes del Centro de Salud XX, año 2012 

Edad (años)  ni  Ni 


[15 ; 30)  28  28 
[30 ; 45)  32  60 
[45 ; 60)  18  78 
[60 ; 75]  22  100 
Total 100
 

  29
Estadística Descriptiva

n
Siendo  = 50, entonces: 
2
100
− 28
Me = 30 + 15 ⋅ 2 = 40,31años  
32
 

Moda 

La moda es considerada la marca de clase del intervalo modal, que es aquel que tiene la 
mayor frecuencia absoluta. 
Variable  ni 
[8,   10]  6 
(10,  12]  12 
     (12,  14] 7
Total  25 
 
Si el intervalo modal es (10,12], la  moda es 11.  
 
Otra manera de calcularla es la siguiente: 
 
f1
Moda = Li + a ⋅ , 
f1 + f 2

siendo: 
Li = extremo inferior del intervalo modal 
a = amplitud del intervalo modal 
f1= frecuencia absoluta del intervalo modal menos frecuencia del intervalo anterior 
f2  =  frecuencia  absoluta  del  intervalo  modal  menos  frecuencia  absoluta  del  intervalo 
posterior 
 
En el ejemplo anterior sería: 
f1=  12  ‐ 6  =  6 
f2=  12 ‐ 7   =  5 

  30
Estadística Descriptiva

 
12 − 6
         Moda = 10 + 2 ⋅  
(12 − 6) + (12 − 7)
6
  = 10 + 2 ⋅  
11
  = 10 + 1,09  
  = 11,09  
 
Otras  medidas  de  posición  a  partir  de  datos  agrupados  en  variables  cuantitativas 
continuas 

Cuantil:  Los  cuantiles  son  aquellos  valores  de  la  variable,  que  ordenados  de  menor  a 
mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el 
mismo  número  de  frecuencias.  Es  la  expresión  más  general  de  medidas  de  posición  y 
comprende a las otras; el valor que tome el cuantil “X” es el valor que deja por debajo de sí 
al “X” % de los datos. Casos particulares son los percentiles, cuartiles, deciles y quintiles. 
Percentil: Valor que divide al conjunto de datos en 100 partes iguales (de 0 a 100). 
Decil: Valor que divide al conjunto de datos en 10 partes iguales (de 0 a 10).  
Cuartil: Valor que divide al conjunto de datos en 4 partes iguales (de 0 a 4). 
 
La Figura 15 esquematiza las medidas de posición antes descriptas. 
 
   

Percentil  P10      P50      P100       

     

Decil  D1      D5      D10 


 

Cuartil  Q1    Q2  Q3    Q4 


 

Mediana        Me 
Figura 15: Medidas resumen de posición: percentil, decil, cuantil, cuartil y mediana. 

  31
Estadística Descriptiva

Cálculo de Cuantil 

Si se desea calcular el cuantil n, entonces: 

(n ⋅ N ) − N i −1
C n = Li + a ⋅ , 
ni

 
donde: 
Li  = límite inferior del intervalo que contiene a n.N 
n   = cuantil que quiero investigar 
N  = total de datos 
Ni‐1  = frecuencia acumulada anterior al intervalo que contiene a n.N 
ni  = frecuencia absoluta del intervalo que contiene a n.N 
a  = amplitud del intervalo 
 
Ejemplo: 
Edad de los pacientes en años 

Edad en años  ni  Ni 


[15 ; 30)  28  28 
[30 ; 45)  32  60 
[45 ; 60)  18  78* 
[60 ; 75] 22 100
Total  100   
 
Supongamos que se desea calcular el cuantil 0,7. 
 Siendo n=0,7 y N=100 entonces: 
n.N = 0,7 . 100 = 70 ÆBusco en la columna de frecuencias acumuladas Ni en qué intervalo 
está contenido el dato de orden 70. Como puede observarse, está en el tercer intervalo (*). 
Li= 45 
Ni‐1 = 60 
ni= 18 
a = 15 

  32
Estadística Descriptiva

 
70 − 60
C 0,7 = 45 + 15 ⋅  
18
= 45 + 0,55 ⋅ 15  
= 45 + 8,25  
= 53,25  
 
Interpretación: El 70% de los pacientes tiene 53,25 años o menos y el 30% tiene más de 
esa edad. 
 
 
Cálculo de Percentil 

De manera similar al cálculo de cuantiles, si se pretende conocer el valor del percentil n, 
la ecuación a aplicar es la siguiente: 

n⋅N
− N i −1
Pn = Li + a ⋅ 100 , 
ni

donde: 
n⋅N
Li  = límite inferior del intervalo que contiene a   
100
n   = percentil que quiero investigar. 
N  = total de datos. 
n⋅N
Ni‐1  = frecuencia acumulada anterior al intervalo que contiene a   
100
n⋅N
ni  = frecuencia absoluta del intervalo que contiene a   
100
a  = amplitud del intervalo. 
 
Supongamos  que  para  el  mismo  ejemplo  anterior  se  quiere  calcular  el  percentil  40. 
Entonces: 
 

  33
Estadística Descriptiva

n ⋅ N 40 ⋅ 100
= = 40  
100 100
 
Se debe buscar en la columna de frecuencias acumuladas en qué intervalo está contenido 
el dato de orden 40 (el cual está en el segundo intervalo). 
Luego, siendo: 
Li= 30 
Ni‐1 = 28 
ni= 32 
a = 15 
se tiene: 
40 − 28
P40 = 30 + 15 ⋅  
32
= 30 + 0,375 ⋅ 15  
= 30 + 5,625  
= 35,6  
 
Interpretación: el 40% de los pacientes tienen menos de 35,6 años y el 60% tiene más de 
esa edad. 
 
Nota:  en  variables  con  distribución  simétrica  las  medidas  resumen  más  adecuadas  son 
media y desvío estándar, y para variables con distribución asimétrica son mediana y rango 
intercuartílico, debido a que estas dos últimas son menos sensibles a valores atípicos. 
 
 
 Datos agrupados sin intervalos (variables cuantitativas discretas) 

Media 

Aquí el promedio se conoce como media aritmética ponderada, y se calcula como: 
n

∑x
i =1
i ⋅ ni
X=  
n

  34
Estadística Descriptiva

 
donde: 
xi= el valor de la observación i para la variable X 
ni= frecuencia absoluta de cada intervalo 
n= total de observaciones 
 
Ejemplo: 
Cantidad de camas en las habitaciones del hospital XX, en la ciudad de Villa María, 2006. 

  Cantidad de  ni 


camas 
0  3 
1  6 
2  16 
Total  25 
 
 
0 ⋅ 3 + 1 ⋅ 6 + 2 ⋅ 16
X = = 1,52  
25

Mediana  

n
En este caso, se debe calcular el número total de observaciones sobre dos ( ), y buscar 
2
en  la  columna  de  frecuencias  acumuladas  absolutas  el  intervalo  que  incluya  el  valor  del 
resultado anterior. 

  35
Estadística Descriptiva

Ejemplo: 
Cantidad de camas en las habitaciones del hospital XX,en la ciudad de Villa María, 2006. 

Cantidad de camas  ni  Ni 


0  5  5 
1 11 16
2 35 51 *
3  2  53 
4  2  55 
5  1  56 
Total  56   
 
n
=  28  ÆSe  busca  el  intervalo  donde  incluya  el  valor  28  en  la  columna  de  frecuencia 
2
absoluta acumulada (*).  La Mediana de la variable X= Cantidad de camas es 2 camas. 
 
Moda 

También  en  el  caso  de  datos  agrupados  sin  intervalos  para  variables  cuantitativas 
discretas la Moda corresponde al valor de la variable que registra la máxima frecuencia. 
 

5.1.2 Medidas de dispersión 

La variabilidad se refiere a la diseminación o dispersión de los datos de una distribución 
en torno a un valor central. Como en el caso de las medidas de posición, su cálculo también 
difiere  conforme los datos se presenten en series simples o agrupados. 
 
  5.1.2.1 Cálculos a partir de datos en series simples 

Varianza 

En  términos  generales,  representa  la  distancia  promedio  de  los  datos  a  su  media.  Se  la 
define  como  la  sumatoria  de  los  desvíos  al  cuadrado  de  cada  dato  respecto  de  la  media, 
dividido por el total de datos. En caso de trabajar con una muestra se divide por el total de 

  36
Estadística Descriptiva

datos menos uno. 

∑ (x )
n
2
i −X
S2 = i =1

n −1
siendo: 
xi= el valor de la observación i para la variable X 

X = la media muestral 
n= total de observaciones 
 
 Ejemplo:   
Dada  la  variable  Y=  "Cantidad  de  materias  aprobadas  por  alumno  de  la  carrera 
Licenciatura en Letras", respecto de la cual se obtuvieron los siguientes datos: 

  Datos: 2, 4, 4, 4, 6, 7, 7, 8, 9, 10      X  = 6,1         
 

S2 =
(2 − 6,1)2 + (4 − 6,1)2 .3 + (6 − 6,1)2 + (7 − 6,1)2 .2 + (8 − 6,1)2 + (9 − 6,1)2 + (10 − 6,1)2  
10 − 1
S 2 = 6,54 materias2 

 
La varianza nos indica cuánto distan en promedio los valores de la variable (cantidad de 
materias aprobadas) de su media. 
 
Desvío Estándar 

Se obtiene extrayendo la raíz cuadrada de la varianza. Tanto la varianza como el desvío 
estándar  muestran  la  dispersión  de  los  valores  observados  con  respecto  a  la  media.  La 
diferencia entre ellas es que la varianza está dada en unidades al cuadrado (si la variable se 
mide  en  Kg,  la  varianza  en  Kg2);  mientras  el  desvío  estándar  tiene  la  misma  unidad  de 
medida que la media. 
Siguiendo el ejemplo anterior, 
 

S = S2  

S = 6,54  

  37
Estadística Descriptiva

S = 2,56 materias ≅ 3 materias 
 
En el ejemplo, se tiene una media de 6 materias aprobadas con un desvío estándar de 3 
materias. 
 

X  = 6 materias 
S  =  3 materias 
Esto  quiere  decir  que  el  promedio  de  materias  aprobadas  es  de  6  y  que  un  porcentaje 
considerable  de  los  alumnos  tiene  aprobadas  entre  3  y  9  materias.  Esto  se  denota:  6  ±  3 
(media ± 1 DE). 
Mientras  más  grande  es  el  desvío  estándar,  mayor  es  la  dispersión  de  los  datos  y  la 
muestra  o  población  es  más  heterogénea  con  respecto  a  la  variable  en  cuestión.  Por  el 
contrario, al ser más pequeño el desvío estándar la muestra o población es más homogénea. 
 
Nota: En la calculadora, cuando se trabaja con una muestra, se usa  σn‐1  para calcular el 
desvío  estándar,  que  no  es  otra  cosa  que  la  raíz  cuadrada  de  la  varianza.  Y  se  usa  σn  al 
trabajar con la población. 

Rango 

Es la diferencia entre el menor y el mayor valor de una serie de datos.  
El rango sólo tiene en cuenta los valores extremos, por lo que no influyen en él los demás 
elementos  de  la  distribución.  Es  poco  estable  estadísticamente  y  por  ello  muy  poco 
representativo de la verdadera distribución de los datos. 
 
Rango Intercuartílico 

Es la diferencia entre el tercer y el primer cuartil, longitud del intervalo que contiene al 50 
% central de los datos. 
 
     RI = Q3 – Q1 
 

El cuartil 1 (Q1) es el valor de la variable que tiene por debajo el 25 % de los datos, y por 

  38
Estadística Descriptiva

encima el 75  %;  mientras que el cuartil 3 (Q3) tiene  por debajo el 75  % de los datos  y por 


encima  el  25  %.  Nos  dice  en  cuantas  unidades  de  los  valores  que  toma  la  variable  se 
encuentra el 50 % central de los datos.  
En  otras  palabras,  el  rango  intercuartílico  permite  ubicar  el  50  %  de  los  datos  que  se 
encuentran en el centro de la distribución. 
 
Coeficiente de Variación 

Es  una  medida  de  la  homogeneidad  o  variabilidad  de  los  datos.  Nos  permite  comparar 
distintas series de datos o variables, independientemente de la medida de cada una, ya que 
es adimensional. Generalmente se expresa en porcentaje y se simboliza “CV”. 
El CV permite, por ejemplo, comparar la homogeneidad del peso de niños recién nacidos 
en  dos  poblaciones  diferentes,  o  comparar  la  variabilidad  en  los  datos  sobre  dos  variables 
distintas en la misma población (ej. la talla y el peso al nacer en niños de Córdoba). 

Se calcula realizando un cociente entre el desvío estándar (S) y la media de los datos ( X ), 
multiplicado por cien. La ecuación correspondiente es entonces: 
S
CV = ⋅ 100 .  
X
 
Así,  el  CV  de  la  variable  edad  de  estudiantes,  cuya  media  y  desvío  estándar  son  20  y  1 
años respectivamente, sería: 
1
CV = ⋅ 100 = 5  
20
 
Es  importante  recordar  que  a  medida  que  el  coeficiente  de  variación  disminuye  se 
observa una mayor homogeneidad de los datos. 
 
Ejemplo: 
En una población determinada se quiere conocer quiénes tienen peso más homogéneo, 
los niños al nacer o al cumplir un año de vida. 
Para ello se extrae una muestra de 10 niños recién nacidos y 10 niños con 1 año de edad, 
obteniéndose los siguientes resultados: 
 

  39
Estadística Descriptiva

Peso de niños recién nacidos y de 1 año de edad,en una población X, en el año 2004 

  Niños recién nacidos  Niños de 1 año 

X  3,200 Kg  11 Kg 
S  0,800 kg 2 Kg
 
S
CV = ⋅ 100  
X
 
0,800 2
CVRN = ⋅100 = 25%     CV1 A = ⋅100 = 18,2%  
3,200 11
 
Si  bien  el  desvío  estándar  de  los  niños  al  año  de  edad  es  mayor  que  al  nacer,  su 
coeficiente  de  variación  es  menor,  lo  cual  indica  que  el  peso  es  más  homogéneo  en  este 
grupo que en el de recién nacidos.   
 
    5.1.2.2 Cálculos a partir de datos en series agrupadas 

Datos agrupados en intervalos (Variables cuantitativas continuas y discretas) 
 
Varianza 

A  partir  de  datos  agrupados  en  intervalos,  el  cálculo  de  la  varianza  debe  efectuarse 
empleando la siguiente ecuación: 

∑ n (m )
k
2
i i −X
S2 = i =1

n −1
 
siendo: 
k= cantidad de intervalos 
mi= centro del intervalo o marca de clase 
ni= frecuencia absoluta de cada intervalo 

X = la media muestral 
n= total de observaciones 

  40
Estadística Descriptiva

Desvío estándar 

Como en el caso de los datos en serie simple, el desvío estándar se calcula como la raíz 
cuadrada de la varianza: 

∑ n (m )
k
2
i i −X
S= i =1

n −1
 
Rango 

Es  la  diferencia  entre  el  extremo  superior  del  último  intervalo  y  el  extremo  inferior  del 
primer intervalo. 
 
Datos agrupados sin intervalos (Variables cuantitativas discretas) 
 
Varianza 

Si los datos a partir de los cuales se desea calcular la varianza provienen de una variable 
cuantitativa discreta cuyas frecuencias se disponen en tablas (es decir, no se cuenta con los 
datos en serie simple), la fórmula a aplicar sería: 

∑ n (x )
n
2
i i −X
S2 = i =1

n −1
donde: 

xi= el valor de la observación i para la variable X 
ni= frecuencia absoluta de cada intervalo 

X = media muestral 
n= total de observaciones 

Desvío estándar 

También en este caso el desvío estándar se calcula como la raíz cuadrada de la varianza, 
entonces: 

  41
Estadística Descriptiva

∑ n (x )
n
2
i i −X
S= i =1

n −1
 

Comparación de los Estadísticos de Dispersión 

El  rango  brinda  una  rápida  visualización  de  la  variabilidad  de  la  muestra,  aunque  solo 
utiliza los valores extremos de la misma. Por su parte la varianza utiliza toda la información 
de la muestra pero la unidad de medida está elevada al cuadrado, siendo el desvío estándar 
el cual conserva la unidad de medida de los datos. Sin embargo, si el interés es comparar la 
variabilidad de dos o más muestras, el desvío estándar no es aconsejable pues su valor está 
en la magnitud de los datos; en ese caso el coeficiente de variación es el apropiado. 
 

5.2 Variables categóricas 

Moda 

En el caso de las variables categóricas solo es aplicable la Moda como medida de posición. 
La misma corresponde a la categoría de la variable que registra la mayor frecuencia. 
Ejemplo: 
Distribución de frecuencias del tipo de deporte que practican 
 los socios de un determinado club 
Deporte ni fi
Básquet 59 0,32
Natación 39 0,21
Fútbol 42 0,23
Jockey 32 0,17
Tenis 14 0,07
Total 186 1
Moda: Básquet 
El deporte que más se practica en dicho club es el básquet. 

  42
Estadística Descriptiva

6. Diagramas de caja (Box plot) 

Este  tipo  de  gráficos  se  utiliza  para  presentar  los  aspectos  más  relevantes  de  una 
distribución de frecuencias, en forma sintética. 
Para construir los mismos se necesitan realizar los cálculos de algunas medidas resumen 
como el valor mínimo, máximo, mediana, cuartil 1 y cuartil 3.  
Su representación se muestra en la Figura 16.  
 

Box plot del peso del grupo estudiado

127

112
Peso

97

81

66

Figura 16: Diagrama de caja. 

 
En  el  gráfico,  la  mediana  está  representada  por  una  línea  dentro  de  la  caja.  Las  líneas 
horizontales que encierran a esta corresponden a los valores de los cuartiles 1 y 3. Las dos 
líneas  que  se  encuentran  fuera  de  la  caja  se  llaman  patillas  y  se  extienden  desde  el  valor 
mínimo al máximo del conjunto de datos. 
Este  tipo  de  gráficos  nos  informa  rápidamente  la  simetría  de  los  datos,  al  comparar  la 
ubicación de la mediana en relación a los cuartiles, o comparando la longitud de las patillas. 
 
Ejercicios de aplicación: 2.11 a 2.22 

  43
Estadística Descriptiva

EJERCICIOS DE APLICACIÓN 2.1 A 2.22 
EJERCICIO 2.1 

Un centro especializado en osteoporosis desea conocer los valores sanguíneos de calcio 
(Ca) en mujeres entre 45 y 55 años de edad de la ciudad de Córdoba en el año 2010. 
i. Definir la población en estudio. 
ii. Identificar la unidad de observación. 
iii. Definir la variable en estudio. 
iv. Establecer a qué tipo de variable corresponde. 
 
EJERCICIO 2.2 

A.  Para  cada  uno  de  los  siguientes  ejemplos  indicar  la  Unidad  Observacional  o 
Experimental y definir Muestra y Población.  
 
i. Para determinar el peso seco de una serie de productos enlatados de la empresa XX, 
en el mes de enero del 2003, se seleccionaron aleatoriamente 16 productos y se 
midió el peso de los mismos.  
ii. Para realizar un estudio acerca de la presencia de ciertos parásitos en niños de 0 a 13 
años  de  edad  de  la  escuela  E.  F.  Olmos,  en  el  año  1999,  se  realizó  un  análisis 
coproparasitológico  a  36  niños,  aplicándoles  cierta  técnica  de  detección  de 
parásitos y registrando la presencia o ausencia de los mismos.  
iii. A  fin  de  estimar  el  número  de  controles  odontológicos  por  año  en  niños  de  edad 
escolar  en  la  ciudad  de  Bell  Ville  en  el  año  2004,  se  escogió  una  muestra  de  20 
niños y se contaron dichos controles según datos registrados en la historia clínica.  
 
B. En las situaciones anteriores determinar y clasificar las variables en estudio.  
 
EJERCICIO 2.3 

Clasificar las siguientes variables: 
i. Cantidad de raciones servidas al día en un comedor escolar. 
ii. Incremento en gramos del peso de lactantes alimentados al pecho. 

  44
Estadística Descriptiva

iii. Ingresos mensuales en pesos de la persona encargada de los gastos del hogar. 
iv. Procedencia de los alumnos de una facultad. 
v. Cantidad de vacunas colocadas al año. 
vi. Cantidad de calorías consumidas al día. 
vii. Cantidad de horas destinadas a la realización de actividad física por semana. 
viii. Cantidad de biberones dados por día en una maternidad. 
ix. Peso de adolescentes. 
x. Niveles séricos de hierro en mujeres embarazadas. 
xi. Promedio de notas de exámenes rendidos en un año. 
xii. Estado civil de los ingresantes a una facultad. 
xiii. Nivel de instrucción materno. 
xiv. Tipo de medio de transporte usado. 
xv. Grado de dificultad de un examen. 
 
EJERCICIO 2.4 

La  Secretaría  de  Deportes  de  la  provincia  de  Salta  deseaba  conocer  el  rendimiento 
deportivo  de  los  jugadores  de  primera  división  de  fútbol,  para  lo  que  decidió  realizar  una 
investigación.  Se  los  evaluó  antropométricamente  (peso,  talla,  pliegues  cutáneos)  y 
deportivamente (test de saltabilidad, resistencia, velocidad, coordinación). 
Las variables deportivas estudiadas se operacionalizaron como sigue: 
Saltabilidad: centímetros alcanzados 
Coordinación: Adecuada‐ inadecuada 
Resistencia: Baja (hasta 2000 metros en el tiempo establecido), Moderada (desde 2000 
a5000metros), Alta (más de 5000 metros) 
Velocidad: poco veloz ‐ medianamente veloz ‐ muy veloz 

i. Indicar de qué tipo de variables se tratan. 
 

EJERCICIO 2.5 
Conociendo  los  siguientes  pesos  (en  gramos)  de  manzanas  dispuestas  para  la  venta  en 
distintos centros comerciales: 

  45
Estadística Descriptiva

 
100; 124; 130; 80; 85; 85; 90; 199; 220; 250; 128; 135; 150; 220; 245; 260; 124; 136; 210; 
240; 260. 

i)  Elaborar una tabla de distribución de frecuencias agrupando los datos en 3 intervalos. 
ii)  Elaborar otra tabla agrupando pero presentando los datos en 4 intervalos. 
 
EJERCICIO 2.6 

Teniendo en cuenta los resultados que se muestran en la siguiente tabla: 
Peso de los niños que asisten al Centro de Salud X, en el mes de octubre de 1998. 

N°   Valores que  Frecuencia  Frecuencia   Frecuencia relativa 


de intervalo  comprenden (Kg)  absoluta   relativa (%)  acumulada (%) 
1  [10‐20)  7 7 7 
2  [20‐30)  28  28  35 
3  [30‐40)  22  22  57 
4  [40‐50)  25  25  82 
5  [50‐60)  14  14  96 
6  [60‐70)  4  4  100 
Total    100 100  
 
Completar: 
i) El peso de los niños entrevistados oscila entre 10 Kg y .......... Kg. 
ii) El .......... de los entrevistados tiene menos de 40 Kg. 
iii) Los entrevistados con más de 30 kg son......... y representan el ......... del total . 
iv) El intervalo de peso más frecuente es el que abarca desde ......... a  .........   kg. 
 
EJERCICIO 2.7 

Los nutricionistas que participaron en las Jornadas Nacionales sobre Alimentación y Salud 
en  la  provincia  de  Mendoza  en  el  año  2011  fueron  clasificados  según  su  lugar  de 
procedencia, obteniéndose los resultados que se muestran en la tabla siguiente: 
Distribución de frecuencias de la procedencia de los Nutricionistas que participaron en las 

  46
Estadística Descriptiva

Jornadas Nacionales sobre Alimentación y Salud en la provincia de Mendoza en el año 
2002. 
 
 

Provincia  ni
Santa Fe  130 
Buenos Aires  800 
Corrientes  8 
Chubut  8 
Santa Cruz  1 
Entre Ríos  102 
La Pampa 50
Mendoza 9
San Luis 13
Santiago del Estero 11
Río Negro 5
San Juan 8
Tucumán 3
Córdoba 170
Chaco  4 
Total     1322 
 
i. ¿Cuál es la unidad experimental u observacional en este estudio?  
ii. ¿Los datos de la tabla corresponden a una población o a una muestra?  
iii. ¿Cuál es la variable estudiada?  
iv. Graficar la información presentada en la tabla de frecuencias. 
 
EJERCICIO 2.8 

A partir de la siguiente tabla: 

Cantidad de controles por año a embarazadas en un 

Centro de Salud de Córdoba, Marzo 2012 

Cantidad de Controles  ni 
0 0
1 2
2  4 
3  8 
4  4 

  47
Estadística Descriptiva

5 2
Total          20 
 

i. Completar la tabla de distribución de frecuencias. 
ii. Realizar un gráfico que represente tal distribución de manera conveniente. 
 
EJERCICIO 2.9 

En base a los siguientes gráficos: 
i. ¿Cuál es la tendencia de la disponibilidad de calcio y qué diferencia tiene con la de los 
otros nutrientes? 
ii. Si  tuviera  que  comparar  la  cantidad  de  mg  disponibles  de  cada  nutriente  en  el 
periodo 93–95, ¿cuál de los dos gráficos utilizaría? 
iii. ¿Qué gráfico elegiría si tuviera que comparar miligramos disponibles de cada uno de 
los nutrientes en los distintos periodos? 
 

Figura 1. Distribución de frecuencias de la disponibilidad de calcio, vitamina C y colesterol 
en Argentina según período en estudio. 

 
  1000
900
  800
700
  600
mg

500
  400 Periodo  Años 
300
  200 I  [63‐65] 
100
  0
II  [78‐80]
I II III
 
Periodos III  [93‐95]
 
Calcio Vitamina C Colesterol
 
 
 

  48
Estadística Descriptiva

Figura 2. Distribución de frecuencias de la disponibilidad de calcio, vitamina C y colesterol 
en Argentina según período en estudio. 

Periodo  Años 
I  [63‐65] 
II  [78‐80] 
III  [93‐95] 
 

EJERCICIO 2.10 

  Se  estudió  durante  5  años  consecutivos  la  cantidad  de  alumnos  inscriptos  en  la 
facultad “M” de la ciudad de Córdoba. Se obtuvieron los siguientes datos: 

Distribución de frecuencias de la cantidad de alumnos inscriptos en la facultad “M” de 
Córdoba, periodo 1996‐2000. 

Año  ni  
1996  200 
1997  262 
1998 290
1999  340 
2000  384 
Total  1476 

i. Definir la población en estudio. 
ii. Definir la variable estudiada. 
iii. Completar la tabla de distribución de frecuencias. 

  49
Estadística Descriptiva

iv. Representar los datos mediante un gráfico. 
 
EJERCICIO 2.11 

En una institución de salud se realizaron análisis de laboratorio a 57 mujeres de 45 a 55 
años, obteniéndose los siguientes valores de calcio en sangre, en mg/100 ml: 
Distribución de frecuencias de los valores de Calcio sanguíneo en mujeres de 45 a 55 años. 

Calcio (mg/100 ml)  ni 
(6,2 ; 7,5]  9 
(7,5 ; 8,8]  25 
(8,8 ; 10,1] 13
(10,1 ; 11,4] 8
(11,4 ; 12,7]  2 
Total  57 
 
i. Completar la tabla de distribución de frecuencias. 
ii. Representar los datos gráficamente. 
iii. Considerando que los valores normales de calcio sanguíneo son de 8,9 a 10,1 mg/100 
ml,  ¿qué  porcentaje  de  mujeres  tienen:  a)  valores  superiores  a  lo  normal  y  b) 
inferiores a lo normal? 
iv. Calcular el cuantil 0,5 y 0,9. ¿Cuál es la interpretación de dichos valores?  
v. Calcular la media y desvío estándar. 
vi. Interpretar los resultados. 

EJERCICIO 2.12 
Los  siguientes  datos  representan  las  edades  de  las  personas  que  asistieron  a  la  guardia 
nocturna de un centro asistencial determinado de la ciudad de Córdoba. 

7  19  25  26 32 41 25 47 69  59


11  26  41  43  39  61  72  74  61  58 
13  15  22  39  40  24  33  37  41  4 
45  46  50  51  

  50
Estadística Descriptiva

i. Representar  estos  datos  en  una  tabla  de  distribución  de  frecuencias  utilizando  una 
amplitud de 10 años. 
ii. Presentar los datos en un histograma. 
iii. Graficar un polígono de frecuencias relativas. 
iv. Graficar un polígono de frecuencias relativas acumuladas. 
v. Calcular la media e interpretar. 
vi. Calcular el desvío estándar e interpretar. 
 

EJERCICIO 2.13 

  Se obtuvieron los siguientes datos en cuanto a la cantidad de exámenes rendidos en 
un  año  en  un  total  de  50  alumnos,  seleccionados  aleatoriamente  del  total  de  estudiantes 
que concurren a una facultad determinada. Dados los siguientes datos recabados: 
 
6  7  7  10  2  3  4  4  5  9 
1  2  8  8  7  6  6  5  6  6 
7  5  6  3  6 7 7 6 5  9
9  7  6  8  8  0  5  3  4  4 
6  6  7  7  5  8  6  6  5  2 
 
i. Construir  la  tabla  de  distribución  de  frecuencias  para  la  variable  "cantidad  de 
exámenes rendidos por año" en esta muestra.  
ii. Realizar una representación gráfica adecuada de la distribución de los datos. 
iii. Calcular las medidas resumen adecuadas e interpretar los resultados obtenidos. 

EJERCICIO 2.14 

En un estudio sobre consumo de sal en un grupo de personas con antecedentes de 
hipertensión se obtuvo una media de 12 g/día, con una desviación estándar de 4 g/día. 
 
i. ¿Cómo se interpretan estos datos? 
 

  51
Estadística Descriptiva

EJERCICIO 2.15 

  Los siguientes datos corresponden a la disminución de peso por semana de un grupo 
de pacientes sometidos a una dieta experimental hipocalórica. 
 
600  620  400 560 320 300 660 525 
430  645  300  425  760  920  830  715 
220  610  630  515  430  720  685  940 
 
i. Agrupar los datos en una tabla de distribución de frecuencias con cinco intervalos. 
ii. Calcular  la  media  aritmética  de  los  datos  originales  y  de  los  datos  agrupados  e 
interpretar. 
iii. Calcular la mediana  de los datos originales y de los datos agrupados e interpretar. 
iv. Calcular  el  desvío  estándar  de  los  datos  originales  y  de  los  datos  agrupados  e 
interpretar. 
 
EJERCICIO 2.16 

Se estudiaron los centímetros incrementados en talla en un año en un grupo de niños que 
se atendían en un Centro de Salud de la ciudad de Alta Gracia en el año 2004. 
Distribución de frecuencias del incremento de talla en los niños que se atendieron en el 
centro de salud Xen la ciudad de Alta Gracia, Octubre del 2004. 

Incremento (cm)  ni  
(3 , 5]  4 
(5 , 7]  7 
(7 , 9]  16 
(9 , 11]  6 
(11 , 13] 3
Total  36 

i. ¿Qué porcentaje de niños creció más de 9 cm en un año? 
ii. ¿Qué porcentaje de niños creció hasta 7 cm en un año?  

  52
Estadística Descriptiva

iii. Calcular el cuantil 0,5 de la distribución. 
iv. ¿Qué significa el cuantil obtenido en el punto anterior? 

EJERCICIO 2.17 

En un centro comercial se realiza periódicamente el control de la mercadería en bodega. 
En uno de esos controles, se encontró que en 15 cajas de latas de leche la cantidad de latas 
abolladas que debían desecharse fueron: 

0  2  4  1  3  2  2  1  6  5  4  4  0  1  3 

i. Construir  la  tabla  de  distribución  de  frecuencias  para  la  variable  "cantidad  de  latas 
abolladas por caja". 
ii. Obtener la media y varianza muestral. 
iii. Interpretar los resultados obtenidos. 

EJERCICIO 2.18 

Los datos de la tabla corresponden a dos muestras de salarios (en $) de los docentes con 
diversos grados de dedicación,  de dos instituciones universitarias.   
 
i. Calcular para cada muestra los estadísticos de posición y compararlos.  
ii. Según lo obtenido en i)  ¿reflejan los estadísticos de posición la situación salarial de 
los docentes de ambas universidades? Justificar.  
iii. Calcular los estadísticos que crea conveniente para reflejar lo observado en ii). 
iv. Representar gráficamente y discutir la relación entre los valores de los estadísticos y 
la forma de los gráficos.  

Universidad A  Universidad B 

2000  3000 
2000 3000
2000  3000 
3000  3000 
3000 3000

  53
Estadística Descriptiva

3000  3000 
3000  3000 
9000  4000 

EJERCICIO 2.19 

A. Dar un ejemplo de:  

i. una muestra de tamaño “n”, con media 5 y dispersión nula; 
ii. dos muestras con igual media y distinta varianza;  
iii. una  muestra  de  7  datos  de  manera  que  el  estadístico  más  representativo  sea  la 
moda. 
B. Si en una granja hay pollos cuyos pesos varían entre 2,8 kg y 3,8 kg:  
i. ¿Puede el peso medio tomar los valores 2,1 kg o 4,2 kg? ¿Por qué?  
ii. ¿Es posible que la varianza sea nula? 
 
EJERCICIO 2.20 

En cada uno de los siguientes ejemplos decidir si es posible que los estadísticos tomen los 
valores que se informan: 
i. En 5 vacunos se encontró que el mínimo porcentaje de grasa en la leche fue del 4%, 
el promedio fue de 14% y el rango de 14%.  
ii. Para otro grupo de 5 vacunos, se encontró el mismo valor mínimo de porcentaje de 
grasa, pero en cambio el rango fue de 10% y el valor más frecuente fue el 14%.  
iii. En  una  quinta  se seleccionaron  8  repollos  y  se  contó  el  número  de  larvas  de  cierto 
insecto que contenían, además de determinar su peso. Para la primera variable el 
rango fue de 6 larvas, mientras que en la segunda variable el rango fue de 0,5 kg. 
Ambas muestras estadísticas carecieron de moda.  
iv. En una muestra de huevos de gallinas ponedoras blancas el rango de pesos fue de 9 
g, con un valor más frecuente de peso de 45 g. El huevo más pesado presentó un 
peso de 45 g.  
v. Siete  gallinas  ponedoras,  de  las  mencionadas  en  el  punto  anterior,  fueron 
seleccionadas para ser pesadas. Los valores de peso encontrados oscilaron entre 

  54
Estadística Descriptiva

1,4 kg y 2,4 kg. El ave más liviana tuvo un peso de 1,4 kg. 
 
EJERCICIO 2.21 

En un Laboratorio Bromatológico se seleccionaron un total de 25 muestras de 100 gramos 
de quesos Sbrinz, determinándose el contenido de vitamina B6 (en mcg) y obteniéndose la 
siguiente muestra:  
75  82  87  96  96 
76  84 89 100 98
75  85  89  98  97 
79  92 94 98 96
91  94 95 97 99
 
Además  se  construyó  el  histograma  para  las  frecuencias  relativas  de  los  contenidos  de 
vitamina B6, como se presenta a continuación:  
 
Distribución de  frecuencias relativas del contenido de vitamina B6 en muestras de queso Sbrinz 

45
40
35
30
25
%

20
15
10
5
0
75, 80 80, 85 85, 90 90, 95 95, 100

B6 (mcg)

i. Calcular los estadísticos que crea conveniente para reflejar el comportamiento de los 
datos mostrado en el histograma.  
ii. A continuación se muestra un histograma, el cual grafica los contenidos de vitamina 
B6 (en mcg) para 25 muestras de Queso Fundido. ¿Qué diferencias substanciales 
encuentra  entre  este  nuevo  gráfico  y  el  histograma  para  las  muestras  de  queso 
Sbrinz? Intuitivamente ¿cómo se reflejaría este cambio del comportamiento de los 
contenidos de vitamina B6 en los estadísticos de posición y dispersión? 
 

  55
Estadística Descriptiva

Distribución de  frecuencias relativas del contenido de vitamina B6 en muestras de Queso Fundido. 
 

45
40
35
30
% 25
20
15
10
5
0
75, 80 80, 85 85, 90 90, 95 95, 100

B6 (mcg)

EJERCICIO 2.22 

Dados los siguientes diagramas de caja indique si los datos son simétricos o no. 
i)  

Circunferencia de cintura del grupo estudiado

100

90
Cintura

80

70

60

 
 
 
 
 
 
 
 
 

  56
Estadística Descriptiva

ii)  

Repeticiones de ejercicios en barra

18

14

Barra
10

  57
Estadística Descriptiva

RESOLUCIONES EJERCICIOS 2.1 A 2.22 

EJERCICIO 2.1 

i. Todas  las  mujeres  de  la  ciudad  de  Córdoba  entre  45  y  55  años  de  edad,  en  el  año 
2000. 
ii. Unidad Experimental u Observacional: Una mujer de la ciudad de Córdoba entre 45 y 
55 años de edad, en el año 2000. 
iii. Niveles de calcio en sangre. 
iv. Cuantitativa continua. 
 
EJERCICIO 2.2 

A. 
i. Unidad Experimental u Observacional: un producto enlatado de la empresa XX, en 
el mes de enero del 2003. 

Muestra: 16 productos enlatados de la empresa XX, en el mes de enero del 2003. 

Población: Todos los productos enlatados de la empresa XX, en el mes de enero del 
2003.  

ii. Unidad  Experimental  u  Observacional:  un  niño  entre  0  y  13  años  de  edad  de  la 
escuela E. F. Olmos, en el año 1999. 

Muestra:  36  niños  entre  0  y  13  años  de  edad  de  la  escuela  E.  F.  Olmos,  en  el  año 
1999.  

Población: Todos los niños entre 0 y 13 años de edad de la escuela E. F. Olmos, en el 
año 1999. 

iii. Unidad Experimental u Observacional: un niño en edad escolar de la ciudad de Bell 
Ville en el año 2004. 

Muestra: 20 niños en edad escolar de la ciudad de Bell Ville en el año 2004. 

Población: Todos los niños en edad escolar de la ciudad de Bell Ville en el año 2004. 
 
 

  58
Estadística Descriptiva

B. 
i. Variable: Peso seco de los productos enlatados. 
Clasificación: Cuantitativa continua. 
 
ii. Variable: Presencia de ciertos parásitos en niños entre 0 y 13 años de edad.  
Clasificación: Categórica nominal. 
 
iii. Variable: Cantidad de controles odontológicos por año.  
Clasificación: Cuantitativa discreta. 
 
EJERCICIO 2.3 

i. Discreta. 
ii. Continua. 
iii. Continua. 
iv. Categórica, nominal. 
v. Discreta. 
vi. Continua. 
vii. Continua. 
viii. Discreta. 
ix. Continua. 
x. Continua. 
xi. Continua. 
xii. Categórica, nominal. 
xiii. Categórica, ordinal. 
xiv. Categórica, nominal. 
xv. Categórica, ordinal. 
 
EJERCICIO 2.4 

a) Saltabilidad: cuantitativa continua. 
b) Coordinación: categórica nominal. 
c) Resistencia: categórica ordinal 

  59
Estadística Descriptiva

d) Velocidad: categórica ordinal. 
 
EJERCICIO 2.5 

Ordeno los datos: 
80, 85, 85, 90, 100, 124, 124, 128, 130, 135, 136, 150, 199, 210, 220, 220, 240, 245, 250, 
260, 260. 
 
Diferencia entre mayor y menor valor: 260 – 80 = 180 
Divido por el número de intervalos deseado: 180 / 3 = 60 y 180 / 4 = 45 
 
i) 
Peso (gramos)  ni 
[80 , 140]  11 
(140 , 200]  2 
(200 , 260]  8 
Total  21 
ii) 
Peso (gramos)  ni 
[80 , 125]  7 
(125 , 170]  5 
(170 , 215]  2 
(215 , 260]  7 
Total 21
 
EJERCICIO 2.6 

i. El peso de los niños entrevistados oscila entre 10 Kg y 69 Kg. 
ii. El 57 % de los entrevistados tiene menos de 40 Kg. 
iii. Los entrevistados con más de 30 Kg son 65 y representan el 65 % del total. 
iv. El intervalo de peso más frecuente es el que abarca desde los 20 a29 Kg. 
 

  60
Estadística Descriptiva

EJERCICIO 2.7 

i. Unidad  Experimental  u  Observacional:  un  nutricionista  que  haya  participado  en  las 
Jornadas Nacionales sobre Alimentación y Salud en la provincia de Mendoza en el 
año 2002. 
ii. Los datos corresponden a una población. 
iii. La variable estudiada es: lugar de procedencia de los nutricionistas. 
iv.  

Distribución de frecuencias de la procedencia de los Nutricionistas que


participaron de las Jornadas Nacionales sobre Alimentación y Salud en la
provincia de Mendoza en el año 2002

900
Nº de Nutricionistas

800
700
600
500
400
300
200
100
0

Lugar de Procedencia

  61
Estadística Descriptiva

EJERCICIO 2.8 

i.  
 Distribución de frecuencias de la cantidad de controles por año a Embarazadas en un 
Centro de Salud de Córdoba en Marzo del 2006 

Cantidad de controles/año ni  Ni  fi (%)  Fi (%) 


1  2 2 10 10 
2  4 6 20 30 
3  8  14  40  70 
4  4  18  20  90 
5  2  20  10  100 
Total  20    100   
 

ii. Gráficos: 

Distribución de frecuencias de la cantidad de controles a


embarazadas en un
Centro de Salud de Córdoba en Marzo del 2006

9
.

8
7
Cantidad de embarazadas

6
5
4
3
2
1
0
1 2 3 4 5

Cantidad de controles

  62
Estadística Descriptiva

Distribución de frecuencias de la cantidad de controles por año a Embarazadas en un 
Centro de Salud de Córdoba en Marzo del 2006 

10% 10%

1
2 20% 20%
3
4
5 40%

 
 

EJERCICIO 2.9 

La  disponibilidad de calcio aumentó con  el paso  del tiempo,  mientras que la  vitamina C 


permaneció  estable  y  el  colesterol  disminuyó.  Además,  la  disponibilidad  de  calcio  superó 
ampliamente a la de la vitamina C y el colesterol en los tres periodos estudiados. 
 ii) y iii)   Ambos gráficos son correctos, siendo el gráfico 1 más fácil de visualizar. 
 
 
EJERCICIO 2.10 

iii. Todos los alumnos inscriptos en la facultad “M” de la ciudad de Córdoba durante los 
años 1996 a 2000. 
iv. Cantidad de alumnos. Cuantitativa discreta. 
v. Tabla de distribución de frecuencias. 
 
 

  63
Estadística Descriptiva

Distribución de frecuencias de la cantidad de alumnos inscriptos en la facultad “M” de la 
ciudad de Córdoba, entre los años 1996 y 2000 

Año  ni  Ni  fi %  Fi % 


1996  200  200  13,6  13,6 
1997  262 462 17,7 31,3 
1998  290  752  19,7  51 
1999  340  1092  23,0  74 
2000  384  1476  26,0  100 
Total  1476  ‐  100  ‐ 
 
 
iv) 
a) 

Distribución de frecuencias de la cantidad de alumnos


inscriptos en la facultad “M” de la ciudad de
Córdoba, entre los años 1996 y 2000
400

350

300

250

200
ni

150

100

50

0
1996 1997 1998 1999 2000 Años

 
 
 
 
 
 

  64
Estadística Descriptiva

b) 

Distribución de frecuencias de la cantidad de


alumnos inscriptos en la facultad “M” de la ciudad
de Córdoba, entre los años 1996 y 2000
400
350
300
250

ni
200
150
100
50
0
1996 1997 1998 1999 2000

Años

 
   
EJERCICIO 2.11 

i)  
Distribución de frecuencias de los valores de Calcio sanguíneo en mujeres de 45 a 55 años 

Calcio sanguíneo         
(mg %)  ni   Ni  fi %  Fi % 
(6,2 ;  7,5]  9  9  15,8  15,8 
(7,5 ;  8,8]  25  34  43,9  59,7 
(8,8 ; 10,1]  13  47  22,8  82,5 
(10,1 ; 11,4]  8 55 14,0 96,5 
(11,4 ; 12,7]  2 57 3,5 100 
Total  57  ‐  100        ‐ 
 

 
 
 
 

  65
Estadística Descriptiva

ii)  

Distribución de frecuencias de los valores de Calcio sanguíneo en


mujeres de 45 a 55 años

30

25
N° de observaciones

20

15

10

0
(6.2 , 7.5] (7.5 , 8.8] (8.8 , 10,1] (10.1 , 11.4] (11.4 , 12.7]

mg %

iii)   

      a)Tienen valores de calcio superiores a lo normal el 17,5% de las mujeres. 

       b) El 59,7% de las mujeres tiene valores inferiores a lo normal. 
 

iv) Pueden ocurrir dos situaciones: calcular el cuantil 0,5 o el percentil 50, que es lo mismo.  
 
En el primer caso: 
(n ⋅ N ) − N i −1
C 0,5 = Li + a ⋅ . 
ni

En el segundo caso: 
n.N
− N i −1
P50 = Li + a. 100 , 
ni

donde: 
n.N
Li  = límite inferior del intervalo que contiene a  (n.N )  ó    
100
n   = cuantil o percentil que quiero investigar (en este caso 0,5 o 50, respectivamente). 
N  = total de datos. 
n.N
Ni‐1  = frecuencia acumulada anterior al intervalo que contiene a   (n.N )  ó    
100

  66
Estadística Descriptiva

n.N
ni  = frecuencia absoluta del intervalo que contiene a  (n.N )  ó    
100
a  = amplitud del intervalo. 
 
Entonces: 
n ⋅ N 50 ⋅ 57
= = 28,5  
100 100
 
Busco en la frecuencia acumulada en que intervalo está el dato 28,5. Está en el segundo 
intervalo. 
Li= 7,5 
Ni‐1 = 9 
ni = 25 
a= 1,3 
28,5 − 9
P50 = 7,5 + 1,3 ⋅  
25
= 7,5 + 1,3 ⋅ 0,78  
  = 7,5 + 1,01  
= 8,51 
   
Interpretación:  el  50%  de  las  mujeres  entre  45  y  55  años  tienen  valores  sanguíneos  de 
Calcio de 8,51 mg % o inferiores y el otro 50% tienen valores superiores a 8,51mg %. 
 
Cuantil 0,9 
(n ⋅ N ) = 0,9 ⋅ 57 = 51,3  
 
Busco en la frecuencia acumulada en qué intervalo se encuentra el dato 51,3. Está en el 
cuarto intervalo. 
 
Li= 10,1    a = 1,3 
Ni‐1 = 47    ni= 8 
 

  67
Estadística Descriptiva

51,3 − 47
C 0,9 = 10,1 + 1,3 ⋅  
8
= 10,1 + 1,3 ⋅ 0,54  
  = 10,1 + 0,7  
= 10,8  
 
Interpretación: El 90% de las mujeres tienen valores sanguíneos de calcio de 10,8 mg % o 
inferiores y el 10% restante tienen valores de 10,8 mg % o superiores. 
Nota: el Percentil 90 (P90); coincide con el Cuantil 0,9(C0,9) 

v) El cálculo de la Media ( X ) es:   

∑m i ⋅ ni
  X = ,    
n
siendo: 

∑ = sumatoria 

mi = centro del intervalo o marca de clase 
ni = frecuencia absoluta de cada intervalo 
n= total de observaciones 
 
Calcio sanguíneo             
(mg%)  ni  mi   nimi  (mi‐ X  ) (mi‐  X  )2 ni (mi‐  X  )2
(6,2 ; 7,5]  9  6,85  61,65  ‐ 1,89  3,57  32,13 
(7,5 ; 8,8]  25  8,15  203,75  ‐ 0,59  0,35  8,75 
(8,8 ;10,1]  13  9,45  122,85  0,71  0,5  6,5 
(10,1 ;11,4]  8  10,75  86,0  2,01  4,04  32,32 
(11,4 ;12,7]  2  12,05  24,1  3,31  10,96  21,92 
Total  57    498,35      101,62 
 
498 ,35
X = = 8,74 mg % 
57
 
 
 
 

  68
Estadística Descriptiva

El cálculo del Desvío Estándar (S) es: 

∑ n (m )
2
i i −X
S=  
n −1

101,2
S=  
56

S = 1,81 = 1,34  mg % 


vi)  Las mujeres entre 45 y 55 años tienen un promedio de calcio en sangre de 8,74 mg %, 
con  una  desviación  estándar  de  ±  1,34  mg  %,  lo  que  representa  que  la  mayoría  de  las 
mujeres tienen valores entre 7,4 y 10,08 mg% de calcio en sangre. 
 
EJERCICIO 2.12 

Personas que asistieron a la guardia nocturna de un centro asistencial determinado de la 
ciudad de Córdoba. 
 
i.  
  a = 10 años 
 
74 ‐ 4 = 70/10 = 7 intervalos. 
 
Distribución de frecuencias de la edad de  las personas que asistieron a la guardia 
nocturna de un centro asistencial determinado de la ciudad de Córdoba 
Edad (años)  ni   Ni  fi %  Fi % 
[4  ;  14]  4  4 11,8 11,8
(14 ; 24]  4  8 11,8 23,6
(24 ; 34]  6  14 17,6 41,2
(34 ; 44]  8  22 23,5 64,7
(44 ; 54]  5  27 14,7 79,4
(54 ; 64]  4  31 11,8 91,2
(64 ; 74]  3  34 8,8 100
Total  34  ‐  100  ‐ 
 

  69
Estadística Descriptiva

Distribución de frecuencias de la edad de las


personas que asistieron a la guardia nocturna de
un centro asistencial determinado de la ciudad de
Córdoba
9
8
7

Fre cue ncia


6
5
4
3
2
1
0
(4 , 14] (14 , 24] (24 , 34] (34 , 44] (44 , 54] (54 , 64] (64 , 74]
Edad (años)

ii) Histograma 
 
iii)Polígono de frecuencias relativas 

Distribución de frecuencias de la edad de las personas que asistieron a la guardia


nocturna de un centro asistencial determinado de la ciudad de Córdoba

25
Frecuencias relativas

20

15

10

0
(4 , 14] (14 , 24] (24 , 34] (34 , 44] (44 , 54] (54 , 64] (64 , 74]

Edad (años)

  70
Estadística Descriptiva

iv) Polígono de frecuencias relativas acumuladas 
 

Distribución de frecuencias de la edad de las personas que asistieron a la


guardia nocturna de un centro asistencial determinado de la ciudad de
Córdoba
100
Frecuencias relativas acumuladas

90
80
70
60
50
40
30
20
10
0
(4 , 14] (14 , 24] (24 , 34] (34 , 44] (44 , 54] (54 , 64] (64 , 74]
Edad (años)

 
v) Medidas resumen 
 
Edad (años)  ni  mi nimi (mi‐  X  ) (mi‐ X  )2 ni (mi‐  X  )2
[4  ;  14]  4  9  36  ‐ 28,8  829,44  3317,76 
(14 ; 24]  4  19  76  ‐18,8  353,44  1413,76 
(24 ; 34]  6  29  174  ‐8,8  77,44  464,64 
(34 ; 44]  8  39  312  1,2  1,44  11,52 
(44 ; 54]  5  49  245  11,2  125,44  627,20 
(54 ; 64]  4  59  236  21,2  449,44  1797,76 
(64 ; 74]  3  69  207  31,2  973,44  2920,32 
Total  34    1286      10552,96 
 

∑ m ⋅n i i

X =  
n
1286
X = = 37 ,8 años 
34
 
vi) 

∑ n (m )
2
i i −X
S=  
n −1

  71
Estadística Descriptiva

10552,96
=  
33

= 319,79  
  = 17,88 ≅ 18 años 
 
Interpretación:  la  edad  promedio  de  las  personas  que  fueron  atendidas  en  la  guardia 
nocturna  del centro  asistencial fue de 38  años, con un desvío  estándar de 18  años, lo que 
quiere decir que la mayoría de las personas atendidas tenían entre 20 y 56 años. 
 
EJERCICIO 2.13 

Distribución de frecuencias de la cantidad de exámenes rendidos por alumno en un año, 
en la facultad X. 

xi  ni   Ni  fi %  Fi %  (Xi –  X )  (Xi –  X )2  ni (Xi –  X )2 


0  1  1  2  2  ‐ 5,7  32,49  32,50 
1  1  2  2  4  ‐ 4,7  22,09  22,09 
2  3  5  6  10 ‐ 3,7 13,69 41,07 
3  3  8  6  16 ‐ 2,7 7,29 21,87 
4  4  12  8  24 ‐ 1,7 2,89 11,56 
5  7  19  14 38 ‐ 0,7 0,49 3,43 
6  13  32  26 64 0,3 0,09 1,17 
7  9  41  18 82 1,3 1,69 15,21 
8  5  46  10 92 2,3 5,29 26,45 
9  3  49  6  98 3,3 10,89 32,67 
10  1  50  2  100  4,3  18,49  18,49 
Total  50    100        226,5 
               
xi  ni  xi *ni 
0  1  0 
1  1  1 
2  3  6 
3  3  9 
4  4  16 
5  7  35 
6  13  78 
7  9  63 
8  5  40 
9  3  27 
10  1  10 
  50  285 

  72
Estadística Descriptiva

 
ii)   

Distribución de frecuencias de la cantidad de


exámenes rendidos por alumno en un año, en la
14 facultad X
12

Frecuencia absoluta
10
8
6
4
2
0

Cantidad de exámenes

 
iii) 

∑m i ⋅ ni
X =  
n
 
285
X= = 5,7 ≅ 6 exámenes 
50
 

∑ n (x )
2
i i −X
S=  
n −1
 

226,5
S=  
49

S = 4,62 = 2,15 ≅ 2 exámenes 


 
Interpretación:  los  alumnos  rinden  un  promedio  de  6  exámenes  al  año,  con  una 
desviación estándar de 2 exámenes, lo que quiere decir que la gran mayoría de los alumnos 
rinden al año entre 4 y 8 exámenes. 
 
 

  73
Estadística Descriptiva

EJERCICIO 2.14 

i.  El  consumo  promedio  de  sal  de  la  población  es  de  12  gramos  al  día,  siendo  que  la 
mayoría consume entre 8 y 16 gramos al día de sal. 
 
EJERCICIO 2.15 

Disminución  de  peso  por  semana  de  un  grupo  de  pacientes  sometidos  a  una  dieta 
experimental hipocalórica 
 
i. Construcción de tabla de frecuencias con 5 intervalos. 
   
  940 – 220 = 720/5 = 144 gramos 
 
Distribución de frecuencias del peso disminuido (en gramos) por semana en pacientes 
sometidos a dieta hipocalórica 

Gramos 
ni  Ni  fi (%)  Fi (%) 
disminuidos 
[220 ; 364]  4 4 16,67 16,67 
(364 ; 508]  4 8 16,67 33,34 
(508 ; 652]  8  16  33,33  66,67 
(652 ; 796]  5  21  20,83  87,5 
(796 ;940]  3  24  12,5  100 
Total  24  ‐  100  ‐ 
 
i)  
Media aritmética de los datos originales: 

X =
∑x i
 
n
13760
X= = 573,3 gramos disminuidos por semana. 
24
Los pacientes sometidos a dieta hipocalórica disminuyen en promedio 573,3 gramos por 
semana. 
 
 

  74
Estadística Descriptiva

Gramos       
disminuidos  ni  mi  ni.mi  (mi‐  X  ) 2
(mi‐  X  ) ni (mi‐  X  )2 
[220 ; 364]  4  292  1168  ‐ 282  79524  318096 
(364 ; 508]  4  436 1744 ‐ 138 19044 76176 
(508 ; 652]  8  580  4640  6  36  288 
(652 ; 796]  5  724  3620  150  22500  112500 
(796 ; 940]  3  868  2604  294  86436  259308 
Total  24    13776      766368 
 
Media aritmética de datos agrupados: 

∑m i ⋅ ni
X =  
n
13776
X = = 574 gramos  
24
Los  pacientes  sometidos  a  dieta  hipocalórica  disminuyen  en  promedio  574  gramos  por 
semana. 
iii) Mediana de los datos originales: 
 
Ordenando  los  datos  de  menor  a  mayor,  busco  los  dos  datos  centrales  (dado  que  n  es 
par): 
220, 300, 300, 320, 400, 425, 430, 430, 515, 525, 560, 600, 610, 620, 620, 645, 660, 685, 
715, 720, 760, 830, 920, 940 
 
600 + 610
Me = = 605 gramos 
2
El 50% de los pacientes con dieta hipocalórica disminuye por semana 605 g o menos y el otro 
50%, 605 g o más. 
 
Mediana en datos agrupados: 
n
− N i −1
Me = Li + a ⋅ 2  
ni

12 − 8
Me = 508 + 144 ⋅  
8
Me = 580  

  75
Estadística Descriptiva

El 50% de los pacientes con dieta hipocalórica disminuye por semana 580 g o menos y el otro 
50%, 580 g o más. 
 

iv) Desviación estándar de los datos originales: 

∑ (x )
2
i −X
S=  
n −1
 
S = 194,03 gramos 
Los  pacientes  sometidos  a  dieta  hipocalórica  disminuyen  en  promedio  573,3  gramos  por 
semana,  con  una  desviación  estándar  de  194,03  gramos;  es  decir  que  la  mayoría  de  ellos 
pierde entre 379,27 y 767,33 gramos por semana. 
 
Desviación estándar de los datos agrupados: 

∑ n (m ) 2
i i −X
S=  
n −1

766368
S= = 182,53 gramos 
24 − 1
Los  pacientes  sometidos  a  dieta  hipocalórica  disminuyen  en  promedio  574  gramos  por 
semana,  con  una  desviación  estándar  de  182,53  gramos;  es  decir  que  la  mayoría  de  ellos 
pierde entre 391,47 y 756,53 gramos por semana. 
 
EJERCICIO 2.16 

 
i) El 25 %de los niños creció más de 9 cm en un año. 
ii) El 30,5 %de niños creció hasta 7 cm en un año. 
iii) El cuantil 0,5 de la distribución fue 7,88 cm ≅8 cm.  
iv) Significa que el 50 % de los niños tuvo un incremento de 8 cm o menos y el otro 50 % 
creció 8 cm o más en un año. 
 

  76
Estadística Descriptiva

EJERCICIO 2.17 

i. Cantidad  de  latas  de  leche  abolladas  por  caja.  Tabla  de  distribución  de 
frecuencias y de cálculo. 
Xi  ni  Ni  fi % Fi % (Xi – X )  (Xi –  X )2  ni (Xi –  X )2 
0  2  2  13,4  13,4  ‐2,53  6,4  12,8 
1  3  5  20  33,4  ‐ 1,53  2,34  7,02 
2  3  8  20  53,4  ‐ 0,53  0,28  0,84 
3  2  10  13,4  66,8  0,47  0,22  0,44 
4  3  13  20  86,8  1,47  2,16  6,48 
5  1  14  6,6  93,4  2,47  6,1  6,1 
6  1  15  6,6  100  3,47  12,04  12,04 
Total  15    100 45,72 
         
Xi  ni  Xi * ni 
0  2  0 
1  3  3 
2  3  6 
3  2  6 
4  3  12 
5  1  5 
6  1  6 
  15  38 

ii)  

∑x i ⋅ ni
X =  
n

38
X = = 2,53 ≅ 3  latas 
15
 

∑ n (x )
2
i i −X
S2 =  
n −1
45,72
S2 = = 3,26 latas2 
14
 

S = S2  

  77
Estadística Descriptiva

S = 3,26 = 1,8 ≅ 2 latas 

iii) Interpretación: Se encontró un promedio de tres latas abolladas por caja, con un desvío 
estándar de ± 2 latas, lo que significa que en la mayoría de las cajas entre 1 y 5 latas de leche 
están abolladas y deben desecharse. 
 
EJERCICIO 2.18 

i. Estadísticos de Posición: 
 

  Establecimiento A:   X = $3375     Mediana = $3000     Moda = $3000 

  Establecimiento B:      X  = $3125    Mediana = $3000     Moda = $3000 
 
El promedio de salario en pesos de la universidad A es mayor que el de la universidad B, 
mientras que la mediana y la moda son iguales en ambas instituciones. 
 
ii)  Los  estadísticos  de  posición  no  reflejan  la  situación  salarial  de  ambas  universidades, 
porque los salarios de la universidad A presentan valores muy extremos y la universidad B 
valores más homogéneos, con lo que el mayor promedio de la universidad A podría deberse 
solo a la presencia de un salario muy elevado (9000). 
En  el  establecimiento  B  los  estadísticos  de  posición  son  más  representativos  de  la 
situación salarial. 
 
iii) Para reflejar lo observado en ii) se calculó: 
  Establecimiento A:        S: $2326     Rango: $7000      Coef. Variación: 68,9% 
  Establecimiento B:        S: $353,5    Rango: $1000      Coef. Variación: 11,3% 
 
Al  analizar  las  medidas  de  dispersión  calculadas  se  puede  observar  que  existe  mayor 
variación en los salarios de la universidad A. 
 
 
 
 

  78
Estadística Descriptiva

i) iv)  

 
Los  datos  están  más  concentrados  en  el  gráfico  correspondiente  a  la  universidad  B, 
mientras que están más dispersos en el de la universidad A. 
 
EJERCICIO 2.19 


i) Una muestra de tamaño “n”, con media 5 y dispersión nula. 
Calificaciones de un examen de inglés en una escuela secundaria de la ciudad de Córdoba, 
en el año 2006. 
Muestra:  5    5    5    5    5    5            n = 6   
 

  79
Estadística Descriptiva

ii) Dos muestras con igual media y distinta varianza. 
Calificaciones  de  un  examen  de  matemática  en  una  escuela  secundaria  de  la  ciudad  de 
Córdoba, en el año 2006. 
 

Muestra A:     4    610253     X  =5      S = 2,82 

Muestra B:59831 4    X =5      S = 3,03 
 
iii) Una  muestra  de  7  datos  de  manera  que  el  estadístico  más  representativo  sea  la 
moda. 
Calificaciones  de  un  examen  de  química  en  una  escuela  secundaria  de  la  ciudad  de 
Córdoba, en el año 2006. 
 
Muestra   3   3   4  10   1   2   9 
 
B. 
i) El peso promedio no puede tomar valores 2,1 Kg o 4,2 Kg, porque el peso medio debe 
estarentre  2,8  y  3,8  Kg.  Nunca  puede  estar  fuera  de  esos  valores  ya  que  de  esta 
manera no correspondería a la muestra o población enunciada.      
ii) Noes posible que la varianza sea nula, ya que para que la varianza sea nula debe existir 
un  solo  valor  en  el  peso  de  los  pollos;  y  si  este  varía  entre  2,8  y  3,8  significa  que 
existen al menos dos pesos diferentes. 
 
EJERCICIO 2.20 

Decidir si es posible que los estadísticos tomen los valores que se informan. 
 
i. Puede ser posible que en 5 vacunos se encontró que el mínimo porcentaje de grasa 
en la leche fue del 4%, el promedio fue de 14% y el rango de 14%.  
  Ej: 4; 18; 12;12; 12; 12 
ii. Puede ser posible que para otro grupo de 5 vacunos en el punto anterior, se encontró 
el mismo valor mínimo de porcentaje de grasa, pero en cambio el rango fue de 10% y 
el valor más frecuente fue el 14%.  

  80
Estadística Descriptiva

  Ej: 4; 14; 14; 14; 10 
 
iii. No es posible que ambas muestras estadísticas carecieron de moda, ya que el rango 
para el contenido de larvas es 6, y el número de repollos es 8, es decir que si o si se 
debe repetir algún valor del contenido de larvas en los repollos, existiendo así moda 
para ella, no pasando lo mismo en el peso, ya que es una variable de tipo cuantitativa 
continua y puede tomar infinitos valores en un intervalo, en este caso el rango. 
 
iv. Puede ser posible que en una muestra de huevos de ponedoras blancas el rango de pesos 
sea de 9 g, el valor más frecuente de peso sea 45 g y el huevo más pesado presente un peso 
de 45 g.  
  Ej: 45; 36; 45 
v.Puede  ser posible  que si se seleccionan siete ponedoras  para ser  pesadas, los valores de 
peso encontrados oscilen entre  Ej: 1,4; 2,4; 1,4; 2,3; 1,4; 2; 1,1 
 
EJERCICIO 2.21 
 
i) Moda: 96 y 98 mcg es bimodal. 
  Mediana: 94 mcg. 
  Rango: 25 mcg. 
  Desvío estándar: 8,01 mcg. 
  Coef. de Variación: 8,85% 
 
Debido a que la distribución no es simétrica (los datos están concentrados a la derecha), 
creemos conveniente calcular mediana y medidas de dispersión. 
 
ii) El queso Fundido presenta una distribución más simétrica en cuanto al contenido de 
vitamina  B6,  la  mayoría  de  los  datos  se  ubican  en  torno  al  intervalo  central, 
registrándose baja frecuencia en los valores extremos. En cambio, en el histograma 
correspondiente  al  queso  Sbrinz  los  datos  se  concentran  en  los  valores  extremos, 
principalmente  en  los  intervalos  más  altos,  lo  que  indica  mayor  asimetría  de  la 
muestra. 

  81
Estadística Descriptiva

Es posible que la media del contenido de Vit B6 del queso Sbrinz sea mayor que la   del 
queso Fundido debido a la alta frecuencia de muestras con un valor muy elevado de Vit B6. 
 
EJERCICIO 2.22 

i) Es  asimétrico,  porque  al  visualizar  la  mediana  en  relación  a  los  cuartiles  no  está 
centrada y además la longitud de las patillas es diferente. 
ii) En  este  caso  podemos  decir  que  prácticamente  los  datos  son  simétricos,  ya  que  se 
visualiza que las patillas tienen similar longitud y la mediana está en el centro de la 
caja. 
 
 
 

  82
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

CAPÍTULO 3: VARIABLES ALEATORIAS 

 83
 84
Variables Aleatorias

Probabilidad 

Para introducir el concepto de  probabilidad, es necesario manejar conocimiento previo 
acerca  de  experimentos  o  fenómenos  de  tipo  determinístico  y  experimentos  o  fenómenos 
de tipo  aleatorio. 
Un  experimento  es  determinístico  cuando  el  resultado  del  mismo  es  perfectamente 
previsible,  por  ejemplo:  todos  los  días  después  de  la  noche,  amanecerá.  En  cambio,  un 
experimento es aleatorio cuando se ignora de antemano cuál puede ser el resultado, siendo 
no  previsible,  como  por  ejemplo,  si  se  selecciona  una  ficha  aleatoriamente  del  total  de 
alumnos de primer año, no es posible saber cuál será el nombre de la persona que saldrá. 
La probabilidad es un concepto asociado a los experimentos o fenómenos aleatorios.. 
 

Objetivos de la probabilidad 

El objetivo  del cálculo de probabilidades es  describir e investigar  el comportamiento de 


los  fenómenos  aleatorios.  Con  la  palabra  probabilidad  se  está  sugiriendo  que  existe 
incertidumbre sobre lo que sucedió, sucederá o está sucediendo. 
 

Concepto de probabilidad 

Existen  básicamente  tres  enfoques    para  definirla  probabilidad:  clásico,  frecuencial  y 


axiomático.  Éstos  son:  Dado  un  experimento  aleatorio  con  un  espacio  muestral  finito,  la 
definición clásica de probabilidad establece la relación entre el número de casos favorables y 
el número de casos posibles (cada uno de los posibles eventos tiene la misma probabilidad 
de ocurrir). 

Entonces: 
N °de casos favorables
    P ( A) = , 
N °de casos posibles

donde casos favorables son aquellos relacionados con el evento A de interés. 
 
• La  definición  frecuencial  expresa  que  si  se  repite  un  experimento  aleatorio  muchas 

 85
Variables Aleatorias

veces,  la  probabilidad  de  un  evento  en  particular  puede  asimilarse  a  la  frecuencia 
relativa. 
• Desde el enfoque axiomático se establece que la probabilidad de un evento A de un 
experimento es un valor numérico P(A) que satisface los siguientes tres axiomas: 
1. Si A es un evento contenido en un espacio muestral, la P(A) ≥ 0 para todo A. 
2. Si  W  representa  al  conjunto  de  todos  los  resultados  posibles  del  experimento 
aleatorio, la P(W) = 1. 
3. Si A1,  A2 ,…, Ak son eventos mutuamente excluyentes,  
P(A1U A2 ...U Ak) = P(A1) + P( A2) +…..+P(Ak). 
Nota: en esta asignatura se trabajará, principalmente, con la definición clásica.. 
 

Definiciones relacionadas con probabilidad 

Los siguientes son conceptos claves para comprender el cálculo de probabilidad. 
Espacio  muestral:  es  el  conjunto  de  todos  los  resultados  posibles  de  un  experimento  u 
observación. Se denota con la letra griega Ω (omega). 
Punto  muestral:  es  cada  uno  de  los  elementos  del  conjunto  Ω  o  espacio  muestral.  Se 
representa con la letra ω. 
Evento:  es  cualquier  subconjunto  del  espacio  muestral.  Se  denotan  con  letras,  por 
ejemplo A, B, C, etc. 
Si A y B son dos eventos de  Ω, la unión de ambos eventos forma un nuevo conjunto que 
contiene tanto los puntos muestrales de A como los de B. Esta unión se denota A  ∪ B. Por 
otro  lado,  la  intersección  de  estos  eventos  forma  un  nuevo  conjunto  que  contiene  a  los 
puntos muestrales que pertenecen a A y que también pertenecen a B. Esta intersección se 
denota A ∩ B. Luego, se satisface que: 
A ∪ B = A + B  –  A ∩ B. 
Eventos  mutuamente  excluyentes:  son  aquellos  que  no  pueden  presentarse 
conjuntamente, en otras palabras, son aquellos que no contienen elementos en común (la 
intersección de ambos eventos es un conjunto vacío) (A ∩ B = Ø). 
Eventos no mutuamente excluyentes: son aquellos que poseen elementos en común. 
 

 86
Variables Aleatorias

Ejemplo: 
Supongamos dos estudiantes y se desea conocer si terminan o no de cursar cada uno su 
carrera. Denotamos con E1 al primer estudiante yE2 al segundo, con (+) si   terminó de cursar 
y (‐) si no terminó de cursar. Para  listar los elementos del espacio muestral construimos el 
diagrama de árbol que representa a los puntos muestrales (Figura 1), esto es:   
 
 
                                             +   ⇒              ++ 
                 +                
                                             ‐     ⇒          + ‐         o,                             
 
                                            +    ⇒            ‐ + 
                 ‐ 
                                            ‐      ⇒             ‐ ‐ 

Figura 1. Diagrama de árbol para determinar el espacio muestral de un experimento de dos 
elementos y dos posibles resultados. 

 
Así cuatro resultados son posibles para ese experimento: (++), (+ ‐), (‐ +) y (‐ ‐). Es decir 
que el espacio muestral tiene 4 elementos. puede interesar el evento A que describe “ambos 
estudiantes  estén  en  condición  de  recibirse”,  esto  es  A  =  (++),  cuya  probabilidad  es  de 
P(A)=¼=0,25. Otro  evento podría ser B, representando a “al menos un estudiante terminó 
de cursar”, o sea,  B={(‐ +), (++), (+ ‐)}, cuya probabilidad es P(B)= ¾=0,75. 
Es  útil  e  intuitivo  para  calcular  el  espacio  muestral  usar  la  siguiente  técnica:  si  por 
ejemplo,  el  experimento  se  basa  en  el  lanzamiento  de  una  moneda,  el  espacio  muestral 
tiene dos elementos, cara ( c ) y seca ( s ),o sea,  Ω   =   {c , s}. Si se basa en el lanzamiento 
simultáneo de dos monedas, el espacio muestral tiene 4 elementos, esto es  
Ω   =   { (c , c) , (c , s) , (s , c) , (s , s) }.  
Así, por ejemplo, si  se lanzan tres monedas, el espacio muestral es  
Ω   =  { (c , c , c) , (c , c , s) , (c , s , c) , (c , s , s) , (s , c , c) , (s , c , s) , (s , s , c) , (s , s , s)},  
y  tiene  así  8  elementos.  Generalizando,  si  se  lanzaran  n  monedas  (con  dos  posibles 
resultados), se tendría 2n elementos. 

 87
Variables Aleatorias

Ejemplo:  
Una biblioteca  recibió una donación de libros de un autor,  algunos eran de una edición 
moderna y otros de una antigua, y los mismos estaban encintados de a tres ejemplares. El 
bibliotecario necesitaba saber si eran de edición nueva o antigua. Suponiendo que cada uno 
de esos resultados (edición nueva o edición antigua) tiene la misma probabilidad e ocurrir, 
se tiene que existen dos posibilidades (antiguo y nuevo) para cada uno de los tres libros, y  23 
=  8  puntos  muestrales.  Así,  denotando  N  y  A  como  nuevo  y  antiguo  respectivamente,  se 
tiene  que  el  espacio  muestral  es:  Ω={(A,A,A);  (N,N,N);  (N,A,A);  (A,N,A);  (A,A,N);  (N,N,A); 
(A,N,N); (N,A,N)}. 
Definamos los eventos: C = dos libros de edición nueva, D = al menos un libro de edición 
nueva y E = ningún libro de edición vieja. Entonces, P (C)= 3/8, P (D) = 7/8  y P(E) = 1/8. En 
aquellos experimentos que cuentan con una gran cantidad de puntos muestrales, realizar un 
diagrama  de  árbol  para  obtener  el  espacio  muestral  resulta  prácticamente  imposible;  en 
estas situaciones se utilizan las técnicas de conteo.    

Técnicas de conteo 

Permutaciones 

En  ocasiones  podemos  estar  interesados  en  un  espacio  muestral  que  contiene  como 
elementos a todos los posibles arreglos de un conjunto de objetos. Estos diferentes arreglos 
se  denominan  permutaciones.  Una  permutación  es  un  arreglo  de  todo  un  conjunto  de 
objetos en el que el orden de éstos es importante. Dado un número natural n, el número de 
permutaciones de n objetos distintos es igual a 
            n P n   = n!,  

donde n!= n (n‐1) (n‐2)….(1). 
Ejemplo: 
A  un  consultorio  privado  llegan  7  personas,  las  mismas  deben  aguardar  hasta  ser 
atendidas en la sala de espera que cuenta con 7 asientos. El número de formas posibles en 
que pueden disponerse estas personas en los asientos es: 
   n Pn = n!, 7 P7 = 7 ⋅ 6 ⋅ 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅ 1 = 5040 .  

 
 

 88
Variables Aleatorias

Variaciones 

Se  llaman  variaciones  a  los  grupos  de  r  elementos  que  se  pueden  formar  con  los  n 
elementos dados, en donde el orden de éstos es importante. El número de variaciones de n 
objetos distintos tomados de r a la vez es definido por: 
n!  
n V r   = .
(n − r )!
Ejemplo:  
Supongamos  que  en  la  sala  de  espera  del  ejemplo  anterior  sólo  hay  3  asientos 
disponibles. La cantidad de formas posibles que pueden ubicarse en los asientos 3 personas 
del total de 7, es dado por:  
7! 7! 5040
7 V 3    = = = = 210.    
(7 − 3)! 4! 24
O sea, existen 210 formas posibles en que pueden acomodarse estas 7 personas en los 3 
asientos. 
 
Combinaciones 

En algunas situaciones puede ser necesario conocer el número de formas de seleccionar r 
objetos  de  n  elementos  sin  importar  el  orden.  Estas  selecciones  reciben  el  nombre  de 
combinaciones. El número de combinaciones de n objetos distintos tomados de r a la vez es 
dado por: 
n!
nCr = . 
r!(n − r )!

Ejemplo: 
Una clase cuenta con 21 alumnos con los cuales hay que formar ternas para evaluarlos. 
¿Cuántas ternas se podrán formar? Se trata de formar todas las ternas posibles, sin repetir 
elementos  en  cada  una,  y  sin  importar  el  orden  de  los  mismos.  Comencemos  con  este 
cálculo. Primeramente, para elegir el primer elemento hay 21 posibilidades, para el segundo 
quedan 20 posibilidades, y para el tercero 19, por lo tanto el número de ternas posibles está 
dado por:  
21!
21 V 3    = = 7980 .  
( 21 − 3)!

 89
Variables Aleatorias

Cada terna aparece repetida en distinto orden, por ejemplo tendremos: ABC, ACB, BAC, 
BCA, CAB y CBA. Son seis ternas con los mismos elementos, que está dado por el factorial de 
3. En este caso significa lo mismo seleccionar la terna ABC, que la CBA o cualquiera de las 
seis  ternas,  y  por  lo  tanto  al  total  de  ternas  obtenido  (7980),  hay  que  dividirlo  por  6  para 
obtener el resultado adecuado de las formas de organizarlas, esto es 7980/6 = 1330. 
Como este es un problema de combinación,  si llamamos  n al número de elementos  del 
conjunto  y  r  al  número  que  integrará  cada  uno  de  los  conjuntos  que  debemos  formar,  de 
modo  que  los  elementos  de  cada  uno  sean  diferentes  y  no  importe  el  orden,  aplicando  la 
fórmula: 
n! 21!
nCr = = = 1330.   
r!(n − r )! 3!( 21 − 3)!
O sea, se pueden organizar las ternas de alumnos de 1330 maneras diferentes. 

Probabilidad de la Intersección de eventos aleatorios: 

En  ocasiones  se  necesita  conocer  la  probabilidad  de  la  ocurrencia  de  dos  eventos  en 
forma simultánea, es decir la intersección de dos eventos. Supongamos una población de 50 
niños  clasificados por sexo y estado nutricional, de la siguiente manera:  
 
                 Estado Nutricional    
Bajo peso  Eutrófico  Sobrepeso  Total 
Sexo 

Masculino  6  15  8  29 


Femenino  2  12  7  21 
Total  8  27  15  50 
 
Se definen los eventos A, B, C y D representando: 
A = Niño eutrófico, B = Niño de sexo femenino, C = Niño con sobrepeso, y D = Niño con 
bajo peso. Se desea calcular la probabilidad de la aparición conjunta de los eventos A y B, 
esto  es,  la  probabilidad  de  que  al  seleccionar  aleatoriamente  un  niño,  éste  sea  de  sexo 
femenino y a la vez sea eutrófico, P(A∩B). Luego, 
 
Cantidad de Niños de sexo Femenino Eutróficos 12
P(A∩B) =  = = 0,24.  
Total de Niños 50

 90
Variables Aleatorias

O, se desea conocer la probabilidad de que un niño seleccionado aleatoriamente sea del 
sexo femenino y presente sobrepeso,  esto es P(B∩C), 
Cantidad de Niños de sexo Femenino con Sobrepeso 7
P(B∩C) =  = = 0,14.  
Total de Niños 50

Probabilidad Condicional 

Esta probabilidad es usada cuando a partir de una condición previa se quiere conocer la 
probabilidad de ocurrencia de otro evento. Continuando con el ejemplo anterior, se desea 
saber  la  probabilidad  de  que  un  niño  tenga  bajo  peso  condicionado  a  que  sea  de  sexo 
femenino. Los resultados favorables será la cantidad de niños de sexo femenino y con bajo 
peso,  pero  los  casos  posibles  no  serán  la  totalidad  de  los  niños,  sino  solo  los  de  sexo 
femenino. Se impone una condición previa: ser mujer, por lo cual la cantidad total se acota a 
21. Así,  
                           P(D/B) = P(Bajo Peso/Sexo Femenino), 
esto es, la probabilidad de bajo peso dado que es de sexo femenino (la condición impuesta 
P(D I B)
es que el niño sea de sexo femenino) es dada por P(D/B) =  . Luego 
P(B)

2 / 50 2
P(D/B) =   = = 0,095 .  
21 / 50 21
Así generalizando, para dos eventos A y B que pertenecen al mismo espacio muestral la 
probabilidad condicional se define según: 
P(A I B)
P(A/B) =  , 
P(B)
lo que equivale a  
P(A ⋅ B)
P(A/B) =  , 
P(B)
interpretado como la probabilidad condicional de que ocurra A, cuando ya ocurrió B. 

Teorema de Bayes 

Este resultado es muy utilizado cuando se quieren resolver problemas de determinar una 
probabilidad  condicional  conociendo  la  probabilidad  condicional  inversa.  La  probabilidad 
condicional  se  denota  P(Ai/B)  y  su  correspondiente  inversa  P(B/Ai).  Si  se  considera  un 
experimento realizado en dos etapas, donde en la primera de ellas los sucesos A1, …….,  An  son 
 91
Variables Aleatorias

mutuamente excluyentes, con probabilidades conocidas, P(Ai), tales que: 
n

∑ P ( A ) = 1.  
i +1
i

  En la segunda etapa, los resultados posibles, B, dependen de los de la primera, siendo 
probabilidades  condicionales  conocidas,  P(B/Ai).  Luego  se  realiza  el  experimento  y  no  se 
conoce el resultado de la primera etapa Ai, aunque sí es conocido el resultado de la segunda 
etapa,  es  decir  las  probabilidades  condicionadas.  Entonces,  el  teorema  de  Bayes  permite 
calcular las probabilidades de la primera etapa conociendo los resultados de la segunda (B). 
Supongamos que  en cierta investigación se desea calcular la probabilidad de que un niño 
presente  una  cierta  enfermedad  estando  vacunado.  Se  conoce  que  la  probabilidad  de  que 
esté  vacunado,  dado  que  contrajo  la  enfermedad,  es  0,20.  Para  este  caso  se  tiene  que  el 
experimento aleatorio E es "elegir al azar un niño". Al espacio muestral se lo puede pensar 
como la unión de los siguientes sucesos:  
A1={el niño contraiga la enfermedad} y  
A2={el niño no contraiga la enfermedad},  
entonces  S  =  A1∪  A2  y  además  A1∩  A2  =  ∅.  Luego  si  tenemos  el  suceso  B  =  {el  niño  está 
vacunado}, entonces  
B = B ∩ S = B ∩ (A1∪ A2) = (B ∩ A1) ∪ (B ∩ A2),  
y aplicando probabilidad a ambos miembros se obtiene 
P( B) = P( B ⋅ A1 ) + P( B ⋅ A2 )  

  = P( B / A1 ) ⋅ P( A1 ) + P( B / A2 ) ⋅ P( A2 ),  
Se conoce que la probabilidad condicional es 
P( A1 ⋅ B ) P(B ⋅ A1 )
P ( A1 / B ) =   y  P ( B / A1 ) = ,  P( B ⋅ A1 ) = P(B / A1 ) ⋅ P( A1 ) ,  
P( B) P ( A1 )

y  además, 
P( A1 ⋅ B) = P(B ⋅ A1 ) . 
Luego, la expresión de la probabilidad que se desea determinar es  
P ( B / A1 ) ⋅ P ( A1 )
P ( A1 / B ) = . 
P ( B / A1 ) ⋅ P ( A1 ) + P ( B / A2 ) ⋅ P ( A2 )

En términos del problema se tiene lo siguiente. La probabilidad de que un niño contraiga 
la  enfermedad  es  0,75  y  la  probabilidad  de  que  un  niño  esté  vacunado  sabiendo  que  no 
contrajo la enfermedad es 0,70. Entonces,  

 92
Variables Aleatorias

0,20 ⋅ 0,75
P ( A1 / B ) = = 0,46.  
0,20 ⋅ 0,75 + 0,70 ⋅ 0,25
Este  resultado  está  indicando  que  aproximadamente  el  46  %  de  los  niños  que  están 
vacunados presentan la enfermedad.  

Variable Aleatoria 

Una variable aleatoria es una función que asocia a cada elemento del espacio muestral Ω 
un número real. Una variable aleatoria es aquella cuyos valores surgen asignando números a 
los resultados de un experimento aleatorio.  
Ejemplo:  
Se realiza un control de mercadería en donde se observa la fecha de vencimiento de un 
producto enlatado observando cuatro latas en un orden determinado, cada una de las cuales 
puede estar Apta para el consumo (A) o Vencida (V) con la misma probabilidad. El espacio 
muestral de este experimento es definido como: 
Ω = {AAAA, AAAV, AAVA, AAVV, AVAA, AVAV, AVVA, AVVV, VVVV, VVVA, VVAV,  
  VVAA,  VAVV, VAVA, VAAV, VAAA}. 
Se  define  la  variable  aleatoria  X  como  la  cantidad  de  latas  vencidas.  La  Figura  2 
representa la asignación del valor de la variable X para cada punto muestral, 
Puntos Muestrales     Números Reales 
Ω          ℜ 
           AAAA                                                 0 
           AAAV 
           AAVA                                                 1 
           AVAA  Figura  2.  Asignación  de  un  valor  de 
           VAAA 
la variable aleatoria, en los números 
           AAVV 
           AVAV  Reales, a cada elemento del espacio 
           AVVA                                                 2  muestral Ω. 
           VVAA 
           VAVA 
           VAAV 
           AVVV 
           VVVA                                                 3 
           VVAV 
           VAVV 
           VVVV                                                4 
 

 93
Variables Aleatorias

  Existen tantos resultados posibles como puntos muestrales tiene el espacio muestral. 
Los  resultados  que  toma  dicha  variable  son:  0  ,1  ,  1  ,  1  ,  1,  2  ,  2  ,  2,  2,  2,  2,  3,  3,  3,  3,  4. 
Asumiendo igual probabilidad para cada punto muestral, se tiene que 
P(X = 0) = 1/16,    P(X = 1) = 4/16,   P(X = 2) = 6/16,   P(X =3) = 4/16, P(X = 4) = 1/16. 
La  Variable  Aleatoria  X  toma  solamente  los  valores  0,  1,  2,  3  y  4,  por  lo  cual  es  una 
variable  aleatoria  discreta.  Su  distribución  de  probabilidad  es  la  siguiente  y  puede  ser 
representada por la Figura 3.  
 
P(X = 0) = 0,0625 
   
P(X = 1) = 0,25 
   
P(X = 2) = 0,375 
 
P(X =3) = 0,25   
 
P(X = 4) = 0,0625  P 
 
 

0,4   

0,3   

0,2   

0,1   

Figura 3. Distribución de probabilidad de la variable aleatoria X. 

A cada valor de la variable aleatoria se le puede asignar un valor de probabilidad y esto se 
realiza por medio de una función de probabilidad. Siguiendo el ejemplo anterior, se puede 
construir una tabla como la siguiente: 

 94
Variables Aleatorias

Valores de la  Función de 
Variable aleatoria  Probabilidad  probabilidad 
P(X=x)  acumulada 
F(X)=P(X≤x) 
0  0,0625  0,0625 
1  0,25 0,3125
2  0,375  0,6875 
3  0,25  0,9375 
4  0,0625 1,00
Total  1,00   
 
donde en la tercera columna aparece la función de probabilidad acumulada F(X) que se 
denomina función de distribución de probabilidad. Este es el caso de obtener la función de 
distribución de probabilidad de una variable aleatoria discreta. 
La  definición  y  por  ende  el  comportamiento  de  una  función  de  probabilidad  para  una 
variable aleatoria continua no es el mismo que para el caso de variables discretas, ya que la 
probabilidad de que una variable aleatoria continua asuma cualquier valor particular es cero, 
debido  a  que  el  cociente  entre  cualquier  número  e  infinito  es  cero.  Por  esta  razón  para 
variables  continuas  se  pueden  tomar  probabilidades  asociadas  con  intervalos  y  no 
probabilidades asociadas con puntos, como en el caso de variables discretas. 
Para calcular probabilidades asociadas a intervalos se utiliza una función no negativa (≥ 0) 
en  x  denominada  función  de  densidad  de  probabilidad,  denotada  con  f(x).  Así,  para  un 
intervalo a≤ X ≤ b  se tiene que  
b
P(a ≤ X ≤ b) = ∫ f ( x)dx,  
a

donde f(x) es la función de densidad y x es el valor de la variable aleatoria. 
Cuando se considera una variable aleatoria y su correspondiente función de probabilidad, 
la media aritmética de esta variable aleatoria se denomina esperanza matemática. 

Esperanza de una variable aleatoria 

Con el fin  de resumir el comportamiento de una variable aleatoria, esta sección presenta 

 95
Variables Aleatorias

una  medida  que  estudia  la  tendencia  central  de  dicha  variable,  llamada  esperanza  o  valor 
esperado de una  variable aleatoria. A modo  de ilustración de las innumerables situaciones 
cotidianas en que, sin percibir, tratamos con el valor esperado, presentamos dos ejemplos. 
Supongamos que: 
‐En un restaurant, cuando hacemos el pedido de nuestra comida elegida, le preguntamos 
al  mozo  cuánto  tiempo  demora  en  estar  lista  y  traerla  a  la  mesa.    Lo  que  el  mozo  va  a 
proveernos es un valor esperado, o sea, el tiempo medio en que la comida demora en estar 
lista. 
‐Cuando  estamos  en  la  parada  del  ómnibus  y  le  consultamos  a  una  persona  que  está  a 
nuestro lado sobre el tiempo que tenemos que esperar para que llegue el próximo ómnibus,  
nos dará como respuesta el valor esperado, valor que sólo consiguió constatar después de 
algún tiempo de experiencia en esa espera. 
En  esos  ejemplos,  tanto  el  mozo  como  la  persona  que  estaba  esperando  el  ómnibus 
resumieron  toda  la  información  (experiencia)  de  un  modelo  en  un  único  número,  el  valor 
esperado.  Al  igual  que  la  función  de  distribución  de  probabilidad,  éste  se  calcula 
dependiendo de la naturaleza de la variable aleatoria.
La esperanza o valor esperado de una variable aleatoria discreta es la suma de cada valor  
que  asume  dicha  variable  multiplicado  por  su  probabilidad  de  ocurrencia.  Así,  si  X  es  una 
variable aleatoria discreta que asume x1, x2, ….xn como valores posibles, y sus posibilidades 
son representadas por p(xi), entonces la esperanza de X se calcula de la siguiente manera: 
n
E ( X ) = ∑ xi p( xi ).  
i =1

Para una variable aleatoria continua, la esperanza se calcula mediante la integral de todos 
los valores y la función de densidad f(x): 

E( X ) = ∫
−∞
xf ( x ) dx ,  

cuya interpretación es similar a lo mencionado para variables discretas. La esperanza de una 
variable  aleatoria  se  denota  con    la  letra  griega  μ..  A  lo  largo  de  este  material,  toda 
característica  que  describa  el  comportamiento    de  una  variable  aleatoria  se  denominará 
parámetro y de denotará con letra griega.  
Ejemplos:  
‐En  una  fábrica  de  fideos  del  norte  cordobés  (Dean  Funes),  la  previsión  de  los  costos  de 

 96
Variables Aleatorias

insumos para la manufactura del próximo mes, indica que éstos estarán en torno a: (miles de 
pesos) 9, 10, 11, 12 y 13. Suponiendo que dichos gastos fuesen realmente desconocidos, la 
empresa  asume  que  las  siguientes  probabilidades  pueden  atribuirse  a  dichos  valores, 
respectivamente: 0,30; 0,20; 0,25; 0,05 y 0,20. Sea X la variable aleatoria "costo de insumos 
referente al mes i, i = 1, ... , 5". Luego, el conjunto de valores posibles que asume X es A={9, 
10, 11, 12, 13} y la distribución de probabilidad es: 
Mes  Costo de P(X) 
Insumos (X) 
1  9  0,30 
2  10  0,20 
3  11  0,25 
4  12  0,05 
5  13  0,20 

El valor esperado del costo es dado por: 
n
E ( X ) = ∑ xi p ( xi )
i =1  
= 9 ⋅ 0,30 + 10 ⋅ 0,20 + 11 ⋅ 0,25 + 12 ⋅ 0,05 + 13 ⋅ 0,20 = 10,65.

Luego, para la fábrica cordobesa se espera un costo promedio en insumos de $ 10,650. 

‐Sea f(x) la función de densidad de una variable aleatoria X, dada por 
⎧⎪ 1
x, 0 ≤ x ≤ 2;
f ( x) = ⎨ 2  
⎪⎩ 0, c.c.

y representada en la figura 4. 

Figura 4. Función de densidad de la variable aleatoria X 

 97
Variables Aleatorias

A partir de la definición del valor esperado para una variable continua, se tiene que: 
∞ 2 2
1 4
E( X ) = ∫ xf ( x)dx =∫ xf ( x)dx =∫ 2 x dx = ,  
2

−∞ 0 0
3

o sea, se espera que el valor central de dicha variable sea 1,33. 

Propiedades de la Esperanza 

La  esperanza  de  una  variable  aleatoria  (v.a.)  tiene  algunas  propiedades  que  son  útiles 
desde el punto de vista matemático. Dichas propiedades se demuestran fácilmente a partir 
de su definición. Sean X e Y, variables aleatorias, cuna constante. Luego,   

1. La esperanza de la suma de una variable más una constante, es igual a la 
suma de la esperanza de la variable más la constante. Esto es, 

E ( X + c) = E ( X ) + c.  

2. La  esperanza  de  la  suma  de  dos  variables  aleatorias,  idénticamente 
distribuidas, es igual a la suma de las esperanzas de cada variable. Es decir, 

E ( X + Y ) = E ( X ) + E (Y ).  

3. La  esperanza  del  producto  de  una  constante  y  una  variable  es  igual  al 
producto de la constante por la esperanza de la variable. Esto es, 

E (aX ) = a.E ( X ).  
Ejemplos:  

‐En un Casino, las reglas definidas para un juego de dados son las siguientes: si sale 2, 3 ó 5 
el jugador que apuesta gana el valor del número en pesos, pero si sale 1, 4 ó 6 pierde ese 
número, en pesos. ¿Cuánto se espera que gane o pierda un jugador si se repite 60 veces el 
juego?  Primeramente,  se  debe  definir  a  la  variable  aleatoria.  Sea  X  igual  al  número  que 
aparece al lanzar un dado. Para esta variable, la función de distribución de probabilidad es: 

xi  1  2  3  4  5  6 
P(X=xi)  1/6 1/6 1/6 1/6 1/6 1/6

 98
Variables Aleatorias

Luego, su valor esperado es, por definición: 

n
E ( X ) = ∑ xi p ( xi )
i =1

= (-1). (1/6) + 2.(1/6) + 3.(1/6) + (-4) .(1/6) + 5.(1/6) + (-6). (1/6)  


= - 1/6.

Para responder a la pregunta, se debe aplicar la propiedad 3, ya que el experimento plantea 
repetir idénticos lanzamientos o juegos. Si b representa el número de veces que se repite el 
juego, entonces: 

E ( X ) = b.E ( X ) = 60.(−1 / 6) = −10,  

lo cual indica que el jugador espera perder $10 en 60 juegos. 

‐Sea  X  la  variable  aleatoria  definida  como  el  número  de  balanzas,  de  una  marca  A  y  de 
calidad  estándar,  vendidas  por  una  firma  conocida  en  Argentina,  en  un  día  de  la  semana. 
Para esa variable, la función de distribución de probabilidad es la siguiente: 

   xi  0  1  2  3  4  5 
P(X=xi)  0,1  0,1  0,2  0,3  0,2  0,1 
  

Supóngase que se obtiene una ganancia de $50 por la venta de cada unidad y que el costo 
fijo  diario  es  de  $20  (incluyendo  los  intermediarios  de  ventas).  ¿Cuál  es  la  ganancia  neta 
esperada? Para  resolverlo,  se  deben  considerar  por  lo  menos  dos  de  las  propiedades 
enunciadas para el valor esperado de una variable aleatoria. Así, para xi  unidades vendidas 
en  un  día,  la  ganancia  esperada  es  de  $  50xi.  Restando  el  costo  fijo,  se  obtiene  la  utilidad 
neta de 50x – 20. Luego, si E(X) es tal que: 

n
E ( X ) = ∑ xi p ( xi )
i =1

= 0.(0,1) + 1.(0,1) + 2.(0,2) + 3.(0,3) + 4.(0,2) + 5.(0,1)  


= 2,7.

Usando las propiedades enunciadas 2 y 3 del valor esperado, se obtiene: 

E(50.X - 20) = 50.E(X) - 20 = 50.(2,7) - 20 = 115 pesos de ganancia neta. 

 99
Variables Aleatorias

Varianza de una variable aleatoria 

Sea  X  una  variable  aleatoria  tal  que  E(X)=2,  ¿qué  significa  eso?  En  función  a  lo  visto 
anteriormente,  esa  afirmación  significa  que  si  consideramos  un  número  grande  de 
determinaciones de X, x1, ... , xn, la media de esos valores, si n es suficientemente grande, 
estará  próxima  de  2.  Pero,  qué  medida  informa  esa  proximidad?  qué  significa  "estará 
próxima"?  
La  varianza  es  una  medida  de  la  dispersión  de  una  variable  aleatoria  X  respecto  a  su 
esperanza E(X).Se la define como: 
Var(X) = E[X - E(X)] 2 .  

Se denota con  σ 2y puede expresarse como un promedio ponderado de los cuadrados de 
los desvíos respecto de la esperanza. Su raíz cuadrada es el desvío estándar, σ.  
Utilizando  la  definición  del  valor  esperado,  esta  medida  de  dispersión  asume  las 
siguientes expresiones para variables discretas y continuas. Si X es una v.a. discreta, 
n
Var ( X ) = ∑ (x i - E[X] ) 2 .P(X = x i ),
i =1

Para una variable aleatoria continua, conμ= E(X), la varianza es dado por: 
∞ ∞
Var ( X ) = ∫ ( X − E ( X )) . f ( x)dx = ∫ ( X − μ ) . f ( x)dx.
2 2

−∞ −∞

Así,  para  una  variable  aleatoria  discreta,  σ 2  se  define  como  la  suma  de  los  desvíos  de 
cada valor que toma la variable aleatoria con respecto a la esperanza, elevados al cuadrado y 
multiplicados  por  su  respectiva  probabilidad,  ya  para  una  v.a.  continua,  la  suma  infinita 
ponderada por la función de densidad.  
 
Propiedades de la Varianza 

Siguiendo  una  analogía  con  aquellas  presentadas  para  el  valor  esperado,  pueden 
obtenerse  las  propiedades  de  la  varianza,  cuyas  demostraciones  son  inmediatas 
considerando  las  definiciones  anteriores.  Así,  si  X  e  Y  son  variables  aleatorias  y  c  una 
constante tal que c∈ℜ, entonces:   
1. La varianza de una constante es cero (si X no varía, su varianza es nula),  
Var ( X ) = Var (c) = 0.  

100
 
Variables Aleatorias

2. La  varianza  del  producto  de  una  constante  con  la  v.a.  X  es  igual  al  cuadrado  de  la 
constante por la varianza de la variable,  

Var (cX ) = c 2 .Var ( X ).  

3. La  varianza  de  la  suma  de  una  variable  y  una  constante  es  igual  a  la  varianza  de  la 
variable, 
Var ( X + c) = Var ( X ).  
4. La varianza de la suma o resta de dos variables independientes es igual a la suma de 
las varianzas de dichas variables, 
Var ( X ± Y ) = Var ( X ) + Var (Y ).  

A  modo  de  ejercitación,  obtenga  las  expresiones  de  las  varianzas,  usando  estas 
propiedades,  para  los  ejemplos  anteriores  (juego  de  dados  en  Casino  y  costo  de  venta  de 
balanzas). 
 
Ejercicios de aplicación: 3.1 a 3.10 

101
 
Variables Aleatorias

EJERCICIOS DE APLICACIÓN 3.1 A 3.10 
EJERCICIO 3.1 
Considerando  el  estudio  donde  se  observan  las  notas  de  los  4  parciales  de  una 
materia anual determinada. 
i. RepresentarΩ,  donde  “A”  denotará  si  el  parcial  fue  aprobado  y  “D”  si  fue 
desaprobado. 
ii. Determinar cuántos puntos muestrales tiene el espacio muestral definido. 
Representar en forma de conjunto los siguientes eventos: 
iii. A: “al menos un examen aprobado y dos desaprobados”, 
iv. B: “dos exámenes desaprobados”, 
v. C: “al menos tres exámenes aprobados”. 
vi. Calcular la probabilidad de ocurrencia de cada uno de los eventos anteriores. 
vii. Representar el evento D= B∪C (B unión C) y E= B∩C (B intersección C). Calcular la 
probabilidad de D y de E. 
viii. Representar al evento F: “al menos tres exámenes sean desaprobados” y al evento 
G= A∪F. Calcular la probabilidad de los eventos F y G. 
ix. Siendo  la  variable  aleatoria  (v.a)  X  =  número  de  parciales  aprobados,  ¿cuántos 
valores posibles y distintos puede tomar X? 
x. Calcular la probabilidad de que X tome cada uno de estos valores, P (X = 0)  
a. P (X =1), etc. 
xi. Representar gráficamente la distribución de probabilidades de la variable número 
de parciales aprobados. 
 
EJERCICIO 3.2 

  Se tienen 3 fichas, de un lado son color rojo (R) y del otro son de color verde (V). Se 
tiran las tres juntas una sola vez. 
i. Representar Ω. 
ii. Calcular la probabilidad de ocurrencia de cada punto muestral. 
Construir los eventos: 
iii. A: “al menos dos lados rojos”, 
iv. B: “dos lados verdes”, 

102
 
Variables Aleatorias

v. C: “al menos un lado verde”. 
vi. Representar el evento D= A∪B (A unión B) y E= A∩C (A intersección C).  
vii. Calcular la probabilidad de D y de E. 
viii. Definir la variable aleatoria X = número de lados verdes. Construir la distribución 
de probabilidad de dicha variable. 
ix. Graficar la función de distribución acumulada de X. 
 
EJERCICIO 3.3 

i. De  un  grupo  de  cinco  estudiantes  D,  E,  F,  G  y  H,  dos  deben  entregar  un  trabajo 
práctico. 
ii. Representar Ω. 
iii. Determinar la cantidad de puntos muestrales de dicho espacio. 
Representar en forma de conjunto los siguientes eventos: 
iv. A: “que D sea seleccionado”, 
v. B: “que F y G sean seleccionados”, 
vi. C: “que H no sea seleccionado”, 
vii. D: “que E o F sean seleccionados”. 
viii. Calcular la probabilidad de cada evento. 
 
EJERCICIO 3.4 

El  Servicio  de  Nutrición  de  un  Hospital  de  la  Provincia  de  Córdoba  desea  ordenar  5 
muestras  gratis  de  Productos  Nutricionales  que  recientemente  el  laboratorio  XX  les  ha 
otorgado. Estas muestras corresponden a: Ensure, Glucerna, Jevity, Osmolite y Pulmocare. 

i) ¿De cuántas formas pueden ser ordenadas un en estante? 
 

EJERCICIO 3.5 

De  un  grupo  de  nueve  individuos  que  requieren  control  nutricional,  se  quiere  formar 
subgrupos de tres para ser controlados. Es importante el orden de selección porque será el 
respetado para su posterior atención. ¿Cuántos puntos muestrales tiene Ω? 

103
 
Variables Aleatorias

EJERCICIO 3.6 

Construir el espacio muestral  Ω asociado a la duración (en  meses)  de  un alimento  seco 


una vez salido de fábrica. 
i. Señalar los subconjuntos que representen los eventos: 
A, “ el alimento se venza antes de los 12 meses”, 
B, “ el alimento se venza después de los 6 meses y antes de los 14 meses” 
 
EJERCICIO 3.7 

En  un  centro  geriátrico  se  estudió  la  aceptación  de  un  nuevo  menú  según  el  sexo, 
obteniendo los siguientes resultados: 

Sexo 
Femenino  Masculino  Total 
Aceptación 
Si  12  6  18 
No  8  4  12 
Total  20 10 30 
 
i) Calcular la probabilidad de que el menú sea aceptado. 
ii) Si se toma al azar un anciano: 
a‐ ¿Cuál es la probabilidad de que sea varón? 
b‐ ¿Cuál es la probabilidad de que sea varón o que acepte el menú? 
c‐ ¿Cuál es la probabilidad de que sea varón y que acepte el menú? 
iii) Si se toma una anciana: 
a‐ ¿Cuál es la probabilidad de que acepte el menú? 
iv) Si se toma uno de los que no aceptaron el menú: 
a‐ ¿Cuál es la probabilidad de que sea mujer? 
b‐ ¿Cuál es la probabilidad de que sea varón? 
 
EJERCICIO 3.8 

Se  verifican  como  verdaderas  las  siguientes  situaciones  para  los  eventos  A,  B  y  C 
mutuamente excluyentes, pertenecientes a un mismo experimento y donde no hay ningún 
caso fuera de ellos. 

104
 
Variables Aleatorias

a)  P(A) = 0,30 P(B) = 0,25 P(C) = 0,64 


b)  P(A) = ‐0,1  P(B) = ‐0,5  P(C) = ‐0,85 
c)  P(A) = 20/100  P(B) = 50/100  P(C) = 30/100 

i. ¿Qué  situaciones  no  son  formas  permitidas  de  asignar  probabilidades  a  los 
eventos?  Justificar en cada caso la respuesta. 
 
EJERCICIO 3.9 

En  el  servicio  de  nutrición  de  un  hospital  de  niños  se  atendieron  1260  niños  durante  6 
meses. Luego de la atención, se les entregó un plan de alimentación a 120 niños celíacos y a 
245 niños diabéticos entre otros. 

i. ¿Cuál es la probabilidad de atender a un niño celíaco?, 
ii. ¿Cuál es la probabilidad de atender a uno diabético?, 
iii. ¿Cuál  es  la  probabilidad  de  atender  a  un  niño  que  no  tenga  ninguna  de  estas 
patologías? 
 
EJERCICIO 3.10 

Una  familia  integrada  por  dos  adultos  y  dos  niños  de  8  y  9  años  deciden  cruzar  todos 
juntos un puente colgante que soporta hasta 220 kilogramos. La variable peso de los adultos 
tiene  una  distribución  normal  con  μ=  78Kg  y  σ2=36Kg2,  y  el  peso  de  los  niños  tiene 
distribución normal μ= 25Kg y σ2= 16 Kg2.   
i) Si toda la familia sube al puente, ¿cuál es la probabilidad de que éste se caiga?   

105
 
Variables Aleatorias

RESOLUCIONES EJERCICIOS 3.1 AL 3.10 

EJERCICIO 3.1 

i. =  {AAAA,  AAAD,  AADA,  ADAA,  DAAA,  AADD,  ADAD,  ADDA,  DDAA,  DAAD,  DADA, 
DDDA, ADDD, DDAD, DADD, DDDD} 
ii. 16. 
iii. A = {AADD, ADAD, ADDA, DDAA, DAAD, DADA, DDDA, ADDD, DDAD, DADD} 
B= {AADD, ADAD, ADDA, DDAA, DAAD, DADA} 
C= {AAAD, AADA, ADAA, DAAA, AAAA} 
iv. P (A) = 10/16 = 0,625 
Existe una probabilidad iguala 0,625 que de cuatro parciales de una materia anual, 
al menos un examen está aprobado y dos desaprobados.  
P (B) = 6/16 = 0,375 
Un 0,375 de probabilidad que de cuatro parciales de una materia anual, dos sean 
desaprobados.  
P (C) = 5/16 = 0,312 
Y un 0,312 de probabilidad que de cuatro parciales de una materia anual, al menos 
tres  sean aprobados.  
v. D= {AADD, ADAD, ADDA, DDAA, DAAD, DADA, AAAD, AADA, ADAA, DAAA, AAAA} 
P (D) = 11/16 = 0,687 
P (E) = 0 
vi. F= {DDDA, ADDD, DADD, DDAD, DDDD} 
P (F) = 5/16 
         = 0,3125 
Un 0,3125 de probabilidad que de cuatro parciales de una materia anual, al menos 
tres sean desaprobados.  
G = A∪F 
    = A + F ‐  A∩F   
    = {AADD, ADAD, ADDA, DDAA, DAAD, DADA, DDDA, ADDD, DADD, DDAD, DDDD} 
P (G) =  11/16 
          = 0,6875 

106
 
Variables Aleatorias

Hay 0,6875 de probabilidad de que ocurra el evento G. 
 
vii. X = cantidad de parciales aprobados 
0, 1, 2, 3, 4 
viii. P (X = 0) = 1/16 = 0,062 
P (X = 1) = 4/16 = 0,25 
P (X = 2) = 6/16 = 0,375 
P (X = 3) = 4/16 = 0,25 
P (X = 4) = 1/16 = 0,062 
 
ix.         Probabilidad acumulada de aprobar parciales de una materia anual  
Probabilidad 
 
P         
         
1          
         
0.5         
   
0  1  2 3 4 X

        Cantidad de parciales 
 
EJERCICIO 3.2 

i. Ω = {RRR, RRV, RVR, RVV, VRV, VRR, VVR, VVV} 
ii. 1/8 = 0,125   

iii. A = {RRR, RRV, RVR, VRR} 

B = {RVV, VRV, VVR} 

C = {RRV, RVR, RVV, VRV, VRR, VVR, VVV} 

iv. D = {RRR, RRV, RVR, VRR, RVV, VRV, VVR} 
E  = {RRV, RVR, VRR} 

107
 
Variables Aleatorias

v. P (D) = 7/8 = 0,875 
P (E) = 3/8 = 0,375 
vi. X = “número de lados verdes” 
0, 1, 1, 1, 2, 2, 2, 3 
P (X = 0) = 1/8 = 0,125 
P (X = 1) = 3/8 = 0,375 
P (X = 2) = 3/8 = 0,375 
P (X = 3) = 1/8 = 0,125 
Probabilidad de Número de lados verdes 
P           
           
0.5           
     
           
           
0    1  2 3 4 X

EJERCICIO 3.3 

i)   Ω = {DE, DF, DG, DH, EF, EG, EH, FG, FH, GH} 
i)  
5!
5 C2   =   
2!(5 − 2)!

120
5 C2   =    
2.6
5 C2   =  10 

Rta: 10. 
 
ii) A = {DE, DF, DG, DH} 
B = {FG} 
C = {DE, DF, DG, EF, EG, FG}  
D = {DE, DF, EF, EG, EH, FG, FH} 

108
 
Variables Aleatorias

 
iii) P (A) = 4/10 = 0,4  
P (B) = 1/10 = 0,1  
P (C) = 6/10 = 0,6  
P (D) = 7/10 = 0,7 
   
Existe una probabilidad igual a0,6 que D salga seleccionado, 0,10 de probabilidad que F y 
G sean seleccionados, un 0,6 de probabilidad de que H no sea seleccionado y 0,7 de que E o 
F sean seleccionados. 
 
EJERCICIO 3.4 
5P5 = 5! 

             = 5 * 4 * 3 * 2 * 1  
             =120 
Los productos nutricionales pueden ser acomodados de 120 formas distintas.  
 

EJERCICIO 3.5 

n = 9         r = 3 
9!
9V3 =   
(9 − 3)!

       = 504   
Rta: Ω tiene 504 puntos muestrales. 
 
EJERCICIO 3.6 

Ω = {0, 1, 2, 3, 4, 5, 6, .....................} 
i)   A = {0,1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11} 
  B = {7, 8, 9, 10, 11, 12, 13} 
 
EJERCICIO 3.7 

i) 18/30 = 0,6 es la probabilidad de que sea aceptado el menú. 

109
 
Variables Aleatorias

ii)  
a‐ 10/30 = 0,33 es la probabilidad de que sea varón. 
b‐  10/30 + 18/30 ‐ 6/30 = 0,33 + 0,6 ‐ 0,2 = 0,73 es la probabilidad de que sea varón 
o que acepte el menú. 
c‐ 6/30 = 0,2 es la probabilidad de que sea varón y que acepte el menú 
iii)  
a‐ 12/20 = 0,6 es la probabilidad de que una anciana acepte el menú 
iv)  
a‐ 8/12 = 0,67 es la probabilidad de que de los que no aceptaron sea mujer. 
b‐ 4/12 = 0,33 es la probabilidad de que de los que no aceptaron sea varón. 
 
EJERCICIO 3.8 

La situación a) porque la suma de las probabilidades no puede ser mayor a 1 y la situación 
b) porque la probabilidad no puede ser negativa. 
 

EJERCICIO 3.9 

i. 120/1260 = 0,095 ó 9,5% de los niños atendidos serán celíacos. 
ii. 245/1260 = 0,195 ó 19,5% de los niños atendidos serán diabéticos. 
iii. 895/1260 = 0,71 ó 71% de los niños no tendrán ninguna de estas patologías. 
 
EJERCICIO 3.10 

Variable Peso de adulto: N(78, 36), μ=78Kg,  σ2 =36Kg2, σ= 6, 
Variable Peso de niño: N(25, 16), μ = 25Kg y σ2 = 16 Kg2, σ = 4.  
Luego, por propiedades de la esperanza y varianza se tiene que:  
E(X) = 78 + 78 + 25 + 25  
        = 206 Kg, 
Var(X) = 36 + 36 + 16 + 16  
            = 104 Kg2. 
Xi~N(206, 104). Luego, la 
P(Xi> 220) = 1 – P (Xi< 220) 
 

110
 
Variables Aleatorias

                   = 1 – P( Z <220 – 206) 
        10,2 
                    = 1 – P(Z < 1,37) 
                    = 1 – 0,91 
                    = 0,09.  
 
Rta: Si toda la familia se sube al mismo tiempo al puente, la probabilidad de que éste se 
caiga es de 0,09.
 

111
 
 

112
 
CAPÍTULO 4: DISTRIBUCIÓN DE VARIABLES 
ALEATORIAS 

113
 
114
 
Distribución de Variables Aleatorias

La distribución de una variable aleatoria se puede diferenciar según el tipo de variable que 
representa,  agrupándose en:  
 
• Distribuciones de variables aleatorias discretas, 
• Distribuciones de variables aleatorias continuas 
 
Distribución de variables aleatorias discretas 

Supongamos  que  tenemos  algunos  de  los  siguientes  interrogantes  en  los  servicios  de 
Nutrición del Sistema Sanitario provincial: 

1. ¿Cuántos pacientes vendrán hoy a una hora determinada? 

2. ¿Cuál es la probabilidad de atender pacientes que presenten trastornos alimentarios 
en una semana determinada? 
3. ¿Cuál es la probabilidad de que una dieta sea eficaz en un tratamiento dado? 
Todos  estos  interrogantes  pueden  responderse,  en  su  mayoría,  definiendo  de  manera 
adecuada  a  ciertas  variables  aleatorias  y  haciendo  uso  de  sus  distribuciones  de 
probabilidades. 

 Muchos  de  los  problemas  en  el  campo  de  la  salud  involucran  a  variables  aleatorias 
discretas,  como  es  el  caso  que  presentaremos  a  continuación.  En  esta  sección  se 
introducirán  los  conceptos  claves  y  definiciones  de  variables  aleatorias  discretas  con 
distribución Binomial (B) y Poisson (P). Para presentar sus definiciones usaremos el concepto 
de Probabilidad basado en la distribución de frecuencias.  
En  términos  generales  y  para  toda  variable  discreta,  una  distribución  de  probabilidades 
deberá incluir un listado mutuamente excluyente de todos los resultados numéricos posibles 
para esa variable aleatoria, tal que una probabilidad específica de ocurrencia se asocia con 
cada resultado.  
Sus  características  principales  serán  regidas  por  la  esperanza  E(X)  o  valor  esperado  y  la 
varianza (σ2). El valor esperado de una variable aleatoria discreta es un promedio ponderado 
de todos los posibles resultados, donde las ponderaciones son las probabilidades asociadas 
con cada uno de los resultados. Esto es, 
 

115
 
Distribución de Variables Aleatorias

N
μ = E ( X ) = ∑ xi P ( X = xi ),  
i =1

donde  xi  es  el  i‐ésimo  resultado  de  X,  la  variable  discreta  de  interés  y  P(X=xi)  es  la 
probabilidad de ocurrencia del i‐ésimo resultado de X.  
La varianza de una variable aleatoria discreta (σ2) se define como el promedio ponderado 
de los cuadrados de las diferencias entre cada resultado posible y su media (los pesos son las 
probabilidades de los resultados posibles). Esto es, 
N 2

σ = ∑ [xi − E ( X )] P( X = xi ).  
2

i =1

Como mencionamos, las distribuciones de probabilidades discretas más usadas en el campo 
científico son: 

• Distribución Binomial  

• Distribución de Poisson 

Distribución Binomial,   B(n, p). 

Una  variable  aleatoria  discreta  X  tiene  distribución  Binomial  si  se  satisfacen  las  cinco 
condiciones siguientes: 

1. Existe una serie de N ensayos (pruebas), 
2. En cada ensayo hay sólo dos posibles resultados,  
3. En cada ensayo, los dos resultados posibles son mutuamente excluyentes,  
4. Los resultados de cada ensayo son independientes entre sí, y  
5. La  probabilidad  de  cada  resultado  posible  en  cualquier  ensayo  es  la  misma  de  un 
ensayo a otro. 

Cuando se cumplen estas condiciones, la distribución binomial es una ley que proporciona 
cada  resultado  posible  de  los  N  ensayos  y  la  probabilidad  de  obtener  cada  uno  de  estos 
resultados.  Para  este  tipo  de  distribución  de  probabilidad,  la  función  matemática  que  la 
define  es  la  siguiente:  X  es  una  variable  aleatoria  con  distribución  Binomial,  B(n,  p),  si 
satisface que  

116
 
Distribución de Variables Aleatorias

n!
P( X ) = p x (1 − p) n− X ,          [1] 
X !(n − X )!

donde P(X) es la probabilidad de X éxitos dados los parámetros n y p, n es el tamaño de la 
muestra, p es la probabilidad de éxito, 1 – p es la probabilidad de fracaso, X es el número de 
éxitos en la muestra, con X = 0, 1, 2, …, n. 

En esta expresión general [1], el término p x (1 − p ) n − X  indica la probabilidad de obtener X 
éxitos  de  n  observaciones  en  una  secuencia  específica;  en  cambio,  el  término 
n!
indica cuántas combinaciones de los X éxitos entre n observaciones son posibles. 
X !(n − X )!
Luego, dado el número de observaciones n y la probabilidad de éxito p, la probabilidad de X 
éxitos es: 

P(X) = (número de secuencia posibles) * (probabilidad de un secuencia especifica), 

Veamos  el  siguiente  ejemplo:  supongamos  que  en  cierta  población,  en  un  momento 
dado, el 52% de todos los nacimientos que se registraron son varones. Si aleatoriamente se 
escogen cinco registros de nacimientos dentro de esa población ¿cuál es la probabilidad de 
que exactamente tres de ellos pertenezcan a varones? Pensemos en qué datos tenemos de 
la  situación  planteada:  n=5,  X=3,  p=0,52.  Colocando  estos  valores  en  la  expresión  [1]  se 
obtiene que P(X=3)=0,3239. 

Un  caso  particular  de  la  distribución  Binomial  es  cuando  n=1,  lo  que  se  denomina 
Distribución de Bernoulli. Esto es, la idea es realizar un experimento aleatorio una sola vez y 
observar si cierto suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y 
q=1‐p el que no lo sea (fracaso). Se trata entonces de una ley que describe probabilidades de 
una variable dicotómica, es decir aquella que únicamente puede tomar dos modalidades (lo 
que  comúnmente  es  adoptado  como  éxito  y/o  fracaso  a  los  dos  posibles  resultados).  Así, 
podríamos definir este experimento mediante una v.a. discreta X que toma los valores X=0 si 
el  suceso  no  ocurre,  y  X=1  en  caso  contrario,  y  que  se  denota  X~B(p),  directamente,  o 
X~Ber(p), esto es: 

⎧0, P[X = 0] = 1 − p = q
X~Ber(p)  ⇔ X = ⎨  
⎩1, P[X = 1] = p.
Un ejemplo típico de este tipo de variables aleatorias consiste en lanzar una moneda al 

117
 
Distribución de Variables Aleatorias

aire y considerar la siguiente variable aleatoria: 

⎧ 1
0→q=
⎪⎪ 2 
X= número de caras obtenidas = ⎨
1
⎪1 = p = ,
⎪⎩ 2

La función de probabilidad de una v.a. Bernoulli es:  
⎧q si x = 0


f ( x) = ⎨ p si x = 1              [2] 

⎪0 en cualquier otro caso;

y, por ende, su función de distribución es la función acumulada de probabilidad, es decir: 

⎧0 si x < 0


F ( x) = ⎨q si 0 ≤ x < 1  

⎪1 si x ≥ 1.

Igualmente  que  para  el  caso  B(n,  p),  las  principales  características  de  la  X  Bernoulli  se 
calculan directamente: 

E[ X ] = ∑ x f ( x ) = 0 ⋅ f (0) + 1 f (1) = 0.q + 1. p = p,  


xi =0,1
i i

E[ X 2 ] = ∑x
xi =0,1
2
i f ( xi ) = 0 2 ⋅ f (0) + 12 f (1) = 0.q + 1. p = p,  

Var [ X ] = E[ X 2 ] − E[ X ] 2 = p − p 2 = p ⋅ (1 − p ) = p ⋅ q.  

A modo de integración, se dice que una v.a. X sigue una ley binomial, de parámetros n y p, 
si es la suma de n v.a. independientes de Bernoulli con el mismo parámetro, p, esto es:  
X~B (n,p) ⇔ X = X 1 + ... + X n ,  donde Xi~Ber(p),  ∀i = 1,..., n . 

Esta  definición  la  podemos  interpretar  de  la  siguiente  manera.  Supongamos  que 
realizamos  n  pruebas  de  Bernoulli,  Xi,  donde  en  todas  ellas,  la  probabilidad  de  éxito  es  la 
misma  (p),  y  queremos  calcular  el  número  de  éxitos,  X,  obtenidos  en  el  total  de  las  n 
pruebas. Su ley de probabilidad es la que expresamos en [2], y su función de distribución de 

118
 
Distribución de Variables Aleatorias

probabilidad es dada por 

⎛n⎞
f (k ) = P[ X = k ] = ⎜⎜ ⎟⎟ p k q n − k   ∀k = 0,1,..., n , 
⎝k ⎠

Por tanto, su función de distribución o probabilidad acumulada resulta: 

⎧0 si x < 0

⎪⎪ [ x ] ⎛ n ⎞
F ( x) = ⎨∑ ⎜⎜ ⎟⎟ p k q n−k si 0 ≤ x < n    
⎪ k =0 ⎝ k ⎠

⎪⎩1 si x ≥ n.

Así, para representar la función de probabilidad de una v.a. B(n, p) para n pequeño y para 
cuando n es grande, se construyen las siguientes figuras 1 y 2. 
 
0.5
0.4 0.3
Probabilidad
0.2 0.1
0

0 1 2 3 4 5
Variable aleatoria X, tal que X~B(5; 0,50)
 
Figura  1.  Función  de  distribución  de  probabilidad  de  una  variable  aleatoria  B(n,p),  para  n 
pequeño. 

119
 
Distribución de Variables Aleatorias

0.2
0.15
Probabilidad
0.1
0.05
0

0 2 4 6 8 10 12 14 16 18 20
Variable aleatoria X, tal que X~B(20; 0,50)
 
Figura 2. Función de distribución de probabilidad de una variable aleatoria B(n,p), para n 
grande. 

De las expresiones anteriores,  surge que el valor esperado y la varianza son: 
      E(X) = n.p,  

      Var(X) = n.p.q = n.p.(1‐p). 

Veamos el siguiente ejemplo. Un médico aplica un test a 10 alumnos de un colegio para 
detectar una enfermedad (evento que llamaremos E), cuya prevalencia sobre una población 
de  niños  es  del  10%.  La  sensibilidad  del  test  (esto  es,  lo  que  detecta  como  positivo  y  es 
enfermo, T+) es del 80% y la especificidad (esto es,  lo que detecta como negativo y es sano, 
T‐) 75%. Se desea conocer ¿cuál es la probabilidad de que exactamente a cuatro personas les 
dé  un  resultado  positivo?  Se  dispone  de  lo  siguiente:  P(E)=  0,1  la  prevalencia  de  la 
enfermedad  en  la  población,  o  la  probabilidad  a  priori  de  estar  enfermo;  P(T+|E)=0,8  la 

sensibilidad  (verdaderos  positivos)  y  P(T‐| E )=0,75  la  especificidad  (verdaderos  negativos, 


donde  E  con  el  trazo  representa  al  conjunto  complemento  de  E).  Ahora  bien,  si  se  desea 
saber a cuántas personas el test le dará un resultado positivo, tendremos que calcular P(T+), 
para  lo  que  podemos  usar el  teorema  de  la  probabilidad  total  (estar  enfermo  y  no  estarlo 
forman una colección exhaustiva y excluyente de sucesos). Así, 

P (T + ) = P (T + | E ) P ( E ) + P (T + | E ) P ( E )
1424 3 123
1− P ( T − E ) 1− P ( E )

= 0,8 ∗ 0,1 + 0,25 ∗ 0,9      


= 0,305 .

120
 
Distribución de Variables Aleatorias

donde, como se mencionó,  E  es el conjunto complemento del conjunto E. 

Llamando  a  X1  a  la  v.a.  que  representa  el  número  de  resultados  positivos,  es  claro  que 
p1=P(T+), y se tiene que X sigue una distribución binomial, 

⎛n ⎞ k n1 − k
X ~ B ( n = 10, p = 0,305 ) ⇔ P ( X = k ) = ⎜⎜ ⎟ p .q
⎟ , 
⎝k ⎠
con n=10 y p=0,305. Luego, la probabilidad de que a cuatro personas le resulte positivo el 

⎛10 ⎞
test es:     P( X 1 = 4) = ⎜⎜ ⎟⎟0,3054 ⋅ 0,6956 = 0,2048.  
⎝4 ⎠
 

Ejercicios de aplicación: 4.1 a 4.4 
 

Distribución de Poisson 

Una v.a. X sigue  una función de distribución Poisson si se satisface que  

e − λ λk
f (k ) = P[ X = k ] = ,  k = 0, 1, 2, ...  
k!

donde  P(X) es la probabilidad de X=k éxitos, dado el valor de  λ, la esperanza del número de 
éxitos;  e  es  la  constante  matemática,  con  valor  aproximado  2,71828,  y  k  es  el  número  de 
éxitos por unidad. 

En términos generales, decimos que existe un proceso Poisson cuando podemos observar 
eventos  discretos  en  un  intervalo  continuo  (de  tiempo,  longitud,  superficie,  etc.)  de  tal 
manera que si este intervalo continuo se reduce lo suficiente, 

1. La probabilidad de observar exactamente un éxito en el intervalo es constante.  
2. La probabilidad de obtener más de un éxito en el intervalo es 0.  
3. La probabilidad de observar un éxito en cualquier intervalo es estadísticamente 
independiente de la de cualquier otro intervalo. 

121
 
Distribución de Variables Aleatorias

¿Cuándo usamos esta distribución como ley de asignación de probabilidades? Su utilidad 
en  el  área  de  la  salud  es  muy  amplia.  Por  ejemplo,  la  podemos  aplicar  para  describir 
situaciones como: 

• El número de pacientes que llegan al servicio de emergencia de un hospital en un 
intervalo de tiempo.  
• El número de radiaciones radiactivas que se recibe en un lapso de tiempo. 
• El número de glóbulos blancos que se cuentan en una muestra dada.  
• El número de partos triples por año. 

Se  demuestra  fácilmente  que  para  una  variable  aleatoria  discreta  con  distribución 
Poisson, su valor esperado y su varianza coinciden, esto es: 

           E(X)=λ y Var(X)=λ. 

La  distribución  de  Poisson  se  considera  una  buena  aproximación  a  la  distribución 
Binomial, en el caso que np<10 y p< 0,10 ó n> 100 y p< 0,05 y en ese caso   λ= np. El interés 
por reemplazar a la distribución Binomial por una del tipo Poisson se debe a que esta última 
depende únicamente de un parámetro, λ, y la Binomial (como ya vimos) de dos, n y p. 

Ejemplo: 
Supongamos  que,  en  promedio,  llegan  tres  pacientes  por  minuto  al  servicio  de 
emergencia del Hospital de Niños Santísima Trinidad (Córdoba Capital), durante la hora del 
almuerzo.  Se  desea  conocer  ¿cuál  es  la  probabilidad  de  que  en  un  minuto  dado,  lleguen 
exactamente dos pacientes? y ¿cuál es la probabilidad de que lleguen más de dos pacientes 
en ese minuto? 

¿De qué datos disponemos? Por el enunciado, el intervalo continuo es el minuto y “…en 
promedio  llegan  3  pacientes…”  nos  permite  establecer  al  valor  esperado,  λ,  como  λ=  3 
pacientes por minuto. Luego, usamos la ley de probabilidad para el cálculo de P(X=2). Así, 

e − λ λk
P( X = k ) = , 
k!

e −3 32
P( X = 2) = = 0,2240 . 
2!

122
 
Distribución de Variables Aleatorias

Este tipo de leyes matemáticas se aplican a sucesos con probabilidad muy baja de ocurrir, 
obteniéndose como la distribución límite de una sucesión de variables binomiales, donde  

      np = λ, cuando nÆ∞ (tiende a infinito). 

Ejemplo: 
Supongamos que estamos estudiando una determinada enfermedad cuya prevalencia en 
la  población  de  interés  es  muy  baja,  es  decir  tiene  probabilidad  pequeña  de  ocurrir, 
p=1/100.000. Se desea conocer: 

1) la probabilidad de que en una ciudad, de características semejantes a la que estamos 
indagando y con 500.000 habitantes, haya más de 3 personas con dicha enfermedad.  
2) el número esperado de habitantes que la padecen.  

Si  consideramos  como  variable  aleatoria  de  estudio  X,  la  cantidad  de  personas  que 
padecen la enfermedad, es claro que esta variable sigue un modelo de distribución binomial 
(ya que está acotada por el número de habitantes). No obstante, por lo mencionado arriba 
(p  muy  pequeño  y  n  muy  grande),  podemos  aproximar  su  comportamiento  de  manera 
razonable mediante un modelo Poisson, de modo que: 

⎛ 1 ⎞
X~B ⎜ n = 500.000, p = ⎟ ⇒ X~P (λ=5.) 
⎝ 100.000 ⎠

Así, el número esperado de personas que padecen la enfermedad es E(X)=5. Notemos que 
como  en  el  caso  Poisson,  la  media  y  la  varianza  coinciden,  existe  una  dispersión  bastante 
grande, por lo que no sería extraño encontrar que, en realidad, hay muchas más personas, o 
menos,  que  están  enfermas.  La  probabilidad  que  estamos  buscando,  de  que  haya  más  de 
tres personas enfermas es la siguiente:  
  P(X>3) = 1 – P(X≤ 3) 
   = 1 – P(X= 0) ‐ P(X= 1) ‐ P(X= 2) ‐ P(X= 3) y reemplazando en la expresión de la función 
de distribución de una Poisson, se tiene: 

e −5 50 e −5 51 e −5 5 2 e −5 53
  P(X>3) = 1 − − − −  
0! 1! 2! 3!
  = 0,742. 

123
 
Distribución de Variables Aleatorias

Resumiendo, el cuadro siguiente presente a las 3 distribuciones vistas, con sus respectivas 
características. 
Modelo  Parámetros  Variables  Esperanza  Varianza 
XBER: Presencia  de 
Bernoulli  p  E (XBER) = p  Var (XBER)= p. q 
éxito 
Xb : Número de éxitos 
Binomial  n y p  E (Xb) = n. p  Var (Xb) = n .p . q 
en las n repeticiones 
Xp : Número de éxitos 
Poisson  λ  en cierto intervalo de  E (Xp) = λ  Var (Xp) = λ 
tiempo o espacio 
 

Ejercicios de aplicación: 4.5 a 4.6 

Distribución de variables aleatorias continuas 

  Distribución Normal 

Una  variable  aleatoria  continua  tiene  como  valor  esperado  una  media  poblacional 
simbolizada μ y una varianza poblacional denotada con σ2. Podemos decir que dicha variable 
aleatoria  es Normal  si su  distribución de probabilidad o función de densidad (sólo llamada 
así cuando X es una v.a. continua) es representada con la siguiente curva (Figura 3): 

P  0,40

0,30

0,20

0,10

0,00
-5,00 -2,50 0,00 2,50 5,00   X 

Figura 3: Función de densidad  para una variable aleatoria con distribución normal. 

124
 
Distribución de Variables Aleatorias

 
Dicha  curva  recibe  el  nombre  de  Curva  normal  o  Campana  de  Gauss,  con  media  μ  y  
varianza σ2 si su función de densidad es: 


( x − μ )2
1
f ( x) = e 2σ 2

σ 2π
donde  μ  y  σ2  representan  a  la  esperanza  y  la  varianza  de  la  v.a.,  respectivamente,  π  es  la 
constante numérica (3,1416....). La notación para una variable aleatoria continua X normal, 
con media μ y varianza σ2, es X ~ N(µ, σ2).  
Ejemplo: Si el peso de recién nacidos es denotado por  W y sigue una distribución normal 
con media μ igual a 2,8 Kg y  varianza σ2igual a 2 Kg2, entonces W ~ N (2,8 ; 2). 
Una  variable  aleatoria  que  sigue  una  distribución  normal  tiene  las  siguientes 
características: 

• Es simétrica en torno a la media. 
• Coinciden la media, mediana y moda. 
• Sus  valores  (espacio  de  definición  o  soporte  de  la  variable)  van  desde  menos 
infinito a más infinito. 
Puede haber infinitas distribuciones normales, dependiendo de los valores que toma μ y 
σ2, que son los parámetros de la distribución. Precisando, μ es el  punto en el eje de las X 
coincidente con el eje de simetría de la curva normal, que separa a la misma en dos partes 
iguales  y  σ  determina  la  forma  de  la  curva  en  cuanto  a  la  agudeza,  ya  que  mientras  más 
grande es el valor de σ es menos alta la curva y más expandida, por lo contrario cuando el 
valor de σ es menor la curva se torna más aguda o alta y menos expandida. 

Existen  tres  posibilidades  en  las  que  dos  poblaciones  tienen  diferente  distribución 
cambiando  la  forma  del  área  bajo  la  curva,  o  bien  manteniendo  la  forma  del  área  y 
cambiando el centro de la distribución. Las Figuras 4 a 6 ilustran esas posibilidades. 

1‐ Medias iguales y diferentes varianzas: 
 

125
 
Distribución de Variables Aleatorias

Función de densidad
P  P0,40
0,40

0,30 0,30

Densidad
0,20 0,20

0,10 0,10

0,00 0,00
-5,00 -2,50 0,00 2,50 5,00 -5,00 -2,50 0,00 2,50 5,00
X  X
 

Figura 4: Funciones de de densidad de dos variables con distribución normal, con iguales 
medias y diferentes varianzas. 

2‐ Distintas medias e iguales varianzas: 
P 0,40
P 0,40

0,30
0,30

0,20
0,20

0,10
0,10

0,00
0,00
-5,00 -2,50 0,00 2,50 5,00
  X  -2,00 0,50 3,00 5,50 8,00
 X
 
Figura 5: Funciones de  densidad de dos variables con distribución normal, distintas medias 
e iguales varianzas. 

126
 
Distribución de Variables Aleatorias

3‐ Distintas medias y distintas varianzas: 
P  P
0,40 0,40  
 
0,30 P  0,30    P 
 
D e n sid a d

D e n sid a d
0,20
 
0,20

 
0,10 0,10  
 
0,00 0,00
-2,00 0,50 3,00 5,50 8,00 -5,00 -2,50 0,00 2,50 5,00
     
X X
 
 

Figura 6: Funciones de  densidad de dos variables con distribución normal, distintas medias 
y distintas varianzas. 

Al  comparar  dos  poblaciones  con  iguales  medias  y  diferentes  varianzas,  interpretamos  
que es más homogénea aquella que posee menor varianza, esto es, sus observaciones más 
concentradas en torno a  la media. Una población es más heterogénea cuando presenta una 
varianza mayor, por lo que sus datos tendrán una mayor dispersión. 

0,40 0,40
P  P
0,30 0,30

0,20 0,20

0,10 0,10

0,00 0,00
-5,00 -2,50 0,00 2,50 5,00 -5,00 -2,50 0,00 2,50 5,00
 X  X
    Población más homogénea      Población menos homogénea 

Figura  7:  Comparación  de  la  distribución  de  probabilidad  de  dos  poblaciones  con 
diferentes varianzas. 

127
 
Distribución de Variables Aleatorias

Cálculo de probabilidades de variables con distribución normal 

Es muy útil poder determinar valores de probabilidad de una variable aleatoria continua, 
y  para  ello  debemos  aprender  a  utilizar  una  distribución  normal  estándar  N(0,1)  o  de 
referencia, llamada distribución normal estandarizada. Ésta nos permitirá conocer valores de 
probabilidad de diferentes variables aleatorias continuas, con una simple transformación a la 
variable  estándar,  caracterizada  por  tener  μ  =  0  y  σ2=  1.  La  curva  normal  estándar  está 
tabulada, es decir, existen tablas que presentan los valores de probabilidad acumuladas a la 
izquierda  de  cualquier  punto  en  su  intervalo  de  definición,  por  lo  que  al  usarla  es  posible 
conocer los valores de probabilidad bajo la misma. Para transformar una variable aleatoria 
normal (X) a una variable aleatoria normal estándar se realiza un proceso de transformación 
denominado estandarización.  
X −μ
Para ello se aplica la siguiente expresión   Z = , 
σ
donde:  
Z es el valor estandarizado de la variable aleatoria normal, 
X es el valor de la variable aleatoria normal que se desea estandarizar 
 
Ejemplo: 
  Se  conoce  que  la  v.a.  peso  (en  kg)  de  recién  nacidos  es  tal  que  W  ~  N  (2,8  ;  2).  Se 
desea conocer la probabilidad de que existan recién nacidos con peso menor a 2,5 kg. Esto 
es, P (W ≤ 2,5), aplicando la estandarización se tiene: 
X −μ 2,5 − 2,8
Z= = =‐0,21.  
σ 1,41
Este  valor  de  Z  nos  permite  conocer  los  valores  de  probabilidad  utilizando  la  Tabla  de 
Distribución  Normal  Estándar  (ver  anexo).  Dicha  tabla  nos  da  los  valores  de  probabilidad 
situados  hacia  la  izquierda  del  valor  de  la  variable  aleatoria  estandarizada  (Z),  o  sea 
acumulando hasta ese valor calculado de Z. En este caso   P(Z≤‐0,21)=0,4  y  se  concluye    que 
existe una probabilidad igual a 0,40 de que 1 niño al nacer pese menos o igual a 2,5kg. 
 
Ejercicios de aplicación: 4.7 a 4.13 
 
 

128
 
Distribución de Variables Aleatorias

Variables aleatorias continuas no normales 
 
En  este  ítem  se  presentan  las  distribuciones  de  otras  v.a.  continuas  (unidimensionales) 
importantes, además de la distribución Normal. Como hemos visto, el dominio o soporte de 
una v.a. continua se define como aquella región de  ℜ donde su densidad es no nula, f(x)≠0. 
Para las distribuciones que enunciaremos,  χ2 (chi‐cuadrado), t de Student y F de Snedecor, 
el dominio a definir podrá serℜ, o ℜ+=(0, ∞), o bien un segmento de la forma [a, b]∈ℜ. 
Recordemos  un  aspecto  principal  de  este  tópico.  Las  distribuciones  de  probabilidad  de 
variables  aleatorias  continuas  se  definen  mediante  una  función  y=f(x)  llamada  función  de 
probabilidad o función de densidad. Así como en el histograma la frecuencia observada se 
representa con el área, en la función de densidad la probabilidad está dada por el área bajo 
la curva, por lo que:  
• El área encerrada bajo la curva es 1. 
• Para obtener la probabilidad P(a<X<b), calculamos la proporción de área que hay 
bajo la curva desde a hasta b. 
• La probabilidad de sucesos puntuales (puntos) es 0, P(X=a)=0. 
 

Distribución Chi Cuadrado (χ2) 

La  distribución  χ2  es  muy  usada  para  describir  los  comportamientos  de  estadísticos  de 
dispersión, como la varianza muestral. Se la puede definir directamente a partir de la normal 
estándar, esto es, si consideramos una v.a. Z~N(0, 1), la v.a. X=Z2 se distribuye según una ley 
de  probabilidad  distribución  χ2  con  un  grado  de  libertad,  lo  que  se  representa  como 
X ~ χ 12 .  Ahora  bien,  si  nuestro  experimento  o  situación  involucra  a  n  v.a.  independientes 

Z~N(0,  1),  se  demuestra  que  la  suma  de  sus  cuadrados  respectivos  es  una  nueva  variable 
aleatoria  cuya  distribución  es  una  chi‐cuadrado  con  n  grados  de  libertad,  esto  es 
n
{Z i }in=1 ~ N (0,1) ⇒ ∑ Z i2 ~ χ n2 . Su función de densidad es de la forma: 
i =1

129
 
Distribución de Variables Aleatorias

⎧0 si x ∈ (−∞,0)

⎪ n n
fx n ( x) = ⎨
2 1 2
−1 −
x e 2 si x ∈ (0, ∞ ) . 
⎪ n2 ⎛ n ⎞
⎪ 2 Γ⎜ ⎟
⎩ ⎝2⎠
 
Se  prueba  que  si  n  representa  a  sus  grados  de  libertad,  las  características  principales, 
valor esperado y varianza, de esta variable son respectivamente:  
E( X ) = n
 
Var ( X ) = 2n.
 

Los  percentiles  de  esta  distribución  que  aparecen  con  más  frecuencia  en  la  práctica  se 
encuentran  tabulados  en  función  a  su  único  parámetro,  los  grados  de  libertad.  A 
continuación,  en  Figuras  8‐9,  se  muestran  diversas  funciones  de  densidad  de  variables 
aleatorias con distribución Chi‐cuadrado, para valores pequeños y grandes de n. 

 
Figura 8: Función de densidad deχ para valores pequeños de n. 
2

 
 

130
 
Distribución de Variables Aleatorias

 
Figura 9: Función de densidad deχ2para valores grandes de n. 

A modo de generalización y en consecuencia de lo anterior, si tenemos X1, X2, ..., Xn, v.a. 
2
⎛ X − μi
n

independientes,  donde  cada  Xi  ~  N(μi,  σ ),    se  tiene ∑ ⎜⎜ i
2
⎟⎟ ~ X n2 .  La  función  de 
i
i =1 ⎝ σi ⎠
distribución  de  probabilidad  χ2muestra  su  importancia  cuando  queremos  determinar  la 
variabilidad  (en  valor  absoluto,  sin  signo)  de  cantidades  que  se  distribuyen  en  torno  a  un 
valor  central  siguiendo  un  mecanismo  normal.  Como  ilustración  tenemos  el  siguiente 
ejemplo:  Supongamos  que  estamos  estudiando  el  comportamiento  de  un  instrumento, 
utilizado  para  medir  el  nivel  de  glucemia  en  sangre,  el  cual  ofrece  resultados  bastantes 
razonables  en  relación  a  su  referencia  (aproximados  con  la  realidad),  aunque  existe  cierta 
cantidad de error  que se distribuye de modo normal con media 0 y desvío estándar  σ=2. 
Esto es, estamos definiendo implicitamente un modelo del tipo: 

X real = X esperado + ε ,
 
ε ~ N ( μ = 0, σ 2 = 2 2 )

Para  probarlo,  se  diseña  una  experiencia:  se  realizan  mediciones  de  los  niveles  de 
glucemia dados por el instrumento en un grupo de n=100 pacientes. Nos interesa medir la 
cantidad  de  error  que  se  acumula  en  las  mediciones  de  todos  los  pacientes.  Para  ello, 
podemos  plantear  varias  estrategias  para  medir  los  errores  acumulados,  entre  las  que 
destacamos las siguientes:  

131
 
Distribución de Variables Aleatorias

1.  Definimos  el  error  acumulado  en  las  mediciones  de  todos  los  pacientes  como 
n
E1 = ∑ ε i , luego, ¿cuál es el valor esperado para E1?  
i =1

2. Definimos el error acumulado como la suma de los cuadrados de todos los errores (así 
n
preservamos cantidades positivas) como  E 2 = ∑ ε i2 ,  luego ¿cuál es el valor esperado para 
i =1

E2?  
 
A la vista de los resultados, ¿cuál de las dos cantidades, E1 y E2, le parece más conveniente 
utilizar en una estimación del error cometido por un instrumento? Pensemos en sus ventajas 
y desventajas. Suponiendo que las mediciones entre pacientes son independientes, se tiene 
que: 
n
E1 = ∑ ∈i = ∈ {1 + ∈ {2 + ... + ∈ ⇒ E[ E1 ] = μ = 0.  
{n
N (μ ,σ ) N (μ ,σ ) N (μ ,σ )
i =1 2 2 2
1 444 42444 43
(
N μ , n⋅σ 2 )
De  este  modo,  el  valor  esperado  para  E1  es  0,  esto  es,  los  errores  i  van  a  tender  a 
compensarse entre unos pacientes y otros. Obsérvese que si la media  μno fuera conocida a 
E1
priori,  podríamos  utilizar  E1,  para  obtener  una  aproximación  de  μ,  haciendo  μ ≈ .   Sin 
n
embargo,  el  resultado  E1  no  indica  en  qué  medida  hay  mayor  o  menor  dispersión  en  los 
errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente:  

⎛∈ ⎞ ⎛∈ ⎞
2 2
⎛∈ ⎞
n n 2

E 2 = ∑∈ = σ ∑ ⎜ i ⎟ = σ 2 [⎜ 1 ⎟ + ... + ⎜ n ⎟ ] ⇒ E[ E 2 ] = n ⋅ σ 2 = 400.  
2 2

i =1 ⎝ σ ⎠ ⎝σ ⎝1σ2⎠3
i
i =1
1 23 ⎠
χ12
14 44244χ4
12
3
χ2 n

En  este  caso,  los  errores  no  se  compensan  entre  sí  (no  suman  cero),  y  si  σ2  no  fuera 
E2
conocido,  podría  ser  estimado  por  un  estadístico  conocido  σ 2 ≈ .   Mas,  por 
n
contrapartida,  si  usamos  este  enfoque  desde  E2,  no  obtenemos  ninguna  información  con 
respecto a μ. Concluyendo, E1 podría ser utilizado para calcular de manera aproximada a μ, y 
E2  para  calcular  de  modo  aproximado  a  σ2.  Las  dos  cantidades  ayudan  a  describir  el 
comportamiento  del  instrumento  y  por  ende  son  de  interés,  y  ninguna  es  más importante 

132
 
Distribución de Variables Aleatorias

que la otra, pues ambas forman parte de la medición del error y nos aportan información.  
El siguiente resultado, que involucra a la distribución Chi‐cuadrado, es de importancia en 
la teoría de muestreo (distribuciones en el muestreo) y nos afirma que la media de variables 
aleatorias independientes con distribuciones normales es normal pero con menor varianza y 
relaciona  los  grados  de  libertad  de  una  v.a.  con  distribución  χ2,  con  los  de  un  estadístico 
como la varianza. 

Cálculo de probabilidad en una distribución Chi Cuadrado (χ2) 

Si  se  desea  calcular  valores  de  probabilidad  en  una  distribución  χ2se  procede  de  la 
siguiente manera, como se ejemplifica a continuación. Se desea conocer la probabilidad de 
encontrar valores de Chi cuadrado menores a 26,2 con 12 grados de libertad, esto es, 
P( χ212< 26,2): 

1. Se  grafica la probabilidad buscada. 

Chi cuadrado(12): p(evento)=0.9899
0.09

0.07

0.04

0.02

0.00

0.00 9.12 18.25 27.37 36.49  

Figura 10: Función de densidad de una variable con distribución χ2. 

2. Se identifican los grados de libertad, que en el ejemplo son 12. 

3. Se  consulta en  la  tabla de  cuantiles  de  la  Distribución  Chi‐cuadrado,  que  al  igual 
que la distribución normal, acumula valores de probabilidad hacia la izquierda del 
punto seleccionado. En la misma: 

• Se ingresa por la primera columna correspondiente a los grados de libertad (υ). 
• Se desplaza hacia abajo hasta el valor correspondiente, 12. 
• Posteriormente  hacia  la  derecha  hasta  el  valor  de  la  variable  buscado  que  para  este 

133
 
Distribución de Variables Aleatorias

caso es 26,2.  
• Una  vez  encontrado  el  valor  de  Chi cuadrado se  observa  a qué  valor  de  probabilidad 
corresponde en la parte superior, 0,99. 

La Probabilidad de que χ2sea menor a 26,2 es 0,99, con 12 grados de libertad. 
 
Ejercicios de aplicación: 4.14 a 4.15 

Teorema de Cochran: 

Sean X1, X2, ..., Xn, v.a. independientes, donde cada Xi ~ N(μi, σ 2i ), entonces se tiene que: 

1 n
X = ∑ Xi ~  N
⎛ σ2
⎜⎜ μ ,
⎞ n
(
X −X
⎟⎟ ,    ∑ i 2
)
2

~ χ n2−1 ,  y  
n i =1 ⎝ n ⎠ i =1 σ

n
(X −X ) 2

X y ∑
i =1
i

σ2
son v.a. independientes . 

Distribución t de Student 

La  distribución  t‐Student  se  define  a  partir  del  cociente  entre  una  v.a.  normal  y  la  raíz 
cuadrada de una  v.a.  χ2, independientes entre sí.  Esto es, T es una v.a. con distribución t‐
Student con n grados de libertad, tn, si es definida como: 
Z
t= ~ t n. , 
χ n2
n
donde Z~N(0, 1) yχ2 ~χn2. 
Este  tipo  de  distribuciones  aparece  usualmente  cuando  debemos  estudiar  n+1  v.a. 
normales e independientes Xi ~ N(μi, σ 2i ), i=1,…n, y nos interesa la distribución de: 

X −μ
T= σ ~ t n . 
2
1 ⎛ X i − μi
n

∑⎜
n i =1 ⎜⎝ σ i
⎟⎟

En otras palabras, cuando a las distribuciones normales involucradas no se les conoce el 
valor  del  parámetro  de  dispersión  o  varianza,  entonces  la  función  de  densidad  de t,  con  n 

134
 
Distribución de Variables Aleatorias

grados de libertad es la adecuada. Su expresión es la siguiente y su ilustración se presenta en 
la Figura 11. 

⎛ n +1⎞
Γ⎜ ⎟ −
n +1

⎝ 2 ⎠ ⎛ x2 ⎞ 2
f T ( x) = ⎜⎜1 + ⎟ , ∀t ∈ ℜ. 
⎛n⎞ ⎝ n ⎟⎠
Γ ⎜ ⎟ nπ
⎝2⎠

 
Figura 11: Función de densidad de una variable con distribución t de Student. 

La distribución t de Student comparte una propiedad con la Normal Estándar, esto es, su 
media es cero y simétrica con respecto a la misma, pero es algo más dispersa que la normal, 
y  la  varianza  decrece  hasta  1  cuando  el  número  de  grados  de  libertad  aumenta  como  se 
muestra  a continuación en la Figura 12. 
P


 
Figura 12: Comparación entre las funciones de densidad de t de Student y N(0,1). 

Para  un  número  elevado  de  grados  de  libertad,  n,  la  distribución  de  Student  se  puede 
aproximar a una normal, es decir, tnÆ N(0, 1), cuando nÆ∞ (Figura 13). 

135
 
Distribución de Variables Aleatorias

X
 
Figura  13:  Aproximación  de  la  distribución  t  a  la  N(0,1),  a  medida  que  aumentan  los 
grados de libertad. 

Al  igual  que  para  la  distribución  Chi‐cuadrado,  los  percentiles  de  la  distribución  t  que 
aparecen con más frecuencia en la práctica se encuentran tabulados en función a su único 
parámetro, los grados de libertad. 
 

Cálculo de probabilidad en una distribución t de Student 

Para  calcular  los  valores  de  probabilidad  en  una  distribución  t  de  Student  se  procede 
según  el  ejemplo.  Si  una  muestra  de  tamaño  21  proviene  de  una  población  normalmente 
distribuida  y  se  desea  conocer  la  probabilidad  de  encontrar  valores  de  t  menores  a  2,845, 
esto es, P(t20< 2,845), entonces: 
 
1. Se grafica la probabilidad buscada (Figura 14), 

P  T Student(20): p(evento)=0.9950
0.39

0.30

0.20

0.10

0.00
-5.27 -2.64 0.00 2.64 5.27
  X

136
 
Distribución de Variables Aleatorias

Figura 14: Función de densidad de una variable con distribución t de Student.   

2. Se identifican los grados de libertad, que en el ejemplo son 20. 
3. Se consulta en la tabla de cuantiles de la distribución t de Student, que al igual 
que  la  distribución  normal,  acumula  valores  de  probabilidad  hacia  la  izquierda 
del punto seleccionado. En la misma: 

• Se ingresa por la primera columna correspondiente a los grados de libertad (υ), 
• se desplaza hacia abajo hasta el valor correspondiente, 20, 
• posteriormente hacia la derecha hasta el valor de la variable buscado que para este 
caso es 2,845,  
• una vez encontrado el valor de t se observa a qué valor de probabilidad corresponde 
en la parte superior, 0,995. 

La  probabilidad  de  que  t20sea  menor  que  2,845  es  0,995,  con  20  grados  de  libertad.  Se 
sugiere que en caso de no encontrarse el valor de t buscado se utilizará el inmediato inferior. 
 

Ejercicios de aplicación: 4.16 a 4.17 
 

Distribución F de Snedecor 

Otra  de  las  distribuciones  importantes  asociadas  a  la  distribución  normal  es  la  que  se 
define como cociente de dos distribuciones  χ2  independientes, relacionando de esa manera 
a  dos  estadísticos  de  dispersión,  como  la  varianza,  provenientes  de  muestras  aleatorias 
independientes. Sean X ~χn2 e Y ~χm2, dos v.a. independientes, luego definimos a la  variable  

1
X
mX
F= n = ~ Fn,m, 
1 n Y
Y
m

como una F con distribución de probabilidad de Snedecor, con (n,m) grados de libertad. 

Esto postula como variable a un cociente de dos varianzas, provenientes de muestras de 
tamaño n y m (numerador y denominador) respectivamente. Su característica principal y por 

137
 
Distribución de Variables Aleatorias

representar  a  estadísticos  de  dispersión,  es  su  asimetría  (semejante  a  la  chi‐cuadrado),  ya 
que sólo tienen densidad de probabilidad distinta de cero los punto de ℜ+. Obsérvese que la 
variable  definida  como  Fn,m  no  es  la  misma  que  Fm.,n,  pero  se  demuestra  que  si  F  ~  Fn,m, 
entonces 1/F ~ Fm,n. De esta ley de probabilidad lo que interesa es su función de distribución 
(acumulada), es decir, FF(x)=P(F<x), y para ello, como en todas las distribuciones asociadas a 
la  normal,  disponemos  de  una  tabla  de  percentiles,  ahora  asociada  al  par  de  grados  de 
libertad.  A  continuación,  se  representa  a  esa  distribución,  para  un  determinado  par  de 
grados de libertad (Figura 15).  

 

Figura 15: Función de densidad de una variable con distribución F de Snedecor. 

Cálculo de probabilidad de una variable con distribución F 

Para  calcular  los  valores  de  probabilidad  en  una  distribución  F  se  procede  según  el 
ejemplo.  Teniendo  dos  variables  aleatorias  independientes  con  distribución  χ2,  con  12  y  9 
grados de libertad respectivamente. Entonces: 

χ122
F =  2 ,  se  simboliza  según  F(12,  9).  Supongamos  se  desea  calcular  la  probabilidad  de 
χ9
encontrar valores de F menores a 3,87, esto es: P(F12,9< 3,87).  

138
 
Distribución de Variables Aleatorias

Luego, 

1. Se grafica la probabilidad buscada(Figura 16), 

P  0.8 F de Snedecor(12,9,0): p(evento)=0.9750

0.6

0.4

0.2

0.0
0.00 1.60   X 
3.20 4.80 6.40

Figura 16: Función de densidad de una variable con distribución F. 

2. se identifican los grados de libertad, que en el ejemplo son 12 y 9, 
3. se consulta en la tabla de cuantiles de la distribución F de Snedecor, que al igual que 
las otras distribuciones, acumula valores de probabilidad hacia la izquierda del punto 
seleccionado.  

En la misma: 
• Se busca la página en cuyo margen superior izquierdo, primera columna, figuran los 
grados de libertad de la primera χ2que para el ejemplo corresponde a 12, 
• una vez identificada la tabla correspondiente, se desplaza hacia abajo hasta el valor 
correspondiente a los grados de libertad de la segunda χ2para el ejemplo es 9, 
• luego, desplazarse hacia la derecha hasta el valor de la variable buscado,3,87,  
• una vez encontrado el valor de F se observa a qué valor de probabilidad corresponde 
en la parte superior, 0,975. 

  La probabilidad de que F12,9 sea menor que 3,87  es 0,975. 
 

Ejercicio de Aplicación: 4.18 

139
 
Distribución de Variables Aleatorias

EJERCICIOS DE APLICACIÓN 4.1 a 4.18 

EJERCICIO 4.1 

Si X tiene distribución binomial con n=10 y p= 0,20, Calcular P(X=3), P(X=6), P(X=1). 
 
EJERCICIO 4.2 
Calcular  la  esperanza  matemática  y  la  desviación  estándar  de  una  variable  con 
distribución binomial y con parámetros p=0,70 y n=20. 
 
EJERCICIO 4.3 
Un epidemiólogo conoce que la tasa de prevalencia de pre‐obesidad en una ciudad es de 
30%. Si en su trabajo atiende diariamente 12 pacientes de esa ciudad, el quiere determinar 
la  probabilidad  de  que  diariamente  se  presenten  6  pacientes  afectados  con  preobesidad. 
Determinar el número promedio esperado de pacientes preobesos. 
 
EJERCICIO 4.4 
Suponiendo  que  la  probabilidad  de  que  un  niño  que  nace  sea  varón  es  0,51,  hallar  la 
probabilidad de que una familia de 6 hijos tenga por lo menos una niña, y por lo menos un 
niño. 
EJERCICIO 4.5 

Se supone que la cantidad de bacterias por mm3 de agua en un estanque es una variable 
aleatoria X con distribución de Poisson de parámetro λ = 0,5. ¿Cuál es la probabilidad de que 
en un mm3 de agua del estanque no haya ninguna bacteria? 
 
EJERCICIO 4.6 
Se sabe que el 3% de las personas con pancreatitis aguda muere al cabo de un año. Un 
investigador médico comienza a estudiar a 150 pacientes que presentaban la enfermedad y 
desea saber, 
a) ¿Cuál será la probabilidad de que al cabo de un año mueran 5 pacientes?, 
b) ¿Cuál será el número esperado de pacientes que morirá al cabo de un año? 

140
 
Distribución de Variables Aleatorias

EJERCICIO 4.7 

Utilizando la tabla de cuantiles de la Distribución Normal, obtener los siguientes valores 
de probabilidades y representar gráficamente el área encontrada. 
i) P (Z ≤1,6) 
ii) P (Z ≥ 2,1) 
iii) P (Z ≥ 1,05) 
iv) P (Z ≤ 2,1) 
v) P (‐1,6 ≤ Z ≤ 1,6) 
vi) P (0,35 ≤ Z ≤ 1,5) 
vii) P (‐2 ≤ Z ≤ ‐0,5). 

EJERCICIO 4.8 

La  variable  peso  de  mujeres  adultas  se  distribuye  normalmente  con  media  de  68 
kilogramos y  σ2 de 25 kilogramos2. Encontrar los valores de probabilidades de los siguientes 
eventos: 
viii) Mujeres con peso entre 60 y 70 kilogramos. 
ix) Mujeres con peso mayor a 75 kilogramos. 
x) Mujeres con peso menor a 68 kilogramos. 
xi) Mujeres con peso entre 58 y 78 kilos. 
 
EJERCICIO 4.9 

La variable gramos de grasa consumidos al día sigue una distribución normal con media μ 
de 30 gramos y  σ2  de 36 gramos2. Encontrar los valores de probabilidades de los siguientes 
eventos: 
i) P (24 ≤ X ≤ 36) 
ii) P (X ≥ 30) 
iii) P (X ≤ 30) 
iv) P (X ≤ 36) 
v) P (X ≥ 24). 
 

141
 
Distribución de Variables Aleatorias

EJERCICIO 4.10 

El  tiempo  de  amamantamiento  de  niños  que  se  atienden  en  un  centro  de  salud  de  la 
ciudad  de  Córdoba  sigue  una  distribución  normal  con  media  de  10  meses  y  desviación 
estándar de 7 meses. Responda, calculando: 
i) ¿Cuál es la probabilidad de que un niño sea amamantado por más de 24 meses? 
ii) ¿Cuál es la probabilidad de que sea amamantado por menos de 2 meses? 

EJERCICIO 4.11 

El  peso  al  nacer  de  niños  prematuros  en  un  hospital  materno  infantil  sigue  una 
distribución  normal  con  media  igual  a  2620  gramos  y  desvío  estándar  de  460  gramos. 
Encuentre: 
i) La probabilidad de que un niño al nacer pese3000 gramos o más, 
ii)  la probabilidad de que un niño al nacer pese menos de 1500 gramos, 
iii) ¿Cuál es el valor de la variable que presenta una probabilidad igual a 0,50 de no ser 
superado? 
 
EJERCICIO 4.12 

Sea X una variable aleatoria continua con distribución normal, con media cero y varianza 
1, esto es X ~ N (0, 1).  Hallar y representar gráficamente: 
i) P(X ≤ ‐1,96) 
ii) P(X ≥ 0) 
iii) P(X ≥ 2,45) 
iv) P(‐1,64 ≤ X≤ 1,64). 
 
EJERCICIO 4.13 

Bajo el supuesto de que X~N(0,1), determinar el valor de a tal que: 
i) P(X≤ a) = 0,025               ii) P(X ≥ a) = 0,975           iii) P(X≤ a) = 0,90 
iv) P(X ≥ a) = 0,10               v) P(X≤ a) = 0,6844               vi) P(X ≤ a) = 0,1075 
vii) P(X ≥ a) = 0,0668       viii) P(X ≥ a) = 0,8554              ix) P(X ≥ a) = 0,20. 

142
 
Distribución de Variables Aleatorias

 
EJERCICIO 4.14 
Calcular las siguientes probabilidades: 
i) P(χ216<9,31) 
ii) P(χ29>6,39) 
iii) P(17,1<χ223<22,33) 
 
EJERCICIO 4.15 
Encontrar el valor de χ20 si la P(χ232>χ20) = 0,05. 
 
EJERCICIO 4.16 
En  una  variable  con  distribución  t  de  Student  con  11  grados  de  libertad,  calcular  las 
siguientes probabilidades: 
i)   P(t< ‐0,697), 
ii) P(‐1,796< t < 4,437), 
 
EJERCICIO 4.17 
Encontrar el valor de t0 si la P(t <t0) = 0,99, con 11 grados de libertad. 
 
    EJERCICIO 4.18 

En una distribución F con 5 y 7 grados de libertad, calcular: 
i)   P(F< 5,29), 
ii) P(3,97< F < 9,52). 

143
 
Distribución de Variables Aleatorias

RESOLUCIONES EJERCICIOS 4.1 AL 4.18 

EJERCICIO 4.1 

i. n=10 y p= 0,20 
 
n!
ii. P(X=3) =  p x (1 − p) n− x  
X !(n − X )
 
10!
iii. P(X=3) =  ⋅ 0,23 ⋅ 0,87  
3!⋅7!
                         = 0,2013 
 
iv. P(X=6) = 0,0055  
 
v. P(X=1) = 0,2684 
 
EJERCICIO 4.2 

      E(X) = np   Var(X) = npq  
      E(X) = 20 . 0,70  Var(X) = 20 . 0,70 . 0,30 
      E(X)= 14    Var(X)= 4,2 
 

EJERCICIO 4.3 

p = 0,3      n = 12   q = 0,7 
 
12!
i. P(X=6) =  ⋅ 0,36 ⋅ 0,76  
6!⋅6!
  P(X=6) = 0,0792 
 
ii. E(X) = np  
  E(X) = 12 . 0,3 
  E(X)= 3,6 (entre 3 y 4 pacientes) 

144
 
Distribución de Variables Aleatorias

EJERCICIO 4.4 

n = 6      p = 0,51   q = 0,49         p =probabilidad de ser varón;  q =  es probabilidad de ser mujer 

i) P(X ≤ 5) = 1 – P(X = 6) 
6!
= 1 –  ⋅ 0.516 ⋅ 0,490  
6!⋅0!
          = 1‐ 0,0175 
          = 0,9825 
 
ii) P(X ≥1) = 1 – P(X = 0) 
6!
                         = 1 –  ⋅ 0,510 ⋅ 0,496  
0!⋅6!
          = 1‐ 0,01384 
          = 0,9861 
 
EJERCICIO 4.5 

λ = 0,5   

e −λ λk
  P( X = k ) =  
k!

e −0.5 0.50
  P( X = 0) =  
0!

    = 0,606 
 
EJERCICIO 4.6 

n =150  p =0,03  

e −4.5 4,55
i) P( X = 5) =  
5!
          = 0,1708 
 
ii) E (X) =  λ  
  λ = np 

145
 
Distribución de Variables Aleatorias

      = 4,5 
Se espera que entre 4 y 5 pacientes mueran al cabo de un año. 
 
EJERCICIO 4.7 

i) 0,94 
ii) 1 – P( Z ≥ 2,1) = 1 – 0,98 = 0,02 
iii) 1 – P( Z ≥ 1,05) = 1 – 0,85 = 0,15 
iv) 0,98 
v) P (Z ≤ 1,6) – P (Z ≤ ‐1,6) = 0,94 – 0,05 = 0,89 
vi) P (Z ≤ 1,5) – P (Z ≤ 0,35) = 0,93 – 0,63 = 0,30 
vii) P (Z ≤ ‐0,5) – P (Z ≤ ‐2) = 0,30 – 0,02 = 0,28. 
 
EJERCICIO 4.8 

Se debe estandarizar. 

X −μ
Z= , N (68, 25), μ = 68 Kg, σ = 5 Kg. 
σ

I. P(60<X<70)=P (X ≤ 70) – P (X ≤ 60). Luego, estandarizando:  
 
⎛ X − 68 70 − 68 ⎞ ⎛ X − 68 60 − 68 ⎞
P (60 < X < 70) = P⎜ ≤ ⎟ − P⎜ ≤ ⎟ 
⎝ 5 5 ⎠ ⎝ 5 5 ⎠

         = P (Z ≤ 0,4) – P (Z ≤ ‐1,6)=0,65542 – 0,05480 = 0,6. 
Existe  una  probabilidad  igual  a  0,60  de  que  las  mujeres  adultas  pesen  entre  60  y  70 
kilogramos. 

⎛ X − 68 75 − 68 ⎞
P (X ≥ 75) = 1 − P⎜ ≤ ⎟ = 1 − P (Z ≤ 1,4 ) = 1 − 0,91924 = 0,08.
⎝ 5 5 ⎠  
Existe  una  probabilidad  igual  a  0,08  de  que  las  mujeres  adultas  pesen  más  de  75 
kilogramos. 
 
II. P (X ≤ 68) = 

146
 
Distribución de Variables Aleatorias

⎛ X − 68 68 − 68 ⎞
P⎜ ≤ ⎟ = P (Z ≤ 0 ) = 0,50  
⎝ 5 5 ⎠

Existe  una  probabilidad  igual  a  0,5  de  que  las  mujeres  adultas  pesen  menos  de  68 
kilogramos. 

i) P (X ≤ 78) – P (X ≤ 58) = 
 
⎛ X − 68 78 − 68 ⎞ ⎛ X − 68 58 − 68 ⎞
= P⎜ ≤ ⎟ − P⎜ ≤ ⎟ 
⎝ 5 5 ⎠ ⎝ 5 5 ⎠

      = P (Z ≤ 2) – P (Z ≤ ‐2) = 0,97725 – 0,02275 = 0,95 
 
Existe  una  probabilidad  igual  a  0,95  de  que  las  mujeres  adultas  pesen  entre  58  y  78 
kilogramos. 
 
EJERCICIO 4.9 

N(30, 36), μ = 30 gramos, σ = 6 gramos. 

i) P (X ≤ 36) – P (X ≤ 24)  
 
⎛ X − 30 36 − 30 ⎞ ⎛ X − 30 24 − 30 ⎞
P (X ≤ 36) - P (X ≤ 24) = P⎜ ≤ ⎟ − P⎜ ≤ ⎟ 
⎝ 6 6 ⎠ ⎝ 6 6 ⎠

      =      P (Z ≤ 1) – P (Z ≤ ‐1) = 0,84134 – 0,15886 = 0,68. 
Existe  una probabilidad igual a  0,68 de que un individuo consuma entre 24 y 36 gramos 
de grasa por día. 

⎛ X − 30 30 − 30 ⎞
ii) 1 − P⎜ ≤ ⎟ = 1 − P (Z ≤ 0 )  
⎝ 6 6 ⎠
          = 1 – 0,50 = 0,50 

Los individuos tienen un 0,5 de probabilidad de que el consumo diario de grasa sea mayor 
o igual a 30 gramos. 

147
 
Distribución de Variables Aleatorias

⎛ X − 30 30 − 30 ⎞
iii) P⎜ ≤ ⎟ = 0,50 
⎝ 6 6 ⎠

Los individuos tienen un 0,5 de probabilidad de consumir diariamente 30 gramos o menos 
de grasa. 

⎛ X − 30 36 − 30 ⎞
P⎜ ≤ ⎟ =0,84134
⎝ 6 6 ⎠
Hay  un  0,84  de  probabilidad  de  que  los  individuos  tengan  un  consumo  diario  de  grasa 
menor o igual a 36 gramos. 

⎛ X − 30 24 − 30 ⎞
i) 1 − P⎜ ≤ ⎟ = 1 − P (Z ≤ −1)  
⎝ 6 6 ⎠

          = 1 – 0,15866 = 0,84134 
Hay  un  0,84  de  probabilidad  de  que  los  individuos  tengan  un  consumo  diario  de  grasa 
mayor o igual a 24 gramos. 
 
EJERCICIO 4.10 

μ = 10 meses y σ = 7 meses.  
⎛ X − 10 24 − 10 ⎞
i)    P (X ≥ 24)=  1 − P⎜ ≤ ⎟     = 1 – P (Z ≤ 2)  
⎝ 7 7 ⎠
      = 1 – 0,97725  
      = 0,02275 
Hay 0,022 de probabilidad de que los niños sean amamantados por más de 24 meses. 

ii)   P (X ≤ 2)= 
⎛ X − 10 2 − 10 ⎞
P⎜ ≤ ⎟ = P (Z ≤ -1,14) = 0,125.  
⎝ 7 7 ⎠
   Hay 0,125 de probabilidad de que los niños sean amamantados por 2 meses o menos. 

EJERCICIO 4.11 

 i)    P (X ≥ 3000)= 

148
 
Distribución de Variables Aleatorias

⎛ X − 2620 3000 − 2620 ⎞


    = 1 − P⎜ ≤ ⎟ 
⎝ 460 460 ⎠
    = 1 – P (Z ≤ 0,82) = 1 – 0,78814 = 0,21186 
 
Hay un 0,21 de probabilidad de que los niños prematuros de dicho hospital pesen 3000 
gramos o más. 
ii)   P (X ≤ 1500)= 
⎛ X − 2620 1500 − 2620 ⎞
      = P⎜ ≤ ⎟ 
⎝ 460 460 ⎠
       = 0,00714 
Prácticamente no hay ninguna probabilidad de que los niños nazcan con menos de 1500 
gramos. 
iii)   Si la probabilidad es 0,50, entonces    Z es 0. Luego, por la estadarización:  
X − 2620
= 0,00 , lo que implica que        X – 2620 = 0,00 * 460 
460
 
       X = 0 + 2620 = 2620 
El  peso  de  los  niños  al  nacer  que  tienen  un  0,5  de  probabilidad  de  no  ser  superado  es 
2620 gramos. 
 
EJERCICIO 4.12 

X∼N (0;1)     
i) P(X ≤ ‐1,96) = 0,025 
 

Normal(0,1): p(evento)=0,0250
0,40

0,30

0,20

0,10

0,00
-5,00 -2,50 0,00 2,50 5,00   X 
 
 

149
 
Distribución de Variables Aleatorias

ii) P(X ≥ 0) = 1 –P(X ≤ 0) 
            = 0,5 
P  Normal(0,1): p(evento)=0,5000
0,40

0,30

0,20

0,10

0,00
-3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 X 
 

iii) P(X ≥ 2,45) = 1 – P(X ≤ 2,45) 

                          = 1 – 0,99 
              = 0,01 
 
 
P  0,40 Normal(0,1): p(evento)=0,0071

0,30

0,20

0,10

0,00
-3,00 -2,00 -1,00 0,00 1,00 2,00 3,00
  X 
 
 
 
 
 
 
 
 

150
 
Distribución de Variables Aleatorias

iv) P(‐1,64 ≤ X ≤ 1,64) = P(X ≤ 1,64) – P(X ≤ ‐1,64) 
             = 0,94 –0,05 
                                 = 0,89 
P  Normal(0,1): p(evento)=0,8990
0,40

0,30

0,20

0,10

0,00
-3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 X
 
 

EJERCICIO 4.13 

i) P(X ≤ a) = 0,025 → a = ‐1,95 

ii) P(X ≥ a) = 0,975 
1 – P(X ≤ a) = 0,975 
P(X ≤ a) = 1 – 0,975 
         = 0,025. Luego, a = ‐1,96                         
 
iii) P(X ≤ a) = 0,9, entonces  a = 1,3 
iv) P(X ≥ a) = 0,1 
          = 1 – P(X ≤ a)  
          = 0,1 
   P(X ≤ a) = 1 – 0,1 
         = 0,9, luego  a = 1,3 
v) P(X ≤ a) = 0,6844, luego  a = 0,45 

vi) P(X ≤ a) = 0,1075, entonces  a = ‐1,3 

vii) P(X ≥ a) = 0,0668       
         = 1 – P(X ≤ a)  
         = 0,0668 
P(X ≤ a) = 1 – 0,0668 

151
 
Distribución de Variables Aleatorias

              = 0,9332, y entonces a = 1,5 
viii) P(X ≥ a) = 0,8554 
1 – P(X ≤ a) = 0,8554 
     P(X ≤ a) = 1 – 0,8554 
 = 0,1446. Así  a = ‐1,1 
ix) P(X ≥a) = 0,2 
1 – P(X ≤ a) = 0,2 
    P(X ≤ a) = 1 – 0,2 
 = 0,8. Luego, a = 0,85 
 
EJERCICIO 4.14 

i) P(χ216<9,31) = 0,1 
Chi cuadrado(16): p(evento)=0.0999
P  0.07

0.06

0.04

0.02

0.00
0.00 11.07 22.14 33.21 44.28  

La Probabilidad de que χ sea menor a 9,31 es 0,1, con 16 grados de libertad. 
2

 
ii) P(χ29>6,39) = 1 ‐ P(χ29<6,39) 
                                 = 1 – 0,3 
            = 0,7 

152
 
Distribución de Variables Aleatorias

Chi cuadrado(9): p(evento)=0.7003


0.10

0.08

0.05

0.03

0.00
0.00 7.55 15.11 22.66 30.21
 

La Probabilidad de que χ sea mayor a 6,39 es 0,7, con 9 grados de libertad. 
2

 
iii) P( 17,1<χ223 < 22,33) = P(χ223 < 22,33) ‐ P(χ223 <17,1) 
              = 0,5 – 0,2 
               = 0,3 
P  0.06
Chi cuadrado(23): p(evento)=0.3039

0.05

0.03

0.02

0.00
0.00 14.23 28.46 42.68 56.91
  X 
La Probabilidad de que χ  esté entre17,1 y 22,33 es 0,3, con 23 grados de libertad. 
2

 
EJERCICIO 4.15 

Si P(χ232>χ20) = 0,05  
1 ‐ P(χ232<χ20) = 0,05 
P(χ232<χ20) = 0,95    
entonces χ20= 46,19 
 
EJERCICIO 4.16 

i) P(t11< 0,697) = 0,25 

153
 
Distribución de Variables Aleatorias

T Student(11): p(evento)=0.2501
0.39


0.29

0.20

0.10

0.00
-5.53 -2.76 0.00 2.76 5.53  X
La Probabilidad de que t sea menor a 0,697 es 0,25, con 11 grados de libertad. 
ii) P(‐1,796< t < 4,437)  = P(t< 4,437) ‐ P(t< ‐1,796) 
             = 0,9995 – 0,05 
               = 0,9495 
 
T Student(11): p(evento)=0.9495
0.39

0.29

0.20

0.10

0.00
-5.53 -2.76 0.00 2.76 5.53
 

La Probabilidad de que t esté entre ‐1,796 y  4,437 es 0,9495, con 11 grados de libertad. 
 

EJERCICIO 4.17 

  P(t < t0) = 0,99. Luego, t0 = 2,718. 
 
EJERCICIO 4.18 

En una distribución F con 5 y 7 grados de libertad, calcular: 
i)   P(F< 5,29) = 0,975 

154
 
Distribución de Variables Aleatorias

F de Snedecor(5,7,0): p(evento)=0.9751
0.7

0.5

0.3

0.2

0.0
0.00 2.37 4.74 7.11 9.48
 

ii) P(3,97< F < 9,52) 
P(3,97< F < 9,52)  = P(F< 9,52) ‐ P(F< 3,97)  
              = 0,995 – 0,95 
                             = 0,045 
 
La Probabilidad de que F esté entre 3,97 y  9,52 es 0,045. 
 
F de Snedecor(5,7,0): p(evento)=0.0450
0.7

0.5

0.3

0.2

0.0
0.00 2.37 4.74 7.11 9.48

 
 
 
 
 
 

155
 
  156
CAPÍTULO 5: INTRODUCCIÓN A LA INFERENCIA 
ESTADÍSTICA 

  157
    158  
Introducción a la Inferencia Estadística

 
En  los  capítulos  previos  se  presentaron  contenidos  que  permitían  calcular 
probabilidades  de  sucesos  relacionados  con  variables  que  seguían  distribuciones  de 
parámetros conocidos previamente (μ, σ, p, entre otros). No obstante, es común que en 
la realidad no se conozcan los parámetros, ya que ellos provienen de la población (peso 
promedio  de  los  niños que  nacen en  la  Argentina,  proporción  de  niños  con  diabetes de 
Latinoamérica,  etc).  Realizar  la  medición  de  la  variable  de  interés  para  conocer  el  valor 
exacto  del  parámetro  en  poblaciones  de  gran  tamaño  es  prácticamente  imposible.  En 
este caso, la única posibilidad es obtener una aproximación del parámetro y eso se realiza 
a partir de una muestra. 

Teoría del muestreo 

  En  función  del  objetivo  de  obtener  a  partir  de  una  muestra  información  de  la 
población,  se  define  como  muestreo  al  procedimiento  mediante  el  cual  se  selecciona  y 
obtiene  una  parte  o  subconjunto  de  la  población.  Por  lo  tanto  el  término  muestra  se 
referirá a aquel subconjunto de unidades que forman parte de la población, denotándose 
con N al tamaño de la población y con n al tamaño de la muestra. 
Es fundamental que la muestra nos brinde información certera sobre la población, por 
lo tanto se debe planificar y diseñar la forma de extraer la misma. Por ello, para evaluar la 
calidad  de  un  diseño  de  muestra  es  importante  considerar  su  representatividad.  Sin 
embargo, nunca puede tenerse la completa seguridad de que la muestra será totalmente 
representativa, ya que en las investigaciones siempre se trabaja en condiciones en las que 
existe la posibilidad de cometer errores.  
Los  diseños  de  muestreo  se  clasifican  en  1)  probabilísticos  y  2)  no  probabilísticos.  El 
muestreo  probabilístico  se  basa  en  diferentes  formas  de  selección  aleatoria  de  los 
elementos  o  unidades  que  conformarán  la  muestra.  En  el  caso  del  muestreo  no 
probabilístico, las unidades muestrales se eligen mediante técnicas  no aleatorias, por lo 
que  no  todos  los  elementos  de  la  población  tienen  la  misma  posibilidad  de  que  se  los 
incluya en la muestra. 
 

    159  
Introducción a la Inferencia Estadística

Muestreo probabilístico 

Como se dijo anteriormente, la característica que lo distingue es la extracción aleatoria 
(al azar) de los elementos de la población. En el caso que ésta sea finita, cada uno de los 
elementos de la población tiene la misma posibilidad de ser incorporado a una muestra. 

  Los  principales  métodos  de  muestreo  probabilístico  son  el  aleatorio  simple,  el 
aleatorio estratificado, el de conglomerados y el sistemático. 

Muestreo Aleatorio Simple (M.A.S) 

  Este tipo de muestreo es el más aconsejado, usado y menos costoso aunque no se 
adapta a todas las situaciones.. Permite, a partir de la identificación de toda la población, 
obtener  la  muestra  en  la  cual  cada  uno  de  los  integrantes  de  aquella  tenga  la  misma 
chance de ser parte de la muestra. El procedimiento para obtener una muestra aleatoria, 
consiste  en  numerar  en  forma  consecutiva  los  elementos  o  unidades  de  la  población  y 
luego con la utilización de una tabla de números aleatorios extraer el número deseado de 
unidades que conformarán la muestra según el tamaño deseado. Así, la muestra obtenida 
de esta manera no se encuentra sujeta a sesgos por parte del investigador ya que no hay 
posibilidades de que intervengan preferencias personales. Si bien este tipo de muestreo 
no  asegura  que  la  muestra  sea  representativa  de  la  población,  si  asegura  que  las 
diferencias en las características de la muestra y de la población se deben por completo al 
azar. 
Una de sus desventajas es que se debe conocer a todos los individuos de la población, 
además, cuando los individuos de  la  población  no son fijos (rotan,  emigran, etc.); no se 
puede saber con certeza su tamaño (N). 
Ejemplo:  
  Estudio  sanitario  de  niños  hasta  10  años  de  la  ciudad  de  Córdoba,  donde  el  N  = 
1500000. Se enumera y elije al azar una muestra cuyo n = 3000. 

    160  
Introducción a la Inferencia Estadística

Muestreo Aleatorio Estratificado (M.A.E.) 

Este  diseño  de  muestreo  consiste  en  dividir  a  la  población  en  estratos  o  subgrupos 
dentro  de  cada  uno  de  los  cuales  se  selecciona  de  manera  aleatoria  el  número  de 
elementos  deseado.  La  estratificación  puede  realizarse  en  base  a  una  gran  variedad  de 
características, como edad, sexo, raza, entre otros. Los estratos deben ser internamente 
homogéneos en cuanto a los atributos de los que se desea obtener información. 
Hay  que  considerar  que  este  tipo  de  muestreo  no  puede  ser  posible  si  no  se  cuenta 
con la información necesaria acerca de las características de la población en cuanto a las 
variables  a  estudiar  y  al  igual  que  en  el  muestreo  aleatorio  simple,  se  necesita  de 
múltiples listas numeradas. 
 

Muestreo por Conglomerados (M.C.) 

Este  diseño  consiste  en  un  sucesivo  muestreo  aleatorio  de  unidades  de  distinta 
extensión.  Es  de  gran  utilidad  porque  muchas  veces  es  imposible  obtener  una  lista  de 
todos los elementos de una población, no se los puede tener numerados pero se conoce 
algo de los mismos. 
Las primeras unidades que se muestrean son grandes grupos  a los que se denomina 
conglomerados.  Por  ejemplo,  si  se  quiere  obtener  una  muestra  de  estudiantes  de 
nutrición,  se  comenzaría  con  una  extraer  una  muestra  aleatoria  de  las  escuelas  de 
nutrición,  posteriormente  se  extraería  una  muestra  aleatoria  de  estudiantes  de  las 
escuelas seleccionadas. Generalmente, este procedimiento se utiliza para seleccionar una 
muestra  general  de  ciudadanos  y  consiste  en  obtener  muestras  sucesivas  de  unidades 
administrativas (ciudades, escuelas, dispensarios, barrios). 
Otro ejemplo: Se quiere estudiar a todos los niños de 9 años de la ciudad de Córdoba. 
En  este  caso  no  se  tienen  identificados  los  niños  de  9  años  en  Córdoba,  pero  sí  a  las 
familias. Luego, se extrae una muestra aleatoria simple de las familias (conglomerados), y 
sólo quedan en la muestra aquellas familias que tienen niños de 9 años. 
En  determinados  casos,  suele  contener  más  errores  de  muestreo  que  los  de  tipo 
simple  o  estratificado,  pero  pese  a  esto,  es  mucho  más  práctico  que  otros  tipos  de 
muestreo  probabilístico,  en  especial  cuando  la  población  es  grande  y  se  encuentra 
    161  
Introducción a la Inferencia Estadística

dispersa. 
 

Muestreo Aleatorio Sistemático (MS) 

Este tipo de muestreo consiste en seleccionar como elemento muestral cada i‐ésimo 
caso de una lista de grupos, por ejemplo cada décima persona de una lista de estudiantes 
o cada centésima persona que aparezca en una lista de números telefónicos. 
Los  diseños  de  muestreo  sistemático  pueden  aplicarse  de  tal  forma  que  permiten 
obtener  una  muestra  en  esencia  aleatoria.  En  general  puede  seguirse  el  siguiente 
procedimiento:  se  establece  en  el  tamaño  deseado  de  la  muestra  (n),  al  mismo  tiempo 
debe conocerse el tamaño de la población (N). Las N unidades deben ordenarse de 1 a N 
en  un  cierto  orden  (creciente  o  decreciente).Al  dividir  N/n  se  obtiene  la  amplitud  de 
intervalo que va a ser la pauta de la distancia entre los elementos que se seleccionarán 
para  la  muestra.  Por  ejemplo  se  quiere  obtener  una  muestra  de  100  elementos  de  una 
población  de  100000,  si  100000  /  100  =  1000  entonces  se  incluirá  en  la  muestra  un 
elemento de cada 1000 elementos de la población. El primer elemento se seleccionará al 
azar  mediante  una  tabla  de  números  aleatorios  y  para  seleccionar  los  siguientes  se  irá 
sumando de a 1000. Por ejemplo si el primer elemento incluido es el que se encuentra en 
el lugar 55, entonces los siguientes serán 1055, 2055 y así sucesivamente hasta alcanzar el 
tamaño muestral. 
En la mayoría de los casos este tipo de muestreo se prefiere al aleatorio simple porque 
más allá de obtener los mismos resultados, lo hace de manera más conveniente y eficaz. 
Esta técnica es ampliamente utilizada en el área de investigación en Ciencias de la Salud. 
Es  importante  recordar  que  conviene  trabajar  con  muestras  seleccionadas 
sistemáticamente  cuando  la  estructura  de  la  población  es  independiente  del  elemento 
que se mide. Si esto no ocurre, conviene seleccionar una muestra aleatoria simple. 

Muestreo no probabilístico 

Con  este  diseño  de  muestreo  se  generan  muestras  menos  precisas  y  representativas 
de  la  población.  Ninguna  de  las  herramientas  estadísticas  para  obtener  inferencia 

    162  
Introducción a la Inferencia Estadística

estadística  puede  aplicarse  a  estos  tipos  de  muestreos  ya  que  no  se  dispone  de  ningún 
criterio  con  rigor  para  basar  dicha  metodología.  Los  tres  métodos  de  muestreo  no 
probabilístico son el muestreo por conveniencia, el muestreo por cuotas y el intencional. 

Muestreo por conveniencia 

Este  tipo  de  muestreo  implica  la  utilización  de  una  muestra  integrada  por 
determinados elementos cuya disposición para ser incorporados es más conveniente. El 
problema  radica  en  que  muchas  veces  los  elementos  adecuados  no  representan  a  la 
población  con  respecto  a  las  variables  en  estudio,  y  en  consecuencia  los  resultados 
obtenidos a partir de este tipo de muestreo no se pueden extrapolar a la población. 

Muestreo por cuotas 

En este diseño, se identifican estratos de la población y se establece la proporción de 
elementos necesarios a partir de los distintos segmentos estratificados. Se determina la 
representación  en  la  muestra  en  las  mismas  proporciones  en  que  se  presentan  los 
diferentes  sectores  en  la  población.  Si  por  ejemplo  se  tiene  como  población  1500 
individuos,  de  los  cuales  600  son  hombres  (40%)  y  900  son  mujeres  (60%)  y  para  una 
determinada  investigación  se  desea  una  muestra  de  600  individuos;  la  misma  será 
  constituida por un 40% de hombres (240) y un 60% de mujeres (360). 
El  muestreo  por  cuotas  no  necesita  de  técnicas  complejas  ni  conlleva  demasiado 
tiempo o esfuerzo. 

Muestreo intencional 

  Aquí, el investigador utiliza su conocimiento acerca de la población para elegir los 
casos  que  quedarán  incluidos  en  la  muestra.  Este  tipo  de  muestreo  suele  utilizarse 
cuando  se  busca  por  ejemplo,  una  muestra  de  especialistas  o  expertos  en  medidas 
antropométricas. 
 
Ejercicio de aplicación: 5.1 

    163  
Introducción a la Inferencia Estadística

Parámetros y Estadísticos 

Se llaman parámetros a las características que describen la distribución de una variable 
aleatoria.  Aquellas  medidas  obtenidas  a  partir  de  una  muestra  aleatoria  de  variables 
idénticamente  distribuidas  que  intentan  aproximar  a  los  parámetros  se  llaman 
estadísticos o estimadores. La evaluación de los estadísticos con los datos de una muestra 
se denomina estimación muestral del parámetro. 
 
Población: Parámetros Muestra: Estadísticos o 
Estimadores 
Media: μ    Media muestral:  X  

Varianza Poblacional: σ  
2 2
  Varianza muestral: S  

Desvío estándar poblacional: σ    Desvío estándar muestral: S 

Proporción poblacional: p    Proporción muestral:   

Los parámetros  están denotados con letras griegas, mientras que  los estimadores de 


esos parámetros (estadísticos) con letras latinas. 
 
La  estadística  descriptiva  es  de  gran  utilidad  cuando  se  desea  resumir  información 
empírica, pero por lo general, el investigador no solamente quiere describir la distribución 
de  una  variable  a  partir  de  un  conjunto  de  datos,  sino  extraer  resultados  con  fines 
inferirlos a la población. Se recurre así a la Inferencia Estadística, parte de la Estadística 
que en base a los datos obtenidos a partir de una muestra, aporta los medios necesarios 
para obtener conclusiones acerca de la población. 
En  otras  palabras,  la  Inferencia  Estadística  permite  estimar  los  parámetros  de  una 
población a partir de datos obtenidos en una muestra estadística. 
 

Distribuciones de muestreo 

Si  en  base  a  una  muestra  se  va  a  hacer  una  estimación  de  las  características  de  la 
población,  es  conveniente  que  esta  muestra  sea  obtenida  de  manera  que  resulte 

    164  
Introducción a la Inferencia Estadística

representativa de la población. Las muestras aleatorias son en este sentido la forma más 
eficaz  de  obtener  muestras  representativas.  Los  procedimientos  llevados  a  cabo  en 
Inferencia Estadística siempre suponen un muestreo aleatorio de la población. 
Supongamos  que  se  tiene  una  población  de  400  estudiantes  de  Nutrición  que 
realizaron  el  cursillo  introductorio  y  que  la  media  de  las  puntuaciones  obtenidas  es  5 
puntos, con un desvío estándar de 1,5 puntos. Si la población fuese mayor, tal vez sería 
menos simple y probable conocer los valores de estos dos parámetros que caracterizan a 
la  variable  puntuación.  Supongamos  ahora,  que  se  desconocen  estos  parámetros, 
debiendo  ser  estimados  a  partir  de  una  muestra  aleatoria  de  16  estudiantes.  En  esta 
situación, resultaría prácticamente improbable obtener el valor exacto de la puntuación 
en  la  población.  De  esa  muestra  se  registra  una  media  de  6,5  puntos.  Si  se  extrae  una 
nueva muestra aleatoria, distinta a la anterior (de la misma población), supongamos que 
la media muestral es de 5,75 puntos. Si continuamos con este proceso indefinidamente, 
lo  más  probable  es  que  encontremos  fluctuación  de  los  valores  o  estimaciones  de 
muestra  en  muestra.  Esto  es  representado  por  el  error  estándar  (desvío  estándar  de  la 
variable Media Muestral). 
Generalmente  en  investigaciones  se  trabaja  con  una  muestra  y  en  base  a  los  datos 
obtenidos  de  ella  se  calculan  los  valores  estadísticos  y  se  extraen  las  inferencias 
correspondientes. De la población de 400 estudiantes de nutrición se extrae una muestra 
de  16  y  se  calcula  la  media,  se  reemplazan  los  16  estudiantes  y  se  extrae  una  nueva 
muestra  y  así  sucesivamente;  cada  media  calculada  debe  ser  considerada  como  un 
conjunto  independiente  de  datos.  Con  estos  datos  se  podría  construir  el  gráfico 
correspondiente. 

Muestra  Media muestral Muestra Media muestral 


1  3,5 9 5
2  5 10 4
3  4,5 11 4,5
4  4 12 5,5
5  6 13 4,5
6  5 14 6,5
7  5,5 15 6
8  5,5  16  5 

    165  
Introducción a la Inferencia Estadística

Variable aleatoria   
“media muestral del  P (X=x) 
promedio de notas”  
3,5  1 . 1/16 = 0,0625 
4  2 . 1/16 = 0,125 
4,5  3 . 1/16 = 0,1875 
5  4 . 1/16 = 0,25 
5,5  3 . 1/16 = 0,1875 
6  2 . 1/16 = 0,125 
6,5  1 . 1/16 = 0,0625 

0.3

0.25

0.2

f(x)0.15

0.1

0.05

0
3.5 4 4.5 5 5.5 6 6.5

Medias muestrales

Figura 1. Función de densidad de la variable aleatoria en estudio. 

 
Este tipo de distribución de frecuencias se llama distribución de muestreo de la media 
y  más  que  una  distribución  real,  constituye  una  distribución  teórica,  considerando  que 
nunca  se  realiza  la  extracción  consecutiva  de  distintas  muestras  de  la  población  y 
tampoco se grafican sus medias. 
 

Error estándar de la media 

Es la desviación estándar de las medias. Se habla de error porque cuando las distintas 
medias  son  incorporadas  en  la  distribución  de  muestreo  se  supone  un  cierto  error  en 

    166  
Introducción a la Inferencia Estadística

relación  a  la  estimación  de  la  media  de  la  población.  Se  habla  de  estándar  porque  se 
indica la magnitud del error o promedio. 
Las  medias  muestrales  son  más  precisas  como  estimadores  del  valor  de  la  población 
cuando el error estándar es pequeño, es decir, cuanto más pequeña sea su variación. 
La desviación estándar de la población se estima a partir de la desviación estándar de 
la muestra. 
Siguiendo con el ejemplo anterior: 

σ2 1,5 2
EE = = = 0,375  
n 16
A  partir  de  resultados  teóricos  podemos  afirmar  que  con  un  tamaño  muestral  de  16 
estudiantes,  las  oportunidades  de  que  cualquier  media  muestral se  ubique  entre  4,62  y 
5,37  son  de  aproximadamente  68  en  100;  de  que  se  ubique  entre  4,25  y  5,75  son  de 
aproximadamente  95  en  100,  lo  que  significa  que  sólo  5  de  100  veces  podría  extraerse 
una muestra cuya media superara los 5,75 puntos o cuya media fuera inferior a los 4,25 
puntos. 
 
Para  incrementar  la  exactitud  de  la  estimación,  partiendo  del  cálculo  del  error 
estándar, solamente basta con aumentar el tamaño de la muestra. Si por ejemplo en vez 
de 16 estudiantes se hubiesen tomado 95 estudiantes: 

σ2 1,5 2
EE = = = 0,154  
n 95
 
Entonces  se  puede  decir  que  a  medida  que  se  incrementa  el  tamaño  muestral,  las 
probabilidades de extraer una muestra con una media muy diferente a la de la población 
se reducen significativamente. 
 

Teorema Central del Límite 

El  teorema  central  del  límite,  estudia  el  comportamiento  de  la  suma  de  variables 
aleatorias, cuando crece el número de sumandos, asegurando su convergencia hacia una 
distribución  normal  en  condiciones  muy  generales.  Este  teorema,  tiene  una  gran 

    167  
Introducción a la Inferencia Estadística

aplicación en inferencia estadística, pues muchos parámetros de diferentes distribuciones 
de probabilidad, como la media, pueden expresarse en función de una suma de variables. 
Permite  también  aproximar  muchas  distribuciones  de  uso  frecuente:  binomial,  Poisson, 
chi cuadrado, t‐student, gamma, etc., a la distribución normal. 
Considerando X una variable aleatoria con esperanza  μ y varianza  σ2, considerando Xn 
como  la  media  muestral  de  una  muestra  aleatoria  de  tamaño  n  y  Zn  como  la  variable 
aleatoria definida como: 
 
Xn − μ
Zn = . 
σ/ n
 
Entonces la distribución de Zn se aproxima a la distribución normal estándar cuando n 
se aproxima a infinito. 
 

Teoría de la Estimación 

Si  se  tiene  una  distribución  normal  y  se  conocen  su  media  y  su  varianza,  se  pueden 
determinar las probabilidades de varios eventos de interés en relación a la distribución de 
sus valores. Por lo general, el problema radica en que se desconocen los parámetros que 
pertenecen  a  la  población  original  y  por  lo  tanto  se  deben  averiguar,  partiendo  de  la 
información obtenida de una muestra aleatoria única, lo máximo posible acerca de ellos. 
Dada  una  muestra  se  puede  determinar  una  estimación  para  el  parámetro 
desconocido  o  un  intervalo  de  valores  dentro  del  cual  se  tiene  la  confianza  que  se 
encuentre el parámetro. 
La Estimación de Parámetros y la Prueba de Hipótesis son dos ramas importantes de la 
Inferencia Estadística. 
 
Procedimientos de Estimación: 
a) Estimación Puntual 
b) Estimación por Intervalos 

    168  
Introducción a la Inferencia Estadística

Estimación Puntual 

La  estimación  puntual  es  un  proceso  mediante  el  cual  se  aproxima  al  valor  del 
parámetro mediante una única estimación (un punto). Se debe calcular un estadístico con 
el  objetivo  de  estimar  el  parámetro  de  la  población.  Recordemos  que  un  estimador 
puntual es una función de la variable aleatoria que se aproxima al valor del parámetro. 

Ejemplos:  la  media  muestral  y  la  mediana  muestral  pueden  utilizarse  como 
estimadores  puntuales  de  la  media  poblacional.  La  desviación  estándar  muestral  es  un 
estimador  puntual  de  la  desviación  estándar  de  la  población.  Una  frecuencia  relativa 
puede ser un estimador puntual de la probabilidad. 

En  síntesis,  se  puede  decir  que  se  está  frente  a  una  estimación  por  puntos  cuando 
partiendo  de  la  información  de  una  muestra  aleatoria,  se  determina  un  sólo  valor 
numérico que constituya un buen indicador del valor del parámetro. 

Propiedades de los estimadores 

1) Insesgamiento 
2) Consistencia 
3) Eficiencia 
 
1) Un  estimador  tiene  la  propiedad  de  ser  insesgado  si  para  cualquier  tamaño 
muestral, su media o valor esperado es igual al parámetro que se estima. 
 

2) Se  dice  que  un  estimador  b  para  un  parámetro  β  es  consistente  si  el  valor  del 
estimador se aproxima al del parámetro en la medida que el tamaño de la muestra tiende 
a infinito o crece.  
 
3) Se  dice  que  un  estimador  es  eficiente  si  de  varios  posibles  estimadores  para  un 
mismo  parámetro  hay  uno  cuya  distribución  tenga  menor  varianza  que  el  resto.  Por 
ejemplo,  la  media  muestral  y  la  mediana  muestral  estiman  al  mismo  parámetro  μ;  sin 

    169  
Introducción a la Inferencia Estadística

embargo,  se  puede  demostrar  que  la  varianza  de  la  media  muestral  es  menor  que  la 
varianza de la mediana muestral, por lo tanto la media es más eficiente que la mediana. 

Estimación por Intervalo 

Es  un  procedimiento  mediante  el  cual  se  puede  afirmar,  con  una  determinada 
probabilidad, que el intervalo (a,b) encierra el verdadero valor del parámetro. 
Con esta estimación se calcula a partir de una muestra, el intervalo o rango de valores 
dentro del cual se encuentra el parámetro con una confianza previamente establecida. 
Los  intervalos  estimados  reciben  el  nombre  de  intervalos  de  confianza  y  los  límites 
inferior y superior del mismo se denominan límites de confianza. 
El  objetivo  del  procedimiento  de  estimación  por  intervalo  es  encontrar  un  intervalo 
cerrado [LI , LS] donde se estima se encontrará el parámetro poblacional (θ): 
P (LI ≤θ≤ LS) = 1 ‐ α. 
 
donde (1 ‐ α) es el coeficiente de confianza y representa la confianza de la estimación. 
Establecer  el  grado  de  confianza,  es  determinar  la  probabilidad  de  que  esos  sean  los 
límites del intervalo para el parámetro en estudio. En cierta manera es arbitrario, pero en 
general se utilizan valores de confianza altos como del 0,95 y del 0,99, establecidos por el 
investigador. 
 
Para la construcción del intervalo se necesita: 
 
)
 a)  Una  función  continua  g(.  ,  .)  que  relacione  el  parámetro  θ  y  su  estimador θ , 
)
quedando g (θ ,  θ )  
 
)
b) Que g (θ , θ ) tenga una función de distribución F, entonces 
)
P (q1≤  g (θ ; θ )  ≤  q2 ) = 1 ‐ α, 
 
donde  q1  corresponde  al  cuantil  α/2  y  q2  corresponde  al  cuantil  (1  ‐  α/2)  de  la 
distribución de la variable en estudio de la cual θ es el parámetro desconocido. 

    170  
Introducción a la Inferencia Estadística

Estimación por intervalo de la media de la distribución de una variable aleatoria normal 

Para  realizar  estimaciones  de  este  parámetro  es  importante  verificar  en  primera 
medida  los  datos  con  los  que  se  cuenta,  ya  que  de  ello  dependerá  la  metodología  a 
utilizar para realizar las estimaciones. En este caso deben distinguirse dos situaciones:  

1) Se conoce la varianza poblacional (σ2) 

2) No se conoce la varianza poblacional (σ2).Estimación  cuando se conoce la varianza 

poblacional σ2 
 El procedimiento a seguir en esta situación es el siguiente: 

1. Se relaciona μ y su estimador  X : 

g(μ,X) = (X ‐ μ) σ /n
2

donde: 

9 σ2  es la varianza de la distribución. 
9 n es el tamaño de la muestra a partir de la que se realiza la estimación. 
 
2. La función de distribución F es en este caso N(0,1). 
 
3. Se establece el nivel de confianza con el que se va a trabajar. Si es del 95% α = 0,05; 
α/2 = 0,025; 1 ‐  α/2 = 0,975. Si la confianza es del 99%  α = 0,01;  α/2 = 0,005; 1 ‐  α/2 = 
0,995. 
 
4. Se obtienen los cuantiles q1 = Z (α/2) y q2 = Z (1 ‐ α/2) 
 
donde Z = desviación de un valor con respecto de la media expresado en unidades de 
desvío estándar. Trabajando con una confianza del 95%, q1 = Z (0,025) y q2 = Z (0,975) 
Se  busca  en  la  Tabla  de  Cuantiles  de  la  Distribución  Normal  Estándar  (ver  anexo)  el 
valor de Z que corresponde: 
q1 = Z (0,025) = ‐ 1,96 y  q2 = Z (0,975) = 1,96 
 
5. El intervalo de confianza para la media poblacional es denotado [LI , LS] y se define 
    171  
Introducción a la Inferencia Estadística

de la siguiente manera: 

σ2 σ2
LI = X + Z (α / 2 ) ⋅     y    LS = X + Z1−(α / 2) ⋅  
n n
 

Ejercicios de aplicación: 5.2 a 5.3 

Estimación  cuando se desconoce la varianza poblacional σ2 
En este caso se procede así: 
1. La función g(μ,X) es modificada de manera tal que se sustituye  σ2  por su estimador 
S2. 
2.  Esto  produce  cambios  en  la  función  de  distribución,  la  que  ya  no  va  a  distribuirse 
N(0,1)  sino  como  una  t  (n‐1),  donde  n‐1  corresponden  a  los  grados  de  libertad  que 
caracterizan a esta distribución. 
 
Los grados de libertad se refieren al número de valores de la muestra que no pueden 
ser  calculados  a  partir  de  conocer  otros  valores,  por  ejemplo,  si  se  conoce  la  media  de 
una muestra n, todos los valores menos 1 pueden variar con libertad. 
 
3. Se establece el nivel de confianza con el que se va a trabajar. 
4. Se obtienen los cuantiles q1 = t (α/2) y q2 = t (1 ‐ α/2) 
 
Se  busca  en  la  Tabla  de  Cuantiles  de  la  Distribución  T  (ver  anexo)  el  valor  de  t  que 
corresponde según el nivel de confianza y los grados de libertad.  
 
5.  Por  lo  tanto,  para  obtener  el  intervalo  cerrado  [LI,  LS]  se  prosigue  de  la  siguiente 
manera: 

S2 S2
LI = X + t ( n−1);(α / 2 ) ⋅    y    LS = X + t ( n−1);1−(α / 2) ⋅  
n n
 

    172  
Introducción a la Inferencia Estadística

J Estimación por intervalo de la varianza de una distribución normal 

En el caso que se necesite estimar la varianza poblacional, tenemos que: 
 
a) Considerando que S2 es el estimador de  σ2  para muestras de tamaño n, la función 
g(. , .) puede expresarse como g (σ2, S2) = (n –1) S2/σ2 
 
b) Se  sabe  que  esta  expresión  se  distribuye  como  una  Chi  2  y  que  depende  de  sus 
grados de libertad: χ2 n –1. 
 

   X 
Figura 3. Función de densidad de la varianza de una distribución normal. 

c) Siendo los cuantiles q1 = χ2(n – 1); (α/2)   y  q2 = χ2(n – 1); (1 ‐α/2) 
 
d) Se obtiene entonces el intervalo cerrado [LI, LS] de la siguiente manera: 
 
S 2 (n − 1) S 2 (n − 1)
LI =     y    LS =  
q2 q1
 
Ejercicios de aplicación: 5.4 a 5.9 

Amplitud de un intervalo 

La  amplitud  de  un  intervalo  es  la  diferencia  entre  el  límite  superior  y  el  inferior  del 
    173  
Introducción a la Inferencia Estadística

mismo,       a = LS –LI. 
a: es la amplitud del intervalo 
 
LS: Límite superior del intervalo 

  LI: Límite inferior del intervalo 

Tamaño mínimo de la muestra, Inferencias sobre el valor esperado μ 

Para  calcular  el  tamaño  mínimo  muestral  con  el  que  se  debe  trabajar  para  hacer 
inferencias o estimar la media poblacional, se debe considerar: 
ƒ El  nivel  de  confianza  (1‐α),  prefijado  por  el  investigador.  Éste  permite  obtener,  en 

función  a  la  tabla  de  percentiles  teóricos,  el  valor  o  coeficiente  z(1‐α/2).  Para  un  nivel  de 
confianza del 95%, éste valor es 1,96; para una del 99%, igual a 2,58. 
ƒ La  precisión  d  con  que  se  desea  estimar  el  parámetro,  frecuentemente  basada  en  la 

amplitud del intervalo de confianza que se desea obtener, ya que 2.d es la amplitud. 
ƒ La varianza σ  de la variable aleatoria cuyo valor esperado se desea estimar. 
2

Con esos datos, y a partir de la expresión de la amplitud de un intervalo de confianza, el 
tamaño muestral resulta:  

zα2 / 2σ 2
n= . 
d2
Si esta expresión se la formula en términos de la amplitud directamente, se convierte en: 

4.zα2 / 2σ 2
n= . 
a2
 
Ejemplo:  
Se  desea estimar  la  media  de la glucemia  basal  de  una  población,  con  una  confianza 
del 95 % y una precisión de ±3mg/dl. Para ello, se dispone de información proveniente de 
un estudio piloto, la cual establece que la varianza es de 250 mg/dl. Luego,  
 

1,96 2.250
n= = 106,7.  
32
Cuando la varianza es desconocida y debe calcularse con información de una muestra, 
la expresión de cálculo del tamaño muestral resulta: 
 
    174  
Introducción a la Inferencia Estadística

4.tα2 / 2;( n−1) .σ 2


n= . 
a2
 
Por último, los siguientes desarrollos se refieren a la obtención del tamaño de muestra 
para  llevar  a  cabo  estudios  en  dos  o  más  poblaciones  (no  meramente  una  como  hasta 
ahora se presentó) y para otros parámetros, como la proporción esperada de éxito de una 
variable  aleatoria  Binomial.  Si  bien  estos  enfoques  serán  utilizados  luego  de  haber 
introducido conceptos de Prueba de Hipótesis (capítulos siguientes de este curso), se los 
presenta  en  esta  sección  puesto  que  condice  con  la  temática  general  aquí  presentada, 
esto es, el cálculo del tamaño de muestra necesario para la obtención de resultados con 
una determinada confianza y calidad. 

Tamaño mínimo de la muestra, Inferencias en dos poblaciones 

Si se desean estimar por intervalo y/o comparar medias o proporciones provenientes 
de  dos  poblaciones  y  verificar  hipótesis  sobre  éstas,  es  necesario  que  el  diseño  del 
estudio considere el cálculo de tamaño muestral. Para ello, se precisa: 
1. Conocer  la  magnitud  de  la  diferencia  a  detectar  que  tenga  interés  relevante.  Se 
pueden comparar dos proporciones o dos medias, por ejemplo. 
2. Disponer o proponer valores de los restantes parámetros (varianza, por ejemplo) 
que caracterizan a la variable que se estudia (por bibliografía o estudios previos). 
3. Conocer el nivel de confianza del estudio (o probabilidad de cometer un error de 
tipo I). 
4. Estar al tanto de la potencia del test o prueba estadística (1 ‐ β) (será introducida 
en el Capítulo próximo). 
5. Definir si la hipótesis es unilateral o bilateral: 
ƒ Bilateral:  Cualquiera  de  los  dos  parámetros  a  comparar  (medias  o 
proporciones)  puede  ser  mayor  o  menor  que  el  otro.  No  se  establece 
dirección. 
ƒ Unilateral:  Cuando  se  considera  que  uno  de  los  parámetros  debe  ser 

    175  
Introducción a la Inferencia Estadística

mayor que el otro, indicando por tanto una dirección de las diferencias. La 
hipótesis bilateral es una hipótesis más conservadora y disminuye el riesgo 
de  cometer  un  error  de  tipo  I  (rechazar  la  H0 cuando  en  realidad  es 
verdadera). 
Para la comparación de dos proporciones, se utiliza la siguiente expresión, deducida del 
intervalo de confianza para diferencia de proporciones (o del estadístico para prueba de 
hipótesis para la diferencia de proporciones) 

[ zα . 2( p(1 − p) + z β . ( p1 (1 − p1 ) + ( p2 (1 − p2 ) ]2
n= , 
( p1 − p2 )
donde  n  representa  la  cantidad  de  unidades  muestrales  en  cada  una  de  las  muestras, 
zα el percentil para un nivel de significación elegido,  z β es el percentil especificando una 

potencia  o  poder  del  test  determinado  para  la  prueba  de  hipótesis  de  diferencia  entre 
proporciones (ver cuadro A, abajo), pi representa al valor hipotético de la proporción para 
la población i‐ésima, i=1,2, y p es la proporción promedio, esto es, p=(p1+p2)/2. 
Cuando  la  diferencia  se  refiere  a  las  medias  muestrales  (variables  cuantitativas),  la 
expresión es semejante a la anterior

2.( zα + zβ ) 2 .σ 2
n= ,
d2
representando  d  a  la  distancia  o  valor  mínimo  de  la  diferencia  que  se  desea  detectar 
cuando los datos son cuantitativos y  σ 2 es la varianza de la variable cuantitativa que tiene 
el grupo estándar o control (referencia) en la comparación de medias. 

Los valores  zα (basado en el nivel de significación) y z β (en función al valor deseado de 

potencia) se indican en el Cuadro A. 

    176  
Introducción a la Inferencia Estadística

Cuadro A: Valores de  zα y  z β para el cálculo de los tamaños muestrales en dos 
poblaciones. Comparación de medias y de proporciones. 


α Test unilateral Test bilateral
0,200 0,842 1,282
0,150 1,036 1,440
0,100 1,282 1,645
0,050 1,645 1,960
0,025 1,960 2,240
0,010 2,326 2,576
Potencia
β (1-β) Zβ
0,01 0,99 2,326
0,05 0,95 1,645
0,10 0,90 1,282
0,15 0,85 1,036
0,20 0,80 0,842
0,25 0,75 0,674
0,30 0,70 0,524
0,35 0,65 0,385
0,40 0,60 0,253
0,45 0,55 0,126
0,50 0,50 0,000
 
Ejemplos: 
1) Se  desea utilizar un nuevo fármaco para el control de la diabetes, considerándose 
que  éste  sería  clínicamente  eficaz  si  lograse  un  descenso  de  15  mg/dl  respecto  al 
tratamiento habitual con el antidiabético estándar. Por estudios previos, se conoce que el 
desvío estándar de la glucemia en pacientes que reciben el tratamiento habitual es de 16 
mg/dl. Aceptando un riesgo de 0,05 y deseando una potencia del test estadístico de 90% 
para detectar diferencias entre dichos fármacos (si es que existen), se calcula el tamaño 
mínimo que debieran tener cada una de las dos muestras a diseñar. Esto es, 

2.( zα + zβ ) 2 .σ 2 2(1,645 + 1,282) 2 .16


n= = = 19,45.  
d2 152

Es decir, se necesitan, por lo menos, 20 pacientes en cada grupo. 
2)  Se  desea  evaluar si  el  Tratamiento  T2 es  mejor  que  el  tratamiento  T1 para el  alivio 
del  dolor,  por  lo  que  se  diseña  un  ensayo  clínico.  Se  conoce,  por  datos  previos,  que  la 

    177  
Introducción a la Inferencia Estadística

eficacia  del  fármaco  habitual  está  alrededor  del  70%  y  se  considera  clínicamente 
relevante si el nuevo fármaco alivia el dolor en un 90%. El nivel de significación a requerir 
es fijado en 0,05 y la potencia o poder de la prueba estadística a desear, de un 80%. Así, 
con esos valores p=0,80 y n resulta: 

[ zα . 2( p(1 − p) + z β . ( p1 (1 − p1 ) + ( p2 (1 − p2 ) ]2
n= ,
( p1 − p2 )
1,645. 2.0,8.(1 − 0,8) + 0,842. 0,7.(1 − 0,7) + 0,9.(1 − 0,9)
=  
(0,7 − 0,9) 2
= 48,

Es decir, en cada grupo se requerirán de 48 pacientes para llevar a cabo el ensayo. 
 
Ejercicio de aplicación: 5.10 

Relación entre Distribuciones Binomial, Poisson y Normal

     Una propiedad importante de la distribución normal es que se puede aproximar a la 
distribución Binomial y Poisson. 
  Se ha demostrado que si Xb ~ B(n,p), con n grande (n>30) y p no muy cercano a 0 ó 
a 1, entonces la variable: 
X b − np
Z ´= . 
npq

se  aproxima  a  la  distribución  normal  estándar  (resultado  válido  debido  al  teorema 
central del límite). Así se puede calcular P(a ≤ Xb ≤ b) considerando a Xb∼ N (n p, ). 
  Del mismo modo, la distribución normal puede aproximarse a una distribución de 
Poisson cuando λ>5, es decir Xp~N (λ,  ). 

Estimación por intervalo de la proporción de una distribución binomial. 

  Existen situaciones en las que se desea estimar el verdadero valor de la proporción 
de éxitos (p), de una distribución binomial.   

    178  
Introducción a la Inferencia Estadística

La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) 
X
es:  pˆ =  
n
 Donde X es igual a la cantidad de éxitos del experimento o proporción muestral. 
  Teniendo  en  cuenta  que  la  distribución  binomial  y  la  distribución  normal  se 
encuentran relacionadas, específicamente para el caso en que el n es grande y p no está 
próximo a 0 ó 1, la variable aleatoria X se distribuye aproximadamente normal. De este 
modo, su esperanza y varianza se obtienen utilizando las propiedades E y V, siendo: 

⎛ x⎞ 1
E ( pˆ ) = E ⎜ ⎟   = ∗ E( X ) = p 
⎝n⎠ n

⎛ x⎞ ⎛x⎞ p * (1 − p )
y  Var ( pˆ ) = Var ⎜ ⎟   = Var ⎜ ⎟ = . 
⎝n⎠ ⎝n⎠ n
 
Por lo tanto 
 

⎛ p ⋅ (1 − p ) ⎞ pˆ − p
p̂ ∼ N ⎜⎜ p, ⎟ 
⎟ entonces  Z = ә N(0,1. 
⎝ n ⎠ p ⋅ (1 − p )
n

Utilizando P(a  ≤ X≤ b); entonces el intervalo de confianza para el parámetro p de nivel 
(1‐α) está dado por 

⎛ p ⋅ (1 − p ) p ⋅ (1 − p ) ⎞
P⎜⎜ pˆ − z < p < pˆ + z ⎟ = 1−α  

⎝ n n ⎠
Donde z se obtiene de la tabla respectiva y considerando el nivel de confianza. 
 
  Así  considerando  que  en  cierta  población  se  seleccionó  aleatoriamente  una 
muestra  de  300  personas  a  las  que  se  les  evaluó  el  estado  nutricional.  De  ellas,  225 
resultaron con preobesidad. Teniendo en cuenta esta información, estimar el porcentaje 
de  persona  de  esa  población  que  presentaría  preobesidad.  Obtener,  con  un  nivel  de 
confianza del 95%, un intervalo de confianza para la proporción. 
 
     El  estimador  puntual  de  p  resulta    p  =  X/n  =  225/300  =  0,75    y  por  lo  tanto  el 
    179  
Introducción a la Inferencia Estadística

intervalo de confianza es 

⎡ 0,75 ⋅ 0,25 0,75 ⋅ 0,25 ⎤


IC ⎢0,75 − 1,96 ⋅ < p < 0,75 + 1,96 ⋅ ⎥ α 0,05      
⎣ 300 300 ⎦

IC [0,75 − 0,049 < p < 0,75 + 0,049] α 0,05  

IC [0,70 < p < 0,799] α 0,05  

 
         Esto se interpreta: con un 95% de confianza se puede concluir que la proporción 
de personas que presentan preobesidad es un valor que está entre el 0,7 y 0,79. 
 
 
Ejercicio de aplicación: 5.11 

    180  
Introducción a la Inferencia Estadística

 
EJERCICIOS DE APLICACIÓN 5.1 a 5.11 

EJERCICIO 5.1 
Se  desea  estudiar  la  incidencia  de  casos  de  dengue  en  una  zona  de  la  Ciudad  de 
Córdoba  y  observar  si  existe  algún  factor  asociado  al  nivel  socioeconómico  que  esté 
afectando  esta  incidencia.  ¿Qué  tipo  de  muestreo  realizaría  teniendo  en  cuenta  esta 
situación? 

EJERCICIO 5.2 

Dada la relación entre sobrepeso y sedentarismo, se tomó una muestra de 90 hombres 
adultos y se les preguntó, entre otras cosas, acerca de cuánto tiempo dedicaban a tareas 
sedentarias  como  mirar  televisión.  Se  obtuvo  una  media  de  9  hs/día,  conociéndose  por 
investigaciones anteriores que la varianza poblacional (σ2) es de 16 (hs / día)2. 
 
i)  Construir los intervalos de confianza del 95% y del 99% para μ. 
ii)   Interpretar los resultados obtenidos. 
 
EJERCICIO 5.3 

En una muestra aleatoria de 345 observaciones se obtiene una media muestral  X  = 
125 con una varianza σ2 = 144. 
 
i)  Calcular el intervalo de confianza del 95% para la media poblacional. 
ii)  Calcular el intervalo de confianza del 99% para la media poblacional. 
 
EJERCICIO 5.4 

A  continuación  se  presentan  los  promedios  y  desvíos  estándares  correspondientes  a 


tres muestras de tamaño 16, provenientes de una población con distribución Normal de 
media µ=80: 

    181  
Introducción a la Inferencia Estadística

 
Muestra  Media    Desvío Estándar 
1º    77,76      8,45 
2º    74,46      5,27 
3º    78,58      7,29 
 
i) A partir de los datos muestrales construir, para cada muestra, un intervalo de 
confianza del 95% para la media de la distribución. 
ii) ¿Contienen los intervalos al parámetro en cuestión? 
iii) Explique los resultados de lo ocurrido en el punto ii) a partir del significado de 
la confianza. 
 
EJERCICIO 5.5 

El supervisor de una fábrica de cereales sospecha que pudo haber errores en el llenado 
de  las  bolsas  y  teme  que  por  esta  razón  no  puedan  salir  a  la  venta.  Para  comprobarlo 
selecciona una muestra aleatoria de 46 bolsas donde se determina una media de 780 g, 
con  una  desviación  estándar  para  la  muestra  de  S  =  6  g.  El  peso  neto  indicado  en  cada 
bolsa es de 800 g. 
i)  Calcular si el intervalo de confianza al 95 % contiene el peso neto impreso en cada 
bolsa. 
ii)  ¿Pueden salir estos cereales al mercado? 
 
EJERCICIO 5.6 

Un grupo de investigación desea estimar el porcentaje medio de sacarosa en la caña 
de azúcar luego de habérsele aplicado un producto compuesto con sales de molibdeno y 
otros metales que tienden a inhibir procesos enzimáticos. (Suponga que el porcentaje se 
distribuye normalmente). Para ello fueron seleccionadas 7 plantas de caña de azúcar a las 
cuales  se  les  aplicó  el  producto,  obteniéndose  una  media  de  0,84  %  de  sacarosa  y  un 
desvío de 0,18% de sacarosa. 
i) Estimar el porcentaje medio de sacarosa con un 90 % de confianza. 
ii) ¿Podría  mejorar  la  precisión  del  intervalo  de  confianza  (disminuir  la  amplitud 
del intervalo) para el porcentaje medio de sacarosa? ¿Cómo lo realizaría? 
    182  
Introducción a la Inferencia Estadística

EJERCICIO 5.7 

Las  edades  de  aparición  de  divertículos,  para  una  muestra  de  9  individuos  con  esa 
dolencia, tiene una distribución normal con media 55 años y una desviación estándar de 4 
años. 
 
i) Encontrar un intervalo de confianza del 95 % para la media poblacional. 
ii) Interpretar el resultado obtenido. 
 

EJERCICIO 5.8 

Se quieren dar a conocer los beneficios de una nueva bebida hipercalórica para niños 
con bajo peso. Este producto tiene una varianza de aumento de la ingesta calórica de 64 
calorías diarias2. Luego de evaluarlo en 22 niños con bajo peso, se encontró una varianza 
de aumento de la ingesta energética de 49 Calorías2 diarias. 
 
i)  Con un nivel de confianza el 95% calcular los intervalos correspondientes 
ii)   Interpretar. 
 
EJERCICIO 5.9 

Los límites de confianza del 95% para la media de una población son 10 y 15. ¿Cuál de 
las siguientes afirmaciones es correcta? 
 
i)  De 100 medias muestrales extraídas al azar de esta población cerca de 95 estarán 
entre 10 y 15. 
ii)  De  100  medias  poblacionales  extraídas  al  azar  de  esta  población  cerca  de  95 
estarán entre 10 y 15. 
i) El  intervalo  de  10  a  15  incluirá  en  un  95%  de  los  casos  la  verdadera  media 
poblacional. 
 
 
 

    183  
Introducción a la Inferencia Estadística

EJERCICIO 5.10 
Se quiere estudiar la talla de niños pre‐escolares que concurren a un Jardín de Infantes 
de  una  escuela  rural  del  norte  de  la  provincia  de  Córdoba.  Para  ello  se  seleccionan  de 
manera  aleatoria  13  niños  de  ambos  sexos  y  se  obtiene  una  media  de  110  cm, 
conociéndose  de  investigaciones  anteriores  que  la  varianza  para  dicha  variable  es  de  9 
cm2. 
 
i) Considerando  una  confianza  del  99%,  calcular  la  amplitud  del  intervalo  para  la 
estimación de la media de la variable talla. 
ii) Trabajando con el mismo nivel de confianza, y dada una amplitud de intervalo de 7                 
cm, ¿cuál debería ser el tamaño mínimo muestral? 
 
EJERCICIO 5.11 

        El dueño de un supermercado desea comprar vegetales frescos envasados de una 
cierta  fábrica  y  antes  de  realizar  la  compra  desea  estimar  la  proporción  de  vegetales 
afectados  por  Escherichia  Coli  en  dicha  fábrica.  Para  dar  una  respuesta  al  dueño  de  la 
cabaña se seleccionaron  al  azar  20  bandejas  de  la  fábrica  registrándose si  estaban  o  no 
afectados  con  Escherichia  Coli.  Si  de  las  20  bandejas  resultaron  15  contaminadas  por 
Escherichia  Coli,  fijando  un  nivel  de  confianza  del    95%.  ¿Cuál  será  el  intervalo  de 
confianza de  p?  

    184  
Introducción a la Inferencia Estadística

RESOLUCIÓN EJERCICIOS 5.1 AL 5.11 

EJERCICIO 5.1 

Se podría realizar un muestreo por etapas. Primero, se realizaría un muestreo aleatorio 
estratificado  considerando  la  variable  nivel  socioeconómico  para  definir  los  estratos  de 
los  barrios  en  la  zona  de  interés.   Posteriormente,  dentro  de  cada  estrato  o  nivel 
socioeconómico, se efectuaría un muestreo aleatorio simple de los barrios que lo forman, 
en  los  que  se  estudiará  la  incidencia  de  casos  de  dengue.  De  esta  manera  estarían 
representados los tres niveles socioeconómicos y los barrios de la zona a investigar. 
 
EJERCICIO 5.2 

i) n= 90 

X = 9 horas/día 
σ2= 16 (horas/día)2 
 

16 16
LI = 9 − 1,96 ⋅       LS = 9 + 1,96 ⋅  
90 90
= 9 − 1,96 ⋅ 0,42 = 9 + 1,96 ⋅ 0,42
= 9 − 0,82         = 9 + 0,82  
= 8,18 = 9,82
 
[8,18 ; 9,82] α 0,05 

Interpretación:  Con  un  95%  de  confianza,  se  puede  afirmar  que  todos  los  hombres 
adultos pasan entre 8,18 y 9,82 horas/día, realizando actividades pasivas. 
 

16 16
LI = 9 − 2,57 ⋅       LS = 9 + 2,57 ⋅  
90 90
= 9 − 2,57 ⋅ 0,42 = 9 + 2,57 ⋅ 0,42
= 9 − 1,08       = 9 + 1,08  
= 7,92 = 10,08

    185  
Introducción a la Inferencia Estadística

[7,92 ; 10,08] α 0,01 
Interpretación:  Con  un  99%  de  confianza,  se  puede  afirmar  que  todos  los  hombres 
adultos pasan entre 7,92 y 10,08 horas/día, realizando actividades pasivas. 
 
ii) Ambos  intervalos,  con  sus  respectivos  niveles  de  confianza,  contienen  al 
verdadero valor de la media poblacional de la cantidad de horas que los hombres 
adultos pasan realizando actividades pasivas. 
 

EJERCICIO 5.3 

i)  n= 345 X = 125 


σ2= 144 
 

144 144
LI = 125 − 1,96 ⋅       LS = 125 + 1,96 ⋅  
345 345
= 125 − 1,96 ⋅ 0,65 = 125 + 1,96 ⋅ 0,65
= 125 − 1,27      = 125 + 1,27  
= 123,73 = 126,27

 [123,73 ; 126,27] α 0,05 

Interpretación: Con un 95% de confianza, se puede afirmar que la media poblacional se 
encuentra entre 123,73 y 126,27. 
 
ii) 

144 144
LI = 125 − 2,57 ⋅       LS = 125 + 2,57 ⋅  
345 345
= 125 − 2,57 ⋅ 0,65 = 125 + 2,57 ⋅ 0,65
= 125 − 1,67      = 125 + 1,67  
= 123,33 = 126,67

[123,33 ; 126,67] α 0,01 

Interpretación: Con un 99% de confianza, se puede afirmar que la media poblacional se 

    186  
Introducción a la Inferencia Estadística

encuentra entre 123,33 y 126,67. 
EJERCICIO 5.4 
i) Muestra 1 

71,4 71,4
LI = 77,76 − 2,13 ⋅      LS = 77,76 + 2,13 ⋅  
16 16
= 77,76 − 2,13 ⋅ 2,11 = 77,76 + 2,13 ⋅ 2,11
= 77,76 − 4,49       = 77,76 + 4,49  
= 73,27 = 82,25

IC [73,27; 82,25] α 0,05 

Muestra 2 

27,77 27,77
LI = 74,46 − 2,13 ⋅       LS = 74,46 + 2,13 ⋅  
16 16
= 74,46 − 2,13 ⋅ 1,31 = 74,46 + 2,13 ⋅ 1,31
= 74,46 − 2,80         = 74,46 + 2,80  
= 71,65 = 77,26

IC [71,65;77,26] α 0,05 

Muestra 3 

53,14 53,14
LI = 78,58 − 2,13 ⋅       LS = 78,58 + 2,13 ⋅  
16 16
= 78,58 − 2,13 ⋅ 1,82 = 78,58 + 2,13 ⋅ 1,82
= 78,58 − 3,88         = 78,58 + 3,88  
= 74,70 = 82,46

IC    [74,70; 82,46] α 0,05 

ii) Los intervalos de las muestras 1 y 3 contienen al parámetro en cuestión, en cambio el 
intervalo de la muestra 2no. 
iii) Al trabajar con un nivel de confianza del 95% (nivel de significación de 0,05) se está 
aceptando que existe un 0,05 de probabilidad de que el parámetro no se encuentre 
dentro del intervalo calculado. Este podría ser el caso del resultado observado en la 
muestra 2. 

    187  
Introducción a la Inferencia Estadística

 
EJERCICIO 5.5 

i)  n = 46 

X = 780 gramos. 
S2= 36 gramos2 

36 36
LI = 780 − 2,014 ⋅       LS = 780 + 2,014 ⋅  
46 46
= 780 − 2,014 ⋅ 0,88 = 780 + 2,014 ⋅ 0,88
= 780 − 1,77       = 780 + 1,77        
= 778,23 = 781,77

[778,23 ; 781,77] α 0,05 

ii)  Los cereales no pueden salir a la venta, porque el intervalo de confianza obtenido 
no incluye al verdadero peso de cada bolsa. 
 

EJERCICIO 5.6 

             n = 7 

X = 0,84 
             S = 0,18 
i)  

0,032 0,032
LI = 0,84 − 1,94 ⋅       LS = 0,84 + 1,94 ⋅  
7 7
= 0,84 − 1,94 ⋅ 0,068 = 0,84 + 1,94 ⋅ 0,068
= 0,84 − 0,13       = 0,84 + 0,13    
= 0,71 = 0,97

 [0,71; 0,97] α 0,10 

Con  un  90%  de  confianza,  el  contenido  medio  de  sacarosa  de  la  caña  de  azúcar  se 
encuentra entre 0,71 y 0,97%. 
 

    188  
Introducción a la Inferencia Estadística

ii) Si, la precisión del intervalo de confianza se puede mejorar aumentando el tamaño 
de la muestra o disminuyendo el nivel de confianza. 
EJERCICIO 5.7 

i)  n = 9 

X = 55 años 
S = 4 años 

16 16
LI = 55 − 2,30 ⋅         LS = 55 + 2,30 ⋅  
9 9
= 55 − 2,30 ⋅ 1,33 = 55 + 2,30 ⋅ 1,33
= 55 − 3,059         = 55 + 3,059    
= 51,9 = 58,05

 [52 ; 58] α 0,05 

ii)  Con un 95% de confianza se puede afirmar que la media de edad para la aparición 
de divertículos se encuentra entre 52 y 58 años. 
 
EJERCICIO 5.8 

i)  
n= 22 
σ2= 64 Cal2 
 S2= 49 Cal2 
 
Siendo los cuantiles  
q1 = χ2(21); (0,025) = 10,28 
q2 = χ2(21); (0,975) = 35,48 
 

S 2 (n − 1) S 2 (n − 1)
LI =         LS =  
q2 q1
49 ⋅ (22 − 1) 49 ⋅ (22 − 1)
LI =         LS =  
35,48 10,28
LI = 29,0           LS = 100,1  

    189  
Introducción a la Inferencia Estadística

[29,0 ; 100,1] α 0,05 

ii)  Si  se  pueden  dar  a  conocer  los  beneficios    de  la  bebida,  ya  que  la  varianza 
poblacional queda incluida en el intervalo obtenido. 
 
EJERCICIO 5.9 

Respuesta correcta  i) y iii) son correctas. 
 
EJERCICIO 5.10 

i) 

σ2 σ2
LI = X + Z (α / 2 ) ⋅         LS = X + Z (α / 2 ) ⋅  
n n
 

9 9
LI = 110 − 2,57 ⋅         LS = 110 + 2,57 ⋅  
13 13
= 110 − 2,57 ⋅ 0,83 = 110 + 2,57 ⋅ 0,83
= 110 − 2,13        = 110 + 2,13  
= 107,87 = 112,13
 
a = LS – LI 
   = 112,13 – 107,87 
   = 4,26 
 
Rta: la amplitud del intervalo es 4,26 cm. 
 

4.zα2 / 2σ 2
i) n= . 
a2
4.(−2,57) 2 ⋅ 3 2
n=  
72
237,78
n= = 4,85  
49

    190  
Introducción a la Inferencia Estadística

 
Rta:  para  garantizar  una  amplitud  de  intervalo  de  7,  se  necesita  un  tamaño  mínimo 
muestral de 5 niños. 
EJERCICIO 5.11 

El estimador puntual de p resulta    = X/n = 15/20 = 0,75  y por lo tanto el intervalo de 
confianza es 
 

⎡ 0,75 ⋅ 0,25 0,75 ⋅ 0,25 ⎤


IC ⎢0,75 − 1,96 ⋅ < p < 0,75 + 1,96 ⋅ ⎥ α 0,05  
⎣ 20 20 ⎦

IC [0,56 ;  0,939] α 0,05 
 
Rta: Con un 95% de confianza se puede concluir que la proporción de bandejas infectadas 
con escherichia coli está entre 0,56 y 0,939. 

    191  
192

 
CAPÍTULO 6: 
ESTADÍSTICA INFERENCIAL: PRUEBA DE HIPÓTESIS 

193

 
194 
 
Estadística Inferencial: Prueba de Hipótesis

La comparación estadística de parámetros poblacionales, mediante la formulación de 
hipótesis, es una herramienta frecuentemente utilizada para evaluar con  rigor científico  
los resultados de una investigación. Este procedimiento permite concluir si los resultados  
obtenidos en un estudio o experimento son sólo efecto de diferencias casuales entre los 
grupos  de  una  muestra,  o  bien,  si  reflejan  verdaderas  diferencias  en  la  población.  Para 
esto es que se utilizan las Pruebas de Hipótesis. 
 

Hipótesis nula y alternativa 

La palabra hipótesis deriva del griego “hypóthesis” y significa la suposición de alguna 
cosa, sea cierta o no, para inferir de ella una consecuencia. 
 
Supongamos  que  se  tienen  dos  poblaciones  en  estudio,  para  cada  una  de  las  cuales 
corresponde  uno  o  más  parámetros  respecto  a  una  variable  de  interés.    Así,  si  μ  es  el 
parámetro media poblacional, entonces:  
    μ1 es la media de la variable estudiada en la población 1 , 
    y μ2 es la media de la variable estudiada en la población2. 
 
Si  se  desea  probar  si  las  medias  poblacionales  coinciden  o  no,  la  hipótesis  científica 
que está en juego es que  μ1 sea igual a  μ2. A partir de esta hipótesis, y a los fines de su 
verificación,  se  deben  construir  dos  hipótesis  estadísticas,  denominadas  como  nula  y 
alternativa. 
La  hipótesis  nula,  que  se  simboliza  H0,  es  el  supuesto  que  se  cree  provisoriamente 
como verdadero, y que nada cambiaría si ella fuera cierta. Ella establece que no existen 
diferencias entre el verdadero valor del parámetro de la población y el que se supone en 
la hipótesis.  
Al  realizar  un  test  de  hipótesis  siempre  la  hipótesis  nula  es  contrastada  con  otra 
hipótesis  contraria,  denominada  hipótesis  alternativa,  que  se  denota  H1,  y  en  la  que 
generalmente el investigador incluye lo que sospecha. Luego de someter la H0 a prueba, 
ésta puede aceptarse o no. En este último caso la decisión estadística resultante consiste 
en aceptar la H1. 

195 
 
Estadística Inferencial: Prueba de Hipótesis

Ejemplo: Fue mencionado que cuando se está realizando un trabajo de investigación, 
lo  primero  que  se  construye  es  la  hipótesis  científica,  y  a  posteriori  ésta  debe  ser 
traducida a hipótesis estadísticas. Supongamos entonces que un Licenciado en Nutrición 
dedicado  a  la  investigación  en  el  área  de  dietoterapia  del  paciente  con  enfermedades 
crónicas,  sospecha  que  cierta  dieta  (dieta  B)  produce  mejores  resultados  que  otra 
indicada  tradicionalmente  (dieta  A)  a  pacientes  diabéticos.  Este  supuesto  constituye  su 
hipótesis científica, la cual puede ser traducida en las siguientes hipótesis estadísticas: 
H0: La dieta A es igual de beneficiosa que la dieta B, para pacientes diabéticos. 
H1: La dieta A produce efectos más benéficos que la dieta B, para pacientes diabéticos. 
Se observa que la sospecha del investigador se incluyó en el postulado de la hipótesis 
alternativa (H1). 
 
Ejemplo: Una hipótesis científica puede postular que las personas con niveles altos de 
colesterol,  luego  de  aplicada  una  dieta  específica,  disminuirán  dichos  niveles.  Las 
hipótesis estadísticas serían en este caso: 
H0: Los niveles de colesterol son iguales a 200 mg/dl, 
H1: Los niveles de colesterol son menores a 200 mg/dl. 
 
Siendo  μ  la  media  poblacional  de  la  variable  de  interés  (colesterol  en  mg/dl),  y  μ0  el 
valor  a  comparar  para  dicho  parámetro  (μ0=  200  mg/dl  en  este  caso),  las  hipótesis 
anteriores puede denotase como: 
H0: μ = μ0 , 
H1: μ<μ0 .   
 
Si en cambio, no existiera una sospecha específica acerca de μ, solo que μ no es igual a 
μ0, la H1 debiera formularse como sigue: 
H0: μ = μ0 , 
H1: μ≠μ0 . 
 
 
 

196 
 
Estadística Inferencial: Prueba de Hipótesis

En este caso, las hipótesis estadísticas postularían que:  
H0: Los niveles de colesterol son iguales a 200 mg/dl, 
H1: Los niveles de colesterol son diferentes a 200 mg/dl. 
Alternativamente, si se quisiera probar que μ es mayor que μ0,  se tendría: 
H0: μ = μ0 ,   
H1: μ>μ0 , 
indicando H0 que los niveles de colesterol son iguales a 200 mg/dl, y H1 que los niveles 
de colesterol son mayores a 200 mg/dl. 
 
Una  vez  que  se  han  establecido  las  hipótesis  y  se  ha  planificado  el  experimento,  es 
decir, cómo serán obtenidos los datos, se debe seleccionar un estadístico de prueba, cuya 
distribución quede completamente especificada bajo la hipótesis nula, suponiendo que lo 
que especifica la hipótesis nula es verdadero.  
 

Nivel de significación estadística 

El nivel de significación se denota con α y determina la posibilidad de cometer el error 
de rechazar la hipótesis nula cuando es verdadera. Los dos niveles de significación que se 
utilizan  con  mayor  frecuencia  son  0,05  (5%)  y  0,01  (1%).  Si  se  utiliza  un  nivel  de 
significación  de  0,05  se  está  aceptando  el  riesgo  de  que  en  5  de  100  muestras  podría 
rechazarse una hipótesis nula verdadera (y por ende, aceptarse 95 veces). Con un nivel de 
significación  de  0,01  el  riesgo  de  rechazar  la  hipótesis  nula  cuando  es  verdadera  es 
menor. 
 

Error Tipo I y Tipo II 

La decisión con respecto a cuándo aceptar o rechazar la hipótesis nula depende de la 
consideración  de  cuán  probable  es  que  las  diferencias  observadas  sean  resultado  de  la 
casualidad.  Debido  a  que,  generalmente,  no  se  dispone  de  información  acerca  de  la 
población, es que resulta imposible asegurar de manera categórica que la hipótesis nula 
sea verdadera o falsa. No se debe olvidar que cuando se hacen inferencias estadísticas a 

197 
 
Estadística Inferencial: Prueba de Hipótesis

partir de información parcial, siempre existe un riesgo de error. Este error puede ser de 
dos  tipos:  se  comete  un  error  tipo  I  cuando  se  rechaza  la  hipótesis  nula  siendo  ésta 
verdadera y se comete error tipo II cuando se acepta una hipótesis nula siendo ésta falsa. 
 

Región de aceptación y región de rechazo 

Cuando  ya  se  estableció  el  estadístico  de  la  prueba,  su  distribución  y  el  nivel  de 
significación,  se  deben  establecer  los  límites  que  dividen  el  espacio  muestral  en  una 
región en la que se rechaza la hipótesis nula y otra en la que se acepta. Luego, la Región o 
zona  de  rechazo  de  la  hipótesis  nula  es  uno  o  más  intervalos  de  la  recta  real  que 
describen al evento que conduce a su rechazo y cuya probabilidad, cuando es verdadera,  
es  α  (es  decir,  el  nivel  de  significación  establecido).  Por  su  parte,  la  Región  o  zona  de 
aceptación de la hipótesis nula es un intervalo de la recta real que describe al evento que 
conduce a su aceptación y cuya probabilidad, cuando es verdadera, es 1 ‐ α. 
El  límite  entre  la  región  de  aceptación  y  rechazo  de  la  hipótesis  nula  se  determina 
mediante  la  especificación  de  la  hipótesis  alternativa.  Con  esto,  se  establece  el  tipo  de 
prueba y la condición de la zona de rechazo.  
Se  dice  que  la  prueba  es  unilateral  derecha  cuando  la  zona  de  rechazo  se  ubica  a  la 
derecha  del  valor  esperado  del  estadístico  bajo  hipótesis  nula.  EEs  lo  mismo  decir  que 
cuando  la  hipótesis  nula  no  es cierta  el  valor esperado  es mayor  al  valor  que  se espera 
cuando sí lo es. Esto corresponde a una hipótesis alternativa del tipo H1:  μ>μ0, como se 
muestra en Tabla 1. 
Se dice que la prueba es unilateral izquierda cuando la zona de rechazo se ubica a la 
izquierda  del  valor  esperado  del  estadístico  bajo  hipótesis  nula.  Es  lo  mismo  decir  que 
cuando la  hipótesis nula no  es cierta el  valor esperado es menor al valor que se espera 
cuando sí lo es. Contrariamente al caso anterior, la hipótesis alternativa sería aquí del tipo 
H1: μ<μ0 (Tabla 1). 
Finalmente, se dice que la prueba es bilateral cuando la zona de rechazo se ubica a la 
derecha y a la izquierda del valor esperado del estadístico bajo hipótesis nula. Es lo mismo 
decir que cuando la hipótesis nula no es cierta el valor esperado es distinto al valor que se 
espera cuando sí lo es. Por ende, en una prueba bilateral H1: μ≠μ0. 

198 
 
Estadística Inferencial: Prueba de Hipótesis

 
 
Tabla 1. Hipótesis nula y alternativa según tipo de prueba de hipótesis. 
Prueba bilateral  Prueba unilateral derecha Prueba unilateral izquierda
H0: μ = μ0  H0: μ = μ0  H0: μ = μ0 
H1: μ≠μ0  H1: μ>μ0  H1: μ<μ0 
 
 
Siendo  los  puntos  críticos  los  valores  que  separan  la  zona  de  aceptación  de  la  de 
rechazo,  las  situaciones  anteriores  pueden  esquematizarse,  gráficamente,  como  se 
muestra en las figuras 1 a 3. 
 

Figura 1. Distribución del estadístico bajo H0 en una prueba unilateral derecha. 

199 
 
Estadística Inferencial: Prueba de Hipótesis

Figura 2.Distribución del estadístico bajo H0 en una prueba unilateral izquierda. 

Figura 3. Distribución del estadístico bajo H0 en una prueba bilateral. 

Por  último,  se  debe  calcular  el  valor  del  estadístico  propuesto  para  determinar  si  el 
valor  encontrado  se  encuentra  dentro  o  fuera  de  la  región  de  aceptación.  Para  esto  se 
determinan  el  /los  punto/s  críticos  en  base  a  qué  tipo  de  prueba  se  trate  (bilateral  o 
unilateral, derecha o izquierda). 
Para  todas  las  pruebas  estadísticas  se  han  realizado  distribuciones  teóricas  que 
permiten establecer si los valores obtenidos mediante el cálculo están más allá del rango 

200 
 
Estadística Inferencial: Prueba de Hipótesis

de probabilidad de que la hipótesis nula sea verdadera. Para obtener los puntos críticos 
se debe consultar la tabla teórica correspondiente a la prueba que se ha utilizado. 
Una vez obtenido el valor teórico se compara con el valor calculado. Si éste pertenece 
a  la  región  de  rechazo  se  puede  concluir  que  la  hipótesis  nula  debe  ser  rechazada, 
mientras  que  en  caso  de  que  el  valor  calculado  se  ubique  dentro  de  la  región  de 
aceptación, se concluye que no hay evidencia suficiente como para rechazar la hipótesis 
nula. 
 

Relación entre los Intervalos de Confianza y las Pruebas de Hipótesis 

Se  ha  visto  que  el  cálculo  de  intervalos  de  confianza  sirve  fundamentalmente  al 
objetivo  de  estimar  parámetros,  mientras  que  las  pruebas  de  hipótesis  se  presentaron 
como un instrumento útil para la toma de decisiones en relación a los valores postulados 
para ellos. En muchas oportunidades los intervalos de confianza y las pruebas de hipótesis 
pueden  ser  utilizados  alternativamente.  Por  ejemplo,  dada  la  estimación  de  μ  por 
intervalo de confianza, se puede observar si el valor hipotético de  μ queda comprendido 
dentro del intervalo, lo cual indicaría que no habría pruebas suficientes para rechazar la 
hipótesis nula. En cambio, si ese valor queda por fuera del intervalo obtenido estaríamos 
en condiciones de rechazarla. 
 

Prueba de hipótesis para la media de una variable aleatoria con distribución Normal 

Antes  de  conducir  una  prueba  de  hipótesis  para  el  parámetro  μ  es  necesario 
considerar dos aspectos claves: si las hipótesis involucran a una o a dos poblaciones, y si 
entre los datos disponibles para conducir el análisis se incluye la varianza poblacional  σ2  
de  la  variable  aleatoria  de  interés.  De  esto  dependerá  la  selección  del  estadístico  de 
contraste  para  la  prueba.  A  continuación  se  presentan  los  pasos  a  seguir  para  la 
realización  de  una  prueba  de  hipótesis  respecto  a  la  media  en  una  población,  y  en  los 
casos en que se conoce σ2 (A) y en que no se conoce σ2 (B). 
 
 

201 
 
Estadística Inferencial: Prueba de Hipótesis

A) Si se conoce la varianza de la variable aleatoria, los pasos a seguir son: 
 
1.  Se establecen las hipótesis de la investigación. 
 
X − μ0
2.  Como la varianza es conocida se utiliza el estadístico  Z = , 
σ
n
donde Z ∼ N (0,1) bajo H0. 
 
3. Se elige el nivel de significación con el cual se va a trabajar, definido comúnmente 
como α=0,05 ó 0,01. 
 
4. Se determinan los límites de la región de aceptación, según se trate de una prueba 
bilateral, unilateral derecha o unilateral izquierda. Se busca el punto crítico que se 
obtiene de la Tabla de Cuantiles de la Distribución Normal Estándar. 
 
5. Se aplica la fórmula del estadístico seleccionado (Z). 
 
6. Se  compara  este  valor  observado  con  el  valor  teórico  (punto  crítico).  Si  el  valor 
calculado  se  ubica  dentro  de  la  zona  de  rechazo,  se  decide  rechazar  la  hipótesis 
nula; en caso contrario, la decisión estadística correspondiente será la aceptación 
de lo postulado en H0. 
 

Ejercicios de aplicación: 6.1 a 6.3 

 
B) Si no se conoce la varianza de la variable aleatoria, los pasos a seguir son: 
 
1.  Se establecen las hipótesis de la investigación. 
X − μ0
2.  Como la varianza es desconocida se utiliza el estadístico  t =  
S
n

202 
 
Estadística Inferencial: Prueba de Hipótesis

  que bajo H0 se distribuye como una t de Student con n – 1 grados de libertad. 
 
3. Se elige el nivel de significación con el cual se decide trabajar ( α=0,05 ó 0,01) 
 
4. Se determinan los límites de la región de aceptación según se trate de una prueba 
bilateral, unilateral derecha o unilateral izquierda. Se busca el o los puntos críticos 
que en este caso se obtienen de la Tabla de Cuantiles de la Distribución T. 
 
5. Se aplica la ecuación correspondiente al estadístico seleccionado (t). 
 
6. Se  compara  este  valor  observado  con  el  valor  teórico  (punto  crítico).  Si  el  valor 
calculado  se  ubica  dentro  de  la  zona  de  rechazo,  se  decide  rechazar  la  hipótesis 
nula; en caso contrario, la decisión estadística correspondiente será la aceptación 
de lo postulado en H0. 
 
Ejercicios de aplicación: 6.4 a 6.5 

 
Potencia de un Test Estadístico

Sea  T  una  prueba  estadística  para  una  hipótesis  sobre  el  parámetro  θ,  siendo  θ 
cualquier parámetro (no necesariamente el valor esperado  μ, o para la varianza  σ2) con 
región  crítica  denotada  por  C. La  Potencia  del  Test  o  de  la  Prueba  se  define  como  la 
probabilidad de rechazar la hipótesis nula (H0) dado el valor de θ. Esto es, 
 
π (θ ) = P[rechazar ⋅H o| θ ] = P[T ∈ C (θ )],  
para cualquier valor de θ. 
 
Supongamos  que  se  desea  verificar  la  hipótesis  H0:  μ=μ0 respecto  (o  versus)  a  la 
hipótesis  alternativa  H1:  μ≠μ0. Idealmente,  nos  gustaría  rechazar  la  hipótesis  H0 para 
cualquier valor de μ en H1 con probabilidad 1, y del mismo modo, nos gustaría aceptar (no 
rechazar) la hipótesis H0 para cualquier valor de μ en H0 con probabilidad 1 (Figura 4). 
 

203 
 
Estadística Inferencial: Prueba de Hipótesis

Figura  4.  Curvas  de  Potencia  para  Pruebas  de  Hipótesis,  con  hipótesis  alternativa 
bilaterales. 

 
La potencia de un test de hipótesis puede afectarse según: 
• El tamaño de la muestra: a medida que aumenta el tamaño muestral, la potencia 
de la prueba se incrementa. Esto se logra manteniendo constante al resto de los 
parámetros involucrados (varianza, etc). 

• El  nivel  de  significación: a  medida  que  aumenta  el  nivel  de  significación,  la 
potencia de la prueba se incrementa. En otras palabras, al crecer  α, se reduce la 
región  de  aceptación  y  como  resultado  se  logra  una  probabilidad  mayor  de 
rechazar la hipótesis nula. Así, se tiene menos chance de aceptar la hipótesis nula 
cuando ésta es falsa, esto es, menor chance de cometer un error de tipo II, y por 
ende, mayor potencia de la prueba. 

• El verdadero valor del parámetro a ser testeado: cuanto mayor sea la diferencia 
entre el "verdadero" valor del parámetro y el valor establecido o especificado en 
la hipótesis nula, mayor es la potencia del test. 

 Concretamente, considere el estadístico: 
X − μ0
Z= , 
σ
n
para  la  hipótesis  H0:  μ=μ0 vs  H1:  μ≠μ0.  Recordemos  que  el  error  de  tipo  II  es  error 
cometido al aceptar la hipótesis nula cuando ésta es falsa (H1 verdadera), es decir 
P[Error de tipo II] = P[aceptar H0| H1verdadera] = β 

204 
 
Estadística Inferencial: Prueba de Hipótesis

 
Si suponemos que la H0 es falsa, entonces podríamos asumir que el verdadero valor del 
valor esperado o media poblacional es μ=μ0+δ. Luego, el estadístico de la prueba puede 
re‐escribirse según: 
X − μ0 X − (μ0 + δ ) δ
Z= = + . 
σ σ σ
n n n

⎛ δ ⎞
Por  lo  tanto,  la  distribución  de  Z0  cuando  μ=μ0+δ  es  Z ~ N ⎜ ,1⎟.   Así,  para  una 
⎝σ / n ⎠
prueba bilateral, la probabilidad de cometer el error de tipo II es igual a la probabilidad de 
que  Z0  se  ubique  entre  –zα/2  y  zα/2  dado  que  H1  es  verdadera,  lo  que  es  calculado  de  la 
siguiente manera: 

⎛ δ ⎞ ⎛ δ ⎞
β = Φ ⎜ zα / 2 − ⎟ − Φ ⎜ − zα / 2 − ⎟,  
⎝ σ/ n⎠ ⎝ σ/ n⎠

donde Φ es la función de distribución acumulada de la N(0,1).  
Para hipótesis de tipo unilateral (derecha o izquierda), las probabilidades de cometer 
el error de tipo II son dadas, respectivamente por 

⎛ δ

β = Φ⎜ zα / 2 − ⎟,
⎝ σ/ n⎠
 
⎛ δ ⎞
1 − Φ⎜ − zα / 2 − ⎟.
⎝ σ/ n⎠

Como la potencia de una prueba de hipótesis es justamente 1 menos la probabilidad 
de  cometer  ese  error,  es  decir  1‐β,  entonces  las  expresiones  para  el  cálculo  de  dicha 
potencia, resultan en el caso bilateral: 

⎛ δ ⎞ ⎛ δ ⎞
P = 1 − Φ⎜ zα / 2 − ⎟ + Φ⎜ − zα / 2 − ⎟,  
⎝ σ/ n⎠ ⎝ σ/ n⎠

y para el caso unilateral izquierda y derecha, respectivamente, donde (como antes),  Φ es 
la función de distribución acumulada de la N(0,1): 

205 
 
Estadística Inferencial: Prueba de Hipótesis

⎛ δ ⎞
P = Φ⎜ − zα / 2 − ⎟,
⎝ σ/ n⎠
 
⎛ δ ⎞
P = 1 − Φ ⎜ zα / 2 − ⎟,
⎝ σ/ n⎠
Este  desarrollo,  para  el  cálculo  de  la  potencia  de  un  test,  se  traslada  al  resto  de  los 
estadísticos para prueba de hipótesis, como el T y T’. 
 
Ejemplo: Un supervisor de calidad desea verificar, con base en una muestra aleatoria 
de tamaño n=35 y un α=0,05 y un desvío estándar σ=2,1mm, si la profundidad promedio 
de un poro (orificio) en una pieza determinada de un sistema de producción en serie es 
72,4mm (μ0). Para calcular la potencia del test Z, con H0: μ=72,4mm versus H1: μ≠72,4mm, 
utilizamos las expresiones enunciadas anteriormente.Esto es, si  

⎛ δ ⎞ ⎛ δ ⎞
β = Φ ⎜ zα / 2 − ⎟ − Φ⎜ − zα / 2 − ⎟ = Φ (−0,8572) − Φ (−4,7772) = 0,1957,  
⎝ σ/ n⎠ ⎝ σ/ n⎠

De  este  modo,  la  potencia  del  test  en  detectar  una  diferencia,  por  ejemplo  de,  δ=1 
entre  las  hipótesis  nula  y  alternativa,  es  dada  por  P=1‐β=1‐0,1957=0,8043.  Luego,  la 
potencia del test es aproximadamente 80,43%. 
 

Prueba de hipótesis para la varianza de una variable aleatoria con Distribución Normal 

Cuando  en  la  hipótesis  científica  el  parámetro  involucrado  es  la  varianza  poblacional 
de  una  población  (σ2)  para  una  variable  aleatoria  determinada,  luego  de  formular  las 
hipótesis  nula  y  alternativa  correspondientes,  los  pasos  a  seguir  para  la  prueba  de 
hipótesis serán: 
 
1.   Se establecen las hipótesis de la investigación. En este caso la hipótesis nula será 
H0:  σ2=σ20,  mientras  que  H1  podrá  definirse  entre  una  de  las  siguientes 
alternativas, según el tipo de prueba de que se trate: 
  H1: σ2≠σ20 (prueba bilateral) 
  H1: σ2>σ20 (prueba unilateral derecha) 
  H1: σ2<σ20 (prueba unilateral izquierda) 

206 
 
Estadística Inferencial: Prueba de Hipótesis

2.  En este caso el estadístico que se va a utilizar es el siguiente: 

χ2 =
(n − 1)S 2 ,
σ2  
el cual se distribuye como χ2(n – 1) 
3.  Se elige el nivel de significación α con el cual se desea trabajar. 
4.  Se delimitan las regiones de no rechazo y rechazo de la hipótesis nula, obteniendo 
el cuantil correspondiente (punto crítico) en la Tabla de Chi Cuadrado.  
 
5.  Se aplica la ecuación del estadístico seleccionado. 
 
6.    Se  comparan  ambos  resultados.  Si  el  valor  obtenido  se  ubica  en  la  región  de 
rechazo,  la  decisión  a  tomar  es  rechazar  la  hipótesis  nula.  Si  en  cambio  se 
encuentra dentro de la región de no rechazo, H0 debe ser aceptada. 
 
Ejercicio de aplicación: 6.6 

Prueba de hipótesis para la proporción de una distribución binomial 

En el campo de la salud es frecuente que la sospecha de un investigador involucre a la 
proporción como parámetro a  investigar. Si se  conoce que la variable  de  interés es una 
variable  aleatoria  que  sigue  una  distribución  binomial,  basados  en  la  relación  entre  la 
distribución binomial y la Normal, se puede conducir una prueba de hipótesis siguiendo 
estos pasos: 
 
1.   Se establecen las hipótesis de la investigación. 
       H0: p=p0 , 
  H1: p≠p0 , si se trata de una hipótesis bilateral, ó 
H1: p>p0 , ó H1: p<p0 , en el caso unilateral derecho o izquierdo, respectivamente. 
 
2.  En este caso el estadístico que se va a utilizar es el siguiente: 

207 
 
Estadística Inferencial: Prueba de Hipótesis

pˆ − p 0
Z= ,
p 0 ⋅ (1 − p 0 )
n  

donde  p̂ representa la proporción observada en la muestra estudiada y  p0 el parámetro 

involucrado en la sospecha del investigador (por ende, incluido en la formulación de 
hipótesis estadísticas). 

3.  Se estable el nivel de significación α con el cual se desea trabajar. 
4. Se delimitan las regiones de no rechazo y rechazo de la hipótesis nula, obteniendo 
el cuantil correspondiente a el/los valor/es crítico/s de la Tabla Normal Estándar. 
5. Se calcula el estadístico seleccionado (Z). 
6.  Se  comparan  resultados.  Si  el  valor  obtenido  se  ubica  en  la  región  de  rechazo,  la 
decisión  a  tomar  es  rechazar  la  hipótesis  nula.  Contrariamente,  la  decisión 
estadística en caso de que dicho valor se ubique en la zona de no rechazo será la 
de aceptar lo que postula. 

208 
 
Estadística Inferencial: Prueba de Hipótesis

EJERCICIOS DE APLICACIÓN 6.1 A 6.6 

EJERCICIO 6.1 

La ganancia mensual promedio de peso de los pacientes internados en UTI (Unidad de 
Terapia  Intensiva)  que  son  alimentados  por  vía  parenteral  es  de  650  gramos,  con  un 
desvío estándar (σ) de 25 gramos. Se quiere determinar si modificando la composición de 
la  fórmula  parenteral  se  puede  aumentar  la  ganancia  de  peso  de  estos  pacientes.  Para 
ello  se  les  administra  la  nueva  fórmula  a  16  personas  internadas,  obteniéndose  una 
ganancia  mensual  promedio  de  750  gramos.  Se  trabajó  con  un  nivel  de  significación 
α=0,05. 
 
EJERCICIO 6.2 

Se sospecha que una máquina embotelladora de leche no funciona adecuadamente. El 
3
volumen promedio de leche de las botellas debe ser de 970 cm . Se supone que el desvío 
3
estándar de la variable "volumen" asume un valor de 20 cm . 
 
i) ¿Cuál  es  el  objetivo  del  estudio?  En  función  de  dicho  objetivo,  ¿cuáles  serían  las 
hipótesis estadísticas a contrastar? 
ii) Para  las  hipótesis  planteadas  en  el  inciso  anterior,  ¿qué  estadístico  de  contraste  se 
debe usar? 
iii) ¿Cuáles  serían  en  este  caso  el  o  los  puntos  críticos  que  delimiten  la  o  las  zonas  de 
rechazo y no rechazo de H0 para un nivel de significación de 0,05? 
iv) Para poder tomar una decisión respecto a las hipótesis planteadas se seleccionaron 
aleatoriamente  9  botellas,  encontrándose  una  media  de  977  cm3.  ¿Hay  evidencia 
estadística para concluir que la máquina funciona mal? 
v) ¿Cuál sería la conclusión si se hubiesen tomado 49 botellas obteniendo también un             
volumen medio de 977 cm3? 
 

209 
 
Estadística Inferencial: Prueba de Hipótesis

 
EJERCICIO 6.3 

En una clínica neonatal se sospecha que la media de peso de niños al nacer es menor a 
2,8  Kg,  que  es  el  valor  de  media  de  peso  al  nacer  histórico  de  dicha  institución.  Se 
selecciona una muestra aleatoria de 230 niños y se obtiene una media de peso de 2,7 Kg. 
Se conoce que la  σ2  es 0,9 Kg2. ¿Se puede confirmar la sospecha de la clínica, con 99% de 
confianza?            
 
EJERCICIO 6.4 

Un  laboratorio  “A”  se  ha  dedicado  a  la  fabricación  de  un  estimulante  del  apetito  y 
afirma que este producto aumenta el peso promedio de niños inapetentes en más de 250 
gramos semanales, que es el aumento que se consigue con un estimulante del laboratorio 
“B”. 
En una muestra de 25 niños seleccionados aleatoriamente, se obtuvo un aumento de 
peso promedio de 255 gramos, con una desviación estándar (S) de 15 gramos. Teniendo 
en cuenta los resultados de la muestra, con un nivel de significación de 0,05, ¿se puede 
suponer que lo que afirma el laboratorio es correcto? 
 
EJERCICIO 6.5 

Se sabe que ciertas ratas con una alimentación tipo tiene una ganancia de peso medio 
de  65  g  durante  los  tres  primeros  meses  de  vida.  Para  probar  el  efecto  de  una  nueva 
dieta,  se  alimentaron  30  ratas  desde  el  nacimiento  hasta  la  edad  de  tres  meses, 
2
encontrándose  un  aumento  medio  de  peso  de  70,75  g  y  una  varianza  de  10  g   ¿Hay 
evidencias  estadísticamente  significativas  para  sostener,  con  un  nivel  de  confianza  de 
0,01, que la nueva dieta aumenta la ganancia de peso promedio? 
 
EJERCICIO 6.6 

Una  empresa  dedicada  a  la  fabricación  de  instrumental  antropométrico  desea 


incorporar  un  nuevo  mecanismo  de  fabricación,  con  la  sospecha  de  que  esto  pueda 

210 
 
Estadística Inferencial: Prueba de Hipótesis

producir un aumento de la varianza del peso del material. La desviación estándar que se 
obtiene con el mecanismo tradicional es de 2,5 gramos. Para evaluar el nuevo método se 
seleccionaron  aleatoriamente  10  instrumentos  de  un  lote  determinado.  Se  obtuvo  una 
varianza  muestral  de  6,5  gramos2.  Comprobar  si  la  sospecha  de  la  empresa  es  cierta, 
trabajando con un nivel de significación de 0,10. 

211 
 
Estadística Inferencial: Prueba de Hipótesis

RESOLUCIONES EJERCICIOS 6.1 A 6.6 

EJERCICIO 6.1 

 H0: μ = 650 gramos    H1: μ>650 gramos. 
 
Z0,95 = 1,645 
 
750 − 650 100
Z= = = 16  
25 6,25
4
 
16  >  1,645,  por  lo  que  se  rechaza  la  hipótesis  nula  y  se  concluye  que  la  ganancia 
mensual promedio de peso luego de modificar la fórmula parenteral es significativamente 
mayor a 650 gramos. 
 
EJERCICIO 6.2 

i)  El  objetivo  del  estudio  es  verificar  si  la  máquina  embotelladora  de  leche  funciona 
adecuadamente,  lo  que  implica  probar  si  la  media  de  la  muestra  es  similar  al  valor 
esperado. 
3
Siendo 970 cm  el valor esperado (μ0), las hipótesis estadísticas que de esto se derivan 
serían: 
H0: μ = 970 
H1:  μ≠ 970  
 
X − μ0
ii) Es estadístico de elección será:     Z = . 
σ
n
iii)  Siendo  α=  0,05,  entonces  α/2  =  0,025  y  1  –  (α/2)  =  0,975.  Entonces,  los  puntos 
críticos en este caso son ‐1,96 y 1,96.   
 

iv) n = 9   X = 977        σ = 20 

212 
 
Estadística Inferencial: Prueba de Hipótesis

 
X − μ0 977 − 970
Z= = = 1,05  
σ 20
n 9
 
Con  95%  de  confianza,  se  afirma  que  no  hay  evidencias  de  que  la  máquina  funcione 
mal. 
 
v)         n = 49 

  X  = 977          σ = 20    
 
977 − 970
Z= = 2,45  
20
49
 
Con  95  %  de  confianza  se  puede  afirmar,  en  este  caso,  que  la  máquina  no  funciona 
bien. 
 
EJERCICIO 6.3 

μ = 2,8 Kg             n = 230 niños 

X = 2,7 Kg             α = 0,01 
σ2 = 0,9 Kg2 
 
Hipótesis:      H0 : μ = 2,8 
H1 :  μ< 2,8  
 

X − μ0
   Estadístico:     Z = . 
σ
n
 
Punto Crítico: ‐2,326 
Unilateral izquierdo (zona de rechazo hacia la izquierda) 

213 
 
Estadística Inferencial: Prueba de Hipótesis

2,7 − 2,8
Z= = −1,6  
0,9
230
 
Z= ‐1,6→ zona de Aceptación, se acepta la hipótesis nula (H0) 
 
Con 99% de confianza no se confirma la sospecha de la Clínica, siendo la media de peso 
al nacer de 2,8 Kg. 
 
EJERCICIO 6.4 

H0: μ = 250 gramos    H1: μ>250 gramos 
 
t(n – 1);(1 ‐ α) = t(24; 0,95) = 1,71  
 
255 − 250
t= = 1,66  
15
25
 
Como 1,66 < 1,71 no se rechaza la hipótesis nula y se concluye que no hay evidencia de 
que el estimulante del apetito del laboratorio “A” produzca un aumento de peso mayor 
que el del laboratorio “B”. 
 
EJERCICIO 6.5 

Alimentación tipo →μ = 65 g 
Nueva Dieta →   n = 30 

X = 70,75 g 
                         S2 = 10 g2 
H0 : μ = 65g 
H1 : μ> 65  
 
α = 0,01  Grados de Libertad = 29                 Punto Crítico = 2,46 
 

214 
 
Estadística Inferencial: Prueba de Hipótesis

X − μ 0 70,75 − 65
t= = = 9,965  
S 3,16
n 30
 
Se  puede  concluir  que  existe  evidencia,  estadísticamente  significativa,  para  sostener 
que la nueva dieta, aumenta la ganancia de peso promedio, con un 99% de confianza.         
 
EJERCICIO 6.6 

Siendo σ0 = 2,5 gramos, se obtiene que σ20 = 6,25 gramos2 

Entonces: 

H0: σ2 = 6,25 gramos2    H1: σ2> 6,25 gramos2 
 
χ2(9; 0,90) = 14,68 
 

Estadístico  χ 2 =
(n − 1)S 2 =
(10 − 1)6,5 = 9,36  
σ 2
6,25
 
Dado que el valor observado para el estadístico calculado (9,36) está dentro de la zona 
de  aceptación  de  la  hipótesis  nula  se  concluye,  con  90%  de  confianza,  que  el  nuevo 
mecanismo no produce un aumento de la varianza del peso medido por el instrumental. 

215 
 
216 
 
CAPÍTULO 7: ESTADÍSTICA 
INFERENCIAL:COMPARACIÓN DE POBLACIONES 

217 
 
218 
 
Estadística Inferencial: Comparación de Poblaciones

En  algunos  casos,  es  de  interés  realizar  comparaciones  entre  dos  o  más  poblaciones 
diferentes.  En  esta  situación,  se  debe  aplicar  metodología  semejante  en  varios  aspectos  a 
una  prueba  llevada  a  cabo  en  una  sola  muestra,  pero  teniendo  en  cuenta  algunas 
consideraciones. 
 

Prueba de diferencias entre dos medias de variables aleatorias con distribución normal 

Por lo general, en un estudio o experimento se desea comparar dos grupos de sujetos con 
respecto  a  los  valores  promedio  de  una  variable  dependiente.  A  menudo,  los  grupos  han 
recibido tratamientos diferentes o han sido expuestos a distintos entornos. Por ejemplo: se 
quiere conocer si existen diferencias respecto a una determinada medición antropométrica 
(por  ejemplo,  pliegue  bicipital)  entre  dos  grupos,  experimental  y  control;  se  desea 
determinar la diferencia entre el número promedio de días de internación de mujeres que 
tuvieron parto normal y de mujeres que tuvieron cesárea, etc. 
Del  mismo  modo  que  para  una  población,  las  estimaciones  pueden  ser  hechas  por 
intervalo o por pruebas de hipótesis. 
 

Prueba  de  Hipótesis  y  Estimación  por  Intervalo  para  la  Diferencia  de  Medias  de  Dos 
Variables Aleatorias Independientes con Distribuciones Normales 

Como  se  menciona  en  el  capítulo  anterior,  aquí  también  se  distinguen  dos  situaciones 
dependiendo  de  si  las  varianzas  son  conocidas  (A)  o  desconocidas  (B).  En  el  último  caso, 
además se debe determinar si estas varianzas desconocidas son iguales o son diferentes. 
 
A. Varianzas conocidas 
 
Prueba de Hipótesis  

En  este  caso,  para  llevar  a  cabo  la  prueba  de  diferencia  de  medias  se  cuenta  con 
información sobre la variable aleatoria de dos grupos diferentes. Estas variables tienen dos 
distribuciones  1  y  2,  con  sus  medias  μ1  y  μ2  respectivamente  y,  además,  se  presentan  los 

219 
 
Estadística Inferencial: Comparación de Poblaciones

estimadores  independientes  de  dichas  medias  X 1  y  X 2.  Como  estas  medias  tienen 
distribución normal con parámetros (μ1 y σ21 / n1) y (μ2 y σ22 / n2) el estadístico a utilizar es: 
 

Z=
(X 1 −X2 ) , 
σ 2
σ 2
1
+ 2

n1 n2

donde  σ21  y  σ22  son  las  varianzas  de  las  distribuciones,    n1    y    n2  son  los  tamaños  de  las 

muestras a partir de los que se calculan las medias  X 1 y  X 2. 


A  partir  de  aquí  se  continúa  con  el  procedimiento  general  de  prueba  de  hipótesis 
establecido en el capítulo anterior. 
 

Estimación por intervalo 

Cuando  se  quiere  evaluar  si  existen  diferencias  de  medias  de  una  variable  aleatoria,  se 
debe  incluir  en  un  sólo  intervalo  la  diferencia  observada  entre  las  dos  poblaciones 
estudiadas.  Por  ejemplo,  se  quiere  conocer  si  existe  diferencia  de  las  medias  de  peso  de 
recién nacidos de dos provincias P1 y P2. La condición que debe cumplirse es que las variables 
sean independientes. El intervalo de confianza obtenido indicará que entre esos valores se 
encuentra el μ, con una determinada confianza, aunque no se lo conozca. 
Cuando  en  un  intervalo  de  confianza  los  signos  del  límite  inferior  y  del  superior  son 
diferentes, es decir, uno es positivo y el otro es negativo, la diferencia entre ellos puede ser 
cero, porque encierran al mismo. Por lo tanto, se concluye que no hay diferencia entre las 
medias. 
Cuando los signos de ambos límites son iguales, negativos o positivos, se concluye que las 
medias son diferentes, es decir que una de ellas es mayor que la otra.  
‐ Cuando ambos límites tienen signo positivo la μ1 es mayor que la μ2. 
‐ Cuando ambos límites tienen signo negativo la μ2 es mayor que la μ1. 
 
El  intervalo  de  confianza  para  (μ1  –  μ2)  con  una  confianza  (1  ‐  α)  se  construyen  de  la 
siguiente manera: 

220 
 
Estadística Inferencial: Comparación de Poblaciones

( )
LI = X 1 − X 2 + Z (α / 2) ⋅
σ 12
n1
+
σ 22
n2
    ( )
LS = X 1 − X 2 + Z (1−α / 2) ⋅
σ 12
n1
+
σ 22
n2
 

 
Suponiendo  que  para  el  ejemplo  anterior  sobre  los  pesos  de  recién  nacidos  de  las 
provincias P1 y P2, el intervalo obtenido fuese [‐0,585; 1,380]. Trabajando con una confianza 
del  95%,  se  puede  afirmar  que  la  diferencia  de  las  medias  de  los  pesos  verdaderos  de  los 
recién  nacidos  de  estas  provincias  son  semejantes,  porque  el  cero  se  encuentra  en  el 
intervalo obtenido. 
Si en cambio el intervalo obtenido hubiese sido [0,585; 1,380] significaría que las medias 
son diferentes, siendo la media de peso de los recién nacidos de la P1 mayor que la media de 
peso de la P2. 
 
Ejercicio de aplicación: 7.1 

B. Varianzas desconocidas 

E el caso de que las varianzas sean desconocidas, y se intente inferir acerca de dos medias 
de  variables  con  distribuciones  normales,  primero  se  debe  establecer  si  las  varianzas  son 
semejantes  o  no.  Ya  que  de  esta  situación  dependerá  qué  estadístico  se  utilizará  para  la 
prueba  de  hipótesis  o  cómo  se  calculará  la  estimación  por  intervalo.  Este  paso  previo  a 
realizar se conoce como la Prueba de Diferencia entre Varianzas. La hipótesis nula planteará 
la igualdad entre varianzas y la hipótesis alternativa planteará la desigualdad. 
 
H0: σ21 = σ22  y  H1: σ21≠σ22. 
 
El estadístico que se utiliza en esta prueba es el siguiente: 
S12
F= , que se distribuye como una F con n – 1 y n – 1 grados de libertad. La región de 
S 22

aceptación se determina según el nivel de significación y queda delimitada por los cuantiles 
α/2  y  (1  ‐  α/2),  que  se  obtienen  de  la  Tabla  de  Cuantiles  de  la  Distribución  F.    Primero  se 
debe  localizar  la  tabla  correspondiente  a  los  grados  de  libertad  del  numerador  (n‐1)  en  el 

221 
 
Estadística Inferencial: Comparación de Poblaciones

encabezado  de  la  primera  columna  (extremo  superior  izquierdo);  y  luego  los  grados  de 
libertad  (n‐1)  del  denominador  entre  los  valores  de  la  primera  columna  de  la  tabla 
previamente seleccionada. 
Por ejemplo: se quiere conocer si las tallas de dos muestras de escolares son diferentes, 
obteniéndose los siguientes resultados: 
Muestra 1 

    n = 26    X  = 155 cm    S2 = 30,25 cm2 


 
Muestra 2 

    n = 26    X  = 159 cm    S2 = 20,25 cm2 


 
Se trabaja con un nivel de significación del 0,05, por lo que los puntos críticos son: 0,448 y 
2,23, que corresponden a los cuantiles α/2 y (1 ‐ α/2) respectivamente. 
 

Entonces,  calculando    ,  el  estadístico  se  ubica  dentro  de  la  región  de 

aceptación de la hipótesis nula planteada, que establece la semejanza de varianzas (0,44  < 
1,49 < 2,23). Ante esta situación, el estadístico que se utilizará para la prueba de hipótesis es 
el estadístico T, como se muestra a continuación. 
 
B.1 Varianzas desconocidas y semejantes 

Prueba de Hipótesis 

El estadístico que se utiliza para la prueba de hipótesis es el siguiente: 

T=
(X 1 − X2 ) . 
(n1 − 1)S1
2
+ (n2 − 1)S 22 ⎡1
⋅⎢ + ⎥
1⎤
n1 + n2 − 2 ⎣ n1 n2 ⎦
 
Este estadístico se distribuye como una t de Student con n1 + n2 – 2 grados de libertad. En 
base  al  nivel  de  significación  fijado  y  a  los  grados  de  libertad,  se  obtienen  de  la  Tabla  de 
Cuantiles de la Distribución T los puntos críticos que delimitarán la zona de aceptación.  Si el 
222 
 
Estadística Inferencial: Comparación de Poblaciones

valor  que  se  obtiene  luego  de  calcular  el  estadístico  se  ubica  en  la  zona  de  aceptación,  la 
conclusión sería no rechazar la hipótesis nula. 
 
Estimación por Intervalo  
 

(n1 − 1)S12 + (n2 − 1)S 22


( ) ⎛ n + n2 ⎞
LI = X 1 − X 2 + t(n1 + n 2 − 2 )(α / 2 ) ⋅ ⎜⎜ S p2 ⋅ 1 ⎟.  
n1 ⋅ n2 ⎟⎠
  S p2 =
n1 + n2 − 2
 

 

( ) ⎛ n + n2
LS = X 1 − X 2 + t (n1 + n2 − 2 )(1−α / 2) ⋅ ⎜⎜ S p2 ⋅ 1
n1 ⋅ n2

⎟⎟ . 
⎝ ⎠
 
Ejercicios de aplicación: 7.2 a 7. 4 

B.2 Varianzas desconocidas y diferentes 

Prueba de Hipótesis 

Luego de comprobar la desigualdad de varianzas se utiliza el siguiente estadístico: 

T´ =
(X 1 −X2 ) . 
2 2
S S
+1 2

n1 n2

Este tiene distribución t de Student con los siguientes grados de libertad: 
2
⎛ S12 S 22 ⎞
⎜⎜ + ⎟⎟
v= ⎝ 1
n n 2 ⎠
− 2 . 
2 2
⎛ S12 ⎞ ⎛ S 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ n1 ⎠ + ⎝ n2 ⎠
n1 + 1 n2 + 1
 
Estimación por Intervalo 
 
Si en cambio, el camino para verificar si existen diferencias entre medias, hubiera sido la 
construcción de un intervalo de confianza, los límites serían: 

223 
 
Estadística Inferencial: Comparación de Poblaciones

( )
LI = X 1 − X 2 + t (v;α / 2) ⋅
S12 S 22
+
n1 n2
    ( )
LS = X 1 − X 2 + t ( v;1−α / 2) ⋅
S12 S 22
+
n1 n2
 

 
Ejercicios de aplicación: 7.5 a 7. 7  

Prueba  de  Hipótesis  y  Estimación  por  Intervalo  para  la  Diferencia  de  Medias  de  Dos 
Muestras dependientes (apareadas) 

  Existen  situaciones  en  las  que  los  datos  que  se  desean  comparar  proceden  de  dos 
muestras  que  están  relacionadas,  esto  es:  los  resultados  del  primer  grupo  no  son 
independientes de los del segundo. Esto ocurre cuando: 

y La  misma  unidad  experimental  es  medida  en  dos  ocasiones  diferentes.  Por  ejemplo, 
cuando se mide una variable dada en cada uno de los individuos de un grupo experimental 
antes y después de administrarles un tratamiento determinado. 
y Las  mediciones  se  obtienen  a  partir  de  unidades  experimentales  relacionadas.  Por 
ejemplo, comparaciones entre hermanos gemelos. 

La obtención de observaciones apareadas hace referencia al diseño de experimentos que 
produce observaciones ¨de a pares¨ de las dos distribuciones que se comparan. En este tipo 
de diseño la variable de interés es la diferencia entre los valores de cada uno de los pares 
observados.  El  objetivo  es  reducir  la  variabilidad  debida  a  factores  que  introducen  efectos 
extraños a aquel que se desea medir.  
Si los datos de la muestra 1 se denota X1i y los de la muestra 2 se denotan X2i (siendo i = 1, 
2,  ...,  n)  las  diferencias  di  =  X1i  ‐  X2i  generan  un  conjunto  de  n  observaciones.  Esta  nueva 
muestra  es  la  utilizada  para  la  prueba  de  hipótesis  mediante  una  Prueba  T  para 
observaciones  apareadas  o  Test  T  apareado.  Esta  prueba  se  basa  en  la  distribución  de  la 
variable diferencia entre los pares de observaciones. Partiendo del supuesto de que X1i y X2i 
tienen  distribución  normal,  entonces,  las  di  =  X1i  ‐X2i  tendrán  distribución  normal  con 
esperanza μd = μ1 ‐ μ2 y varianza σ2d. 
 

224 
 
Estadística Inferencial: Comparación de Poblaciones

Prueba de Hipótesis 
 
Si la hipótesis nula que se quiere probar es  μ1 ‐ μ2 = 0, esto implica μd = 0, es decir: 
H0: μd = 0 
H1: a) μd ≠ 0   b) μd > 0   c) μd < 0 
 
d
Para probar esta hipótesis el estadístico apropiado es: T =  ,   que se distribuye con 
Sd
n
una T de Student con (n‐1) grados de libertad. 
n

1 n ∑ (d i − d )2
d  =  ∑ di  
n i =1
    Sd =  i =1

n −1
 

 
Estimación por Intervalos 
 
Para la construcción del intervalo de confianza correspondiente tenemos: 
 

⎛ S S ⎞
P  ⎜ d − T( n −1);(1−α / 2) d < μ1 − μ2 < d + T( n −1);(1−α / 2) d ⎟  = (1‐ α ). 
⎝ n n⎠
 
Por  ejemplo,  se  quiere  comparar  el  aumento  de  peso  logrado  con  la  administración  de 
dos fórmulas infantiles distintas. Se seleccionaron al azar 8 parejas de lactantes gemelos y se 
administró la fórmula A a uno de los gemelos integrantes de cada par y la formula B al otro. 
Los resultados (aumento de peso en g/día) fueron: 
 
Fórmula A  Fórmula B  di
31  18  13 
20  17  3 
18  14  4 
17  11  6 
9  10  ‐1 
8  7  1 
10  5 5
225 
 
Estadística Inferencial: Comparación de Poblaciones

7  6 1
X 1  = 15  X 2  = 11  d  = 4 

Como  el  objetivo  fue  comparar  si  existían  diferencias  entre  los  efectos  logrados  tras  la 
administración de las dos fórmulas se plantea la siguiente hipótesis:    
  H0: μd = 0  vs  H1: μd ≠ 0   usando como estadístico: 

d
T =  ,   que se distribuye con una T de Student con (8‐1) grados de libertad. 
Sd
n
 
Fijando  α  = 0,05, se determina la región de aceptación como el intervalo (tα/2  =  ‐2.365,    
t1‐α/2 = 2.365). Luego, evaluando el estadístico se obtiene: 
4
T= = 2,63 . 
4,30 / 8
Dado que 2,63 > 2,365, entonces se rechaza H0. Se concluye entonces que las diferencias 
observadas  entre  el  aumento  de  peso  logrado  con  una  u  otra  fórmula  infantil  son 
estadísticamente significativas. 
Otro  ejemplo  de  aplicación  sería  el  siguiente:  se  desea  verificar  si,  luego  de  una  dieta 
determinada, los niveles de colesterol son diferentes. Un sólo grupo de sujetos se somete a 
un  tratamiento  nutricional  determinado  para  disminuir  los  niveles  de  colesterol,  antes  del 
cual tenían una dieta normal. 
Si a cada individuo le calculara la diferencia entre X1i  – X2i  , es decir, di = X1i  – X2i  , obtengo 
un conjunto de datos [d1  d2,  d3…..dn]. Lo que se observa es el efecto puro de la intervención, 
en  este  caso  la  dieta.  Decir  que  la  dieta  no  tiene  efecto  es  hipotetizar  que  la  μ  de  la 
diferencia sea cero. Para probar esta hipótesis se usa el clásico test T. 
Si antes     H0 )    μantes =  μdespués 

      H1 )    μantes≠μdespués 
 
Ahora    H0 )    μdiferencia = 0 
      H1 )  μdiferencia≠0   
 
Así, este problema que era de dos poblaciones queda reducido a una población donde n 
226 
 
Estadística Inferencial: Comparación de Poblaciones

es la cantidad de pares de datos de la muestra y cada par es el sujeto antes y después del 
tratamiento.  El  estadístico  T  calculado  se  compara  con  un  T  teórico  con  n‐1  grados  de 
libertad, siguiendo el procedimiento habitual ya presentado. 
 
 
Ejercicios de aplicación: 7.8 a 7.10 

Prueba  de  hipótesis  para  la  diferencia  de  proporciones  de  dos  distribuciones  binomiales 
independientes 

En  muchas  ocasiones,  el  interés  recae  en  comparar  las  proporciones  de  ocurrencia  de 
cierto suceso en dos grupos considerados por alguna razón diferente. 
Una  situación  de  este  tipo  es  la  siguiente:  se  desea  probar  si  la  proporción  de  niños 
desnutridos en dos ciudades, consideradas geográficamente distintas, son estadísticamente 
diferentes. Para resolver este problema se tomaron al azar 400 niños de una de las ciudades 
en  estudio  y  se  encontró  que  190  de  ellos  estaban  desnutridos,  en  tanto  que  de  la  otra 
ciudad se seleccionaron al azar 800 niños de los cuales 300 presentaban desnutrición.  
La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) es 

Las  proporciones  muestrales  para  cada  ciudad  fueron:  p1  =  190  /  400  =  0,475  y                           
p2 = 300 / 800 = 0,375. 
Posteriormente, se plantearon las hipótesis estadísticas de interés: 
H0: p1 – p2 = 0       H1: p1 – p2≠ 0 
 
Estas hipótesis en el marco de la situación problemática planteada son: 
H0: La proporción de niños desnutridos en las dos ciudades es la misma. 
H1: La proporción de niños desnutridos en las dos ciudades es diferente. 
Si X1~ B(n1,p), X2 ~ B(n2,p) con n1 y n2 grandes (mayores a 30), por la relación entre 
las distribuciones Normal y Binomial, la variable aleatoria P1 ‐ P2 tiene distribución 
normal con  

227 
 
Estadística Inferencial: Comparación de Poblaciones

p1 (1 − p1 ) p 2 (1 − p 2 )
E ( p1 − p2 ) = p1 − p2 y Var ( p1 − p 2 ) = + .
n1 n2

(Para verificar estas afirmaciones utilizar las propiedades de Esperanza y Varianza). 
 
 
 
Luego el estadístico de contraste resulta: 
p1 − p 2
Z= . 
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2

 
Con p1 y p2 estimadores de p1 y p2. 
 
Si  se  toma  un  nivel  de  significación  del  0,05  el  valor  crítico  es  z=1,96,  luego  la  zona  de 
aceptación queda comprendida entre Z=‐1,96 y z= 1,96. En este caso, el Z=3,31, por lo que se 
rechaza la hipótesis nula. 
 
Conclusión:  Las  proporciones  de  niños  desnutridos  en  las  dos  ciudades  en  estudio  son 
diferentes. 
La hipótesis alternativa para otras situaciones también podría plantearse como 
H0: p1‐p2>0 ó H1: p1‐p2<0 considerándose pruebas de hipótesis unilaterales. 
Para cada una de las pruebas presentadas en este capítulo se pueden construir intervalos 
de confianza. 
  
Ejercicio de aplicación: 7.11 

Prueba  de  diferencias  entre  tres  o  más  medias  de  variables  aleatorias  con  distribución 
normal 

Para  comparar  las  medias  de  tres  o  más  grupos  se  utiliza  el  Análisis  de  la  Varianza 

228 
 
Estadística Inferencial: Comparación de Poblaciones

(ANAVA), el cual calcula el estadístico conocido como F que simplemente es un cociente de 
varianzas.  El  ANAVA  descompone  la  variabilidad  total  de  un  conjunto  de  datos  en  dos 
elementos: 1) La variabilidad que resulta de la variable independiente (tratamiento) y 2) la 
variabilidad  restante,  resultante,  por  ejemplo,  de  diferencias  individuales,  del  grado  de 
incertidumbre de las mediciones y así sucesivamente.  
Para obtener la razón F, la variación entre los grupos se compara con la variación dentro 
de  los  grupos.  Si  las  diferencias  entre  los  grupos  que  reciben  diferentes  tratamientos 
resultan  relativamente  mayores  que  las  fluctuaciones  dentro  de  los  grupos,  se  puede 
establecer que el tratamiento se relaciona con las diferencias de los grupos, o dicho de otra 
manera, con las causas de dichas diferencias. 
 

ANAVA unidireccional 

Suponiendo que se quiere comparar mediante un experimento los resultados de distintos 
métodos para adelgazar. Los métodos en este caso constituye la variable independiente. Un 
primer  grupo  de  obesos  se  somete  a  una  terapia  de  modificación  del  comportamiento.  El 
segundo grupo es tratado con una dieta hipocalórica estricta y actividad física programada y 
un  tercer  grupo  que  se  somete  a  una  dieta  hipocalórica,  actividad  física  programada  y 
modificación de la conducta. La variable dependiente serán los kilos disminuidos durante el 
tiempo que duren los tratamientos. Las hipótesis serán: 
 
H0: μA = μB = μC    H1: al menos un par de medias μi≠μj. 
 
El  objetivo  del  ANAVA  es  contrastar  la  hipótesis  de  que  los  efectos  de  los  tratamientos 
son nulos versus que al menos un efecto no lo es.  
 
H0: μA = μB = μC    H1: al menos un tratamiento tiene efecto no nulo. 
 
En  el  contexto  del  ANAVA,  la  varianza  suele  llamarse  por  convención  Cuadrado  de  la 
Media Entre y Dentro de los grupos. 
 
229 
 
Estadística Inferencial: Comparación de Poblaciones

Cuadrado Medio Entre o Cuadrado Medio de Tratamiento  

  El  Cuadrado  Medio  Entre  es  la  obtención  de  la  varianza  de  las  medias  muestrales 
para, a partir de ésta, encontrar un estimador de σ2. 
CME = S x2 ⋅ n  

SCE a
(y ) (y ) 2 2

Lo que se expresa como  CME = , donde SCE = ∑ i• − •• ; y gle son los gle= 


gle i =1 ni N

a‐1 grados de libertad entre tratamientos (donde a= n° de tratamientos). 

Cuadrado Medio Dentro o Cuadrado Medio del Error 

El Cuadrado Medio Dentro es el promedio ponderado de las varianzas estimadas en cada 
SCD
tratamiento. Esto se expresa como  CMD = , donde SCD (Suma de Cuadrados Dentro)= 
gld
SCT (Suma de Cuadrados Totales) – SCE (Suma de Cuadrados Entre); y gld son los grados de 
libertad dentro del tratamiento. El Cuadrado Medio Dentro es un estimador insesgado de σ2. 
 
Para  calcular  el  CMD  se  necesita  conocer  el  SCE  (Suma  de  Cuadrados  Entre)  y  el  SCT 
(Suma de Cuadrados Totales). 
 
a ni
( y • • )2
*Suma de Cuadrados Totales=  SCT = ∑∑ y ij −
2
 
i =1 j =1 N

El  CME  estima  a  σ2  sólo  si  las  medias  de  los  tratamientos  que  se  comparan  son  iguales 
(Hipótesis  nula  verdadera).  Estos  dos  estadísticos,  el  CMD  y  el  CME  son  estimadores 
independientes de σ2. 
 Para llevar a cabo la prueba se debe calcular el estadístico F utilizando los estimadores de 
σ2E y σ2D de la siguiente manera: 

CME
F=  
CMD

Este estadístico tiene bajo hipótesis nula, una distribución F  (a  –  1),(N  –  a). Para un nivel de 


significación determinado, si F es mayor que el cuantil (1 ‐ α) de la distribución F(a – 1),(N – a) se 

230 
 
Estadística Inferencial: Comparación de Poblaciones

rechaza la hipótesis nula, estableciendo que no todas las medias de tratamiento son iguales. 
Dicho de otro modo, al menos una de las medias de tratamiento es diferente. 
 

Tabla de datos para el ANAVA 
Tratamien
         Media 
tos 
1  Y11  Y12  Y1n  Y1 
2  Y21  Y22  Y2n  Y2 
.  .  .  .  . 
.  .  .  .  . 
a  Ya1  Ya2  Yan  Yn 
 
Para entender la tabla se debe comprender que el dato Y12 representa una observación 
realizada  sobre  la  unidad  experimental  número  2  del  tratamiento  asignado  como  1  y  la 
ni
notación yi. indica sumar sobre el índice reemplazado por el punto  y i• = ∑ y ij .  
j =1

Cómo realizar el análisis de la varianza (ANAVA) 

Con los datos obtenidos de SCE, SCD y SCT se puede completar la tabla de análisis de la 
varianza. 

Fuente de  Suma de Cuadrados  Grados de  Cuadrado  F Obs. 


Variación  Libertad  Medio 
Entre  a
( y i • )2 ( y • • ) 2 gle = a − 1 SCE CME
Tratamientos  SCE = ∑ −   CME =    
ni i =1 N gle CMD
Dentro (Error  SCD = SCT − SCE   gld = N − a SCD  
CMD =  
Experimental)  gld
Total  a
SCT = ∑∑ y ij −
ni
2 ( y • • )2 glt = N − 1    
 
N
i =1 j =1

Ref: N= n1+n2+…+ni; a=n° de tratamientos. 
Volviendo al ejemplo de los tratamientos para la obesidad, tenemos los siguientes datos: 

Tipo de Tratamiento  Kilogramos disminuidos Totales de Tratamiento Yi 


Modificación del  7     6     9     5     9 36  
comportamiento 
Dieta hipocalórica y  12     15     17     18     20 82  

231 
 
Estadística Inferencial: Comparación de Poblaciones

actividad física programada 
Dieta Hipocalórica, actividad  14     16     18     21     15 84 
física programada y 
modificación de la conducta 
  Y.. =202 

 
Cálculos preliminares que deben realizarse: 

202 2
SCT = 7 2 + 6 2 + 9 2 + ... + 212 + 15 2 − = 375,73  
15
36 2 + 82 2 + 84 202 2
SCE = − = 294,93  
5 15
SCD = 375,73 − 294,93 = 80,8  

Así, la tabla de ANAVA correspondiente es: 

Fuente  de  Suma de Cuadrados Grados de  Cuadrado  F Obs.


Variación  Libertad  Medio 
Entre  294,93  2  147,46  21,91 
Tratamientos 
Dentro  (Error  80,8  12  6,73   
Experimental) 
Total  375,73  14     
 
Si  α=  0,05,  el  punto  crítico  que  delimita  la  región  de  aceptación  y  de  rechazo  de  la 
hipótesis nula es F(2,12; 0,95) = 3,88. Como F observada es igual a 21,91 y es mayor a la F 
teórica,  se  concluye  que  se  rechaza  la  hipótesis  nula  de  igualdad  de  medias  de  Kg. 
disminuidos  para  los  tres  tratamientos,  por  lo  tanto  al  menos  uno  de  los  tratamientos 
produce una disminución de peso distinta o diferente de los otros. 
 
Ejercicio de aplicación: 7.12 

232 
 
Estadística Inferencial: Comparación de Poblaciones

EJERCICIOS DE APLICACIÓN 7.1 AL 7.12 

EJERCICIO 7.1 

Se quiere verificar si existe diferencia o no entre las medias de peso de un alimento seco 
que es envasado por dos empresas distintas. Para ello se toma una muestra de 10 bolsas de 
cada empresa y se las pesa. En base a esto se obtuvieron los siguientes pesos (en Kilos): 
 
Empresa “A”  43,3  46,7  55,6  42,8  46,8  47,9  56,3  43,7  45,7  34,6 
Empresa “B”  54,9  52,2  42,8  50,0  47,7  52,0  50,8  59,2  45,6  71,2 
 
Se conocían con anterioridad las varianzas:  σ21 = 39,4 Kg.2 y   σ22 = 63,8 Kg.2, y se trabajó 
con un α= 0,10. Analice estos conjuntos de datos de manera conveniente. 
 

EJERCICIO 7.2 

Se  quiere  comparar  la  cantidad  de  cenizas  (minerales)  en  dos  variedades  de  dulce  de 
leche fabricados en dos cuencas lecheras distintas. Los datos muestrales que se obtuvieron 
luego del análisis químico fueron los siguientes: 

Dulce de Leche “A”  Dulce de Leche “B” 

X A = 139 mg %  X B = 128 mg% 
S2A = 11,6 mg2  S2B  = 7,9 mg2 
nA = 9  nB = 9 

Realizar la prueba de hipótesis y concluir (α = 0,05). 

EJERCICIO 7.3 

Con el objetivo de comparar el contenido total de nitrógeno (en gramos por 100 cm3) en 
plasma de ratas albinas normales en distintos momentos de vida, se seleccionaron 6 ratas de 
37 días y 6 de 180 días y se determinó el contenido de nitrógeno obteniéndose los siguientes 
valores: 

233 
 
Estadística Inferencial: Comparación de Poblaciones

Tratamiento 
37 días  0,98  0,83  0,99  0,86  0,90  0,91 
180 días  1,20  1,18  1,13  1,21  1,2  1,07 
 
¿Hay  evidencia  estadísticamente  significativa  para  afirmar  que  los  contenidos  medios 
totales de nitrógeno a los 37 días y a los 180 días son diferentes? 
 
EJERCICIO 7.4 

Se desea comparar el número de controles durante el embarazo entre mujeres de nivel 
socioeconómico alto y bajo, para verificar si existen diferencias. Para ello se seleccionan de 
forma aleatoria 15 nodrizas de nivel socioeconómico alto y 20 de nivel bajo, obteniéndose 
los siguientes resultados: 
Nº de controles durante el embarazo 
Nivel Socioeconómico Alto: 4, 5, 3, 4, 5, 3, 3, 6, 1, 4, 5, 4, 4, 6, 3 
Nivel Socioeconómico Bajo: 1, 5, 2, 3, 3, 1, 0, 4, 2, 2, 3, 5, 1, 5, 3, 0, 2, 4, 4, 3 
 
Se trabaja con 90% de confianza 
 

EJERCICIO 7.5 

En una guardería de dos salitas se quiere conocer si la media de peso de los niños es igual 
en ambas salas. La salita Roja funciona a la mañana y los chicos almuerzan en la guardería. 
Mientras que los chicos de la salita Azul concurren a la guardería a la tarde y almuerzan en 
sus casas. Para ello se tomó una muestra aleatoria de 10 niños en cada sala, obteniéndose 
los siguientes resultados: 

X R = 24 Kg          SR = 1 Kg      S2R = 1 Kg2 

X A = 20 Kg         SA = 5 Kg       S2A = 25 Kg2 

Determinar con 95 % de confianza si las medias de peso en los niños de ambas salitas son 
iguales. 

234 
 
Estadística Inferencial: Comparación de Poblaciones

EJERCICIO 7.6 

En  un  estudio  experimental  se  desea  determinar  si  el  contenido  de  hemoglobina  en 
sangre de mujeres adultas es diferente entre nulíparas (que no han dado a luz ningún hijo) y 
mujeres que han sido madres en un período no menor a 5 años. Para ello se tomaron dos 
muestras de 8 mujeres cada una, obteniéndose las siguientes mediciones: 
 
Mujeres  1  2  3  4  5  6  7  8 

Nulíparas  12,6 12,6 13,7 11,1 11,3 12,2 10 11 


Madres  10,4 11,5 13,6 12,0 19,3 8,8 9,4 10,7 
 
i)  Verificar  con  95%  de  confianza  si  hay  diferencia  estadísticamente  significativa  entre 
ambos grupos. 
 
EJERCICIO 7.7 

Un servicio de alimentación desea conocer si existe diferencia en el contenido de Ácido 
Fólico en 100 g, entre la acelga y la espinaca. Selecciona dos muestras de tamaño 13 cada 
una, obteniéndose los siguientes resultados: 
 

Acelga:           X  = 145 mcg            S = 3 mcg 

Espinaca:        X  = 136 mcg            S = 9 mcg  
 
i) Se trabaja con 95% de confianza  

 
EJERCICIO 7.8 
En el Centro de Alto Rendimiento de Córdoba se está trabajando en la definición de un 
protocolo estándar para la realización de perfiles antropométricos. 
Se desea conocer si las mediciones revelan resultados diferentes según sean tomadas en 
el lado derecho o izquierdo del cuerpo del individuo evaluado. 
Para  realizar  esta  comparación se  tomó  una  muestra  de  10  sujetos,  en  cada  uno  de  los 
cuales  se  realizaron  valoraciones  antropométricas  en  ambos  lados  corporales  (derecha  e 

235 
 
Estadística Inferencial: Comparación de Poblaciones

izquierda).  
 
Los datos recabados para el pliegue subescapular (mm) fueron: 
Sujeto  Derecha Izquierda
1  10,6 10,14
2  9,8 9,52
3  12,3 11,98
4  9,7 9,3
5  8,8 8,48
6  12,35  12,01 
7  10,55  10,09 
8  8,93  8,63 
9  9,24  9,00 
10  10,00  9,50 
 
De  acuerdo  a  estos  resultados:  ¿Qué  conclusión  se  puede  extraer  acerca  del  lugar  de 
medición del pliegue subescapular? Utilice un α = 0,05. 
 
EJERCICIO 7.9 

Un  nuevo  suplemento  vitamínico  que  se  promociona  como  estimulante  de  la  ingesta 
alimentaria salió a la venta. En un instituto de rehabilitación nutricional se desea probar si 
realmente  tiene  tal  efecto.  Para  ello  se  toma  una  muestra  de  15  personas  en  quienes  se 
estima  el  valor  energético  total  promedio  consumido  (Cal/día).  Luego  de  administrarles 
durante 1 mes el suplemento se realiza una nueva valoración de la ingesta, obteniéndose los 
siguientes resultados: 
 

236 
 
Estadística Inferencial: Comparación de Poblaciones

Sujeto  VET previo suplemento VET post suplemento 


1  900 1300 
2  1260 1500 
3  1750  1750 
4  1100 1100 
5  800  1100 
6  2100  2100 
7  1700  2000 
8  1380  1500 
9  1000  1600 
10  1550  1800 
11  3500  3500 
12  2600  2600 
13  1250  1500 
14  1450  1450 
15  2100 2500 
 
¿Está en lo cierto lo que informa el fabricante acerca de los efectos de estimulación de la 
ingesta del nuevo suplemento? Trabaje con un α = 0,10. 
 
EJERCICIO 7.10 

Se desea conocer el impacto de una campaña de educación alimentaria sobre higiene de 
los alimentos dirigida al personal que trabaja en comedores escolares. Para ello se tomó una 
muestra  de  6  manipuladores  de  alimentos  y  se  les  realizó  un  test  de  evaluación  sobre 
conocimientos en el tema previo al inicio de la campaña. Luego de haber implementado las 
actividades  educativas  durante  los  6  meses  previstos,  se  realizó  nuevamente  el  test  a  los 
mismos  manipuladores.  ¿Se  puede  afirmar  que  la  campaña  de  educación  alimentaria  tuvo 
un efecto favorable, con un α = 0,05?  
 
Manipulador de  Test previo Test posterior 
alimentos  (% obtenido)  (% obtenido) 
1  80  82 
2  75  79 
3  93  90 
4  92  92 
5  89  89 
6  50 55
 
237 
 
Estadística Inferencial: Comparación de Poblaciones

EJERCICIO 7.11 
El  Servicio  de  Nutrición  de  un  determinado  hospital  de  la  ciudad  de  Córdoba  desea 
estudiar  si  la  proporción  de  pacientes  con  sobrepeso  que  habitan  en  áreas  urbanas  es 
estadísticamente diferente de la proporción en quienes residen en contextos rurales.  Para 
ello, se extrajo una muestra aleatoria de personas atendidas en el Servicio, consultándose en 
las  historias  clínicas  sobre  la  localidad  de  procedencia  del  paciente  y  el  estado  nutricional 
valorado en la primera consulta con el Servicio. Se encontró que 54 de los 402 pacientes que 
residieron en áreas rurales presentaron sobrepeso, en tanto en áreas urbanas 117 pacientes 
tuvieron sobrepeso de un total de 1067. 
 

EJERCICIO 7.12 

Se desea conocer si el descenso de la glucemia en pacientes con diabetes tipo 1 (insulino 
dependiente)  difiere  según  el  tratamiento  recibido.  Para  ello  se  formaron  tres  grupos  que 
siguieron tratamientos diferenciados:  
Tratamiento 1: dieta tradicional e insulina de acción lenta 
Tratamiento 2: dieta tradicional e insulina de acción rápida 
Tratamiento  3:  insulina  de acción rápida y dieta con control del  índice glucémico de los 
alimentos. 
Tratamiento  Glucemia Totales de Tratamiento Yi 
T1  130  120  110  90 450 
T2  80  110  90  85 365 
T3  90  50  90  70 300 
    Y.. =1115 

 
 

238 
 
Estadística Inferencial: Comparación de Poblaciones

RESOLUCIONES EJERCICIOS 7.1 AL 7.12 

EJERCICIO 7.1 

X 1 = 46,34 Kg    σ21 = 39,4 Kg2 

X 2 = 52,64 Kg    σ22 = 63,8 Kg2 
 

39,4 63,8
LI = ( 46,34 − 52,64) − 1,645 ⋅ +  
10 10

= −6,3 − 1,645 ⋅ 3,94 + 6,38  

= −6,3 − 1,645 ⋅ 10,32  

= −6,3 − 1,645 ⋅ 3,21  


= −6,3 − 5,28  
= −11,58  
 

39,4 63,8
LS = ( 46,34 − 52,64) + 1,645 ⋅ +  
10 10

= −6,3 + 1,645 ⋅ 3,94 + 6,38  

= −6,3 + 1,645 ⋅ 10,32  

= −6,3 + 1,645 ⋅ 3,21  


= −6,3 + 5,28  
= −1,01  
[ ‐ 11,58; ‐ 1,01 ] 

Como el cero no es un valor posible en el intervalo obtenido, esto indica que la media de 
peso del alimento en cuestión es diferente para ambas empresas, siendo que la empresa “B” 
envasa  el  alimento  con  mayor  peso  que  la  empresa  “A”,  esto  se  afirma  con  un  90%  de 
confianza. 
 

239 
 
Estadística Inferencial: Comparación de Poblaciones

EJERCICIO 7.2 

H0: σ21 = σ22.    H1: σ21≠σ22. 
 
S12 11,6
F= = = 1,47  
S 22 7,9

 
Región de aceptación α/2 = 0,2256 y (1 ‐ α/2) = 4,4333 
 
1,47  se  ubica  dentro  de  la  región  de  aceptación  por  lo  que  se  acepta  la  semejanza  de 
varianzas. 
 
H0: μ1= μ2  H1: μ1  ≠ μ2 
 
Calculando el estadístico: 

T=
(X 1 −X2 )  
(n1 − 1)S12 + (n2 − 1)S 22 ⎡1 1⎤
⋅⎢ + ⎥
n1 + n 2 − 2 ⎣ n1 n 2 ⎦

T=
(139 − 128) = 7,47  
8 ⋅ 11,6 + 8 ⋅ 7,9 ⎡ 1 1 ⎤
⋅⎢ + ⎥
9+9−2 ⎣9 9 ⎦
 
Con un α = 0,05 los puntos críticos que delimitan la región de aceptación son: 
t(n1 + n2 – 2 ; α/2)y t(n1 + n2 – 2 ; 1 ‐ α/2) 
 
t(16 ; 0,025)  y t(16 ; 0,975) = ‐ 2,12 y 2,12 
 
Como  el  valor  calculado  se  ubica  fuera  de  la  región  de  aceptación  se  concluye  que  hay 
suficiente evidencia para rechazar la hipótesis nula, estableciendo con 95% de confianza que 
hay diferencia en el contenido promedio de cenizas de ambos dulces de leche. 
 
 
240 
 
Estadística Inferencial: Comparación de Poblaciones

EJERCICIO 7.3 

  n1 = 6            n2 = 6                      α = 0,05 

X 1 = 0,91     X 2 = 1,165 
S1 = 0,063     S2 = 0,054 
S21 = 0,004    S22 = 0,003 
 
H0 : μ1 = μ2 
H1 : μ1 ≠μ2   

 
Varianzas Desconocidas 
H0 : σ21 = σ22 
H1 : σ21≠σ22 
 
S12 0,004
F= = = 1,33
S 22 0,003     α = 0,05    α/2 = 0,025   1 ‐ α/2 = 0,975 

Puntos Críticos: 0,139 y 7,146 
F=1,33→ Zona de Aceptación → Las Varianzas son Semejantes 
 

T=
(X 1 −X2 )  
(n1 − 1)S + (n 2 − 1)S 22
1
2
⎡1
⋅⎢ + ⎥
1⎤
n1 + n 2 − 2 ⎣ n1 n 2 ⎦

T=
(0,91 − 1,17 )  
(6 − 1) ⋅ 0,004 + (6 − 1) ⋅ 0,003 ⋅ ⎡ 1 + 1 ⎤
6+6−2 ⎢9 6 ⎥⎦

− 0,255
T= = −7,5  
0,034
 
α = 0,05   Grados de Libertad: 10   
Puntos Críticos: ‐2,22 y 2,22  

 
241 
 
Estadística Inferencial: Comparación de Poblaciones

T = ‐ 7,5 → se rechaza la hipótesis nula 
Con 95% de confianza se afirma que los contenidos medios totales de nitrógeno a los 37 y 
a los 180 días no son similares en plasma de ratas albinas normales. 
 
EJERCICIO 7.4 

Nivel Socioeconómico Alto:   X = 4        S= 1,309     S2= 1,71     n= 15 

Nivel Socioeconómico Bajo:   X = 2,65    S= 1,565     S2= 2,45     n= 20 


 
α = 0,1 
α/2 = 0,05 
1 ‐α/2 = 0,95 
 
No se conocen las varianzas 
H0: σ2A=σ2B            Gráfico bilateral 
H1: σ2A≠σ2 B            Puntos críticos: 0,391 y 2,3 
 
S12 1,71
F= = = 0,697
S 22 2,45  

F= 0,697 → Zona de Aceptación, se acepta H0 → las σ2 son semejantes 
 
H0: μA=μB          Gráfico bilateral 
          H1: μA≠μB           Puntos críticos: ‐1,69 y 1,69 
 

T=
(X 1 −X2 )  
(n1 − 1)S12 + (n2 − 1)S 22 ⎡1 1⎤
⋅⎢ + ⎥
n1 + n 2 − 2 ⎣ n1 n 2 ⎦
 

242 
 
Estadística Inferencial: Comparación de Poblaciones

T=
(4 − 2,65) = 2,7  
(15 − 1) ⋅ 1,71 + (20 − 1) ⋅ 2,45 ⋅ ⎡ 1 1⎤
15 + 20 − 2 ⎢15 + 20 ⎥
⎣ ⎦
T = 2,7→ Zona de Rechazo →  se rechaza H0 
Con 90% de confianza se puede afirmar que el número de controles durante el embarazo 
no es semejante entre las mujeres de alto y bajo nivel socioeconómico. 
 
EJERCICIO 7.5 

Prueba de diferencia de Varianzas 
Hipótesis:  
                H0: σ2R = σ2A 
                H1: σ2R ≠σ2A 
 
S12 1
F= 2
= = 0,04
Calculamos el estadístico  S 2 25  

Los puntos críticos determinados son 0,2484 y 4,026 y el valor de F = 0,04 se ubica en la 
zona de rechazo, por lo que se rechaza la hipótesis nula (H0) y se concluye que las varianzas 
(σ2) son diferentes. 
 
Planteamos las hipótesis siguientes: 
                H0: μR = μA 
H1: μR ≠μA 

 
Calculamos el estadístico T’ 

T´ =
(24 − 20 ) = 2,48  
1 25
+
10 10

Grados de Libertad: 

243 
 
Estadística Inferencial: Comparación de Poblaciones

2
⎛ S12 S 22 ⎞
⎜⎜ + ⎟⎟
v= ⎝ n1 n2 ⎠ −2 
2 2
⎛ S12 ⎞ ⎛ S 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ n1 ⎠ + ⎝ n2 ⎠
n1 + 1 n2 + 1
2
⎛ 1 25 ⎞
⎜ + ⎟
v= ⎝ 2
10 10 ⎠
2
−2 
⎛1⎞ ⎛ 25 ⎞
⎜ ⎟ ⎜ ⎟
⎝ 10 ⎠ + ⎝ 10 ⎠
10 + 1 10 + 1
 
v = 9,87 ≈ 9  
 
Puntos críticos: ‐ 2, 26  y  2,26 
 
Conclusión: el estadístico T’ se encuentra fuera de la zona de aceptación, rechazándose la 
hipótesis nula, por lo tanto se afirma que las medias de peso de los niños de ambas salas son 
diferentes, con 95% de confianza. 
 
EJERCICIO 7.6 
n1 = 8              n2 = 8                      α = 0,05 

X 1 = 11,8        X 2 = 11,96 
2
S 1 = 1,38       S22 = 11,04 
S1 = 1,175      S2 = 3,32 
 
H0 : μ1 = μ2 
H1 : μ1≠μ2 
 
Varianzas Desconocidas 
 H0 : σ21 = σ22 
H1 : σ21≠σ22 
 
244 
 
Estadística Inferencial: Comparación de Poblaciones

S12
F=
S 22
1,38
F= = 0,125  
11,04

α = 0,05    α/2 = 0,025   1 ‐ α/2 = 0,975 
Puntos Críticos: 0,2 y 4,99 

F = 0,125 → Zona de Rechazo 

Las varianzas son desconocidas y diferentes 
 

T´ =
(X 1 −X2 ) 
2 2
S S
+ 1 2

n1 n2

T´ =
(11,8 − 11,96 ) = −0,128  
1,38 11,04
+
8 8
 
Grados de Libertad 
2
⎛ S12 S 22 ⎞
⎜⎜ + ⎟⎟
v= ⎝ n1 n 2 ⎠ −2 
2 2
⎛ S12 ⎞ ⎛ S 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ n1 ⎠ + ⎝ n2 ⎠
n1 + 1 n2 + 1
 
2
⎛ 1,38 11,04 ⎞
⎜ + ⎟
v= ⎝ 8 8 ⎠
−2 
2 2
⎛ 1,38 ⎞ ⎛ 11,04 ⎞
⎜ ⎟ ⎜ ⎟
⎝ 8 ⎠ +⎝ 8 ⎠
8 +1 8 +1
v = 9,22 Æ Grados de libertad 
α/2= 0,025    1‐α/2= 0,975    Puntos críticos: ‐2,26 y 2,26 

245 
 
Estadística Inferencial: Comparación de Poblaciones

T´= -0,128 Æ Zona de aceptación

Con 95% de Confianza se puede afirmar que el contenido medio de hemoglobina en las 
mujeres adultas es similar si no han tenido hijos y si han sido madres en un periodo mayor a 
5 años. 
 
EJERCICIO 7.7 

Nivel de Confianza   α = 0,05 
α/2 = 0,025    1 ‐ α/2 = 0,975 
 

Acelga:        X = 145      S= 3     S2= 9      n= 13 

Espinaca:   X = 136      S= 9     S2= 81    n= 13 
 
Prueba de diferencia de Varianzas 
 
Hipótesis:  
H0: σ2A = σ2E 
                H1: σ2A ≠σ2E 
 
Calculamos el estadístico  
S12
F=
S 22
9
F= = 0,11     Puntos Críticos: 0,3 y 3,27  
81

S2E 
0,11 cae en zona de rechazo, por lo que se rechaza la hipótesis nula (H0) y se concluye que 
las varianzas (σ2) son diferentes. 
 
H0: μA = μE 
                H1: μA ≠μE 

246 
 
Estadística Inferencial: Comparación de Poblaciones

Estadístico a utilizar:   T’  
Grados de Libertad: 
2
⎛ S12 S 22 ⎞
⎜⎜ + ⎟⎟
v= ⎝ n1 n2 ⎠ −2 
2 2
⎛ S12 ⎞ ⎛ S 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ 1 ⎠ + ⎝ n2 ⎠
n
n1 + 1 n2 + 1

2
⎛ 9 81 ⎞
⎜ + ⎟
v= ⎝ 2
13 13 ⎠
2
− 2 = 15,09 ≅ 15  
⎛9⎞ ⎛ 81 ⎞
⎜ ⎟ ⎜ ⎟
⎝ 13 ⎠ + ⎝ 13 ⎠
13 + 1 13 + 1

T´ =
(145 − 136 ) = 9
= 3,4  
9 81 2,63
+
13 13

Puntos críticos: ‐2,13  y  2,13 
T’=  3,4 → Zona de Rechazo, se rechaza H0 

Se afirma con 95% de confianza que el contenido de Ácido Fólico en 100g de vegetal es 
distinto entre la acelga y la espinaca. 
 

EJERCICIO 7.8 

H0: μd = 0  vs  H1: μd ≠ 0 


 
d = 0,362 
Sd = 0,088 
 
d
T =    se distribuye con una T de Student con (10‐1) grados de libertad. 
Sd
n
 
T = 0,362 / 0,027 = 13,407 
247 
 
Estadística Inferencial: Comparación de Poblaciones

t α/2 = ‐2,266  
t1‐α/2 = 2,266 

Dado  que  13,407  >  2,266  se  rechaza  la  H0.  Con  una  confianza  del  95%  se  concluye 
entonces  que  la  medición  del  pliegue  subescapular  arroja  resultados  diferentes 
(estadísticamente significativos) según se realice en el lado derecho o izquierdo del cuerpo, 
lo  cual  deberá  ser  considerado  en  la  elaboración  del  protocolo  de  mediciones 
antropométricas. 
 

EJERCICIO 7.9 

H0: μd = 0  vs  H1: μd > 0 


 
d = ‐190,67 
Sd = ‐191,18 
 
d
T =    se distribuye con una T de Student con (15‐1) grados de libertad. 
Sd
n
 
T = ‐190,67 / 49,36 
 = ‐3,86 
 
t (1 ‐ α/2)= 1,345     Gráfico unilateral derecho 
 
Dado que ‐3,86< 1,345 se acepta la H0. Con una confianza del 90% se puede afirmar que 
el  nuevo  suplemento  vitamínico  que  se  promociona  como  estimulante  de  la  ingesta 
alimentaria no tiene tal efecto. 
 

EJERCICIO 7.10 

H0: μd = 0  vs  H1: μd > 0 


d = 1,33 
248 
 
Estadística Inferencial: Comparación de Poblaciones

Sd = 2,94 
 
d
T =    se distribuye con una T de Student con (6‐1) grados de libertad. 
Sd
n
 
T = 1,33/ 1,2 
 = 1,108 
 
t (1‐α/2)= 2,015    Gráfico unilateral derecho 
 
Dado  que  1,108<2,015  se  acepta  la  H0.  Por  lo  tanto,  con  una  confianza  del  95%  se 
concluye que la campaña de educación alimentaria no tuvo el efecto favorable esperado.  
 
EJERCICIO 7.11 

Las proporciones para cada zona (rural=1; urbano=2) son: 
p1 = 54/ 402 = 0,1343 
p2 = 117 / 1067 = 0,1097 
 
Se establece: 
H0: p1‐p2= 0    H1: p1‐p2≠ 0   
 
En términos del problema: 
H0: La proporción de sujetos con sobrepeso en las dos zonas en estudio es la misma. 
H1: La proporción de sujetos con sobrepeso en las dos zonas en estudio es diferente. 
 
Siendo el estadístico: 
 
p1 − p 2
Z=  
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2
 
249 
 
Estadística Inferencial: Comparación de Poblaciones

0,1343 − 0,1097
Z=  = ‐1,26 
0,1343(1 − 0,1343) 0,1097(1 − 0,1097)
+
402 1067

Si se toma un nivel de significación del 0,05 el valor crítico es Z*= ±1,96.  
El estadístico Z se ubica en la región de aceptación de H0, por lo que se concluye que las 
proporciones de sujetos con sobrepeso en las dos zonas en estudio no son diferentes, con un 
nivel de confianza del 95%. 
 
EJERCICIO 7.12 

Cálculos preliminares: 
11152
SCT = 1302 + 1202 + 1102 + 902 + 802 + 1102 + ... + 152 − = 103602,08  
12
450 2 + 365 2 + 300 1115 2
SCE = − = 2829,17  
4 12
SCD = 103602,08 − 2829,17 = 2493,75  
 
SCE
CME =  
gle
 
gle = a − 1  
gle = 3 − 1 = 2  
 
SCE 2829,17
Entonces    CME = = = 1414,58  
gle 2
 
SCD
CMD =  
gld
 
gld = N − a  
gld = 12 − 3 = 9  
 

250 
 
Estadística Inferencial: Comparación de Poblaciones

SCD 2493,75
Entonces    CMD = = = 277,08  
gld 9
 
CME 1414,58
F= = = 5,11  
CMD 277,08
 
Tabla de ANAVA correspondiente: 
Fuente de  Suma de Cuadrados  Grados de  Cuadrado  F Obs. 
Variación  Libertad  Medio 
Entre  2829,17 2 1414,5  5,11
Tratamientos 
Dentro (Error  2493,75  9  277,08   
Experimental) 
Total  103602  13     
 
  Como  el  F  observado  es  igual  a  5,11  y  es  mayor  al  F  teórico  [F(2;9;  0,95)=  4,25]  se 
rechaza la H0 de igualdad de medias. Esto quiere decir que al menos uno de los tratamientos 
para diabéticos presenta una disminución de la glucemia en sangre diferente que el resto de 
los tratamientos. 
 
 
 
 
 
 
 
 
 
 
 
 
 

251 
 
 

252 
 
CAPÍTULO 8: ANÁLISIS DE RELACIONES 

253 
 
Análisis de Relaciones

254 
 
Análisis de Relaciones

Hasta  ahora,  la  revisión  se  ha  centrado  en  la  descripción  de  variables  simples.  La 
media,  la  moda,  la  desviación  estándar  y  las  demás  medidas  de  tendencia  central  y 
variabilidad se aplicaron para describir los datos de una sola variable, es por ello que se 
habla en este caso de estadísticas univariadas. Es común en el área de la Ciencias de la 
Salud, y en particular en la de la Nutrición realizar estudios de más de dos características 
o  variables  aleatorias  en  individuos  extraídos  de  una  población.  Esto  es  lo  que  se  llama 
estudio bivariado o multivariado, para analizar esa información uno de los pasos a realizar 
es la construcción de tablas de contingencia. 
 

Tabla de Contingencia: 

El  objeto  de  las  tablas  de  contingencia  es  determinar  si  existe  o  no  algún  tipo  de 
relación  de  dependencia  entre  dos  o  mas  variables  de  tipo  categórico  o  cualitativo,  ya 
sean de tipos nominal u ordinal . Éstas permiten tabular en forma cruzada las frecuencias 
de las variables que se desean relacionar, visualizando así su distribución en las distintas 
celdas que la conforman. 
 
Para realizar la construcción de una tabla de contingencia se debe: 
• Determinar  el/los  objeto/s  de  estudio:  Individuos,  personas,  alimentos,  niños, 
etc. 
• Determinar el/los criterios de clasificación de los mismos.   
• Definir la disposición de las variables en columnas o en filas. 
• Realizar la distribución de las frecuencias de las categorías de las variables en 
las celdas correspondientes. 
 
A continuación se presentan algunos ejemplos de tablas de contingencia (Tabla 1 y 2). 
 
 
 
 
 

255

 
Análisis de Relaciones

Tabla 1: Rendimiento deportivo de Basquetbolistas, según tipo de dieta consumida 

 
 Tipo de Dieta            Dieta A  Dieta B  Total 
Rendimiento 
Mejora  15  18  33 
Mantiene  8  6  14 
Declina 7 6 13
Total  30  30  60 
 
 
Tabla 2: Relación entre el sexo y el tabaquismo 

  Sexo 
Grado de   Mujer  Varón  Total 
Tabaquismo  N  %  N  %  N  % 
No fumador  10  45,5  6  27  16  36,5 
Fumador moderado 8 36,5 8 35,5 16 36,5 
Muy fumador  4  18  8  36,5  12  27 
Total  22  100  22  100  44  100 
 
Una vez que se han construido las tablas de contingencia se procede al análisis de las 
mismas que comprende: 

• Verificar si existe asociación entre las variables 
• Si existe asociación, construir un coeficiente para medir el grado de asociación 
o estudiar los efectos de la variable sobre la distribución conjunta. 

Tablas de 2 x 2 

En  este  caso  cada  una  de  las  variables  que  se  están  relacionando,  presentan  dos 
categorías.  
 
 

256 
 
Análisis de Relaciones

Tabla 3: Total de niños Normales y Desnutridos Crónicos, según sexo. Córdoba, 1993. 

Sexo   
Estado Nutricional  Femenino  Masculino  Total 
Desnutridos  33  44  77 
Normales  151  147  298 
Total  184  191  375 
 
 

Tabla 4: Velocidad de crecimiento según sexo. Córdoba, 1997. 

 
Velocidad de  Sexo 
Total 
crecimiento 
Femenino  Masculino   
Insatisfactorio  18  15  33 
Satisfactorio  18  21  39 
Total  36 36 72 
 
Luego de la construcción de la tabla se analiza si existe asociación entre las variables 
utilizando el test de Chi Cuadrado. 
 

Test de Chi cuadrado 

Al  analizar  el  Test  de    Chi  cuadrado  se  busca  conocer  si  la  proporción  de  casos  para 
cada  categoría  de  una  de  las  variables  es  independiente  del  valor  que  toma  la  otra 
variable, determinando la probabilidad de que los datos observados se ajusten a los datos 
esperados 
Para calcularlo se utiliza la siguiente fórmula: 
 

( f 0 − f e )2
χ =∑2

fe

       

257 
 
Análisis de Relaciones

donde: 
fo: Frecuencias observadas en una celda. 
fe:  Frecuencias esperadas en una celda. 
Σ: Sumatoria 
 
fr ⋅ fc
fe = , 
n
 
donde: 
fr: Frecuencia observada en una fila determinada. 
fc: Frecuencia observada en una columna determinada. 
n: Número total de sujetos, etc, de la muestra. 
Se  aplicará  el  Test  con  el    ejemplo  de  la  tabla  de  niños  desnutridos  crónicos  según 
sexo. 
 
• Se determinan las hipótesis estadísticas: 
 
H0 : El Estado Nutricional no está asociado al sexo.                                                             
H1:  El Estado Nutricional está asociado al sexo. 
 
• Se establece el nivel de significación a utilizar: 
 
En este caso α = 0,05 
 
• Se calculan los grados de libertad: 
 
( L – 1) . ( C – 1 ) 
 
L: Líneas    C: Columnas 
 
Sería para el ejemplo: 
 

258 
 
Análisis de Relaciones

Grados de Libertad = (2‐1) . ( 2‐1 ) = 1 
 
• Se calculan los valores esperados: 
 
Ejemplo para la primera casilla de valores esperados de mujeres desnutridas: 
 
Total de la Línea:  77    Total de la columna: 184 
Total general: 375 
 
  Sexo  
  Femenino Masculino  
Estado Nutricional  Total 
Valores  Valores Valores  Valores 
Observados Esperados Observados Esperados 
DESNUTRIDOS  33 38 44 39  77 
NORMALES  151 146 147 152  298 
Total  184 184 191 191  375 
 
 
 
Cálculo de valor esperado para el valor observado 33: 
fr ⋅ fc 77 ⋅ 184
fe = = = 37,78 ≈ 38  
n 375
 
De igual manera se calculan el resto de las frecuencias esperadas. 
 
• Luego se calcula el χ2 Observado 
 

( f 0 − f e )2
χ2 = ∑  
fe

χ2 =
(33 − 38)2 + (44 − 39 )2 + (151 − 146 )2 + (147 − 152 )2  
38 39 146 152
 
χ 2 = 0,65 + 0,64 + 0,17 + 0,16 = 1,62  
• Se busca  el  χ2 teórico en la tabla correspondiente. 

259 
 
Análisis de Relaciones

 
Para el ejemplo corresponde buscar en tabla el valor de  χ2 para un grado de libertad 
con un α= 0,05 
χ2  teórico = 3,84 
• Se realiza la comparación entre el χ2  observado y el χ2  teórico: 

 
χ2  observado = 1,62     χ2  teórico = 3,84 
 
• Esto se interpreta de la siguiente manera: 

‐ Si el χ2  observado o calculado es menor o igual al teórico, aceptamos la H0 
‐ Si el χ2  observado es mayor al teórico se acepta H1 

Para  el  ejemplo  citado,  el  χ2  observado  es  menor  al  teórico  por  lo  que  se  acepta 
entonces la hipótesis H0 : El estado Nutricional no está asociado al sexo. 

• Se concluye que: 

Con un 95 % de confianza el sexo no influye en el estado nutricional.  
 
Nota:  
Es importante aclarar que, cuando alguna de las frecuencias esperadas es menor a 0,5 
ó cuando más del 20% de las frecuencias esperadas son menores que 5 no se puede usar 
el  estadísticoχ2.  En  estos  casos  hay  que  recurrir  a  métodos  exactos  para  calcular  las 
probabilidades bajo la hipótesis H0  , como lo realiza la prueba de Irwin‐Fisher para tablas 
de 2x2. 
 
Ejercicios de aplicación: 8.1 a 8.2 

Introducción al Análisis de Regresión Lineal Simple y Correlación Lineal 

Hasta aquí se han presentado situaciones problemáticas que implican la medición de 
una sola variable sobre cada unidad experimental.  

260 
 
Análisis de Relaciones

Sin embargo es frecuente en trabajos de investigación encontrar que se observan más 
de una variable en cada objeto de estudio, con el interés de conocer la forma en que esas 
variables se relacionan. El análisis de regresión y el de correlación son útiles para ello. 
  En  este  módulo  sólo  se  trata  el  caso  de  Correlación  Lineal  Simple  y  Regresión 
Lineal  Simple  es  decir,  cuando  se  tienen  dos  variables  (denotadas  por  X  e  Y)  evaluadas 
sobre cada unidad experimental y la relación subyacente entre ambas es de tipo lineal. 
La  utilización  de  una  u  otra  técnica  depende  fundamentalmente  del  objetivo  del 
investigador.  Con  la  regresión  se  estudia  la  relación  entre  dos  variables,  donde  una  es 
considerada  explicativa  (variable  independiente  o  explicativa)  y  la  otra  efecto  (variable 
dependiente  o  respuesta),  pudiendo  estimarse  en  cuánto  se  puede  esperar  que  se 
modifique la variable dependiente si se modifica el valor de la variable independiente.  
En tanto, el coeficiente de correlación mide la fuerza y la dirección de la relación lineal 
entre  dos  variables  cuantitativas,  sin  necesidad  de  distinguir  una  como  dependiente  y 
otra  como  independiente.  Permite  investigar  si  dos  variables  X  e  Y  son  independientes 
entre  sí  o  si  covarían,  esto  es,  si  varían  conjuntamente.  En  el  análisis  de  correlación, 
ninguna de las variables puede ser fijada por el experimentador. 
Los gráficos de dispersión se presentan en este capítulo como una herramienta útil en 
la etapa exploratoria, tanto del análisis de regresión como de correlación. Como punto de 
partida  para  el  análisis  de  la  relación  entre  las  variables,  este  tipo  de  representación 
gráfica,  permite  identificar  el  posible  modelo  funcional  que  caracteriza  dicha  relación, 
siendo  esta  una    asociación  lineal  positiva,  negativa,  o  en  su  defecto  ausencia  de 
asociación lineal.  
Se puede decir que existe una relación o correlación positiva entre dos variables X y Y, 
si  al  aumentar  los  valores  de  X    aumentan  los  valores  de  Y,  o  cuando  al  disminuir  los 
valores  de  X  disminuyen  los  valores  de  Y.  En  cambio,  dos  variables  están  asociadas 
negativamente si al aumentar los valores de X disminuyen los valores de Y, o cuando al 
disminuir los valores de X aumentan los valores de Y. 
 

Regresión Lineal Simple 

El análisis de regresión es una técnica para investigar y modelar la relación entre dos 
variables cuantitativas, identificando la función que las une. Permite realizar predicciones, 

261 
 
Análisis de Relaciones

es  decir,  estimar  el  valor  de  una  variable  Y  para  un  valor  dado  de  la  variable  X.  Para 
realizar este análisis se supone que la relación entre las variables es lineal. 
La  relación  lineal  entre  las  variables  X  e  Y  puede  expresarse  usando  el  modelo  de 
regresión lineal simple poblacional: 
 
Yi = α + βXi + εi, 

donde   
α: ordenada al origen 
β: pendiente 

εi: componente del error aleatorio 
 
Los  parámetros  del  modelo  son  α  y  β  (constantes  desconocidas).  Como  no  todos  los 
puntos  caen  exactamente  sobre  la  recta,  se  incluye  en  el  modelo  el  término 
correspondiente el error aleatorio que es una variable aleatoria con distribución normal 
con media 0 y varianza  σ2. Por lo tanto las Yi son variables aleatorias independientes con 
distribución normal, esperanza  

α + βXi y varianza común σ2. 
 
Como  el  modelo  es  poblacional,  los  parámetros  α    y    β,  son  desconocidos.  Sin 
embargo,  pueden  ser  estimados  a  partir  de  los  denominados  coeficientes  de  regresión 
muestrales (estimadores), los que se denotan como a y b respectivamente.  
La ecuación de la regresión lineal básica sería la siguiente: 
^
Y i  = a + bXi, 
 
donde: 
^
Y i : valor predicho de la variable Y. 
a: constante de intersección (ordenada al origen), indica el valor de Y para X = 0. 
b:  coeficiente  de  regresión  (pendiente  de  la  recta),  indica  cuanto  cambia  Y  por  cada 
aumento unitario en X. 
xi: valor de la variable X. 

262 
 
Análisis de Relaciones

 
Observando  la  ecuación  anterior,  ésta  corresponde  a  la  fórmula  algebraica  de  una 
línea recta. En definitiva, la regresión lineal representa un método para determinar una 
línea  recta  que  se  ajuste  a  los  datos,  de  tal  manera  que  se  reduzcan  al  mínimo  las 
desviaciones de los puntajes con respecto a la línea. 
El estimador a, por ser la ordenada al origen, indica el punto en que la recta corta al 
eje  de  las  ordenadas,  en  tanto  b,  que  es  la  pendiente  de  la  recta,  indica  el  cambio 
producido por Y al cambiar en una unidad la X. 
El método denominado de estimación por mínimos cuadrados (cuyo abordaje excede 
los objetivos de este módulo) produce las siguientes expresiones para los estimadores a y 
b (de α y β respectivamente): 
 
n n

n ∑ X i ∑ Yi
∑X Y i i − i =1

n
i =1
a =  Y  – b X , 
b= i =1
n
   
n
(∑ X i ) 2

∑X − i =1
2
i
i =1 n
 
donde: 
b: coeficiente de regresión. 
a: constante de intersección. 
Y : media de la variable Y. 
X : media de la variable X. 
x: valores de desviación de X. 
y: valores de desviación de Y. 

Ejemplo: 

En un estudio se desea cuantificar la relación que existe entre el peso de nacimiento y 
la ganancia de peso de la madre al octavo mes de embarazo. 
Se  obtuvieron  los  siguientes  datos  de  10  nacimientos  ocurridos  en  un  hospital  de  la 
ciudad. 

263 
 
Análisis de Relaciones

  X: ganancia de peso  Y: Peso de 
Paciente  materno al 8vo mes Nacimiento 
(en Kg) (en gramos)
1  7 2,400
2  12 3,000
3  8 2,800
4  10  3,100 
5  9  2,500 
6  12,5  3,250 
7  18  3,750 
8  13  3,250 
9  15  3,600 
10  9,5  3,150 
 
 
El diagrama de dispersión es el siguiente: 
 
3,82

3,45
Peso Nacimiento

3,08

2,70

2,33
6,45 9,48 12,50 15,53 18,55
Ganancia de peso
 

Figura 1. Peso de nacimiento en gramos según ganancia de peso materno al 8º mes de 
embarazo. 

 
El  diagrama  indica  que  hay  una  relación  positiva  entre  el  peso  de  nacimiento  y  la 
ganancia de peso materno, y se puede postular entonces que en este caso la relación es 
lineal. 
 
Cálculos para la regresión lineal simple: 
  X  Y XY X2 
  7  2,4 16,8 49 
  12  3,0 36,0 144 
  8  2,8  22,4  64 

264 
 
Análisis de Relaciones

  10  3,1 31,0 100 


  9  2,5 22,5 81 
  12,5  3,25 40,6 156,25 
  18  3,75  67,5  324 
  13  3,25 42,2 169 
  15  3,6  54,0  225 
  9,5  3,15  29,9  90,25 
sumatoria  114  30,8  362,95  1402,5 
 
 

X  = 11,4 Kg, 

Y = 3,080 Kg, 
 
114 ⋅ 30,8
362,95 −
b= 10  
114 2
1402,5 −
10
362,95 − 351,12
b=  
1402,5 − 1299,6
b = 0,11 , 
luego 
a = Y − bX  
a = 3.080 − 0,1 ⋅ 11,4  
a = 1,826  
 
Para  trazar  la  recta  correspondiente,  se  busca  el  valor  de  Y  correspondiente  a  una  X 
cualquiera. Por ejemplo, X = 11 
yˆ = a + bX = 1,826 + 0,11 ⋅ 11
 
= 1,826 + 1,21 = 3,036
 
Se marca en el eje Y el valor de a para X = 0. En este caso 1,826. 
Luego  se  busca  para  11  Kg.  de  ganancia  de  peso  (X)  el  peso  de  nacimiento  que  le 
corresponde (Y), en este caso 3,036 Kg. 
Y por último se unen estos dos puntos. 
La representación gráfica conjunta del diagrama de dispersión y la recta de regresión 

265 
 
Análisis de Relaciones

estimada Y = 1,826 + 0,11 X sería la siguiente: 
 

3,90

3,51

Peso Nacimiento
3,12

2,73

2,33
6,45 9,48 12,50 15,53 18,55
Ganancia de peso
 

Figura 2. Peso de nacimiento en gramos según ganancia de peso materno al 8º mes de 
embarazo. 

En este gráfico se observan los puntos, que representan los  supuestos valores  reales 


de X y de Y; la recta que pasa entre los puntos representa la solución de la regresión. La 
constante de intersección (a) es el punto en que la línea cruza el eje Y, que en este caso es 
1,826 Kg. La pendiente (b) es el ángulo de la recta con relación a los ejes X e Y. El valor de 
b  =  0,11  Kg.,  está  indicando  que  la  línea  se  inclina  (aumenta)  de  manera  que  cada  una 
unidad sobre el eje X corresponde un desplazamiento de 0,11 Kg sobre el eje Y. 
Dicho de otra manera: cada un kilo que se aumente en el embarazo, se incrementara 
en 110 gramos el peso del recién nacido. 
 
Pruebas de significación de los Parámetros 

La estimación de una recta de regresión expresa lo que ocurre en la muestra, es decir 
la recta estimada es meramente descriptiva. En caso que se desee obtener conclusiones 
sobre la población para predecir valores de la variable Y para determinados valores de la 
variable X se deben realizar pruebas de hipótesis.  
 

Prueba de Significación de la Regresión (β) 

La realización de una prueba para el parámetro β es llamada Prueba de significación de 

266 
 
Análisis de Relaciones

la Regresión. 
Las hipótesis a probar son: 
H0) β = 0 H1) β ≠ 0
 
 que indican  
H0: La variable X no explica linealmente a la variable Y. 
H1: La variable X explica linealmente a la variable Y. 
 
Lo planteado en la hipótesis nula indica que la recta poblacional tiene pendiente cero 
(o sea es una recta horizontal) lo cual se interpreta como que cualquiera sea la variación 
en X, Y permanece constante.  
La aproximación más simple para probar β = β0 es mediante un test T. 
Para contrastar estas hipótesis se define el siguiente estadístico, el cual se distribuye 
como una T con n ‐ 2 grados de libertad: 
 
b − β0
T =   . 
⎡ ∧ ⎤
⎢ σ 2 ⎥
⎢ ⎥
⎢⎣ ∑ x i ( ∑ i )
⎢ 2
− x
2
/ n ⎥
⎥⎦

 

En las expresiones dadas aparece la estimación de la varianza del error ( σ 2 ). No se ha 
mostrado hasta ahora, una expresión para este estimador. La técnica de estimación nos 
conduce a la partición de la denominada Suma de los Cuadrados Total (SCT) de Y en una 
Suma  de  Cuadrados  Explicadas  por  α  (SCα  ),  una  Suma  de  Cuadrados  Explicada  por  β 
(SCβ)  y  una  Suma  de  Cuadrados  Residual  (SCR).  Esta  descomposición  de  la  suma  de  los 

cuadrados permite estimar  σ 2  : 
 

σ 2  = SCR / ( n – 2) .   
 
Siendo           SCR = SCT ‐ SCβ 

267 
 
Análisis de Relaciones

 
2
⎛ n ⎞
⎜ ∑ Yi ⎟
SCT =  ∑ Yi − ⎝ i =1 ⎠  
n
2

i =1 n
 
 
2
⎡ n n

⎢ n ∑ X i ∑ Yi ⎥
⎢ ∑ X iYi − i =1 i =1

⎢ i =1 n ⎥
⎢⎣ ⎥⎦
SCβ =  2

⎛ n ⎞
⎜ ∑ Xi ⎟
X i − ⎝ i =1 ⎠
n

∑i =1
2

n
 
Habiendo  calculado  entonces  el  estadístico  T,  se  elige  el  nivel  de  significación  con  el 
cual  se  decide  trabajar  y  se  busca  el  punto  crítico  en  la  Tabla  de  Cuantiles  de  la 
Distribución T. Este valor (T teórico) se compara con el valor de T observado.  
Si el valor calculado se ubica dentro de la zona de rechazo de H0, se podría concluir que 
la variable X explica linealmente a la variable Y. En caso contrario (aceptación de la H0) no 
puede  asegurarse  que  la  pendiente  de  la  recta  de  regresión  estimada  sea  diferente  de 
cero. Así, si la recta de regresión tiene pendiente nula, los valores de Y son indiferentes a 
los valores de X y por lo tanto la relación lineal propuesta no explica las variaciones de Y 
en función de X. 
Otra opción para probar la significación de la regresión (estableciendo como H0 : β = 0) 
es mediante una prueba F. Para ello debemos calcular la F observada: 
SC β
F observada =   1  
SCR
n−2
Este  valor  se  compara  luego  con  un  valor  F  crítico  con  1  y  n‐2  grados  de  libertad, 
localizado en Tabla de Cuantiles de la Distribución F de acuerdo al nivel de significación 
definido.  
Además del uso de pruebas de hipótesis para obtener conclusiones sobre la población 
y predecir valores de la variable Y para determinados valores de la variable X se pueden 

268 
 
Análisis de Relaciones

construir intervalos de confianza. 
 

Intervalo de confianza para las predicciones de Y dado X 

El intervalo de confianza al 95% de Y dado X=x se expresa de la siguiente manera: 
 

^ ⎛ 1

y ± 1.96 σ 1 + +2 x− X (
2
)

⎟ , 
⎜ n Σx i 2 − ( Σx i ) 2 / n ⎟
⎝ ⎠
Si  σ2  no  se  conoce  y  se  estima,  entonces  el  intervalo  anterior  se  modifica, 
reemplazando  el  valor  1.96  por  el  cuantil  correspondiente  a  una  T  con  n‐  2  grados  de 
libertad y sustituyendo σ2 por su estimador. 
Con los datos obtenidos del ejemplo, se puede calcular el intervalo de confianza.  
Por ejemplo: se quiere saber cuánto pesaría un bebé al nacer si su madre tuvo a los 8 
meses de embarazo una ganancia de peso de 11Kg. 
x = 11 Kg 
^
y   = 3,036 Kg.       

S2 = 0,185 (porque no se conoce σ2) 

^ ⎛ 1

y± t S 1 + +
2 x− X ( 2
)

⎟ 
⎜ n Σx i − ( Σx i ) / n ⎟
2 2
⎝ ⎠
 



3,036 ± 2,306 0,185 ⎜1 +
1
+
(11 − 11,4 )
2

⎟ 
− 2 ⎟
⎝ 10 1402 ,5 (114 ) / 10 ⎠
 

⎛ 1 0,16 ⎞
3,036 ± 2,306 0,185 ⎜1 + + ⎟ 
⎝ 10 1402,5 − 1299,6 ⎠
 

⎛ 0 ,16 ⎞  
3 , 036 ± 2 ,306 0 ,185 ⎜ 1 + 0 ,1 + ⎟
⎝ 102 ,9 ⎠  
 

269 
 
Análisis de Relaciones

 
3 , 036 ± 2 ,306 0 ,185 ⋅ 1,1015
 
 
3 , 036 ± 2 ,306 0 , 204
 

3 , 036 ± 1, 038  
 
IC [1,9984‐ 4,074] 
 
El intervalo quedaría formado de la siguiente manera [1,998 Kg ; 4,074 Kg] 
Lo  que  se  interpretaría  diciendo  que  si  la  madre  al  octavo  mes  de  vida  tiene  una 
ganancia  de  peso  de  11  Kg,  con0,95  de  probabilidad,  su  bebé  al  nacer  tendría  un  peso 
entre los 2 y los 4 Kg. 

Correlación Lineal Simple 

El  análisis  de  correlación  se  utiliza  cuando  se  desea  conocer  el  grado  de  asociación 
entre  variables.  Para  ello  es  utilizando  el  coeficiente  de  correlación,  una  medida 
adimensional de la relación  lineal entre dos variables, que se define como: 
 
Cov ( x, y )
ρ= , 
σ xσ y

 
donde   Cov(x,y) es la covarianza poblacional de las variables x e y 
σx y σy son las desviaciones poblacionales típicas de x y de y 
 
Pero,  como  sucede  en  muchas  ocasiones  prácticas,  se  debe  estimar  ρ  (parámetro 
poblacional desconocido) a partir de datos muestrales. Entonces se utiliza el estimador de 
ρ que es “r”. 
 
Cov ( x, y )
r= , 
SxSy

270 
 
Análisis de Relaciones

⎛ _
⎞⎛ _

∑⎜ xi − X ⎟⎜ y i − Y ⎟
donde la covarianza muestral Cov(x,y) es =  ⎝ ⎠⎝ ⎠ 
n
 y Sx y Sy son las desviaciones muestrales de x y de y.  
Así,  

( )( )
n
Σ nX i − X Yi − Y
r= i =1
 
( ) Σ (Y − Y )
n 2 n 2
Σ Xi − X
i =1 i =1

 
n n
n Σ X i Σ Yi
i =1 i =1
Σ X i Yi −
i =1 n
=  
n
⎛ ⎛n ⎞
2
⎞⎛ ⎛n ⎞
2

⎜ ⎜ Σ X ⎟ ⎟⎜ ⎜ Σ Y ⎟ ⎟
⎜n ⎟ ⎜ n 2 ⎝ i =1 ⎠ ⎟
i i
⎝ i =1 ⎠
Σ − Σ −
2
X
⎜ i =1 i Y
⎟ ⎜ i =1 i ⎟
n n
⎜ ⎟⎜ ⎟
⎜ ⎟⎜ ⎟
⎝ ⎠⎝ ⎠

 
Para  la  interpretación  de  este  estimador  debemos  recordar  que  el  coeficiente  de 
correlación se caracteriza por lo siguiente: 
• Es un número abstracto. 
• Su valor no puede ser mayor a 1 ni menor que – 1. 
• Si tiene signo positivo, quiere decir que las dos características estudiadas tienden a 
variar  en  el  mismo  sentido,  o  dicho  de  otra  manera,  si  aumenta  el  valor  de  una 
característica  (X)  también  aumenta  el  valor  de  la  otra  (Y).  Si  el  signo  es  negativo,  las 
características difieren en sentido contrario, si aumenta el valor de una característica (X), 
disminuye el de la otra (Y) y viceversa. 
• Cuanto  más se acerque el coeficiente  de correlación a + 1 o a –  1, más estrecha 
será la relación entre las características (X e Y). 
• Si la relación es perfecta, el valor de r será igual a + 1 ó – 1. Si no hay relación, el 
valor de r es igual a cero. 

271 
 
Análisis de Relaciones

Prueba de hipótesis sobre ρ 

La  simple  observación  de  que  dos  variables  parecen  estar  relacionadas  nos  lleva  a 
pensar,  por un lado, qué tan estrechamente relacionadas están, y por otro, si es real la 
asociación  observada  o  si  se  debe  simplemente  al  azar.  Para  el  primer  interrogante  se 
necesita  una  medida  del  grado  de  asociación,  como  lo  es  el  coeficiente  de  correlación 
hasta  aquí  presentado  (ρ,  a  partir  de  su  estimador  r),  y  para  el  segundo,  una  prueba 
estadística de hipótesis para ρ. 
Si se tiene una muestra de n pares de valores (X,Y) y que respondan a la condición de 
normalidad  bivariada,  se  puede  utilizar  el  coeficiente  de  correlación  muestral  “r”  para 
probar que X e Y son independientes. 
 
Para probar la hipótesis:  
H0: p = 0         H1: p ≠ 0 
 
las cuales indican 
H0: No hay asociación lineal entre las variables X e Y 
H1: Hay asociación lineal entre las variables X e Y  
 
se utiliza el siguiente estadístico: 
r
t= . 
1− r2
n−2
 
Dicho estadístico se distribuye como t de Student con n – 2 grados de libertad, donde n 
corresponde al número de pares (X,Y). 
Continuando  con  el  ejemplo  de  la  ganancia  de  peso  al  octavo  mes  de  embarazo,  se 
calcula el coeficiente de correlación: 
 

272 
 
Análisis de Relaciones

10 ⋅ 362,95 − 114 ⋅ 30,8


r=
[10 ⋅1402,5 − (114) ][10 ⋅ 96,52 − (30,8) ]
 
2 2

3629,5 − 3511,2
=  
(14025 − 12996) ⋅ (965,2 − 948,64)
118,3 118,3
= =  
1029 ⋅ 16,56 130,53

 
= 0,906  
 
El  resultado  nos  indica  que  si  están  correlacionados  el  peso  de  nacimiento  con  la 
ganancia  de  peso  materno  al  8vo.  mes,  siendo  la  misma  positiva.  Pero  ¿Es  esta  alta 
correlación estadísticamente significativa? 
Para saberlo haremos una prueba de hipótesis 
Donde H0: r = 0 
H1: r ≠ 0 
α = 0,05 
 
Utilizando el estadístico se tiene que: 
r
t=  
1− r2
n−2
0,906
t=  
1 − 0,906 2
10 − 2
 
t= 6,04 
 
La zona de aceptación de la hipótesis nula estaría comprendida entre –2,30 y 2,30. El 
valor  calculado  se  ubica  fuera  de  esta  región  por  lo  que  se  rechaza  la  hipótesis  de 
correlación  nula  y  se    concluye  entonces,  con  una  confianza  del  95%,  que  hay  una 
correlación lineal estadísticamente significativa entre la ganancia de peso al octavo mes 
de embarazo y el peso del recién nacido.       

273 
 
Análisis de Relaciones

 
Otro ejemplo: 
En  la  siguiente  tabla  se  muestran  los  contenidos  de  proteína  bruta  (PB)  y  de  caseína 
(CA) de leches en una muestra de 23 tambos de la cuenca lechera del centro del país. 

PB  CA    PB  CA 


2,74 1,87    2,95  2,04 
3,19 2,26    3,08  2,16 
2,96 2,07 3,14 2,16
2,91 2,09    3,22  2,22 
3,23 2,28    3,14  2,22 
3,04 2,04 3,15 2,24
3,08 2,18    3,20  2,22 
3,23 2,30    2,95  2,07 
3,11 2,17 3,19 2,25
3,11 2,15    3,12  2,23 
3,10 2,16    2,99  2,16 
3,25 2,33
 
r = 0,9327, lo que determina una alta correlación. Para saber si esta alta correlación es 
estadísticamente significativa se realiza la prueba de hipótesis: 
 
H0: p = 0 vs. H1: p≠ 0 
 
Se fija un α = 0,05 y se utiliza el estadístico en cuestión. 
 
La región de aceptación quedará limitada por los cuantiles 0,025 y 0,975 de una t  (n – 2) 
que es igual a – 2,79 y 2,79. 
0,9327
Calculando el estadístico se tiene que  t = = 11,85  
1 − 0,9327 2
23 − 2
El valor obtenido se encuentra fuera de la región de aceptación, por lo que se rechaza 

274 
 
Análisis de Relaciones

la  hipótesis  nula.  Se  concluye  entonces,  que  con  una  confianza  del  95  %  se  rechaza  la 
hipótesis  de  correlación  nula,  diciendo  que  hay  una  correlación  lineal  estadísticamente 
significativa entre los porcentajes de proteína bruta y de caseína en la leche. 
 
Ejercicios de aplicación: 8.3 a 8.7 

 
 
 
 
 
 
 
 
 

275 
 
Análisis de Relaciones

 
EJERCICIOS DE APLICACIÓN  8.1 A 8.7 

EJERCICIO 8.1 

En una institución de salud se desea conocer si existe asociación entre el peso de los 
niños al nacer  y el nivel socioeconómico de sus madres. 
Para ello se tomó una muestra  de 200 recién nacidos. Si se trabaja con una confianza 
del 99% ¿podemos suponer que existe asociación? 
 
Peso de niños al nacer y nivel socioeconómico de las madres 

  Bajo peso al nacer Peso normal al nacer Total 


Nivel Socioec. Bajo  55  21  76 
Nivel Socioec.Medio  45  16  61 
Nivel Socioec. Alto  23  40  63 
Total  123  77  200 
 

 EJERCICIO 8.2 

Se desea conocer si existe asociación entre el consumo de cigarrillos y el desarrollo de 
cáncer de colon. 
Para  ello  se  tomó  una  muestra  al  azar  de  505  mujeres  y  se  les  indagó    sobre  las 
variables de interés. Se trabaja con una confianza del 95%. 

Consumo de tabaco y diagnóstico de cáncer de colon en mujeres 

  Padecen cáncer No padecen cáncer Total 


Fuma  56 61 117 
No Fuma  208  180  388 
Total  264  241  505 
 
 

276 
 
Análisis de Relaciones

EJERCICIO 8.3 

En un hospital regional de la Provincia de Córdoba se recabaron datos antropométricos 
y de ingesta alimentaria correspondientes a una muestra de 12 pacientes internados HIV+ 
que ingresaron con desnutrición. Se desea estudiar la relación existente entre el consumo 
diario de un nuevo suplemento nutricional hipercalórico utilizado como refuerzo calórico 
en licuados y el índice de masa corporal (peso / talla2) para la población de estudio a los 
20 días del ingreso.  
 
X = Suplemento nutricional (g) Y = IMC (kg/m2)
42  13 
45  15 
50  16 
55  17 
68  18 
69  18 
70  19 
73  20 
80 20
90 21
92 22
94 23
 
i) Grafique los datos utilizando un diagrama de dispersión. 
ii) Estime la recta de regresión poblacional. 
iii) De acuerdo a lo anterior, cuánto se  calcula que aumenta el IMC por cada gramo 
de aumento en el consumo del suplemento? 
iv) Realice  la  prueba  de  significación  de  la  regresión  (95%  de  confianza)  y  extraiga 
conclusiones. 
 
EJERCICIO 8.4 

En un estudio antropométrico realizado en la ciudad de Mendoza se pretende estudiar 
la relación existente entre el grosor del pliegue tricipital y el del pliegue subescapular en 
mujeres posmenospáusicas. Se obtuvieron los siguientes resultados: 

277 
 
Análisis de Relaciones

Pliegue subescapular (mm)  12,39 12,39 12,71 9,8 12,3 10,12 11,81  11,41  9,4 11,49
Pliegue tricipital (mm)  32,27 29,39 30,8 15,6 29,8 16,87 28,11  23,29  14,11 25,37
 
i) ¿Cómo se espera que sea la asociación entre ambos pliegues? 
ii) Calcular el coeficiente de correlación correspondiente. 
iii) ¿Es significativo el coeficiente encontrado para un nivel de confianza de 95%? 
iv) Elaborar conclusiones. 
 
EJERCICIO 8.5 

Se desea probar la efectividad de un nuevo suplemento nutricional para optimizar el 
rendimiento  deportivo.  Se  administraron  distintas  dosis en  ocho  equipos  de  deportistas 
de elite. Durante seis meses se realizaron test para valorar el rendimiento físico en cada 
grupo.  
Finalmente  se  calculó  el  porcentaje  de  mejoramiento  del  rendimiento  observado  en 
cada equipo. Los datos son los siguientes: 
 
Dosis (mg)  (X)  0 1 5 10 15 20 25  30 
% Mejora rendimiento  (Y) 5  7  10  16  17  25  26  30 
 
i) Construir un diagrama de dispersión % Mejora del rendimiento vs Dosis. 
ii) De acuerdo al gráfico obtenido, ¿es razonable proponer un ajuste lineal? 
iii) Estimar los parámetros de la ordenada al origen (α) y la pendiente (β).  
iv) Predecir  el  %  de  mejora  en  el  rendimiento  deportivo  que  se  hallará  si  se 
administraran dosis de 23 mg. 
v) Calcule el intervalo de confianza al 95% de Y dado que X = 23 mg. Interprete los 
resultados. 
 
EJERCICIO 8.6 

Estudios recientes sugieren que el tiempo de trabajo frente a una computadora, de por 
sí sedentario, podría ser un factor relacionado con el aumento de peso corporal.  

278 
 
Análisis de Relaciones

Los  siguientes  datos  fueron  tomados  en  personas  bajo  estudio  y  se  refieren  al 
aumento de peso promedio en 1 año y los minutos promedio dedicados a trabajar en la 
computadora. 

Aumento de peso anual (mg) Trabajo en computadora (min/día) 
650  230
1000  230
1000  250
600  200
1000  220 
800  300 
800  230 
700  190 
1500  250 
 
i) Represente gráficamente los datos de la tabla. 
ii) Estime el coeficiente de correlación lineal entre las variables anteriores y pruebe su 
significación. 
 
EJERCICIO 8.7 

Los  siguientes  datos  corresponden  a  una  muestra  de  pacientes  sometidos  a 


tratamiento  dietoterápico  por  sobrepeso.  Se  estudia  si  existe  correlación  entre  la 
reducción de peso corporal registrado en el primer control nutricional y el ajuste calórico 
realizado.  

Reducción del peso corporal (g)  Ajuste calórico (Cal) 
419  227 
407 231
363 200
360 211
257 182
622 304
424 384
359 194
346  158 
556  225 
474  305 
441  235 
 
i) Construya un diagrama de dispersión con los datos anteriores. 

279 
 
Análisis de Relaciones

ii) Calcule el coeficiente de correlación lineal. 
iii) ¿Es el valor obtenido un indicador de una alta correlación entre las variables o no? 
Aplique el test de hipótesis correspondiente y extraiga conclusiones.  
 
 

280 
 
Análisis de Relaciones

RESOLUCIONES EJERCICIOS 8.1 AL 8.7 

EJERCICIO 8.1 

Ho:  el  peso  de  los  niños  al  nacer  es  independiente  del  nivel  socioeconómico  de  sus 
madres. 
H1: existe asociación entre el peso de los niños al nacer y el nivel socioeconómico de 
sus madres. 
 
Valores esperados: 
  Bajo peso al nacer Peso normal al nacer Total 

Nivel Socioec. Bajo  46,74 29,26 76 


Nivel Socioec.Medio  37,51 23,48 61 
Nivel Socioec. Alto  38,74 24,25 63 
Total  123 77 200 
 

( f 0 − f e )2
χ =∑2
 
fe

χ2 =
(55 − 46,74)2 + (21 − 29,26)2 + (45 − 37,51)2 + (16 − 23,48)2 + (23 − 38,74)2 + (40 − 24,25)2
46,74 29,26 37,51 23,48 38,74 24,25
 
χ 2 = 1,45 + 2,33 + 1,49 + 2,38 + 6,39 + 10,22 = 24,26  
 
Punto crítico: 9,21 
Se  rechaza    Ho,  es  decir  que  existe  asociación  entre  el  nivel  socioeconómico  de  las 
madres y el peso del niño al nacer, con 99% de confianza, 
 
EJERCICIO 8.2 

Ho:  no  hay  asociación  entre  el  consumo  de  cigarrillos  y  el  desarrollo  de  cáncer  de 
colon, en mujeres. 
H1: hay asociación entre el consumo de cigarrillos y el desarrollo de cáncer de colon, en 
mujeres. 
Valores esperados: 

281 
 
Análisis de Relaciones

  Padecen cáncer No padecen cáncer Total 

Fuma  61,16 55,86 117 


No Fuma  202,8 185,16 388 
Total  264 241 505 
 

χ =2(56 − 61,16) (208 − 202,8) (61 − 55,83) (180 − 185,16)


2
+
2
+
2
+
2

 
61,16 202,8 55,83 185,16
χ 2 = 0,43 + 0,47 + 0,13 + 0,14 = 1,17  
 
Punto crítico: 3,84 
 
Se  acepta  Ho,  es  decir  que  no  existe  asociación  entre  el  consumo  de  cigarrillos  y  el 
desarrollo de cáncer de colon en mujeres, con 95% de confianza.  
 
EJERCICIO 8.3 

i) IMC (kg/m2) según consumo de suplemento nutricional hipercalórico (g/día) en 
pacientes internados HIV+ que ingresaron con desnutrición. 

25

20

15
IMC
10

0
0 50 100

Suplemento nutricional (g)

 
 
ii) 

X Y XY X2
42 13 546 1764

282 
 
Análisis de Relaciones

45 15 675 2025
50 16 800 2500
55 17 935 3025
68 18 1224 4624
69 18 1242 4761
70 19 1330 4900
73 20 1460 5329
80 20 1600 6400
90 21 1890 8100
92 22 2024 8464
94 23 2162 8836
828 222 15888 60728
 
X = 69 
Y = 18,5 
a =  Y  – b X  
 

⎡ 828 ⋅ 222 ⎤
15888 − ⎢ ⎥
b= ⎣ 12 ⎦ = 15888 − 15318 = 0,158  
828 2 60728 − 57132
60728 −
12
 
a = 18,5 − 0,158 ⋅ 69 = 7,598  
 
La regresión estimada de Y sobre X puede expresarse 
yˆ = 7,598 + 0,158 X  
 
iii) Por cada gramo de aumento en el consumo del suplemento dietario se calcula un 
aumento de aproximadamente 0,16 kg/m2 en el IMC. 
 
iv)    
 
SCT = 95 
SCβ = 90,35 

283 
 
Análisis de Relaciones

SCR = SCT ‐ SCβ = 4,65 

σ 2  = SCR / (n – 2) = 0,465 
T observada = 0,158 / 0,011 = 14,364 
 
T teórica = ‐ 2,228 y 2,228 
 
Como el valor calculado se ubica dentro de la zona de rechazo de H0, se podría concluir 
con un 95% de confianza que la variable X explica linealmente a la variable Y. Es decir que 
la pendiente de la relación lineal es estadísticamente distinta de cero.  
 
 
EJERCICIO 8.4 

Relación entre pliegues tricipital y subescapular en mujeres postmenospaúsicas 

35

30
Pliegue tricipital (mm)

25

20

15

10

0
8 9 10 11 12 13

Pliegue subescapular (mm)

 
 
i) El  diagrama  de  dispersión  sugiere  que  existe  una  tendencia  lineal  de  pendiente 
ascendente entre los dos tipos de pliegues. 
 
ii)  
 
X Y XY X2 Y2
12,39 32,27 399,825 153,512 1041,353

284 
 
Análisis de Relaciones

12,39 29,39 364,142 153,512 863,772


12,71 30,8 391,468 161,544 948,640
9,8 15,6 152,880 96,040 243,360
12,3 29,8 366,540 151,290 888,040
10,12 16,87 170,724 102,414 284,597
11,81 28,11 331,979 139,476 790,172
11,41 23,29 265,739 130,188 542,424
9,4 14,11 132,634 88,360 199,092
11,49 25,37 291,501 132,020 643,637
113,82 245,61 2867,433 1308,357 6445,087
 
r = 0,987 
 
iii) Dado H0: p = 0  vs  H1 : p ≠0  
 
Estadístico t = 17,316 
 
Para α = 0,05, la zona de aceptación estaría comprendida entre ‐2,30 y 2,30. 
Dado  que  el  valor  calculado  no  se  encuentra  dentro  de  esta  región  se  rechaza  la  H0, 
por ende se considera significativo el coeficiente encontrado.  
 
iv) Con una confianza del 95% se concluye que existe una correlación lineal significativa 
entre el pliegue subescapular y tricipital en mujeres posmenospáusicas. 
 

EJERCICIO 8.5 

285 
 
Análisis de Relaciones

i)  Porcentaje  de  mejora  en  el  rendimiento  físico  según  dosis  de  un  suplemento 
nutricional en deportistas de elite 

35

30

% Mejora rendim iento


25

20

15

10

0
0 10 20 30 40

Dosis (m g)

 
i)  El  diagrama  de  dispersión  sugiere  que  es  razonable  proponer  un  modelo  de 
regresión lineal 
 
iii) 
X Y XY X2
0 5 0 0
1 7 7 1
5 10 50 25
10 16 160 100
15 17 255 225
20 25 500 400
25 26 650 625
30 30 900 900
106 136 2522 2276
 
X = 13,25 
Y = 17 

S
2
Y
= 9,320 

286 
 
Análisis de Relaciones

Los  estimadores  de  la  ordenada  al  origen  (α)  y  la  pendiente  (β)  son  a  y  b  
respectivamente: 

⎡106 ⋅ 136 ⎤
2522 − ⎢ ⎥
b= ⎣ 8 ⎦ = 2522 − 1802 = 0,826  
106 2
2276 − 1404,2
2276 −
8
 
a = 17 − 0,826 ⋅ 13,23 = 6,056  
 
La regresión estimada de Y sobre X puede expresarse 
 =  6,056 + 0,826X 
 
La regresión estimada de Y sobre X puede expresarse 
yˆ = 6,056 + 0,826 X  

 
iv) yˆ = a + bX = 6,056 + 0,826 ⋅ 23 = 25,054%  
 
v) El intervalo de confianza al 95% de Y dado que X = 23 mg sería: 
25,054 ± 8,098 = [33,152 ; 16,956] 

Esto  significa  que,  con  un  95%  de  confianza,  si  la  dosis  del  suplemento  nutricional 
administrada  es  de  23  mg,  un  deportista  mejoraría  su  rendimiento  entre  33  y  17% 
aproximadamente. 

 
EJERCICIO 8.6 

i)  Relación entre el aumento de peso anual (mg) y el tiempo dedicado a trabajar 
frente a la computadora en una población x. 
 
 
 

287 
 
Análisis de Relaciones

350

Trabajo en computadora
300

(min/día)
250

200

150

100
0 500 1000 1500 2000

Aumento de peso anual (mg)

 
ii)  

X Y XY X2 Y2
650 230 149500 422500 52900
1000 230 230000 1000000 52900
1000 250 250000 1000000 62500
600 200 120000 360000 40000
1000 220 220000 1000000 48400
800 300 240000 640000 90000
800 230 184000 640000 52900
700 190 133000 490000 36100
1500 250 375000 2250000 62500
8050 2100 1901500 7802500 498200
 
r = 0,33 
 
iii) Dado H0: p = 0  vs  H1 : p ≠0  
 
Estadístico t = 0,924 

Para α = 0,10, la zona de aceptación estaría comprendida entre 1,895 y ‐1,895. 

Para α = 0,05, la zona de aceptación estaría comprendida entre 2,365 y ‐2,365. 
Para α = 0,01, la zona de aceptación estaría comprendida entre 3,499 y ‐3,499. 

288 
 
Análisis de Relaciones

 
El  estadístico  t  calculado  se  sitúa  en  todos  los  casos  anteriores  dentro  de  la  zona  de 
aceptación  de  la  H0,  por  ende  se  concluye  que  no  existe  una  correlación  lineal 
estadísticamente  significativa  entre  el  tiempo  destinado  diariamente  a  trabajar  frente  a 
una computadora y el aumento de peso anual en la población de estudio. 

EJERCICIO 8.7 

Relación  entre  ajuste  calórico  y  reducción  del  peso  corporal  (g)  en  pacientes  bajo 
tratamiento dietoterápico por sobrepeso. 

450

400

350
Ajuste calórico (Cal)

300

250

200

150

100

50

0
0 200 400 600 800

Reducción del peso corporal (g)

289 
 
Análisis de Relaciones

X Y XY X2 Y2
419 227 95113 175561 51529
407 231 94017 165649 53361
363 200 72600 131769 40000
360 211 75960 129600 44521
257 182 46774 66049 33124
622 304 189088 386884 92416
424 384 162816 179776 147456
359 194 69646 128881 37636
346 158 54668 119716 24964
556 225 125100 309136 50625
474 305 144570 224676 93025
441 235 103635 194481 55225
5028 2856 1233987 2212178 723882
 
r = 0,547 
 
Dado H0: p = 0  vs  H1 : p ≠0 
 
Estadístico t = 2,069 
Para α = 0,05, la zona de aceptación estaría comprendida entre ‐2,228 y 2,228. 
 
Como  ‐2,228  <  2,069  <  2,228  se  decide  no  rechazar  H0.  No  existe  evidencia 
estadísticamente significativa para afirmar que las variables estén correlacionadas. 

290 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

BIBLIOGRAFÍA 
291 
 
292 
 
Bibliografía

ARRIAGA EE. (2001) El análisis de la población con microcomputadoras Facultad de


Ciencias Económicas. Córdoba, Universidad Nacional de Córdoba. Editorial Copiar.

BLANCH N, JOECKES S. (2000) Estadística Aplicada a la Investigación. UNC


Departamento de Educación a Distancia.
 
BORDON LG. (1999) Estadística aplicada a Ciencias de la Salud: una herramienta de la 
investigación. 5ª  Edición. Ed. del autor. 
 
BORDON LG. Et al. (1999) Guía de Trabajos Prácticos de Estadística y Bioestadística. Ed. 
Kopyfac. 
 
CANTATORE DE FRANK NM.  Manual de Estadística Aplicada. Ed. Hemisferio Sur S. A.   
 
DI  RIENZO  J,  CASANOVES  F,  GONZALES  L,  TABLADA  M,  DIAZ  MP,  ROBLEDO  CW, 
BALZARINI M. (2000) Estadística para las Ciencias Agropecuarias. Editora Screen. 
 
DIRECCIÓN  DE  ESTADÍSTICAS  E  INFORMACIÓN  DE  SALUD  ‐  DEIS.  Ministerio  de  Salud, 
Presidencia  de  la  Nación  (2009a).  [Consultado  el  17  Marzo  2009].  Disponible 
en:http://www.deis.gov.ar/definiciones.htm# 
 
DIRECCIÓN  DE  ESTADÍSTICAS  E  INFORMACIÓN  DE  SALUD  ‐  DEIS.  Ministerio  de  Salud, 
Presidencia  de  la  Nación  (2009b).  [Consultado  el  17  Marzo  2009].  Disponible 
en:http://www.deis.gov.ar/indicadores.htm# 
 
GONZÁLEZ LM Y ÁLVAREZ MF  (2012). Curso de Mortalidad. Maestría en Demografía. 
Centro de Estudios Avanzados. Universidad Nacional de Córdoba. Apunte de clases.   
 
HINES  W,  MONTGOMERY  D.  Probabilidad  y  Estadística  para  Ingeniería  y 
Administración. 
 
INSTITUTO  CARLOS  III  (2003).  Sistema  de  aprendizaje  multimedia  en  Epidemiología. 
Universidad de Educación a Distancia de España. 
 
INSTITUTO NACIONAL DE ESTADÍSTICAS Y CENSOS – INDEC (2009a). [Consultado el 18 
Marzo 2009]. Disponible en: http://www.indec.gov.ar 
 
INSTITUTO NACIONAL DE ESTADÍSTICAS Y CENSOS – INDEC (2009b). [Consultado el 18 
Marzo 2009]. Disponible en: http://www.indec.mecon.ar 
 
MACCIO G. (1985). Diccionario demográfico multilingüe. Unión Internacional para el 
estudio Científico de la Población. CELADE. Ediciones Ordina. 
 
MAGALHÃES  MN,  PEDROSO  DE  LIMA  AC.  (2007).  Noçones  de  Probabilidade  e 
Estatística. Editora da Universidade de São Pablo.  
 

293 
 
Bibliografía

MALDONADO  CRUZ  P.  (2005).  Demografía,  conceptos  y  técnicas 


fundamentales.Madrid (España): Plaza y Valdez. 159p. 
 
MONTGOMERY D, PECK E. (1982). Introduction to Linear Regresion Análisis.Jhon Willey 
& Sons Inc.  

MOSCHETTI E, FERRERO S, PALACIOS G, RUIZ M. (2000) Introducción a la


Estadística para las Ciencias de la Vida. Editorial Fundación UNRC.

PEÑA D. (2001) Fundamentos de Estadística. Editorial Alianza, Madrid. 

WALPOLE‐MYERS‐MYERS. Probabilidad y Estadística para Ingenieros. 

294 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

TABLAS ESTADÍSTICAS 
 

295 
 
 

296 
 
Tablas estadísticas

TABLA DE NÚMEROS ALEATORIOS 

39634  62349  74088  65564  16379  19713  39153  69459  17986  24537 
14595  35050  40469  27478  44526  67331  93365  54526  22356  93208 
30734  71571  83722  79712  25775  65178  07763  82928  31131  30196 
64628  89126  91254  24090  25752  03091  39411  73146  06089  15630 
42831  95113  43511  42082  15140  34733  68076  18292  69486  80468 

80583  70361  41047  26792  78466  03395  17635  09697  82447  31405 
00209  90404  99457  72570  42194  49043  24330  14939  09865  45906 
05409  20830  01911  60767  55248  79253  12317  84120  77772  50103 
95836  22530  91785  80210  34361  52228  33869  94332  83868  61672 
65358  70469  87149  89509  72176  18103  55169  79954  72002  20582 

72249  04037  36192  40221  14918  53437  60571  40995  55006  10694 
41692  40581  93050  48734  34652  41577  04631  49184  39295  81776 
61885  50796  96822  82002  07973  52925  75467  86013  98072  91942 
48917  48129  48624  48248  91465  54898  61220  18721  67387  66575 
88378  84299  12193  03785  49314  39761  99132  28775  45276  91816 

77800  25734  09801  92087  02955  12872  89848  48579  06028  13827 
24028  03405  01178  06316  81916  40170  53665  87202  88638  47121 
86558  84750  43994  01760  96205  27937  45416  71964  52261  30781 
78545  49201  05329  14182  10971  90472  44682  39304  19819  55799 
14969  64623  82780  35686  30941  14622  04126  25498  95452  63937 

58697  31973  06303  94202  62287  56164  79157  98375  24558  99241 
38449  46438  91579  01907  72146  05764  22400  94490  49833  09258 
62134  87244  73348  80114  78490  64735  31010  66975  28652  36166 
72749  13347  65030  26128  49067  27904  49953  74674  94617  13317 
81638  36566  42709  33717  59943  12027  46547  61303  46699  76243 

297 
 
Tablas estadísticas

46574  79670  10342  89543  75030  23428  29541  32501  89422  87474 
11873  57196  32209  67663  07990  12288  59245  83638  23642  61715 
13862  72778  09949  23096  01791  19472  14634  31690  36602  62943 
08312  27886  82321  28666  72998  22514  51054  22940  31842  54245 
11071  44430  94664  91294  35163  05494  32882  23904  41340  61185 
82509  11842  86963  50307  07510  32545  90717  46856  86079  13769 
07426  67341  80314  58910  93948  85738  69444  09370  58194  28207 
57696  25592  91221  95386  15857  84645  89659  80535  93233  82798 
08074  89810  48521  90740  02687  83117  74920  25954  99629  78978 
20128  53721  01518  40699  20849  04710  38989  91322  56057  58573 

00190  27157  83208  79446  92987  61357  38752  55424  94518  45205 
23798  55425  32454  34611  39605  39981  74691  40836  30812  38563 
85306  57995  68222  39055  43890  36956  84861  63624  04961  55439 
99719  36036  74274  53901  34643  06157  89500  57514  93977  42403 
95970  81452  48873  00784  58347  40269  11880  43395  28249  38743 

56651  91460  92462  98566  72062  18556  55052  47614  80044  60015 
71499  80220  35750  67337  47556  55272  55249  79100  34014  17037 
66660  78443  47545  70736  65419  77489  70831  73237  14970  23129 
35483  84563  79956  88618  54619  24853  59783  47537  88822  47227 
09262  25041  57862  19203  86103  02800  23198  70639  43757  52064 
 
 
 
 
 
 
 

298 
 
Tablas estadísticas

TABLA DE CUANTILES DE LA DISTRIBUCIÓN NORMAL ESTANDAR 
z P(Z ≤ z) z P(Z ≤ z) z P(Z ≤ z) Cuantil z
-3,25 0,00058 -1,00 0,15866 1,25 0,89435 0,00001 -4,265
-3,20 0,00069 -0,95 0,17106 1,30 0,90320 0,0001 -3,719
-3,15 0,00082 -0,90 0,18406 1,35 0,91149 0,001 -3,090
-3,10 0,00097 -0,85 0,19766 1,40 0,91924 0,005 -2,576
-3,05 0,00114 -0,80 0,21186 1,45 0,92647 0,01 -2,326
-3,00 0,00135 -0,75 0,22663 1,50 0,93319 0,02 -2,054
-2,95 0,00159 -0,70 0,24196 1,55 0,93943 0,025 -1,960
-2,90 0,00187 -0,65 0,25785 1,60 0,94520 0,03 -1,881
-2,85 0,00219 -0,60 0,27425 1,65 0,95053 0,04 -1,751
-2,80 0,00256 -0,55 0,29116 1,70 0,95543 0,05 -1,645
-2,75 0,00298 -0,50 0,30854 1,75 0,95994 0,06 -1,555
-2,70 0,00347 -0,45 0,32636 1,80 0,96407 0,07 -1,476
-2,65 0,00402 -0,40 0,34458 1,85 0,96784 0,08 -1,405
-2,60 0,00466 -0,35 0,36317 1,90 0,97128 0,09 -1,341
-2,55 0,00539 -0,30 0,38209 1,95 0,97441 0,10 -1,282
-2,50 0,00621 -0,25 0,40129 2,00 0,97725 0,15 -1,036
-2,45 0,00714 -0,20 0,42074 2,05 0,97982 0,20 -0,842
-2,40 0,00820 -0,15 0,44038 2,10 0,98214 0,25 -0,674
-2,35 0,00939 -0,10 0,46017 2,15 0,98422 0,30 -0,524
-2,30 0,01072 -0,05 0,48006 2,20 0,98610 0,35 -0,385
-2,25 0,01222 0,00 0,50000 2,25 0,98778 0,40 -0,253
-2,20 0,01390 0,05 0,51994 2,30 0,98928 0,45 -0,126
-2,15 0,01578 0,10 0,53983 2,35 0,99061 0,50 0,000
-2,10 0,01786 0,15 0,55962 2,40 0,99180 0,55 0,126
-2,05 0,02018 0,20 0,57928 2,45 0,99286 0,60 0,253
-2,00 0,02275 0,25 0,59871 2,50 0,99379 0,65 0,385
-1,95 0,02559 0,30 0,61791 2,55 0,99461 0,70 0,524
-1,90 0,02872 0,35 0,63683 2,60 0,99534 0,75 0,674
-1,85 0,03216 0,40 0,65542 2,65 0,99596 0,80 0,842
-1,80 0,03593 0,45 0,67364 2,70 0,99653 0,85 1,036
-1,75 0,04006 0,50 0,69145 2,75 0,99702 0,90 1,282
-1,70 0,04457 0,55 0,70884 2,80 0,99744 0,91 1,341
-1,65 0,04947 0,60 0,72575 2,85 0,99781 0,92 1,405
-1,60 0,05480 0,65 0,74215 2,90 0,99813 0,93 1,476
-1,55 0,06057 0,70 0,75804 2,95 0,99841 0,94 1,555
-1,50 0,06681 0,75 0,77337 3,00 0,99865 0,95 1,645
-1,45 0,07353 0,80 0,78814 3,05 0,99886 0,96 1,751
-1,40 0,08076 0,85 0,80234 3,10 0,99903 0,97 1,881
-1,35 0,08851 0,90 0,81594 3,15 0,99918 0,975 1,960
-1,30 0,09680 0,95 0,82894 3,20 0,99931 0,98 2,054
-1,25 0,10565 1,00 0,84134 3,25 0,99942 0,99 2,326
-1,20 0,11507 1,05 0,85314 3,30 0,99952 0,995 2,576
-1,15 0,12507 1,10 0,86433 3,35 0,99960 0,999 3,090
-1,10 0,13587 1,15 0,87493 3,40 0,99966 0,9999 3,719
-1,05 0,14686 1,20 0,88493 3,45 0,99972 0,99999 4,265
* Si no está el número exacto que se busca, se trabaja con el inmediato inferior.
299 
 
Tablas estadísticas

TABLAS DE CUANTILES DE DISTRIBUCIÓN T 
ν   0,700  0,725  0,750  0,775  0,800 0,825 0,850 0,875 0,900 0,925 0,950  0,975  0,990 0,995
1  0,727  0,854  1,000  1,171  1,376 1,532 1,963 2,414 3,878 4,165 6,314  12,71  31,82 63,66
2  0,617  0,713  0,816  0,931  1,061 1,210 1,386 1,604 1,886 2,262 2,920  4,303  6,965 9,925
3  0,584  0,671  0,765  0,866  0,978 1,105 1,250 1,423 1,638 1,924 2,353  3,182  4,541 5,841
4  0,569  0,652  0,741  0,836  0,941 1,057 1,190 1,344 1,533 1,778 2,132  2,776  3,747 4,604
5  0,559  0,641  0,727  0,819  0,920 1,031 1,156 1,301 1,476 1,699 2,015  2,571  3,365 4,032
6  0,553  0,633  0,718  0,808  0,906 1,013 1,134 1,273 1,440 1,650 1,943  2,447  3,143 3,707
7  0,549  0,628  0,711  0,800  0,896 1,001 1,119 1,254 1,415 1,617 1,895  2,365  2,998 3,499
8  0,546  0,624  0,706  0,794  0,889 0,993 1,108 1,240 1,397 1,592 1,860  2,306  2,896 3,355
9  0,543  0,621  0,703  0,790  0,883 0,986 1,100 1,230 1,383 1,574 1,833  2,262  2,821 3,250
10  0,542  0,619  0,700  0,786  0,879 0,980 1,093 1,221 1,372 1,559 1,812  2,228  2,764 3,169
11  0,540  0,617  0,697  0,783  0,876 0,976 1,088 1,214 1,363 1,548 1,796  2,201  2,718 3,106
12  0,539  0,615  0,695  0,781  0,873 0,972 1,083 1,209 1,356 1,538 1,782  2,179  2,681 3,055
13  0,380  0,614  0,694  0,779  0,870 0,969 1,079 1,204 1,350 1,530 1,771  2,160  2,650 3,012
14  0,537  0,613  0,692  0,777  0,868 0,967 1,076 1,200 1,345 1,523 1,761  2,145  2,624 2,977
15  0,536  0,612  0,691  0,776  0,866 0,966 1,074 1,197 1,341 1,517 1,753  2,131  2,602 2,947
16  0,535  0,611  0,690  0,774  0,865 0,963 1,071 1,194 1,337 1,512 1,746  2,120  2,583 2,921
17  0,534  0,610  0,689  0,773  0,863 0,961 1,069 1,191 1,333 1,508 1,740  2,110  2,567 2,898
18  0,534  0,609  0,688  0,772  0,862 0,960 1,067 1,189 1,330 1,504 1,734  2,101  2,552 2,878
19  0,533  0,609  0,688  0,771  0,861 0,958 1,066 1,187 1,328 1,500 1,729  2,093  2,539 2,861
20  0,533  0,608  0,687  0,771  0,860 0,957 1,064 1,185 1,325 1,497 1,725  2,086  2,528 2,845
21  0,532  0,608  0,686  0,770  0,859 0,956 1,063 1,183 1,323 1,494 1,721  2,080  2,518 2,831
22  0,532  0,607  0,686  0,690  0,858 0,955 1,061 1,182 1,321 1,492 1,717  2,074  2,508 2,819
23  0,532  0,607  0,685  0,769  0,858 0,954 1,060 1,180 1,319 1,489 1,714  2,069  2,500 2,807
24  0,531  0,606  0,685  0,768  0,857 0,953 1,059 1,179 1,318 1,487 1,711  2,064  2,492 2,797
25  0,531  0,606  0,684  0,767  0,856 0,952 1,058 1,178 1,316 1,485 1,708  2,060  2,485 2,787
26  0,531  0,606  0,684  0,767  0,856 0,952 1,058 1,177 1,315 1,483 1,706  2,056  2,479 2,779
27  0,531  0,605  0,684  0,767  0,855 0,951 1,057 1,176 1,314 1,482 1,703  2,052  2,473 2,771
28  0,530  0,605  0,683  0,766  0,855 0,950 1,056 1,175 1,313 1,480 1,701  2,048  2,467 2,763
29  0,530  0,605  0,683  0,766  0,854 0,950 1,055 1,174 1,311 1,479 1,699  2,045  2,462 2,756
30  0,530  0,605  0,683  0,765  0,854 0,949 1,055 1,173 1,310 1,477 1,697  2,042  2,457 2,750
31  0,530  0,604  0,682  0,765  0,853 0,949 1,054 1,172 1,309 1,476 1,696  2,040  2,453 2,744
32  0,530  0,604  0,682  0,765  0,853 0,948 1,054 1,172 1,309 1,475 1,694  2,037  2,449 2,738
33  0,530  0,604  0,682  0,765  0,853 0,948 1,053 1,171 1,308 1,474 1,692  2,035  2,445 2,733
34  0,529  0,604  0,682  0,764  0,852 0,948 1,052 1,170 1,307 1,473 1,691  2,032  2,441 2,728
35  0,529  0,604  0,682  0,764  0,852 0,947 1,052 1,170 1,306 1,472 1,690  2,030  2,438 2,724
36  0,529  0,603  0,681  0,764  0,852 0,947 1,052 1,169 1,306 1,471 1,688  2,028  2,434 2,719
37  0,529  0,603  0,681  0,764  0,851 0,947 1,051 1,169 1,305 1,470 1,687  2,026  2,431 2,715
38  0,529  0,603  0,681  0,763  0,851 0,946 1,051 1,168 1,304 1,469 1,686  2,024  2,429 2,712
39  0,529  0,603  0,681  0,763  0,851 0,946 1,050 1,168 1,304 1,468 1,685  2,023  2,426 2,708
40  0,529  0,603  0,681  0,763  0,851 0,946 1,050 1,167 1,303 1,468 1,684  2,021  2,423 2,704
41  0,529  0,603  0,681  0,763  0,850 0,945 1,050 1,167 1,303 1,467 1,683  2,020  2,421 2,701
42  0,528  0,603  0,680  0,763  0,850 0,945 1,049 1,166 1,302 1,466 1,682  2,018  2,418 2,698
43  0,528  0,603  0,680  0,762  0,850 0,945 1,049 1,166 1,302 1,466 1,681  2,017  2,416 2,695
44  0,528  0,602  0,680  0,762  0,850 0,945 1,049 1,166 1,301 1,465 1,680  2,015  2,414 2,692
45  0,528  0,602  0,680  0,762  0,850 0,944 1,049 1,165 1,301 1,465 1,679  2,014  2,412 2,690
46  0,528  0,602  0,680  0,762  0,850 0,944 1,048 1,165 1,300 1,464 1,679  2,013  2,410 2,687
47  0,528  0,602  0,680  0,762  0,849 0,944 1,048 1,165 1,300 1,463 1,678  2,012  2,408 2,685
48  0,528  0,602  0,680  0,762  0,849 0,944 1,048 1,164 1,299 1,463 1,677  2,011  2,407 2,682
49  0,528  0,602  0,680  0,762  0,849 0,944 1,048 1,164 1,299 1,462 1,677  2,010  2,405 2,680

300 
 
Tablas estadísticas

50  0,528  0,602  0,679  0,761  0,849 0,943 1,047 1,164 1,299 1,462 1,676  2,009  2,403 2,678
   0,3  0,275  0,25  0,225  0,2  0,175 0,15  0,125 0,1  0,075 0,05  0,025  0,01  0,005 
  * Se comienza por los grados de libertad: v = n - 1 (n= tamaño muestral)

  * Cuando n - 1 es mayor a 50, se trabaja con 50 grados de libertad


* Luego se ingresa por el nivel de confianza: α /2 y 1- α /2
  Cuando se lo hace desde el extremo inferior de la tabla, el valor buscado es negativo

301 
 

S-ar putea să vă placă și