Sunteți pe pagina 1din 257

Manuales Docentes de la Estructura de

Teleformación ULPGC

Md G rado en

S EGURIDAD Y C ONTROL DE R IESGOS

Apuntes de
41206

Estadística Básica
Juan José González Henríquez
María del Pino Quintana Montesdeoca
Ángelo Santana del Pino

2015
COLECCIÓN: Manuales docentes de Grado en Seguridad y Control de Riesgos
Apuntes de Estadística Básica

© del texto:
Juan José González Henríquez
María del Pino Quintana Montesdeoca
Ángelo Santana del Pino

© de la edición:
Vicerrectorado de Profesorado y Planificación Académica
Estructura de Teleformación ULPGC

Universidad de Las Palmas de Gran Canaria

Primera edición, 2015

Maquetación y diseño:
SERVICIO DE PUBLICACIONES DE LA UNIVERSIDAD DE LAS PALMAS DE GRAN
CANARIA
ISBN Pendiente
Depósito Legal: GC-129-2015

Impresión:
SERVICIO DE REPROGRAFÍA, ENCUADERNACIÓN Y AUTOEDICIÓN DE LA ULPGC

Impreso en España. Printed in Spain

Queda rigurosamente prohibida, sin la autorización escrita de los titulares del Copyright», bajo las
sanciones establecidas por las leyes, la reproducción parcial o total de esta obra por cualquier medio o
procedimiento, comprendidos la reprografía y el tratamiento informático.
Índice

INTRODUCCIÓN A LA ASIGNATURA ........................................................................... 1

PRESENTACIÓN ................................................................................................................. 1

COMPETENCIAS Y OBJETIVOS ...................................................................................... 1

Competencias Nucleares (ULPGC) ........................................................................... 1

Competencias Generales y Específicas del Grado .................................................... 2

Objetivos de la asignatura.......................................................................................... 3

ESQUEMA DE LOS CONTENIDOS .................................................................................. 4

U.A 1: ESTADÍSTICA DESCRIPTIVA UNIVARIANTE ............................. 5

ESQUEMA DE LOS CONTENIDOS ...................................................................... 4

PRESENTACIÓN ..................................................................................................... 7 

OBJETIVOS .............................................................................................................. 7 

EXQUEMA DE LOS CONTENIDOS ...................................................................... 8 

EXPOSICIÓN DE CONTENIDOS .......................................................................... 9 

1. Introducción ........................................................................................................... 9 

1.1 Tipos de datos .................................................................................................... 10 

2. Tablas de frecuencias y sus representaciones gráficas ........................................ 10 

2.1 Datos categóricos, ordinales y numéricos discretos .......................... 10 

2.2 Datos de tipo continuo ....................................................................... 17 


3. Medidas se síntesis de datos ................................................................................ 22 

3.1 Medidas de tendencia central ............................................................ 23 

3.2 Medidas de posición .......................................................................... 26 

3.2 Medidas de dispersión ....................................................................... 31 

3.3 Medidas de forma .............................................................................. 35 

4. Diagrama de cajas y bigotes y diagrama de tallos y hojas .................................. 37 

4.1 Diagrama de cajas y bigotes .............................................................. 37 

4.2 Diagrama de tallos y hojas ................................................................ 39 

ACTIVIDADES ...................................................................................................... 41 

EJERCICIOS DE AUTOEVALUACIÓN .............................................................. 44 

SOLUCIONES A LOS EJERCICIOS DE AUTOEVALUACIÓN ........................ 48 

BIBLIOGRAFÍA ..................................................................................................... 48 

GLOSARIO ............................................................................................................. 50 

U.A 2: ESTADÍSTICA DESCRIPTIVA BIVARIANTE ............................... 55

PRESENTACIÓN ................................................................................................... 58 

OBJETIVOS ............................................................................................................ 58 

ESQUEMA DE CONTENIDOS ............................................................................. 59 

EXPOSICIÓN DE LOS CONTENIDOS ................................................................ 60 

1. Variable Categórica frente a una variable Numérica........................................... 60 

2. Variable Categórica frente a otra variable Categórica......................................... 61 

3. Variable Numérica frente a otra variable Numérica ............................................ 64 

4. Asociación e independencia ................................................................................ 66 

5. Regresión lineal ................................................................................................... 67 


6. Correlación .......................................................................................................... 72 

ACTIVIDADES ...................................................................................................... 81 

BIBLIOGRAFÍA ..................................................................................................... 84 

EJERCICIOS DE AUTOEVALUACIÓN .............................................................. 85 

SOLUCIONES DE LOS EJERCICIOS DE AUTOEVALUACIÓN ..................... 88

GLOSARIO ............................................................................................................. 89

U.A 3:PROBABILIDAD ............................................................................................ 89

PRESENTACIÓN ................................................................................................... 91

OBJETIVOS ............................................................................................................ 94

ESQUEMA DE CONTENIDOS ............................................................................. 95

EXPOSICIÓN DE LOS CONTENIDOS ................................................................ 97

1. Introducción ......................................................................................................... 97

2. Conceptos básicos ............................................................................................... 98

3. Definición formal de probabilidad .................................................................... 100

4. Asignación de probabilidades a sucesos de un espacio muestral ...................... 101

5. Probabilidad Condicionada ............................................................................... 104

5.1 Dependencia e independencia de sucesos ....................................... 105

5.2 Teorema de la probabilidad total y teorema de Bayes..................... 107

ACTIVIDADES .................................................................................................... 114

BIBLIOGRAFÍA ................................................................................................... 117

EJERCICIOS DE AUTOEVALUACIÓN ............................................................ 118

SOLUCIONES DE LOS EJERCICIOS DE AUTOEVALUACIÓN ................... 122

GLOSARIO ........................................................................................................... 122


U.A. 4 VARIABLES ALEATORIAS Y DISTRIBUCIONES .................... 125

PRESENTACIÓN ................................................................................................. 127

OBJETIVOS .......................................................................................................... 127

EXPOSICIÓN DE CONTENIDOS ...................................................................... 128

1. Introducción ....................................................................................................... 128

2. Concepto de variable aleatoria .......................................................................... 129

3. Función de distribución de una variable aleatoria ............................................. 131

3.1 Propiedades de la función de distribución de una variable aleatoria133

4. Clasificación de variables aleatorias ................................................................. 134

4.1 Variables aleatorias discretas........................................................... 134

4.2 Función de probabilidad de una variable aleatoria discreta ............ 136

4.3 Variables aleatorias continuas ......................................................... 138

4.4 Función de densidad de probabilidad de variables aleatorias continuas


............................................................................................................... 141

5. Independencia de variables aleatorias ............................................................... 144

6. Parámetros característicos de las distribuciones de probabilidad...................... 144

6.1 Esperanza matemática ..................................................................... 145

6.2 Propiedades de la esperanza matemática ......................................... 147

6.3 Medidas de dispersión de una variable aleatoria ............................. 147

6.4 Propiedades de la varianza .............................................................. 149

7. Desigualdad de Chebyshev................................................................................ 150

8 Relación entre esperanza y media aritmética ..................................................... 150

9. Cuantiles ............................................................................................................ 151

10. Principales distribuciones de probabilidad discretas. ...................................... 152


10.1 Distribución Uniforme Discreta. ................................................... 152

10.2 Distribución de Bernoulli .................................................. 153

10.3 Distribución Binomial , ..................................................... 154

10.4 Distribución de Poisson ........................................................ 156

11 Principales distribuciones de probabilidad continuas....................................... 161

11.1 Distribución uniforme , ...................................................... 161

11.2 Distribución exponencial ................................................ 161

11.3 Distribución Normal , ) ........................................................ 164

12 Distribuciones asociadas al muestreo de variables normales ........................... 170

12.1 Distribución Chi-cuadrado ....................................................... 171

12.2 Distribución t de Student .......................................................... 172

12.3 Distribución F de Fisher-Snedecor , ...................................... 173

13 Las tablas de la Chi-Cuadrado, de Student y de Fisher-Snedecor ............. 175

14. Teorema central del límite ............................................................................... 176

ACTIVIDADES .................................................................................................... 181

EJERCICIOS DE AUTOEVALUACIÓN ............................................................ 183

RESPUESTAS A LOS EJERCICIOS DE AUTOEVALUACIÓN. ..................... 185

BILIOGRAFIA...................................................................................................... 185

U.A. 5 ESTIMACIÓN PUNTUAL Y POR INTERVALO. ......................... 189

PRESENTACIÓN ................................................................................................. 191

OBJETIVOS .......................................................................................................... 192

EXPOSICIÓN DE CONTENIDOS ...................................................................... 192

1. Población y muestra aleatoria ............................................................................ 192


2. Conceptos generales de estimación ................................................................... 194

3. Estimación puntual ............................................................................................ 195

4. Estimación por intervalos de confianza ............................................................. 197

4.1 Definición de intervalo de confianza ............................................... 197

4.2 Intervalo de confianza para en , con conocida...... 197

4.3 ¿Por qué el término “confianza”? .................................................... 200

4.4 Método general de construcción de intervalos de confianza. .......... 202

5. Esperanza de , con desconocida. ................................................ 203

6. Varianza de una población normal. ................................................................... 206

7. Cociente de varianzas de poblaciones normales................................................ 208

8. Diferencia de medias de poblaciones normales................................................. 210

8.1 Muestras Independientes: Varianzas conocidas. ............................. 211

8.2 Muestras Independientes: Varianzas desconocidas. ........................ 212

9.3 Muestras emparejadas ..................................................................... 214

10. Intervalo de confianza para una proporción .................................................... 216

10.1 Método de Wilson ......................................................................... 217

10.2 Método de Agresti-Coull ............................................................... 218

10.3 Método de Wald ............................................................................ 219

10.4 Método de Clopper y Pearson ....................................................... 219

11 Comparación de proporciones en poblaciones independientes ........................ 220

12 Intervalo de confianza para el parámetro de una distribución exponencial ..... 223

13 Intervalo de confianza para el parámetro de una distribución de Poisson........ 224

14. Tamaño de la muestra ...................................................................................... 225


14.1 Media de una población normal .................................................... 225

14.2 Varianza de una población normal ................................................ 226

14.3.Diferencia de medias de poblaciones normales independientes .... 227

14.4 Tamaño de muestra para la estimación de una proporción ........... 227

ACTIVIDADES .................................................................................................... 229

EJERCICIOS DE AUTOEVALUACIÓN ............................................................ 232

SOLUCIONES A LOS EJERCICIOS DE AUTOEVALUACIÓN ...................... 235

BIBLIOGRAFÍA ................................................................................................... 236

TABLAS DE CUANTILES ............................................................................................ 237

Normal ................................................................................................................... 239

t Student ................................................................................................................. 240

Chi-Cuadrado ........................................................................................................ 241

F de Fisher-Snedecor ............................................................................................. 242

 
 

 
 

INTRODUCCIÓN A LA ASIGNATURA
 

PRESENTACIÓN
 

La asignatura de estadística Básica es una asignatura básica del segundo semestre donde el
estudiante aprende parte de los conceptos fundamentales que serán imprescindibles en todo
el desempeño posterior, académico y profesional. Pertenece al módulo técnico y su principal
objetivo es que el estudiante aprenda las principales técnicas estadísticas descriptivas e
inferenciales para evaluar la seguridad y conocer los riesgos que afectan a la sociedad.

El manual se divide en cinco unidades de aprendizaje. En primer lugar, se estudiará las


principales técnicas para resumir y describir datos univariantes y bivariantes. La tercera
unidad, está dedicada a la cuantificación del riesgo y a los modelos de probabilidad usuales
para tratar la seguridad y el riesgo. En las dos últimas unidades se estudiarán las principales
técnicas inferenciales en una y dos muestras. En todas las unidades de aprendizaje se
incluyen numerosos ejemplos contextualizados en el campo de la seguridad y el control del
riesgo que permitirán asimilar mejor los conceptos probabilísticos y estadísticos no siempre
fáciles de entender.

COMPETENCIAS Y OBJETIVOS
 

Las compentencias y objetivos fundamentales de la asignatura son los siguientes:

Competencias Nucleares (ULPGC)


 Comunicarse con agentes educativos usando todos los medios a su alcance.
 Potenciar la cooperación con otros docentes y con organizaciones profesionales
 Contribuir a la formación permanente mediante procesos de investigación,
desarrollo e innovación.


 
 

 Desarrollar prácticas profesionales respetuosas con los derechos humanos.


 Potenciar la integración multicultural.

Competencias Generales y Específicas del Grado


 

G.1. Capacidad para conocer y comprender teorías, principios, modelos y conceptos, así
como normas y conceptos jurídicos básicos

G.2. Capacidad para dominar las teorías los conceptos y los instrumentos necesarios para
comprender el entorno económico y socio demográfico, así como el comportamiento
individual y colectivo.

G.7. Capacidad para comunicarse eficazmente en su idioma natural y en un idioma


extranjero (ingles).

G.8. Capacidad para utilizar eficazmente tecnologías de la información y de la


comunicación

G.10. Capacidad para respetar los derechos fundamentales y de igualdad entre hombres y
mujeres, así como los principios de igualdad de oportunidades y de accesibilidad universal
de las personas con discapacidad y con los valores propios de una cultura de paz y de
valores democráticos.

E.15. Capacidad para identificar los factores de riesgos y de vulnerabilidades más


frecuentes en el territorio peninsular y en particular, los del archipiélago canario
reflexionando sobre la fragilidad y vulnerabilidad creciente del territorio del archipiélago
canario frente a riesgos naturales e inducidos

E.17. Capacidad para comunicarse eficazmente con las personas que puedan verse
implicadas en una situación de riesgo utilizando los diversos sistemas de comunicación
existentes para la transmisión de datos, valorando la vulnerabilidad de los diferentes
sistemas de comunicación y transmisión.

E.18. Capacidad para analizar los procedimientos que determinan la correcta utilización del
lenguaje radiotelefónico, los diferentes sistemas y técnicas que dan protección a las redes de
intrusiones no deseadas y el marco legislativo y normativo, nacional e internacional que


 
 

regula las telecomunicaciones especialmente en el ámbito de la seguridad y control de


riesgos. 

Objetivos de la asignatura

 Comprender el significado y uso de las principales medidas descriptivas de la


estadística univariante y bivariante.
 Entender el concepto de probabilidad y conocer las principales propiedades y
teoremas relativos a la probabilidad: Teorema de la probabilidad total y Teorema de
Bayes.
 Conocer el concepto de variable aleatoria y comprender el significado y uso de los
modelos de probabilidad para variables discretas y continuas muy importantes en la
modelización del riesgo.
 Comprender los principios generales de la inferencia estadística y conocer los
principales intervalos de confianza en una y dos muestras.


 
 

ESQUEMA DE LOS CONTENIDOS


 
ESTADÍSTICA DESCRIPTIVA UNIVARIANTE

1
Unidad de Aprendizaje

5
6
PRESENTACIÓN

“To understand God's Thoughts we must study


statistics for these are the measure of His
purpose.”

Florence Nightingale

En esta unidad de aprendizaje aprenderemos a resumir un conjunto de observaciones en


varias medidas numéricas que nos permitan describir en pocas palabras la información que
contiene esas observaciones. Aprenderemos también a representar gráficamente, tanto la
información original como la información resumida, para describir mejor la información
subyacente y comunicarla mejor a otras personas. Además aprenderemos a comparar
conjuntos de datos entre sí para establecer diferencias y similitudes al objeto de precisar
estudios posteriores.

Es muy importante dominar los conceptos aquí presentados ya que los documentos
científicos relacionados con la seguridad y el control de riesgos expresan y difunden sus
hallazgos usando esta terminología. Por tanto, resulta fundamental conocerlos para leer y
escribir bien un documento científico en esta área.

OBJETIVOS
 Distinguir y conocer los conceptos de población y muestra
 Conocer el conceptos de variable y los tipos de variables
 Saber realizar e interpretar una tabla de frecuencias.
 Saber representar gráficamente e interpretar un histograma, una ojiva, un diagrama
de barras (agrupadas y apiladas), un diagrama de cajas y bigotes y un diagrama de
tallos y hojas.

7
 Conocer y saber calcular las medidas de tendencia central e identificar cuándo es más
adecuada una que otra.
 Saber calcular correctamente las medidas de dispersión y las medidas de posición e
interpretar correctamente su significado.
 Conocer la regla empírica y el Teorema de Tchebysheff y saber aplicarlo
correctamente.
 Conocer y saber calcular las medidas de formas e interpretar correctamente su
significado.

EXQUEMA DE LOS CONTENIDOS

8
EXPOSICIÓN DE CONTENIDOS

1. Introducción
La estadística es la ciencia de los datos. Su objetivo es recolectar, clasificar, resumir,
organizar, analizar e interpretar datos. Existen dos grandes ramas de la estadística, la
estadística descriptiva y la estadística inferencial. La estadística descriptiva como su propio
nombre indica tiene por objeto describir, resumir e interpretar los datos. Básicamente,
transforma un conjunto de datos en unas pocas medidas resumen que informan acerca de
ciertas características de los datos. Estas medidas permiten la comparación con otras medidas
de otro conjunto de datos y así poder establecer diferencias y similitudes. La estadística
inferencial tiene por objeto conocer el todo a partir de una parte. A modo de ejemplo, si un
investigador desea conocer la altura media de los habitantes de una región una forma de
averiguarlo sería medir a todos los sujetos de esa región y después promediar todos los
valores encontrados. Es obvio que esta tarea es imposible ya que consumiría mucho tiempo
y nunca estaríamos seguros de haber medido a todos los sujetos. Lo que normalmente se hace
es tomar una pequeña parte de sujetos de esa región (muestra), medirles la altura y a partir
de este valor hallar un intervalo u horquilla que intente encerrar a la media poblacional. Por
supuesto, el intervalo hallado tiene un riesgo de no haber encerrado al verdadero valor
buscado. En resumen, dado un parámetro poblacional el objetivo de la estadística inferencial
es proporcionar con cierto riego y a partir de una muestra aleatoria, un intervalo que encierre
al verdadero parámetro poblacional.

Población y muestra son dos conceptos fundamentales en estadística. Una población es un


conjunto de sujetos u objetos que comparten unas determinadas características. Una variable
es una colección de medidas de interés realizadas a cada uno de los sujetos u objetos de una
población. Por ejemplo, una población podría ser todos los estudiantes de una determinada
titulación o bien todas las olas que transcurren por una zona concreta. Al medir sobre cada
sujeto u objeto de la población un atributo o característica tendremos un conjunto de valores
que formarán la correspondiente variable. Todo sujeto u objeto de la población puede

9
etiquetarse o tener un nombre corto que lo identifique unívocamente. Si introducimos en una
urna todas las etiquetas podríamos elegir al azar n valores de la urna y por tanto elegir al azar
a n sujetos u objetos de la población. A este subgrupo de la población elegido de esta manera
lo denominaremos muestra aleatoria. A partir de la medida de cada elemento de la muestra
tendremos el conjunto de observaciones o conjunto de datos que con frecuencia
mencionaremos a lo largo de esta unidad de aprendizaje.

1.1 Tipos de datos


Las variables pueden ser de dos tipos: cuantitativas y cualitativas. Las variables de tipo
cualitativo pueden ser a su vez de dos tipos: Nominales o categóricas u ordinales. Las
variables cuantitativas pueden ser de dos tipos: discretas o continuas. Una variable es
nominal cuando el atributo que se mide agrupa a los sujetos u objetos en categorías. Por
ejemplo, la variable género, tipo de accidente, tipo de delito, grupo sanguíneo, etc. son
variables nominales. Variables cuantitativas ordinales son aquellas variables nominales
cuyas categorías admiten orden. Por ejemplo, la calificación de un examen en sobresaliente,
notable, aprobado y suspenso es una variable ordinal ya que las categorías pueden ordenarse.
Las variables numéricas discretas o cuantitativas discretas son aquellos en donde los valores
de la variable toman valores enteros. Las variables numéricas continuas son aquellas que
pueden tomar todos los valores de un intervalo de la recta real o bien todos los valores de la
recta real.

2. Tablas de frecuencias y sus representaciones gráficas

2.1 Datos categóricos, ordinales y numéricos discretos


Dadas n observaciones de una variable X categórica (nominal u ordinal) o numérica discreta,
para construir la tabla de frecuencias debemos identificar, en primer lugar, los diferentes
valores que toma la variable X en dicha muestra, es decir, los valores que resultan después
de eliminar los valores que se repiten. Estos valores reciben el nombre de modalidades de la
variable X. Por ejemplo, si las observaciones son 1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5 y 5 entonces

10
los diferentes valores que toma esta variable son 1, 2, 3, 4 y 5. Denotaremos por
x , x , x , . . . , x a las modalidades de la variable X. Para cada modalidad x definiremos las
siguientes cantidades:

1. La frecuencia absoluta, denotada por n , definida como el número de veces que aparece
el valor x en la muestra. Denotaremos por f al conjunto de todas las frecuencias
absolutas.
2. La frecuencia relativa, denotada por f , definida como f . En otras palabras, f es el

número de veces que se repite el valor x dividido por el número total de observaciones.
Denotaremos por f al conjunto de todas las frecuencias relativas.

3. La frecuencia absoluta acumulada, denotada por N , definida como el número de


observaciones menores o iguales que x . Denotaremos por F al conjunto de todas las
frecuencias absolutas acumuladas.

4. La frecuencia relativa acumulada, denotada por F , definida como F . Denotaremos

por F al conjunto de todas las frecuencias relativas acumuladas.

Obsérvese que tanto las frecuencias relativas como las frecuencias absolutas acumuladas sólo
tienen sentido para variables numéricas discretas y categóricas ordinales. Para las variables
categóricas nominales sólo podemos hallar las frecuencias absolutas y las frecuencias
relativas. Las frecuencia relativas y las frecuencias relativas acumuladas suelen expresarse
en porcentaje (%) o tanto por ciento.

A partir de los elementos anteriormente descritos, en la Tabla 1 puede observarse la forma


general de una tabla de frecuencias para este tipo de datos.

11
Tabla 1: Tabla de frecuencias para datos categóricos y numéricos discretos

X f f F F
x n f N F
x n f N F
⋮ ⋮ ⋮ ⋮ ⋮
x n f N F
⋮ ⋮ ⋮ ⋮ ⋮
x n f N F
x n f n 1

Ejemplo:

Una colisión es un contacto violento entre dos o más vehículos en movimiento, que por la
forma en que se producen, pueden clasificarse en: frontales, embestidas, por alcance, por
raspado y múltiple. A continuación se muestran el tipo y el número de heridos (entre
paréntesis) de 50 colisiones producidas en cierto tramo de carretera durante un año:
múltiple(2), por alcance(1), por raspado(1), por raspado(0), por raspado(1), embestida(1),
por raspado(0), múltiple(3), por raspado(0), por alcance(0), por raspado(0), por raspado(0),
embestida(2), por raspado(0), por alcance(0), por raspado(0), por alcance(0), por raspado(0),
múltiple(3), por raspado(0), embestida(1), por raspado(0), múltiple(0), frontal(3),
múltiple(3), por raspado(0), por alcance(0), por alcance(0), múltiple(2), por raspado(2),
embestida(2), por raspado(1), por raspado(0), por raspado(1), por alcance(0), frontal(2),
por alcance(0), embestida(2), frontal(2), por alcance(0), embestida(1), por alcance(0),
embestida(3), por alcance(0), frontal(3), por raspado(0), por raspado(0), embestida(1),
frontal(1), múltiple(3).

La variable tipo de colisión es una variable de tipo categórico que puede tomar 5
modalidades, mientras que la variable número de heridos pueden tomar cualquier valor entero
positivo. Para este ejemplo, en la Tabla 2 y la Tabla 3 podemos observar la tabla de
frecuencias para la variable tipo de colisión y número de heridos, respectivamente.

Tabla 2: Tabla de frecuencias para la variable tipo de colisión

12
Tipo Colisión f f %
embestida 8 16
frontal 5 10
múltiple 7 14
por alcance 11 22
por raspado 19 38

Tabla 3: Tabla de frecuencias para la variable número de heridos

Número de Heridos f f % F F %
0 25 25 50 50
1 10 35 20 70
2 8 43 16 86
3 7 50 14 100

A partir de las tablas de frecuencias es muy sencillo realizar representaciones gráficas. Para
datos categóricos y numéricos discretos las más usuales son el diagrama de barras y el
diagrama de sectores. Inicialmente, para la construcción del diagrama de barras, el cual
puede ser horizontal o vertical, se dibuja los ejes cartesianos colocando equiespaciadamente
las modalidades de la variable categórica o numérica discreta en el eje positivo de las X.
Posteriormente, sobre cada modalidad de la variable se dibuja una barra rectangular con
altura igual o proporcional a su frecuencia absoluta. Para construir un diagrama de sectores
debemos asignarle a cada modalidad x un sector circular con angulo α proporcional a su
frecuencia absoluta n . Concretamente, a la modalidad x le asignamos un ángulo α f ⋅
360º. La representación gráfica del diagrma de barras y el diagrama de sectores para la
variable tipo de colisión puede apreciarse en la Figura 1 y Figura 2, respectivamente.

En algunos casos, cuando la variable de interés la hemos observado en varios grupos o


modalidades de otra variable podemos construir un diagrama de barras agrupadas. La
información del diagrama de barras agrupadas puede representarse gráficamente también con
el diagrama de barras apiladas. En la Figura 3 y Figura 4 podemos ver el diagrama de
barras agrupadas y el diagrama de barras apiladas, respectivamente. Ambos gráficos
proporcionan la misma información. Para cada valor de la variable tipo de colisión podemos
13
observar la frecuencia de valores para la variable número de heridos. Por ejemplo, para
colisiones por alcance o por raspado, es frecuente no encontrar heridos.

Figura 1: Diagramas de barras

Figura 2: Diagramas de sectores


14
Figura 3: Diagrama de barras agrupadas

Figura 4: Diagrama de barras apiladas


15
Ejemplo: En un determinado cruce de una carretera secundaria y a lo largo de un año se han
registrado el número de accidentes ocurrido durante cada fin de semana. La información
relativa a esta variable numerica discreta se presenta de forma incompleta en la siguiente
tabla. Hallar los elementos que se omiten.

Número de accidentes f F f F
0 n N 0.355 F
1 n N f 0.72
2 n 180 f F
3 n N 0.075 F
4 5 N f F

Para resolver este tipo de ejercicios es preciso tener en cuenta las siguientes propiedades entre
los elementos de una tabla de una variable numérica discreta o categórica ordinal con k
modalidades:

1. n n n ... n n
2. f f f ... f 1
3. N n n n ...n
4. F f f f ...f

Como f F es obvio que F 0.355. Además como F 0.72 f f entonces f


F f 0.72 0.355 0.365. Ahora bien, como n n n ... n n entonces
como cada n n ⋅ f siendo n el número total de elementos entoces:

n⋅f n⋅f n⋅f n⋅f n n

Como f 0.075, n 5 y N 180 n⋅f n⋅f n⋅f entonces, sustituyendo


tenemos que:

180 0.075 ⋅ n 5 n

16
Despejando, n 200. Con el número total de obervaciones es muy fácil determinar
.

las frecuencias absolutas. Por ejemplo, n n⋅f 200 ⋅ 0.355 71, n n⋅f
200 ⋅ 0.365 73, n 180 n n2 36, n 200 71 73 36 5 15.
Obviamente teniendo ya las frecuencias absolutas de cada una de las modalidades de la
variable es muy fácil hallar los elementos restantes y por tanto, la tabla pedida.

Número de accidentes f F f F
0 71 71 0.355 0.355
1 73 144 0.365 0.72
2 36 180 0.18 0.9
3 15 195 0.075 0.975
4 5 200 0.025 1

2.2 Datos de tipo continuo


Comenzaremos estas sección con una definición: diremos que un conjunto de k intervalos,
todos de longitud h y semiabiertos por la derecha, a , a , a , a , a , a , . . . , a , a
cubre a un conjunto de observaciones numéricas si a a a a ... a a
y, la menor y la mayor de las observaciones pertenecen al primer y al último intervalo,
respectivamente. Por ejemplo, el conjunto de intervalos 3,4 , 4,5 , 5,6 , 6,7 cubre a un
conjunto de observaciones cuyo menor valor sea 3.75 y mayor valor sea 6.765.

Una variable de tipo continuo es aquella que toma todos los valores en un continuo, es decir,
dados dos valores cualesquiera a y b de una variable X siempre es posible encontrar otro
valor c entre estos dos. Por ejemplo, la variable altura de una persona es una variable de tipo
continuo ya que si un sujeto mide 1.73 y otro mide 1.74, es posible encontrar otro sujeto que
mida 1.735 o cualquier otro valor entre 1.73 y 1.74. Por lo general, en la práctica, para este
tipo de variables es muy difícil encontrar dos valores idénticos de la variable. Esto quiere
decir que si disponemos de n observaciones y construimos una tabla de frecuencias igual que
para una variable numérica discreta obtendríamos una tabla con alrededor de n modalidades
y la mayoría de ellas con frecuencia 1. Esta tabla resulta tan poco informativa como las
propias observaciones y es por ello que necesitamos agruparlas en intervalos. Básicamente,
17
construiremos un conjunto de k intervalos que cubra a las observaciones y contaremos el
número de observaciones que se encuentran en cada intervalo. Obsérvese que hasta ahora no
hemos precisado cuántos intervalos k construiremos. Al respecto existen varios criterios,
citaremos los más relevantes:

1. Regla de Sturges, k log n 1 . La expresión x significa el valor entero


inmediatamente superior a x.
2. Regla de la raíz cuadrada, k √n .
/
3. Regla de Rice, k 2n

De las tres reglas anteriores, en este manual, adoptaremos como convenio usar la regla de
Rice. Una vez conozcamos el número k de intervalos debemos determinar la amplitud h de
los intervalos. A partir del máximo y el mínimo valor de las observaciones el valor de h es:

max min
h
k 1

Como el valor de h puede tener varias cifras decimales, por convenio, redondearemos a la
décima. Por último para determinar de forma fija al conjunto de intervalos precisamos de un
valor x a partir del cual construir los intervalos. Tomaremos como valor x la parte entera
del menor valor de las observaciones. En caso de que el primer intervalo x , x h no
contenga al mínimo, tomaremos x h, x 2h como primer intervalo o bien el primer
intervalo a la derecha que contenga al mínimo. Por último, para cada intervalo, denominado
intervalo de clase, se elige un representante numérico denominado marca de clase, que
coincide con el punto medio de cada intervalo.

En la Tabla 4 puede observarse la forma general de la tabla de frecuencias para un conjunto


de n observaciones de tipo continuo.

Tabla 4: Tabla de frecuencias para datos de tipo continuo

18
X Marca f f F F
a ,a x n f N F
a ,a x n f N F
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
a ,a x n f N F
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
a ,a x n f n 1

En la Tabla 5 puede observarse, para diferentes muestras de diferentes tamaños, el valor del
máximo y el mínimo, el número k de intervalos, el valor h de la amplitud de cada intervalo,
el valor x y el primer intervalo y el último del conjunto de intervalos que cubre a las
observaciones de cada muestra. Merece especial atención la muestra de tamaño 30 ya que en
ella el valor x 16 y sin embargo el primer intervalo que cubre al valor mínimo es
17.9,18.8 . Esto se debe a que el intervalo 16,16.8 no cubre al valor mínimo y por tanto
debemos tomar al siguiente como el primero. El resto de los casos no presenta esta
característica. Sería un buen ejercicio comprobar que todos los parámetros de cada muestra
son correctos.

Tabla 5: Parámetros de la tabla de frecuencias para diferentes muestras

Muestra n k Mín. Máx h x I I


1 10 5 18.48 24.08 1.4 18 18,19.4 23.6,25
2 20 6 17.57 24.31 1.3 17 17,18.3 23.5,24.8
3 30 7 16.86 22.51 0.8 16 17.9,18.8 23.3,24.2
4 50 8 14.66 26.46 1.7 14 14,15.7 25.9,27.6
5 100 10 15.97 23.39 0.8 15 15.8,16.6 23,23.8

Ejemplo: Se han registrado durante 30 ocasiones el tiempo (en minutos) que un vehículo de
emergencia tarda en trasladarse desde su base hasta al punto del accidente. A partir de las
observaciones que a continuación se muestran, construir la correspondiente tabla de
frecuencias: 18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,
20.78, 18.76, 15.57, 22.25, 19.91, 19.97, 21.89, 21.64, 21.19, 21.84, 21.56, 20.15, 16.02,
21.24, 19.89, 19.69, 17.06, 19.04, 20.84.

19
El primer paso es hallar según la regla de Rice el número de intervalos de nuestra tabla. Dado
/
que tenemos 30 observaciones, el valor k 2 ⋅ 30 6.21 y redondeando esta valor al
entero superior tenemos que k 7. Ahora debemos identificar a los valores mínimo y
máximo en la muestra. El mínimo valor es 15.57 y el máximo es 23.19. Con los valores
mínimo, máximo y el valor de k podemos determinar la amplitud h de los intervalos

Max Min 23.19 15.57


h 1.27
k 1 6

Si redondeamos a la décima el valor de h obtenemos que h 1.3. Para finalizar con el cálculo
de parámetros necesarios para construir la tabla hallamos x y el primer intervalo x , x
h para comprobar si cubre al valor mínimo. Es facil ver x 15 y que le primer intervalo
x ,x h 15,16.3 cubre al mínimo valor. Por tanto, los restantes 6 intervalos serán
16.3,17.6 , 17.6,18.9 , 18.9,20.2 , 20.2,21.5 , 21.5,22.8 , 22.8,24.1 . Identificados
los intervalos debemos hallar las marcas de clase y contar el número de observaciones que
se encuentran en cada intervalo y a partir de ellas calcular las frecuencias relativas, las
frecuencias absolutas acumuladas y las frecuencias relativas acumuladas. En la Tabla 6
podemos observar la tabla con todos los valores calculados.

Tabla 6: Tabla de frecuencias para los datos del ejemplo

Intervalos Marca f f F F
[15,16.3) 15.65 2 0.07 2 0.07
[16.3,17.6) 16.95 1 0.03 3 0.1
[17.6,18.9) 18.25 4 0.13 7 0.23
[18.9,20.2) 19.55 7 0.23 14 0.46
[20.2,21.5) 20.85 9 0.3 23 0.76
[21.5,22.8) 22.15 5 0.17 28 0.93
[22.8,24.1) 23.45 2 0.07 30 1

Para los datos de tipo continuo existen dos tipos de gráficos, el histograma y el histograma
de frecuencias acumuladas. Para representar gráficamente el histograma se representan
sobre eje de abscisas los valores de los extremos de los intervalos de clase y para cada
20
intervalo se levanta un rectángulo de altura igual a la frecuencia absoluta o relativa y base la
anchura del intervalo de clase correspondiente. Es común, unir los puntos medios de los lados
superiores de cada uno de los rectángulos y formar el denominado polígono de frecuencias
absolutas. Para representar el histograma de frecuencias acumuladas se procede igual que
con el histograma pero tomando como altura de los rectángulos las frecuencias absolutas
acumuladas o las frecuencias relativas acumuladas. Junto con el histograma de frecuencias
acumuladas se suele superponer el denominado polígono de frecuencias acumuladas o
ojiva. Para sus representaciones gráficas se unen mediante una línea recta todos los pares de
puntos formados por los extremos superiores de los intervalos de clase y sus frecuencias
absolutas acumuladas o frecuencias relativas acumuladas junto con el par formado por el
extremo inferior del primer intervalo y el cero. A continuación representaremos
gráficamente, para la tabla del ejemplo anterior, el histograma junto con el polígono de
frecuencias absolutas y el histograma de frecuencias acumuladas junto con el polígono de
frecuencias acumuladas u ojiva.

21
Figura 5: Histograma y polígono de frecuencias absolutas

Figura 6: Histograma de frecuencias acumuladas y ojiva

3. Medidas se síntesis de datos


Para describir un conjunto de observaciones es preciso disponer de varios números resumen
que informen de cierta características de los datos. Como metáfora podríamos citar aquella
de que los árboles no dejan ver el bosque. En este sentido, las observaciones pueden ser tan
numerosas que resulte difícil comunicar y entender la información contendida en ellas por lo
que es preciso reducirlas a un pequeño número de medidas resumen. El ejemplo más sencillo
y conocido al respecto es la media aritmética. Si un profesor desea conocer, a principio de
curso, el nivel de sus estudiantes pudiera promediar las calificaciones que obtuvieron en un
curso anterior y tener una idea de la capacidad de sus estudiantes. Si este mismo profesor
impartiera dos grupos diferentes entonces a partir de las medias de las calificaciones pudiera
comparar los grupos y decir, en promedio, cuál de ellos es mejor.

22
3.1 Medidas de tendencia central
Las medidas de tendencia central son medidas resumen que se ubican alrededor del centro
de la distribución de los datos, siendo las principales: la media aritmética, la moda y la
mediana.

La media, como todos conocemos, resulta de sumar todas las observaciones y dividir por el
número total de ellas. Se suele denotar como x y matemáticamente se expresa de varias
maneras:

1. x ∑ x . Es la formula general y se suele aplicar a las observaciones originales (sin

tabular). Aquí xi representa cada una de los datos.


2. x ∑ n ⋅ x . Se aplica en datos tabulados, siendo x cada una de las modalidades

de la variable numérica y n la frecuencia absoluta de cada modalidad. en tablas de


frecuencias para datos de tipo continuo x es la marca de clase de cada intervalo.

Si x es la media de un conjunto de observaciones y multiplicamos cada observación por una


cantidad c entonces la media del nuevo conjunto de observaciones es c ⋅ x y su sumamos a
cada observación una cantidad c entonces la nueva media será c x.

La mediana, es aquel valor que deja a su izquierda el 50% de las observaciones y se obtiene
de la siguiente manera: Si el número total de observaciones n es par, ordenamos las
observaciones de menor a mayor y tomamos como valor mediano al promedio de las
observaciones que ocupan la posición n/2 y n/2 1. En caso que n sea impar entonces el
valor mediano es la observación que tras la ordenación ocupa el valor central. Denotaremos
a la mediana mediante el símbolo Med. En el caso de datos tabulados, la mediana se obtendrá
según una fórmula que veremos posteriormente en la sección de medidas de posición.
Anticiparemos que para datos de tipo discreto la mediana, tanto si los datos están tabulados
como si no coincide. Sin embargo, en el caso de datos de tipo continuo la mediana hallada a

23
partir de los datos originales es, por lo general, diferente a la obtenida a partir de la
información tabulada.

Los valores muy grandes y muy pequeños alteran considerablemente el valor de la media
aritmética. Por ejemplo, la media de 1, 2, 3, 4 y 30 es 8 mientras que la media sin este último
valor es 2.5. Cuando la discrepancia entre la media de un conjunto de observaciones con un
valor x y sin él es notable, diremos que x puede ser un outlier o valor atípico (una valor
que puede resultar de una mala anotación o una mala medición). Una medida de tendencia
central resistente a este tipo de datos es la mediana. Además es muy adecuada en datos con
asimetría positiva o negativa, es decir, conjunto de datos cuyas observaciones están
concentrados hacia uno de los lados de los valores mínimo o máximo y muy dispersas hacia
el otro.

La moda, como su nombre indica, es el valor de la variable con mayor frecuencia absoluta.
Esta medida puede determinarse en todo tipo de variables y no exclusivamente en variables
numéricas como le ocurre a la media aritmética y mediana. En caso de datos tabulados de
tipo continuo se suele estimar la moda M mediante la siguiente fórmula:

h n n
M x ⋅
2 2n n n

donde, x es la marca de clase del intervalo modal (aquel que tiene mayor frecuencia
absoluta), h es la amplitud del los intevalos de clase, n la frecuencia absoluta del intervalo
modal y, n y n las frecuencias absolutas del intervalo inmediatamente anterior y
posterior al intervalo modal. Esta estimación de la moda resulta ser la abscisa del vértice de
la parábola que pasa por los puntos medio, del intervalo modal y los intervalos
inmediatamente anterior y posterior a éste.

24
Como ejemplo vamos a determinar la moda del ejemplo de la sección de tablas de frecuencias
para datos continuos. En la tabla 6 identificamos que el intervalo modal es 20.2,21.5 ya
que es el que tiene mayor frecuencia absoluta. Teniendo en cuenta que x 20.85, h 1.3,
n 9, n 7yn 5, tenemos que la moda es:

1.3 5 7
M 20.85 ⋅ 20.6333
2 18 5 7

La moda no tiene que por qué ser única sino que puede haber dos o más valores con la misma
frecuencia y por tanto ser el conjunto de observaciones bimodal, o más generalmente,
multimodal. En el caso de que todos los valores tengan la misma frecuencia absoluta se dice
que no existe moda.

A parte de la media aritmética existen otras medias como la media ponderada, la media
geométrica y la media armónica. Dado un conjunto de n observaciones x , x , . . . , x las
fórmulas para cada una de estas medias son las siguientes:

1. Media ponderada: Cada observación x tiene asociado un peso w y se obtiene como


∑ ⋅
M ∑
. A la hora de establecer la calificación final de una asignatura que se

compone de tres calificaciones parciales, x , x , x muchos profesores, en función de la


importancia de cada calificación parcial, le asignan pesos a cada una de ellas, por
ejemplo, 0.6, 0.3 y 0.1, respectivamente. Es decir, la primera calificación cuenta un 60%
en la nota final mientras que la segunda y la tercera cuentas un 30% y 10%
respectivamente. La calificación final es: M 0.6 ⋅ x 0.3 ⋅ x 0.1 ⋅ x . En caso
de que los pesos w son tales que 0 w 1 entonces los pesos suman uno y la media
ponderada puede expresarse como M ∑ w ⋅ x . Una situación frecuente en
estadística donde surge de forma natural la media ponderada es la siguiente: nos dan las
medias (x y x ) y el número de observaciones (n y n ) de dos conjunto de datos y nos

25
piden la media, x , formada por la unión de los dos conjuntos de datos. Es un error
⋅ ⋅
frecuente tomar como x , la media de las medias, , cuando x .
/
2. Media geométrica: M x ⋅ x ⋅ x ⋅. . .⋅ x . Un sencillo ejemplo sería el de una
asignatura con dos calificaciones parciales x y x cuya calificación final es la media
geométrica de ellas, es decir, √x ⋅ x . En estas circunstancias, si un estudiante obtiene
calificaciones parciales de 7 y 8, su calificación final es √7 ∙ 8 √56 7.4833. La
media geométrica es una buena alternativa en conjuntos de observaciones cuyas
observaciones están muy concentradas hacia uno de los extremos (mínimo y máximo)
de los datos y muy dispersas hacia el otro (lo que denominaremos posteriormente
asimetría positiva o negativa)
3. Media armónica: M . Es una media usual para velocidades, etc.

Dado un conjunto de observaciones y sea x la media aritmética, M la media geométrica y


M la media armónica entonces se cumple que: M M x.

3.2 Medidas de posición


Definimos cuantil p (con 0 p 1) de un conjunto de n observaciones a un número c tal
que la proporción de valores menores o iguales que c es aproximadamente p. Así, por
ejemplo, si el valor 4 es el cuantil 0.356 de un conjunto de observaciones entonces la
proporción de valores menores o iguales que 4 es aproximadamente 0.356. Hay grupos de
cuantiles que recibe un nombre determinado. El conjunto formado por los cuantiles 0.25, 0.5
y 0.75 reciben el nombre de cuartiles, recibiendo el cuantil 0.25, el nombre del primer cuartil
(denotado por Q ), el cuantil 0.5, el nombre de segundo cuartil o mediana (denotado por Q )
y el cuantil 0.75, el nombre de tercer cuartil (denotado por Q ). Otro conjunto muy usual de
cuantiles son los percentiles, formado por los cuantiles 0.01, 0.02, 0.03,...,0.99. Por ejemplo,
el percentil 85 es el cuantil 0.85, y así todos los demás. Obsérvese que el percentil 25 coincide
con el primer cuartil, que el percentil 50 coincide con el segundo cuartil o mediana y que el
percentil 75 coincide con el tercer cuartil.
26
En los paquetes estadísticos existen hasta 9 formas diferentes de estimar los cuantiles
(Hyndman & Fan, 1996). De estos autores adoptaremos en este manual la definición 6 la cual
estima el cuantil p de un conjunto n observaciones numéricas de la siguiente manera: hallar
la cantidad j n 1 ⋅ p y el valor i, igual a la parte entera de j. Tras ordenar el conjunto
de observaciones identificaremos el valor que ocupa la posición i, denotado por x , y el
valor que ocupa la posición siguiente, x . En estos términos la estimación de cuantil p es:
x x x ⋅ j i .

Ejemplo: Durante 30 años se han registrado en Canarias el número de delitos civiles por año.
Las 30 observaciones son las siguientes: 1, 3, 3, 3, 1, 2, 1, 5, 0, 4, 2, 1, 2, 1, 3, 3, 1, 2, 4, 2, 0,
2, 1, 1, 1, 1, 0, 2, 2, 1. Hallar el primer cuartil, la mediana y el percentil 90.

1. El primer cuartil Q es el cuantil 0.25, por tanto p 0.25 y n 30. Las observaciones
ordenadas de menor a mayor son: 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,
2, 3, 3, 3, 3, 3, 4, 4, 5. Aquí j 30 1 ⋅ 0.25 7.75 y el valor i 7. Ahora
buscamos entre las observaciones ordenadas aquella que ocupa el lugar 7 y 8, x 1
yx 1. Finalmente le primer cuartil es: x x x ⋅ 7.75 7 x
0 ⋅ 0.75 1, Q 1.
2. La mediana Q es el cuantil 0.5, por tanto p 0.5 y n 30. Aquí j 30 1 ⋅ 0.5
15.5 y el valor i 15. Ahora buscamos entre las observaciones ordenadas aquella que
ocupa el lugar 15 y 16, x 2yx 2. Ocurre igual que en el caso anterior, esto
es, como las dos observaciones consecutivas son iguales la mediana es x 2, esto
es, Q 2.
3. El percentil 90 es el cuantil 0.90, por tanto p 0.9 y n 30. Aquí j 30 1 ⋅ 0.9
27.9 y el valor i 27. Ahora buscamos entre las observaciones ordenadas aquella que
ocupa el lugar 27 y 28, x 3yx 4. Aplicando la fórmula correspondiente
tenemos que x x x ⋅ 27.9 29 3 1 ⋅ 0.9 3.9, P 3.9.

Tabla 7: Tabla de frecuencias para la variable número de delitos

27
Número de delitos f F f F
0 3 3 0.1 0.1
1 11 14 0.3667 0.4667
2 8 22 0.2667 0.7333
3 5 27 0.1667 0.9
4 2 29 0.06667 0.9667
5 1 30 0.03333 1

Para variables numéricas discretas, la solución al problema es la misma si este se resuelve a


partir de la tabla de frecuencias como a partir de las observaciones sin tabular. En la Tabla 6
puede observarse la tabla de frecuencias correspondiente al ejemplo anterior. Para el cálculo
de cuantiles a partir de la tabla es preciso tener en cuenta la siguiente observación:
recorremos la columna de las frecuencias relativas acumuladas y nos detendremos en el
primer valor que iguale o supere al valor p del cuantil a determinar. Por ejemplo, si deseamos
hallar el primer cuartil, recorremos la tabla hasta el primer valor que acumule 0.25 o lo
supere. Si observamos la tabla el valor de la variable que supera o acumula 0.25 (acumula
0.4667) es el valor 1 y podemos decir que Q 1. Sin embargo, debemos tener en cuenta
una excepción. Si nos piden el cuantil p=0.7333 entonces debemos recorrer la columna de
frecuencias relativas acumuladas y detenernos en aquella fila donde se acumule 0.7333 o lo
supere. El valor de la variable que acumula exactamente 0.7333 es el 2. En este caso y en
todos aquellos donde el cuantil a determinar se acumule exactamente en un valor de la
variable tendremos que interpolar entre ese valor y el siguiente de la variable. Para ello
debemos realizar la operación 30 1 ⋅ 0.7333 22.7323 y tomar como cuantil 0.7333
al valor resultante de sumarle a 2 el producto de la parte decimal del valor anterior (0.7323)
por la diferencia entre el valor de la variable siguiente a 2 y 2. Es decir, el cuantil 0.7333 es
igual a 2 0.7323 ⋅ 3 2 2.7323.

Con respecto a los datos de tipo continuo distinguiremos dos casos: datos tabulados y las
observaciones originales. Para este último los cuantiles se obtienen como en el caso de
variables numéricas discretas explicado anteriormente. Más concretamente, si deseamos
hallar el cuantil p:

28
1. Hallamos la cantidad j n 1 ⋅ p y su parte entera a la que denominaremos i.
2. Ordenamos el conjunto de observaciones en orden creciente e identificamos el valor que
ocupa la posición i en tal ordenación. A este valor lo denotaremos por x , y al valor
que ocupa la posición siguiente por, x .
3. La estimación de cuantil p es: x x x ⋅ j i .

En el caso de datos tabulados los cuantiles se obtienen por interpolación lineal. En la Figura
7 podemos ver la ojiva de 50 observaciones tabuladas y donde desea hallarse el percentil 35.
Para hallarlo debemos determinar el valor x del eje de abscisas cuya valor en el eje de
ordenadas sea 17.5 (17.5 50 ⋅ 0.35). El método de interpolación lineal para datos
tabulados se basa en la semejanza de los triángulos ABC y AB'C'. De esta manera tenemos,

por la semejanza de triángulos, que y despejando, el valor del segmento AB

tenemos que AB ⋅ AB′. En este caso BC 17.5 12 5.5, B′C′ 27 12 15,


.
AB′ 10 8.6 1.4 por lo que el percentil 35 es: P 8.6 AB 8.6 ⋅ 1.4

9.113333.

29
Figura 7: Histograma de frecuencias acumuladas y ojiva

En general, este procedimiento de interpolación lineal para el hallar el cuantil p, C , se suele


expresar de forma general, mediante la siguiente fórmula:

p⋅n N
C a ⋅h
n

donde:

• i: es el intervalo donde se encuentra el cuantil, al cual denominaremos intervalo cuantil.


Para determinar este intervalo recorreremos la columna de las frecuencias relativas
acumuladas de la tabla de frecuencias y nos detendremos en aquel que acumule
exactamente p o lo supere.
• a : es el extremo inferior del intervalo cuantil.
• n: es el número total de observaciones.
• N : es la frecuencia absoluta acumulada del intervalo anterior al intervalo cuantil.
30
• n es la frecuencia absoluta del intervalo cuantil.
• h es la amplitud del intervalo cuantil

Ejemplo: Para los datos tabulados en la Tabla 8 hallar el percentil 30, 76, 90.

Tabla 8: Tabla de frecuencias para cálculo de cuantiles

Intervalos Marca f f F F
[15,16.3) 15.65 2 0.07 2 0.07
[16.3,17.6) 16.95 1 0.03 3 0.1
[17.6,18.9) 18.25 4 0.13 7 0.23
[18.9,20.2) 19.55 7 0.23 14 0.46
[20.2,21.5) 20.85 9 0.3 23 0.76
[21.5,22.8) 22.15 5 0.17 28 0.93
[22.8,24.1) 23.45 2 0.07 30 1

Aplicaremos la fórmula general establecida anteriormente.

1. Percentil 30: En primer lugar identificaremos el intervalo que acumula o supera 0.3 en
la columna de frecuencias relativas acumuladas. Se trata del intervalo [18.9,20.2). P
. ⋅
18.9 ⋅ 1.3 19.27143.

2. Percentil 45: Aquí el intervalo cuantil es [20.2,21.5). Como en dicho intervalo se


acumula exactamente 0.76 entonces el percentil 76 es el extremo superior del intervalo,
esto es, P 21.5.
3. Percentil 90: El intervalo cuantil es [21.5,22.8). Aplicando la fórmula tenemos que
. ⋅
P 21.5 ⋅ 1.3 22.54.

3.2 Medidas de dispersión


Si disponemos de un conjunto de observaciones todas iguales entonces su dispersión es cero.
Por tanto, a mayor concentración de las observaciones en una región menor dispersión. Entre
las medidas de dispersión más usuales tenemos:

31
El rango: Se trata de la diferencia entre el máximo y el mínimo de las observaciones.
Obviamente a mayor valor del rango mayor dispersión. Sin embargo es una medida muy
vasta ya que por ejemplo, el conjunto de observaciones 1,5,5,5,5, 10 y el conjunto
1,1,1,10,10,10 tiene el mismo rango y sin embargo el segundo conjunto al tener las
observaciones en uno de los dos extremos tiene mayor dispersión que el primero.

Varianza: Es la medida de dispersión por antonomasia y está ligada a la media aritmética.


De hecho, podríamos decir, que la varianza mide si la media aritmética es o no un buen
resumen de todo el conjunto de observaciones y por tanto siempre se debería acompañar a la
media. Si nos informan de que dos grupos de estudiantes tienen una media de 5 puntos (sobre
10) teniendo el primero de ellos una varianza de 1 y el segundo una varianza de 3 quiere decir
que en el primero las calificaciones están más concentradas alrededor de 5 que en el segundo
grupo. Es decir, a menor valor de la varianza mayor homogeneidad de los datos y a mayor
valor, mayor heterogeneidad. La fórmula de la varianza depende de si estamos antes datos
tabulados o antes las observaciones originales.

1. Datos originales: En este caso y para cualquier variable numérica la fórmula es, s
∑ x x .

2. Datos tabulados: Al igual que ocurría con la media aritmética los valores x son
modalidades y la fórmula será s ∑ n ⋅ x x . Obsérvese que aquí el

índice i recorre las diferentes k modalidades de la variable mientras que en el caso


anterior recorre todas las observaciones.

Desviación típica: Es la raíz cuadrada de la varianza y se suele denotar por la letra s. La


diferencia con la varianza es que esta viene expresada en las mismas unidades que las
observaciones mientras que la varianza viene expresada en unidades al cuadrado. Es por ello,
que con frecuencia se suele preferir como medida de dispersión a la desviación típica en vez
de la varianza. A continuación daremos dos reglas que expresan una interpretación de la
desviación típica junto con la media aritmética: La regla empírica y el Teorema de
Tchebysheff
32
Regla empírica: Dado un conjunto de datos de una variable numérica de tipo continuo, con
al menos 20 observaciones, con media aritmética x y desviación típica s, y cuyo histograma
tenga forma de loma o montículo, entonces la proporción de observaciones que caen en los
intervalos x s, x 2⋅syx 3 ⋅ s son como sigue:

1. x s: Por lo general, entre el 60% y el 80%. El porcentaje será aproximadamente un


70% para distribuciones más o menos simétricas y mucho mayores (cerca del 90%) para
distribuciones marcadamente asimétricas.
2. x 2 ⋅ s: Alrededor del 95% para distribuciones simétricas y mucho mayor (cercano al
100%) para distribuciones altamente asimétricas.
3. x 3 ⋅ s: Cerca del 100% en todos los casos.

¿Puede aplicarse la regla empírica a conjuntos de datos con histogramas sin forma de
montículo? La respuesta, desafortunadamente, es no. En ese caso aplicaremos un teorema
general denominado Teorema de Tchebysheff. Este teorema establece que al menos 1

del total de las observaciones cae en el intervalo x k ⋅ s. Por tanto para k=2 esto quiere
decir para cualquier conjunto de datos en x 2 ⋅ s cae al menos un 75% de lo datos y en x
3 ⋅ s cae al menos el 89% de las observaciones.

Ejemplo: En una determinada autopista se registra los tiempos (en días) entre accidentes
mortales. A partir de las últimas 10 observaciones determinar la media, la mediana, el rango,
la varianza y la desviación típica. Las observaciones son las siguientes: 7, 52, 14, 42, 1, 26,
13, 68, 44, 25.

La media es muy sencilla pues tan sólo debemos promediar los valores:

7 52 14 42 1 26 68 44 25
x 29.2
10

Para hallar la varianza aplicaremos la fórmula para observaciones originales:

33
. . . . . .
s ∑ x x
. . . .
468.62. La desviación típica es la raiz cuadrada

del valor de la varianza, es decir, s √468.22 21.64.

Para hallar la mediana como el número de observaciones es par debemos promediar, después
de ordenar de menor a mayor, la observación x yx . Las observaciones ordenadas son
1, 7, 13, 14, 25, 26, 42, 44, 52, 68 y la observación x 25 y x 26 por lo que la

mediana es, M 25.5

Como el valor máximo es 68 y el valor mínimo es 1 y como el rango es la diferencia entre el


máximo y el mínimo, tenemos que rango=67.

Coeficiente de variación: Denotaremos al coeficiente de variación por CV y se define como


el cociente entre la desviación típica dividida en la media aritmética en valor absoluta, es
decir, CV | |
. Obviamente no tiene sentido cuando la media aritmética es cero o muy

próxima a cero. Es una medida de dispersión relativa, expresada comunmente en tantos por
cien, muy útil para comparar la dispersión de varios conjuntos de datos cada uno con
diferentes unidades de medida. Por ejemplo si un grupo de observaciones tiene media 20
minutos y desviación típica de 4 minutos y otro conjunto de datos tiene una media de 80 Kg.
con una desviación típica de 10 kg. entonces para saber cuál de los dos tiene mayor dispersión
no podemos comparar las desviación es típica ya que no están en las mismas unidades. En
vez, utilizaremos en el coeficiente de variación siendo el del primer grupo CV | |
0.2

20% y el del segundo CV | |


0.2 0.125 12.5%. Por tanto el segundo conjunto de

datos tiene menor dispersión relativa. Nótese que por definición el coeficiente de variación
es adimensional.

Rango intercuartílico: Es una medida de dispersión algo parecida al rango pero más estable
(mayor robustez). Se define como RI Q Q . Al igual que el rango a menor valor menor
34
dispersión en los datos. A veces, se suele usar como medida de dispersión el rango semi-
intercuartílico, la mitad del RI.

3.3 Medidas de forma


Básicamente se trata de dos medidas: Una medida de la asimetría de una distribución de
datos y la otra una medida de apuntamiento o curstosis. En la Figura 7 tenemos un ejemplo
de distribución de datos con asimetría positiva mientras que en la Figura 8 podemos apreciar
un ejemplo de distribución con asimetría negativa. Obsérvese que en la asimetría positiva, la
Moda > Mediana > Media y la cola de la distribución se extiende a la derecha mientras que
en la asimetría negativa, Media < Mediana < Moda y la cola de la distribución se extiende a
la izquierda. Obviamente en una distribución simétrica unimodal, Moda, Mediana y Media
coinciden.

Las medidas de asimetría como su nombre indica, miden el grado de asimetría de una
distribución de datos numéricos. Si la asimetría es cero o aproximadamente cero entonces la
distribución de datos es simétrica, Si es positiva diremos que tiene asimetría positiva y si es
negativa diremos que tiene asimetría negativa. Las medidas de asimetría que trataremos en
este manual son las siguientes:

1. Coeficiente de asimetría de Fisher: La denotaremos por A y se define como A

∑ para datos no tabulados y como A ∑ n

para datos tabulados.


2. Coeficiente de asimetría de Pearson: Lo denotaremos por A y se define como
̅

Otro medida de forma muy importante es el coeficiente de apuntamiento o curtosis, que lo

denotaemos por C y se define como como C ∑ para

datos no tabulados y como C ∑ n para datos

35
tabulados. El coeficiente de apuntamiento mide el grado de picudez junto con el peso de las
colas en la distribución de los datos comparado con la denominada distribución normal
unitaria. Si es cero es igual a la distribución normal unitaria, si es mayor que cero es más
picuda que la normal y con colas más pesadas que ésta (colas con mayor frecuencia).

Figura 7: Moda, mediana y media en una distribución con asimetría positiva

36
Figura 8: Moda, mediana y media en una distribución con asimetría negativa

4. Diagrama de cajas y bigotes y diagrama de tallos y hojas

4.1 Diagrama de cajas y bigotes


El diagrama de cajas y bigotes es una forma de representar gráficamente el denominado
resumen de los cinco números: el mínimo, el primer cuartil, la mediana, el segundo cuartil
y el máximo. En la Figura 9 puede apreciarse una representación gráfica de un diagrama de
cajas y bigotes. Los dos bigotes (especie de antenitas en los extremos del gráfico), marcan la
posición donde se encuentran el máximo y el mínimo, 1.6 y -2.21 , respectivamente. Entre el
primer y tercer cuartil (-0.43 y 0.71) puede verse la caja con un segmento central en color
negro que representa el valor de la mediana. En este caso, 0.26. Los bigotes no siempre se
colocan en el máximo y el mínimo sino que suelen ubicarse (así lo hacen muchos paquetes
estadísticos) en las siguientes posiciones:

37
1. El bigote superior en Q 1.5 ⋅ Q Q y el bigote inferior en Q 1.5 ⋅ Q Q .
En este manual adoptaremos este lugar para ubicar los bigotes.
2. El bigote superior en P y el bigote inferior en P .
3. El bigote superior en P y el bigote inferior en P .

Al no colocar los bigotes en el máximo y mínimo, habrá observaciones que excedan estos
límites. Esos valores son potencialmente outliers o valores atípicos, observaciones mal
registradas o errores instrumentales accidentales. Recuérdese que estos valores alteran
considerablemente la media aritmética y la desviación típica.

¿Qué información puede apreciarse en un diagrama de cajas y bigotes? Algunas indicaciones:

1. Un diagrama más o menos simétrico con respecto a la mediana indicará una distribución
datos simétrica mientras que un diagrama donde al plegar por la mediana bigotes y tercer

38
y primer cuartil quedan muy distanciados sugieren asimetría en los datos. En diagramas
asimétricos es donde suelen surgir mayor número de posibles outliers.
2. Entre el valor del primer cuartil y la mediana se encuentran el 25% de las observaciones
al igual que entre la mediana y tercer cuartil. Si la distancia entre el primer cuartil y la
mediana es mayor que la distancia entre el tercer cuartil y la mediana entonces en ese
tramo hay menor dispersión que en el segundo.

En ocasiones se suele pintar dos o más diagrama de cajas y bigotes en un mismo gráfico para
comparar la distribución de los datos en los diferentes grupos.

Figura 10: Diagrama de cajas y bigotes de dos grupos

4.2 Diagrama de tallos y hojas


Los diagramas de tallos y hojas son similares al histograma y por tanto nos proporcionan
información sobre la acumulación de los datos a lo largo del rango, esto es, de su distribución.

39
A través del él podemos identificar asimetría, unimodalidad o multimodalidad, et. Para
entender bien cómo construir un diagrama de tallos y hojas daremos un sencillo ejemplo.
Supongamos que tenemos las siguientes 10 observaciones 5,9,12,13,20,21,23,24,30,31 y
queremos realizar un diagrama de tallos y hojas. Para ello separaremos cada número en dos
partes, la decena para el tallo y la unidad para la hoja. Así, por ejemplo 13 los separaremos
en dos partes 1|2, donde 1 será el tallo y 2 será la hoja. De esta manera tendremos el siguiente
diagrama. Obsérvese que básicamente se trata de juntar las observaciones por la unidad de la
decena. Por tanto, 2 | 0134 significa que hay 4 observaciones que comparten la misma decena
(el dos) y cuyas unidades son, 0, 1, 3 y 4, respectivamente.

0 | 59
1 | 23
2 | 0134
3 | 01

En caso de que tengamos un conjunto de observaciones con varias cifras decimales como el
siguiente:6.631, 9.712, 12.36, 11.363, 10.286, 7.615, 12.338, 10.158, 9.096, 13.284, 8.461,
10.607, 12.563, 11.204, 9.386, 9.163, 10.71, 11.027, 10.037, 12.637, 9.868, 8.599, 11.075,
5.596, 10.784, 10.994, 9.55, 7.766, 9.21, 13.1, 8.513, 5.337, 11.624, 8.997, 8.978, 7.569,
9.955, 11.402, 8.825, 8.787 lo que podemos hacer es redondear a la primera cifra decimal
6.6, 9.7, 12.4, 11.4, 10.3, 7.6, 12.3, 10.2, 9.1, 13.3, 8.5, 10.6, 12.6, 11.2, 9.4, 9.2, 10.7, 11,
10, 12.6, 9.9, 8.6, 11.1, 5.6, 10.8, 11, 9.6, 7.8, 9.2, 13.1, 8.5, 5.3, 11.6, 9, 9, 7.6, 10, 11.4, 8.8,
8.8 y después tomar como tallos la parte entera y como hojas la parte decimal. El diagrama
correspondiente quedaría así:

5 | 36
6|6
7 | 668
8 | 55688
9 | 001224679
10 | 0023678
11 | 0012446
12 | 3466
13 | 13

40
A veces, cuando tenemos dos conjunto de datos, los diagramas de tallos y hojas comparten
los tallos y se representan gráficamente los dos a la vez, con los tallos en el centro y las hojas
de un conjunto hacia la izquierda y la del otro hacia la derecha (tallos contra tallos).

5| 5 |

0| 6 |5

9720| 7 |4

7776533| 8 |123

9988877766432210| 9 |1278

9877776631| 10 |000122235668

88765554321111| 11 |0013458

8722| 12 |0012445889

910| 13 |1144678

| 14 |0117

| 15 |1456

| 16 |237

| 17 |03

ACTIVIDADES

1. Hallar los elementos de la tabla de frecuencias que se omiten.

Número de accidentes f F f F
0 n N f 0.39
1 78 N f F
2 n N 0.175 F
3 n 197 f F
4 n 200 f F

41
2. Hallar los cuartiles correspondientes a las siguientes 30 observaciones: 29.76, 35.97,
29.15, 32.52, 24.89, 30.12, 29.27, 32.19, 29.72, 30.18, 31.03, 29.86, 31.92, 30.79, 31.04,
27.66, 27.34, 28.31, 27.31, 30.39, 33.37, 27.52, 29.03, 30.48, 33.25, 27.86, 30.03, 27.86,
25.49, 33.27.
3. Las siguientes 40 observaciones corresponde a la medición de la altura de ola registrada
por la denominada boya Gran Canaria situada al noroestes de Gran Canaria: 1.47, 2.42,
2.01, 1.73, 0.74, 1.23, 2.21, 1.09, 1.05, 2.27, 3.26, 0.66, 1.14, 1.12, 0.16, 1.18, 1.23,
0.66, 0.49, 1.13, 1.75, 1.61, 1.52, 3.4, 2.29, 0.54, 1.09, 1.21, 1.71, 0.69, 2.44, 2.26, 1.13,
1.66, 0.2, 0.79, 1.37, 3.04, 2.51, 2.07. Se pide:

a) Realizar una tabla de frecuencia y representar gráficamente el histograma.


b) Hallar con las observaciones originales y con los datos agrupados los cuartiles.
c) Hallar la media y la desviación típica de los datos originales y agrupados.
d) Hallar la altura significativa de ola (Significant wave height, H ). Para ello, promediar
todos las observaciones superiores al percentil 77.
e) Halla la moda o la altura de ola más probable.

4. 30 sujetos responden a la escala criminológica de apego emocional donde se realizan 16


preguntas tipo Likert sobre la relación con sus padres, hermanos, pareja y mejor amigo.
La puntuación total a dicha escala tiene un valor mínimo de 16 y un valor máximo de
80 puntos. Las 30 respuestas dadas por los sujetos son las siguientes: 54, 30, 76, 66, 59,
74, 68, 64, 33, 57, 40, 52, 60, 61, 71, 51, 79, 49, 58, 40, 36, 42, 57, 24, 91, 60, 60, 87,
67, 73.

a) Hallar la media y desviación típica.


b) Hallar la proporción de observaciones que caen en el intervalo x ⋅ s y x 2 ⋅ s.
Comparar los resultados con la regla empírica.

5. Durante un mes se ha registrado la cantidad media diaria de dióxido de carbono


registrada por la estación del Mercado Central en Las Palmas de Gran Canaria. A partir
de esas observaciones se sabe que la media mensual es de 4.63 microgramos por metro
42
cúbico con una desviación típica de 1.35 unidades. Por otro lado se ha medido la altura
de ola durante el mismo mes en una zona exterior del puerto de la Luz encontrándose
una altura media de 1.5 metros con una desviación típica de 0.5 metros. Comparar la
dispersión de ambos registro y determinar cuál de los dos variables tiene menor
dispersión.
6. Durante varios años se ha registrado, la máxima cantidad de agua recogida en una
determinado zona de la Gomera. A partir de las observaciones estudia la asimetría y la
curtosis de los datos. Haz un histograma y compara los valores de asimetría y curtosis
con la imagen del histograma. ¿Qué proporción de valores cae en x ⋅ s? Se ajusta a la
regla empírica. Las observaciones son: 302, 400, 138, 146, 200, 270, 200, 123, 150,
186, 178, 164, 192, 170, 185, 215, 85, 162, 200, 186, 122, 218, 152, 242, 163, 196, 220,
209, 105, 217, 350, 97, 164, 335, 139, 150, 150, 154, 162, 365, 168, 284, 115, 214, 143,
148, 300, 300, 206, 170, 150, 200, 126, 84, 420, 252, 260, 134, 202, 294, 105, 200, 134,
109, 122, 154, 191, 270, 217, 275, 199, 117, 246, 109, 178, 70, 120, 208, 147, 123, 194,
138, 210, 254, 194, 123, 164, 152, 212, 216, 230, 99, 180, 200, 110, 318, 91, 172, 98,
429, 168, 273, 162.
7. El PM10 (partículas inhalables) es una variable medioambiental que mide la cantidad
de partículas iguales o inferiores a 10mm que podemos encontrar en un metro cúbico.
Las siguientes observaciones corresponden a medidas diarias de PM10 (en mg por metro
cúbico) registradas cerca de una Central Térmica de Ciclo Combinado: 18, 39, 40, 40,
19, 15, 26, 23, 28, 11, 16, 25, 18, 15, 22, 25, 30, 22, 23, 22, 23, 19, 11, 11, 25, 24, 37.
Realizar un diagrama de cajas y bigotes y extraer con conclusiones. Realizar también
un diagrama de tallos y hojas.
8. Se han registrado 30 tiempos, en horas, de la variable tiempos entre llamadas de
emergencia a una estación de bomberos. A partir de las observaciones, hallar el
coeficiente de asimetría de Fisher e indicar si es mejor utilizar la media, la mediana o la
media geométrica como medida de tendencial central. Las observaciones son las
siguientes: 1.87, 1.21, 7.52, 0.63, 0.42, 5.39, 2.08, 5.65, 0.63, 8.01, 0.92, 1.49, 3.48,

43
21.27, 1.43, 4.86, 1.32, 17.48, 2.85, 6.15, 4.42, 10.37, 1.39, 6.94, 1.2, 3.12, 7.51, 4.77,
9.65 y 2.22.
9. En tres lugares de una región se han colocado tres instrumentos similares para medir
niveles de ozono. El primer instrumento ha realizado 30 mediciones con un valor medio
de 160 ppb (partes por billón), el segundo instrumento ha realizado 35 mediciones con
un valor promedio de 180 ppb y el tercer instrumento ha realizado 40 mediciones con
un valor promedio de 200 ppb. Hallar un valor promedio para toda la región.
10. En una base datos se dispone de 3 variables medida en diferentes unidades y se desea
saber cuál de ellas tiene menor variación. A partir de la información de la siguiente tabla
resolver el problema:

Variable Media Varianza


1 30 12
2 23 45
3 67 26

EJERCICIOS DE AUTOEVALUACIÓN
1. En el siguiente histograma puede observarse las edades de los miembros de una empresa
de gestión del riesgo. A partir de dicho histograma se tiene que:

a) El percentil 60 es 31,5.
44
b) El percentil 30 es 25,8667.
c) El percentil 10 es 22,2667.
d) El percentil 90 es 34,4.

2. Un profesor imparte una misma materia en dos grupos diferentes A y B. La nota media de
cada grupo en la asignatura es 6,47 y 7,68, respectivamente. Si en el grupo A hay 40
estudiantes y en el grupo B hay 64 estudiantes entonces la nota media de los dos grupos
juntos es:

a) 7,07
b) 7,21
c) 8,43
d) 6,05

3. A partir de las siguientes 20 observaciones 6, 5.81, 3.23, 5.46, 5.69, 2.94, 2.84, 6.86, 4.04,
1.23, 2.54, 3.95, 1.78, 2.76, 7.41, 4.07, 1.7, 1.98, 5.06, 5.49 relativas a la altura de ola, la
altura significativa de ola (significant wave height, H ) es:

a) 6.354
b) 4.042
c) 2.345
d) 0.567

4. A un grupo de agentes de seguridad se les ha registrado la Altura (en cm.), el Peso (en
Kg.), el número de palabras que recordaban en una prueba de Memoria y el Tiempo invertido
(en segundos) en realizar una prueba de 100 metros lisos. En la siguiente tabla se recogen las
medias y las varianzas de las 4 variables. A partir de esta información la variable con menor
variabilidad es:

Variable Media Varianza


Altura 80.52 707.56
Peso 43.44 1190.25
45
Tiempo 15.05 40.32
Memoria 14 61
a) Altura
b) Peso
c) Tiempo
d) Memoria
5. En la siguiente grafica identifica el diagrama de cajas y bigotes en donde los
valores comprendidos entre la mediana y el tercer cuartil se encuentran más
dispersos que entre los comprendidos entre el primer cuartil y la mediana.

6. En el siguiente diagrama de tallos y hojas puede observarse la distribución de mediciones


de un parámetro de calidad medioambiental. A partir de este gráfico se tiene que el primer y
tercer cuartil son, respectivamente:

a) 27,5 y 38,5
b) 27,5 y 46.

46
c) 27 y 46,5.
d) 27 y 46.

7. La moda de los siguientes datos agrupados es:

Intervalos Freccuencia
absoluta
[15,16.3) 1
[16.3,17.6) 1
[17.6,18.9) 9
[18.9,20.2) 7
[20.2,21.5) 3
[21.5,22.8) 5
[22.8,24.1) 4

a) 17.7
b) 18.64
c) 18.8
d) 18.25

8. Si un conjunto de observaciones presenta valores atípicos entonces la medida de tendencia


central adecuada para resumir los datos es:

a) La media
b) La moda
c) La media ponderada
d) La mediana

9. Dado un conjunto de 100 observaciones con alta asimetría, con ̅ 30 y 5 entonces,


de las siguientes, la opción que no entra en contradicción con las características de la muestra
es:

a) El 70% de las observaciones se encuentran en el intervalo [20,40]


b) El 80% de las observaciones se encuentran en el intervalo [15,45]
c) La mediana es 30.
d) El 80% se encuentran en el intervalo [20,40]

47
10. El máximo y el mínimo de un conjunto de 40 observaciones de una variable continua
son 25 y 10, respectivamente, entonces la amplitud de los intervalos en la tabla de frecuencia
de acuerdo con la regla de Rice es:

a) 1.4
b) 1.2
c) 1
d) 0.97

48
SOLUCIONES A LOS EJERCICIOS DE AUTOEVALUACIÓN
1. d

2. b

3. a

4. a

5. c

6. d

7. b

8. d

9. d

10. c

49
BIBLIOGRAFÍA
Asensio, F. M., & Marqués, F. (2009). Estadística descriptiva a través de Excel. RC Libros.

Astudillo, M. J. P., Vieytes, A. R., Palomo, R. R., & del Campo Campos, C. (2007).
Estadística: problemas resueltos.

Calot, G., & Sevilla, F. J. C. (1982). Curso de estadística descriptiva. Paraninfo.

Charte, F. (2008a). Cálculos estadísticos con Excel.

Dalgaard, P. (2008). Introductory statistics with R. Springer Science & Business Media.

DeGroot, M. H. (1990). Probabilidad y estadística. Addison-Wesley Iberoamericana.

Dixon, W. J., Massey, F. J., & Vilaplana, J. P. (1966). Introducción al análisis estadístico.
McGraw-Hill.

Gómez Barrantes, M. (1997). Elementos de estadística descriptiva. Editorial EUNED.

Grünhut, M. (1951). Statistics in criminology. Journal of the Royal Statistical Society. Series
A (General), 114(2), 139–162.

Hyndman, R. J., & Fan, Y. (1996). Sample quantiles in statistical packages. The American
Statistician, 50(4), 361–365.

Lorenzo, J. M. M. (2007). Estadística descriptiva. Editorial Paraninfo.

Martín-Guzmán, M. P., Muñoz, M. I. T., Ortega, F. J. L., & Ortega, N. B. (2006). Manual de
estadística: descriptiva. Editorial Civitas.

Martín, Q. M., & de Paz Santana, Y. del R. (2007). Tratamiento estadístico de datos con
SPSS. Editorial Paraninfo.

50
Norman, G. R., Streiner, D. L., & Tarrés, J. (1996). Bioestadística. Mosby/Doyma Libros.

Ross, S. M. (2007). Introducción a la Estadística. Reverté.

Sabadías, A. V. (1996). Estadística descriptiva e inferencial (Vol. 8). Univ de Castilla La


Mancha.

Sokal, R. R., & Rohlf, F. J. (1986). Introducción a la Bioestadística (Vol. 5). Reverté.

Sturges, H. (1926). The Choice of a Class Interval. Journal of the American Statistical
Association, 21(153), 65-66.

Vallejo, P. M. (2008). Estadística aplicada a las ciencias sociales. Universidad Pontificia


Comillas.

Walker, J., & Maddan, S. (2008). Statistics in criminology and criminal justice: analysis and
interpretation. Jones & Bartlett Learning.

Wheater, C. P., & Cook, P. A. (2000). Using statistics to understand the environment.
Psychology Press.

51
GLOSARIO
Datos crudos y datos tabulados: Se denomina datos crudos al conjunto de observaciones
de cada uno de los sujetos u objetos de una muestra. Si esta información original se agrupa
según algún criterio, la información resultante se dice que está tabulada o más generalmente
que es información agregada.

Diagrama de cajas y bigotes: Diagrama formado por un rectángulo central (la caja) dividido
en dos partes por una línea central más oscura o de mayor grueso (la mediana). El extremo
superior e inferior de la caja central marca el tercer y primer cuartil, respectivamente. Desde
el punto medio de los lados superiores e inferiores de la caja parten unos segmentos (los
bigotes) cuya longitud es 1.5 veces el rango intercuartílico. Sirve para detectar asimetría en
los datos y para detectar posibles valores atípicos. Es muy útil en la comparación de varios
grupos de observaciones.

Diagrama de tallos y hojas: Una forma de histograma muy útil para identificar asimetría,
número de modas. En general para ver cómo se distribuyen las observaciones.

Histograma: Cuando disponemos de numerosas observaciones de tipo continuo es preciso


tener una idea de cómo se distribuyen los datos en la población a partir de la muestra. Para
ello agrupamos las observaciones en varios intervalos y representamos la frecuencia de cada
intervalo. A partir del histograma podemos identificar asimetría, unimodalidad, bimodalidad,
dispersión, etc.

Muestra aleatoria: A partir de un conjunto de n sujetos u objetos podemos elegir


subconjuntos o subgrupos de sujetos u objetos de tamaño k con k<n. Si cada uno de estos
pequeños grupos es elegido al azar entre los n sujetos u objetos tenemos una muestra
aleatoria. Merece la pena destacar que los sujetos de la muestra los elige el azar y no una
persona o la casualidad. Una condición necesaria para poder establecer afirmaciones
estadísticas de calidad es disponer de una muestra aleatoria. En caso contrario, los resultados
están por lo general sesgados.
52
Población: Conjunto de sujetos que comparten una o varias características en común. Muy
común es la característica geográfica, por ejemplo, los residentes en un región concreta.

Regla empírica: Regla práctica que expresa en distribuciones de datos en forma de


montículo la proporción de observaciones que se encuentran en los intervalos x s,x 2s
yx 3s.

Valores atípicos: Observaciones muy distantes de las demás que altera el valor de la media
y la desviación típica al omitirlas en los cálculos. Las marcas que aparecen en forma de
pequeños círculos en los extremos de los bigotes de un diagrama de cajas y bigotes suelen
ser candidatos a valores atípicos o outliers.

Variable: Conjunto de valores resultante de medir una característica o atributo a una


población de sujetos u objetos.

53
54
ESTADÍSTICA DESCRIPTIVA BIVARIANTE

2
Unidad de Aprendizaje

55
56
PRESENTACIÓN

“Statistical thinking will one day be as necessary for


efficient citizenship as the ability to read and write.”
H.G. Wells

En la práctica es frecuente la observación simultánea de dos variables X e Y sobre los objetos


de una muestra o población. Por ejemplo, el número de accidentes de tráfico, por mes durante
una año, en diferentes municipios; el estado, en el momento de uso, de extintores que han
sido revisados/recargados por distintas empresas; la altura de la llama en un incendio y la
velocidad de propagación del mismo; etc. Las dos variables pueden ser o no del mismo tipo:
ambas numéricas, ambas categóricas, o una numérica y la otra categórica. En cualquiera de
los casos, los datos en bruto se presentan en una matriz como la siguiente:

Objeto X Y
1 x1 y1
2 x2 y2
.... ... ...
i xi yi
... ... ...
n xn yn

Una primera fase para la identificación de las posibles asociaciones, tendencias, etc.,
presentes en los datos consiste en organizarlos apropiadamente, tal como describiremos a
continuación.

OBJETIVOS

 Entender el interés de la estadística bivariante para detectar posibles asociaciones entre


variables.
 Distinguir las distintas formas de proceder al realizar la estadística bivariable, según el
tipo de variables que se pretenden resumir conjuntamente.
 Distinguir entre frecuencias conjuntas y marginales de una tabla de contingencia.
 Comprender el concepto de correlación lineal de Pearson y la pendiente de la recta de
regresión, para evaluar e interpretar la asociación entre variables numéricas.

57
ESQUEMA DE CONTENIDOS

Estadística Bivariante

Variable Categórica con Variable Categórica con Variable Numérica con


Numérica Categórica Numérica

Representar Representar
Representar mediante mediante
mediante Diagrama de Diagrama de
Diagrama de Cajas Barras Agrupadas Dispersión o
Nube de Puntos
Medidas de Síntesis
de la variable Tablas de
Numérica para cada Contingencias
categoría de la
Coeficiente de Correlación
lineal del Pearson y
Pendiente de la Recta de
Regresión

58
EXPOSICIÓN DE LOS CONTENIDOS

Como indicamos en la presentación para abordar la estadística bivariante, con objeto de


detectar las posibles asociaciones, tendencias, etc., presentes en los datos, debemos tener en
cuenta la tipología de las variables en el abordaje conjunto, tal como desarrollamos a
continuación.

1. Variable Categórica frente a una variable Numérica

Si una de las dos variables, a valorar conjuntamente, es numérica o cuantitativa y la otra es


categórica o cualitativa, en ese caso se podrá resumir la variable numérica para cada grupo
o categoría considerado en la variable cualitativa. De este modo se generarían tantas
submuestras como categorías tiene la variable cualitativa y se procede utilizando los recursos
de estadística descriptiva univariable. Por ejemplo, si se han contabilizado el número de
accidentes de tráfico, por mes durante un año, en determinados municipios. Puede ser de
interés resumir la variable numérica “número de accidentes por año” en cada submuestra
generada (de tamaño 12 meses) en cada “municipio” (variable cualitativa), de modo que
podemos analizar el número de accidentes acontecidos, evaluando la media, la desviación
típica o estántar, el número mínimo y máximo de accidentes,…

Número de
Municipio Mes
accidentes
Tejeda Ene 13
Tejeda Feb 6
.... ... ...
Tejeda Dic 8
--- --- ---
Galdar Ene 17
Galdar Feb 7
.... ... ...
Galdar Dic 15

Tabla 1: Tabla de datos del número de accidentes por mes, en un año, para cada municipio.

59
Número de accidentes
Municipios
Media (±D.E.) Mínimo Máximo
Tejeda 14.3(±2.7) 6 19
… … … …
Galdar 15.3 (±1.6) 7 16

Tabla 2: Resumen del número esperado de accidentes por año en cada municipio.

Para representar conjuntamente una variable cualitativa y una cuantitativa se suele utilizar
el diagrama de cajas. Este tipo de gráfico representa, con las cajas, los percentiles 25, 50 y
75 de la variable numérica para cada categoría de la variable cualitativa, siendo
especialmente útiles para comparar las submuestras o poblaciones, generadas a partir de las
categorías de la variable cualitativa.
Número de accidentes

Gáldar

Guía

Tejeda

Figura 1: Diagrama de cajas del número de accidentes por municipio

Los valores de los datos que quedan fuera de las barras superior e inferior se marcan con
puntos y se entendería que pueden ser anómalos o extremos, y deben ser revisados por si
constituyeran errores, datos correspondientes a otra población, etc.

2. Variable Categórica frente a otra variable Categórica

Si las dos variables a resumir son cualitativas, y se pretende valorar la relación entre ellas,
lo haremos a través de las frecuencias absolutas y porcentajes. Las tablas que se utilizan para

60
presentar conjuntamente dicho resumen reciben el nombre de tablas de frecuencias cruzadas
o tablas de contingencia. En dichas tablas se incluyen las frecuencias marginales, que nos
indican cuántas veces se repiten los valores de cada variable consideradas por separado, y
las frecuencias conjuntas, o lo que es lo mismo, el número de veces que se contabilizan las
parejas de valores de ambas variables consideradas conjuntamente.

Variable 1 (X)
Frecuencia Marginal de Y
x1 x2 x3
y1 n11 n12 n13 ny1 = n11+ n12+ n13
Variable 2 (Y)
y2 n21 n22 n23 ny2
Frec. Marginal de X nx1= n11+ n21 nx2 nx3 n = ny1 + ny2 = nx1 + nx2 + nx3

Tabla 3: Elementos que componen una Tabla de Contingencia con frecuencias


absolutas.

Siendo, por ejemplo, n11 = “Frecuencia absoluta conjunta o número de veces que aparece la
pareja de valores (X1, Y1) en la muestra observada”. Asimismo, ny1 = “Frecuencia absoluta
marginal o número de veces que aparece el valor Y1 en la muestra observada”. Donde n =
“tamaño de la muestra o número total de datos observados”.

Ejemplo 1

El objetivo de la prueba hidrostática o retimbrado de los extintores, sometidos a presiones


internas, es evitar que sucedan fallos inesperados mientras están en servicio para ser
utilizados en un incendio. Con motivo de evaluar a tres empresas que realizan este tipo de
control de revisión/recarga, se les asigna a cada una de ellas el mantenimiento de 20
extintores. Posteriormente, una vez revisados los extintores, se lleva a cabo el protocolo de
uso con cada uno de ellos y se anota su estado. Si responde correctamente, es decir, el
extintor “Funciona”, en la variable “Estado del extintor” indicaremos “Aceptado”, en caso
contrario, si se ha producido un “Fallo” indicaremos “Rechazado”. Los resultados del
experimento, tras comprobar todos los extintores, se consignan en la siguiente tabla de
contingencia:

61
Empresas Total
1 2 3
Estado del Rechazado 1 2 6 9
Extintor Aceptado 19 18 14 51
Total 20 20 20 60

Tabla 4: Tabla de Contingencia para frecuencias absolutas.

En esta tabla figuran las frecuencias absolutas con que se ha observado cada par de valores;
así vemos que ha fallado uno sólo de los extintores retimbrado por la empresa 1, dos de los
revisados por la empresa 2, etc. En los márgenes de la tabla (última columna y última fila)
figuran las frecuencias absolutas totales. En la práctica suele resultar de mayor utilidad el
expresar los datos en frecuencias relativas (porcentajes), bien con respecto a su fila o bien
respecto a su columna, ya que de esa forma es más fácil percibir las posibles asociaciones
entre variables. Así, por ejemplo, si expresamos los datos en porcentajes respecto al total de
su columna obtenemos la tabla 5.

Empresas Total
1 2 3
Recuento 1 2 6 9
Rechazado
Estado del % 5,0% 10,0% 30,0% 15,0%
Extintor Recuento 19 18 14 51
Aceptado
% 95,0% 90,0% 70,0% 85,0%
Recuento 20 20 20 60
Total
% 100,0% 100,0% 100,0% 100,0%

Tabla 5: Tabla de contingencia para frecuencias absolutas y relativas por columna

Con la tabla expresada de esa forma podemos observar directamente que el 95% (= 19/20 x
100) extintores retimbrados por la empresa 1 funcionaron correctamente (aceptados) al
realizarse la prueba. Para la empresa 2 lo hace correctamente el 90% (= 18/20 x 100) y de
los extintores revisados por la empresa 3 funcionan correctamente sólo el 70% (=14/20 x
100). Los datos parecen indicar, por tanto, que la tercera empresa es la que detecta más fallos
(rechazos) al utilizar los extintores. Los métodos de inferencia estadística son los que nos
permiten decidir, en cualquier caso, si la información obtenida en este experimento es
suficiente para poder generalizar esta última observación (que la empresa 3 presenta peores
resultados).

62
En general, cuando las dos variables que se analizan conjuntamente sean ambas discretas o
categóricas (como en este último ejemplo), la representación tabular más utilizada es la
anterior. En cada casilla de la tabla se representan las frecuencias absolutas nij
correspondientes al número de veces que el valor que encabeza la fila i aparece acompañado
del valor que encabeza la columna j, tal como en la tabla 4. Según convenga pueden
consignarse también las frecuencias relativas (porcentajes), por filas, por columnas (como
en la tabla 5), o sobre el total.

3. Variable Numérica frente a otra variable Numérica

Si las dos variables a resumir son cuantitativas, y se pretende valorar la relación entre ellas,
lo haremos a través de gráficos de dispersión o nubes de puntos y evaluando el grado de
asociación lineal, mediante el coeficiente de correlación lineal de Pearson.

Ejemplo 2

El comportamiento o impacto del fuego depende de cómo se manifiesta éste en diferentes


condiciones ambientales. Su evaluación se realiza a través de la observación y análisis de
varios parámetros, como pueden ser la velocidad de propagación, altura de la llama, longitud
de la llama, intensidad de calor, etc.

Para estudiar en una determinada zona de bosque, la posible relación de la altura de la llama
en función de la velocidad de propagación del fuego, se han analizado los pares de datos
recogidos en 25 incendios forestales ocurridos en dicho bosque, en una misma época del
año. Los resultados obtenidos son los siguientes:

V. Propagac.(m/min) 53 44 38 56 35 58 35 49 31 69 42 60 46
Altura llama (m) 5,0 4,7 4,8 5,3 4,8 5,2 4,7 5,0 4,6 5,3 4,7 5,0 5,1

V. Propagac.(m/min) 58 60 31 68 34 40 55 48 43 34 37 67
Altura llama (m) 5,0 5,2 4,6 5,4 4,8 4,8 5,2 5,0 4,8 4,6 4,7 5,5

63
En la tabla 6 se muestra la tabla de contingencia correspondiente a estos datos. Nótese que,
dado que las variables son continuas y el número de valores distintos puede ser muy grande,
conviene agrupar dichos valores en intervalos de clase. También en este caso se pueden
consignar sólo las frecuencias absolutas, o los porcentajes por filas, por columnas o sobre el
total.
Velocidad de propagación del fuego
Total
(m/min)
(30, 40] (40, 50] (50, 60] (60, 70]
Recuento 9 3 0 0 12
(4.6, 4.9]
% 100,0% 50,0% 0,0% 0,0% 48,0%
Altura de
Recuento 0 3 6 0 9
la llama (4.9, 5.2]
% 0,0% 50,0% 85,7% 0,0% 36,0%
(m)
Recuento 0 0 1 3 4
(5.2, 5.5]
% 0,0% 0,0% 14,3% 100,0% 16,0%
Total Recuento 9 6 7 3 25
% 100,0% 100,0% 100,0% 100,0% 100,0%

Tabla 6: Tabla de contingencia para frecuencias absolutas y porcentajes relativos


por columna. Datos agrupados en intervalos de clase.

En lo que se refiere a las representaciones gráficas más adecuadas para este tipo de datos, si
bien es posible construir diagramas de barras apiladas, resulta mucho más informativo
construir el diagrama de dispersión o nube de puntos. Este diagrama consiste simplemente
en dibujar sobre un par de ejes cartesianos los puntos correspondientes a los pares de
observaciones. Esto es, si se observan dos variables X e Y sobre un conjunto de n objetos, y
los datos obtenidos son {(x1,y1), …, (xn,yn)}, el diagrama de dispersión se obtiene
representando cada punto (xi,yi) en el plano XY .La figura 4 muestra el diagrama de
dispersión de los datos del ejemplo 2
Altura de la llama (m)

64
El diagrama de dispersión presenta la ventaja de que permite percibir posibles relaciones
funcionales entre las dos variables estudiadas. Así en la figura 4 podemos apreciar que entre
la velocidad de propagación (m/min) y la altura de la llama (m) existe una relación
aproximadamente lineal: a medida que aumenta la velocidad de propagación, aumenta
proporcionalmente la altura de la llama.

4. Asociación e independencia

Cuando se realiza el estudio conjunto de dos variables, normalmente el objetivo es


determinar si existe algún tipo de asociación entre ellas o si, por el contrario, son
independientes.

La asociación significa que el conocimiento de los valores de una de las variables


proporciona alguna información sobre los valores de la otra.

Ejemplo 3: tipo de vestimenta y status socioeconómico son variables que están asociadas.
La observación de que una persona lleva ropa cara nos informa de que probablemente goza
de un nivel socioeconómico alto.

La independencia (en sentido estadístico) representa la situación contraria: conocer los


valores de una de las variables no aporta información sobre los valores de la otra.

Ejemplo 4: normalmente, conocer la talla del zapato de una persona no nos dice nada sobre
su número de hermanos.

Debe notarse que asociación o independencia no son propiedades absolutas de una pareja de
variables, sino que dependen también de la población sobre la que se evalúen. Así en los
ejemplos anteriores:
 Podría ocurrir que las personas de nivel socioeconómico más bajo de un barrio
determinado recibiesen una donación de ropa cara (aunque usada). Para la población

65
de este barrio, saber que una persona lleva ropa cara no permite concluir que
pertenece a un nivel socioeconómico alto.
 Si en un pueblo ocurre que hay muchas familias numerosas formadas por individuos
de tamaño grande (y por tanto con talla de zapato grande), mientras que las personas
de tamaño pequeño (y por tanto con pies pequeños) tienden a tener hijos únicos, la
talla del zapato de una persona sí que nos daría alguna indicación de cuál puede ser
su número de hermanos.

Señalemos también que la asociación estadística no es exacta: en general es cierto que


cuanto mayor es la altura de una persona, mayor suele ser su peso; pero ello no quiere decir
que todas las personas de la misma altura deban tener el mismo peso, ni que no pueda haber
personas altas con pesos bajos o personas bajas con pesos altos.

Cuando entre dos variables X e Y medidas en una población determinada se detecta algún
tipo de asociación, se plantean de inmediato las dos siguientes cuestiones:
 ¿Cuál es la forma de la asociación entre X e Y?
 ¿Cuál es la intensidad de la asociación entre X e Y?

Las respuestas a estas preguntas dependen de la naturaleza de las variables X e Y


consideradas: ambas cualitativas (por ejemplo, la relación entre sexo y hábito de fumar), una
cualitativa y la otra cuantitativa (relación entre sexo y estatura), ambas cuantitativas (relación
entre peso y estatura).

En el caso de dos variables cuantitativas continuas, las preguntas anteriores se corresponden


con los conceptos de regresión (forma de la asociación) y coeficientes de correlación y
determinación (intensidad de la asociación).

5. Regresión lineal

Si volvemos a los datos del ejemplo 2, la representación gráfica de la figura 4 nos indica la
posible existencia de una asociación lineal entre la altura de la llama y velocidad de

66
propagación del incendio. Esto significa que los datos se ajustan aproximadamente a una
línea recta, que representamos en la figura 5.

Altura de la llama (m)

Velocidad de propagación (m/min)

Figura 5: Diagrama de dispersión para los datos del ejemplo 2,


con una recta ajustada al perfil de la nube de puntos

Si observamos esta recta con atención, vemos que aproximadamente por cada 10 m/min que
aumenta la variable X (velocidad de propagación del fuego), la variable Y (altura de la llama)
se incrementa por término medio en 0,2 m. O lo que es lo mismo, por cada m/min que
aumenta la velocidad de propagación, la altura de la llama se incrementa aproximadamente
en un promedio de 0,02 m.

Cuando, como en este caso, los valores de una variable cambian proporcionalmente a los
valores de la otra, se dice que entre ambas existe una relación lineal. En general en la práctica
resulta de interés determinar la ecuación de la recta que define esta relación y que permite
calcular el valor medio aproximado de Y cuando se conoce el valor de X. Esta recta se
denomina recta de regresión de Y sobre X, y su ecuación es de la forma:

Ŷ = a + bX

67
La variable X recibe el nombre de variable explicativa (o independiente) y la Y el de variable
respuesta (o dependiente), siendo la Ŷ es el valor medio aproximado de Y. El valor de b es
la pendiente y a es la ordenada en el origen.

La pendiente representa el incremento (si b es positivo) o decremento (si b es negativo) que


experimenta el valor medio de Y por cada unidad en que se incrementa el valor de X. En
nuestro ejemplo, para los datos obtenidos en los 25 incendios forestales, en una zona de
bosque en las mismas épocas del año, hemos visto que el valor de b debe ser del orden de
0,02. La ordenada en el origen es el valor de Y cuando X vale 0. Ahora bien, sólo tiene
sentido interpretar la ordenada en el origen de esta forma cuando en nuestros datos hemos
observado el valor X=0 ó valores en su entorno. Si volvemos a la figura 5 y prolongamos la
recta hasta 0 m/min, obtenemos el resultado que se muestra en la figura 6.
Altura de la llama (m)

Velocidad de propagación (m/min)

Figura 6: Diagrama de dispersión para los datos del ejemplo 2, con


una recta ajustada al perfil de la nube de puntos, comenzando desde
0 m/min

Según la interpretación anterior de la ordenada en el origen (valor de Y cuando X = 0), esta


recta indica que si la velocidad de propagación es 0 m/min la altura media de la llama es de

68
aproximadamente 4 m. Esto podría explicarse por otros factores como pueden ser el tipo de
vegetación de la zona, la intensidad de calor de la época del año, etc. En otros casos, el valor
de la ordenada en el origen habría de interpretarse simplemente como un coeficiente de
ajuste necesario para que, en el rango de valores de X observados, la recta se ajuste bien a
la nube de puntos.

Para calcular la recta de regresión de Y sobre X utilizaremos el método de los mínimos


cuadrados. Para ello supongamos que los puntos observados son {(x1,y1), (x2,y2) …, (xn,yn)},
y llamemos yˆi  a  bxi al valor que corresponde sobre la recta al punto xi. El criterio de los
mínimos cuadrados consiste en determinar los valores de a y b de forma que la suma de
distancias al cuadrado entre observaciones y predicciones sea mínima, esto es:

n n

  yi  yˆi  = Minimizar   yi   a  bxi  


2 2
Minimizar
i 1 i 1

De esta forma se consigue que la recta pase simultáneamente lo más cerca posible de todos
los puntos observados. La figura 7 ilustra gráficamente esta idea.

Y
Valor *
observado *
yi ** *
* *
Valor *
aproximado por
la recta de *
xi X

Figura 7. Recta de regresión. El método de los mínimos cuadrados


trata de encontrar la recta para la cual la suma de los cuadrados de
las distancias de los puntos a la recta sea mínima.

Llamemos:
n
L( a, b)   ( yi  a  bxi ) 2
i 1

Para obtener los valores de a y b que minimizan esta expresión derivamos con respecto a a
y a b e igualamos a 0, obteniendo las llamadas ecuaciones normales de mínimos cuadrados:

69
L ( a , b ) n
 2 ( yi  a  bxi )  0
a i 1
L ( a , b ) n
 2 ( yi  a  bxi ) xi  0
b i 1

De la primera ecuación se tiene:

n n n n n
2 ( yi  a  bxi )  0   ( yi  a  bxi )  0   yi   a   bxi  0
i 1 i 1 i 1 i 1 i 1
n n

n n y i x i
  yi  na  b xi  0  a  i 1
b i 1
 a  y  bx
i 1 i 1 n n

Sustituyendo en la segunda ecuación:


n n n n n
2 ( yi  a  bxi )xi  0   ( xi yi  axi  bxi2 )  0   xi yi   ( y  bx ) xi   bxi2  0 
i 1 i 1 i 1 i 1 i 1
n n n n n
  n n n

 x y   yx   bxx   bx
i 1
i i
i 1
i
i 1
i
i 1
2
i  0   xi yi  y  xi b  x  xi   xi2   0
i 1 i 1  i 1 i 1 

Si tenemos en cuenta que:


n n

x i n y i n
x i 1
  xi  nx ; y i 1
  yi  ny
n i 1 n i 1

podemos sustituir en la expresión anterior y nos queda:

n
 n 2 2

i 1
x y
i i  nxy  b   xi  nx   0
 i 1 
de donde:
n

x y i i  nxy
b i 1
n

x
i 1
i
2
 nx 2

Una vez obtenido el valor de b, el valor de a se despeja de:

a  y  bx

70
6. Correlación

La figura 8 nos muestra dos nubes de puntos. Es obvio que los datos de la nube (a) muestran
una asociación lineal nula o muy débil, mientras que los de la nube (b) muestran una
asociación lineal fuerte.

(a) (b)
14

45
12

40
10
y

y
8

35
6

30
4

40 45 50 55 60 45 50 55 60

x x

Figura 8. Nubes de puntos con distintos grados de asociación lineal.


(a) asociación lineal nula o muy débil, (b) asociación lineal fuerte.

¿Cómo medir numéricamente la intensidad de la asociación lineal entre dos variables?. La


covarianza entre X e Y es un coeficiente que tiene precisamente este objetivo. Se define
como:

1 n 1  n 
S XY   i
n  1 i 1
( x  x )( yi  y )   xi yi  n·x
n  1  i 1
y

La figura 9 muestra la interpretación geométrica de este coeficiente. Se han dibujado


nuevamente las nubes de puntos de la figura 8, pero dividiendo cada gráfica en cuatro
sectores. La línea horizontal corresponde a x , la media de los valores de X y la línea vertical
corresponde a y , la media de los valores de Y. Ambas líneas, por tanto, se cruzan en el punto

x, y  .

71
14

45
(a) (b) (a) (b)
12

40
10

y
y
y

y
8

35
6

30
4

(c) (d) (c) (d)

40 45 x
50 55 60 45 x
50 55 60

x x

Figura 9. Nubes de puntos con un par de ejes centrados en  x , y  ,


que definen 4 sectores.

Observemos que:
 en el sector (a) se tiene que xi  x ; yi  y ; por tanto  xi  x  yi  y   0

 en el sector (b) se tiene que xi  x ; yi  y ; por tanto  xi  x  yi  y   0

 en el sector (c) se tiene que xi  x ; yi  y ; por tanto  xi  x  yi  y   0

 en el sector (d) se tiene que xi  x ; yi  y ; por tanto  xi  x  yi  y   0

1 n
Cuando calculamos la covarianza S XY   ( xi  x )( yi  y ) en el gráfico de la izquierda
n  1 i 1
(nula o muy poca asociación lineal), vemos que en todos los sectores hay aproximadamente
el mismo número de puntos y en posiciones muy parecidas. Ello da lugar a que al sumar los
productos ( xi  x )( yi  y ) , los que tiene valor positivo tiendan a cancelarse con los que
tienen valor negativo, con lo que la covarianza dará un valor próximo a cero. Sin embargo,
en el gráfico de la derecha (fuerte asociación lineal), la mayoría de los puntos están en los
sectores (c) y (b), mientras que apenas hay puntos en los sectores (a) y (d). De esta forma, la
gran mayoría de los productos ( xi  x )( yi  y ) son positivos (muchos incluso grandes en
valor absoluto por corresponder a puntos alejados del centro), por lo cual al sumarlos se

72
obtendrá un valor positivo alto de la covarianza. Es fácil ver que si los datos se ajustaran a
una recta decreciente (con pendiente negativa), la covarianza tomaría un alto valor negativo.
De esta forma, valores altos (positivos o negativos) de la covarianza, indican fuerte
asociación lineal, mientras que valores bajos indicarían ausencia de asociación lineal.

Debe advertirse, en cualquier caso, que el hecho de que la covarianza sea cero o próxima a
cero no implica que las variables no estén asociadas; podría de hecho ocurrir que entre ellas
hubiese una fuerte asociación no lineal. En la figura 10 se muestra un ejemplo de esta
situación. Las variables X e Y están fuertemente asociadas, aunque de modo no lineal.
Repitiendo el argumento anterior, vemos que en los cuatro sectores en que se divide la
gráfica cuando se centra un nuevo par de ejes en el punto medio  x , y  tienen un número
similar de puntos, y en posiciones aproximadamente simétricas. Ello producirá que los
productos ( xi  x )( yi  y ) positivos tiendan a cancelarse con los negativos dando lugar a
una covarianza pequeña.
30
25
20
15
y

10
5
0

6 8 10 12 14

Figura 10. Nubes de puntos con fuerte asociación, pero para la que la
covarianza en muy baja

La covarianza, como medida de la asociación lineal entre variables presenta, no obstante, un


grave problema: depende de las unidades de X e Y, y por tanto el que su valor, en términos
absolutos, sea grande o pequeño puede depender más de las escalas de medida que de la
fuerza de la asociación lineal entre ambas variables (por ejemplo, si X e Y son longitudes, el

73
valor de la covarianza entre ambas será un número mucho mayor si X e Y se miden en
centímetros que si se miden en metros). Por tanto, es preciso introducir una nueva medida
de asociación lineal que no dependa de las unidades de X e Y. Esta medida será el coeficiente
de correlación de Pearson.

El coeficiente de correlación lineal de Pearson se define como:

S XY
r
S X SY

donde SX y SY son las desviaciones típicas respectivas de las variables X e Y, definidas como:

1 n 1 n
SX  
n  1 i 1
( xi  x ) 2 SY  
n  1 i 1
( yi  y ) 2

Obviamente el signo de r coincide con el de la covarianza SXY. Por tanto:

 r > 0: indica la presencia de una asociación lineal positiva (recta ascendente: cuando
aumenta el valor de X aumenta proporcionalmente el valor de Y)

 r < 0: indica la presencia de una asociación lineal negativa (recta descendente:


cuando aumenta el valor de X, el valor de Y disminuye proporcionalmente)

 r = 0: indica la ausencia de asociación lineal entre X e Y.

74
10.0 11.0 12.0
r= 1 r = -1

0
-1
y

-2
-3
9.0

4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 5 6 7 8

x x

r = 0.01 r = 0.4
7

9
6

8
5
y

7
4

6
3

3 4 5 6 7 8 9 10 4 5 6 7 8

x x

r = -0.7 r = 0.9
3

12
2

11
1
y

10
0

9
-1

4 5 6 7 8 9 4 5 6 7 8

x x

Figura 11. Nubes de puntos y rectas de regresión ajustadas. Obsérvese


como varía el grado de ajuste con los diferentes coeficientes de
correlación entre las variables

Puede demostrarse además que -1  r 1.

 El valor r =1 representa la asociación lineal positiva máxima, y corresponde al caso en


que la nube de puntos observada se encuentra íntegramente sobre una recta creciente.

75
 El valor r = -1 representa la asociación lineal negativa máxima, y corresponde al caso en
que la nube de puntos observada se encuentra íntegramente sobre una recta decreciente.

 En general, cuanto más próximo a 0 es el coeficiente de correlación, menor asociación


lineal hay en los datos; cuanto más se aproxima a 1 ó a -1 mayor es la asociación lineal (en
sentido positivo o negativo, respectivamente).

Cuándo no usar el coeficiente de correlación. Para determinar si el coeficiente de


correlación es una medida adecuada de la asociación entre variables, el primer paso debe ser
siempre dibujar un gráfico de la nube de puntos correspondiente a las observaciones. En los
siguientes casos no es apropiado utilizar el coeficiente de correlación:

1. La relación entre las variables es no lineal: se observa que los puntos se distribuyen a lo
largo de alguna figura geométrica regular distinta de una recta. En este caso lo mejor es
tratar de encontrar el modelo matemático que mejor se ajusta a las observaciones. Ello
puede significar utilizar, por ejemplo, regresión lineal múltiple (regresión lineal con
varias variables independientes) o regresión no lineal.

2. El coeficiente de correlación también debe usarse con precaución cuando las variables
se miden sobre varios grupos distintos, por ejemplo, si se miden sobre máquinas nuevas
y sobre máquinas con mucho tiempo de uso. Pudiera ocurrir que en cada uno de los
grupos estudiados la correlación fuese cero, pero conjuntamente diesen lugar a un
coeficiente de correlación alto. Esto ocurriría, por ejemplo, en el caso que se ilustra a
continuación:

76
80
60
y

40
20

0 10 20 30 40 50

x
r = 0.988

3. El coeficiente de correlación debe usarse con precaución en la presencia de valores


anómalos (outliers). Gráficamente, un outlier es un punto que se aparta notoriamente del
cuerpo principal de las observaciones, como se ilustra en las figuras siguientes:
30
70

20
50
y

5 10
30

0
10

-5

0 10 20 30 40 -10 0 10 30 50

x x
r = 0.954 r = -0.012

Los outliers pueden tener gran influencia en el cálculo del coeficiente de correlación.
Así, en el caso mostrado a la izquierda, la presencia del outlier hace que el coeficiente
de correlación lineal sea alto cuando realmente no existe asociación lineal entre las
variables. En el caso de la derecha, aún habiendo una asociación lineal positiva fuerte
en el cuerpo principal de las observaciones, la presencia del outlier produce que el
coeficiente de correlación sea muy bajo (incluso ligeramente negativo). Por ello, en
estos casos, este coeficiente es una pobre medida de la asociación entre las variables.

77
La presencia de outliers, en general, puede tener diversas causas: datos que han sido mal
medidos en el muestreo (en cuyo caso se puede prescindir de ellos, eliminándolos del
estudio); datos que proceden de otra población distinta de la que se estudia (si se ha
identificado que éste es el problema, también se puede prescindir de los outliers, y
calcular la correlación para cada una de las poblaciones por separado); o puede ocurrir
simplemente que el modelo lineal no sea el adecuado para describir la relación entre las
variables.

Relación entre la pendiente de la regresión, la covarianza y la correlación. Observemos que


si en la expresión de la pendiente de la regresión dividimos numerador y denominador por
1  n  1 obtenemos el siguiente resultado:

1  n 
 
n  1  i 1
xi yi  nxy 
  S XY
b
1  n
2 S X2
i
n  1  i 1
x 2
 nx 

Asimismo, también es fácil comprobar que:

S XY S
b 2
r Y
SX SX

Estas expresiones nos indican que si la covarianza (o la correlación) son nulas, también es
nula la pendiente de la recta de regresión; la recta quedaría reducida a y = a, lo que significa
que y no depende linealmente de x.

Correlación y Causalidad: La presencia de una asociación lineal entre dos variables X e Y


no debe interpretarse de modo automático como evidencia de que el cambio en los valores
de X es la causa del cambio en los valores de Y. En efecto, puede ocurrir que estas dos
variables estén de hecho ligadas a una tercera variable que es realmente la causa del
comportamiento de aquellas dos y la que las hace aparecer como asociadas. Esta tercera
variable actúa, por tanto, como factor de confusión.

78
Por ejemplo, es muy fácil comprobar que en España la venta de helados y el número de
ahogamientos en playas y piscinas tienen una fuerte correlación positiva: cuantos más
helados se venden más gente muere ahogada. Y viceversa, cuando se venden pocos helados
disminuye la tasa de mortalidad por ahogamiento ¿Cabe deducir de esta correlación que
debería prohibirse la venta de helados en las piscinas? En este ejemplo es muy fácil
descubrir donde está la falacia: la venta de helados aumenta con el buen tiempo, al mismo
tiempo que aumenta la asistencia a playas y piscinas y consecuentemente el número de
personas que se ahogan. Es el buen tiempo el que actúa como factor de confusión. En muchos
problemas aplicados del ámbito de la Ingeniería o de la Medicina es muy frecuente encontrar
correlaciones altas entre variables y sentir la tentación de interpretar inmediatamente dicha
correlación en el sentido de que una variable es causa de la otra, sobre todo cuando los
posibles factores de confusión no son tan obvios como en el ejemplo citado. Conviene por
tanto ser siempre precavido y ante una fuerte correlación entre variables tratar de localizar y
eliminar el efecto de posibles factores de confusión antes de aventurar conclusiones de
carácter causal.

79
ACTIVIDADES

1.- Los datos recogidos sobre el nivel de gravedad del accidente de un vehículo (X) y la
velocidad de circulación del mismo (Y en Km/h), en una determinado tramo de carretera se
muestran a continuación:

X Bajo Medio Alto Medio Alto Bajo Alto Alto Bajo Bajo
Y 70 95 120 70 90 80 100 100 75 80

Completar la siguiente tabla que resume conjuntamente ambas variables:

Nivel de Gravedad del Velocidad de Circulación (KM/h)


Accidente Media Desv.Tip. Mínimo Máximo
Leve
Medio
Alto

2.- Sea (X, Y) una variable bidimensional cuyas frecuencias absolutas conjuntas vienen dadas
en la siguiente tabla:

Y −2 0 2
X
−1 2 n12 0 n1. = 2+ n12+0
0 4 n22 3 8
1 n31 1 3 n3.
n.1= 2+ 4+ n31 n.2 n.3 n=16

a) Completar la tabla sabiendo que:


n1 1
 La frecuencia relativa marginal correspondiente a X = −1 es f1  
n 4
n31  (2)  1 0  3  2 3
 Y  3 / 2 , es decir, Y  
X 1 X 1
n3 2

n3 n
b) ¿Cómo interpretarías en la tabla anterior los valores y 3 ?
n n

80
3.- Se realiza un estudio sobre una muestra de 250 bajas laborales, motivadas por accidente
laboral, en trabajadores de una empresa hotelera. Los tipos de bajas laborales se han
clasificado en tres grupos según su duración: Las de larga duración que han precisado más
de 6 meses (LD), las de duración media, de menos de 6 meses y más de 3 (DM) y las baja
duración, que han requerido menos de 3 meses (CD). Del total de trabajadores 156 son
mujeres (M) y el resto hombres (H). Entre el total de mujeres se han contabilizado 75 bajas
de DM, 45 de LD y 36 de CD. Dentro del grupo de hombres 40 bajas han sido de CD, 34 de
DM y el resto de LD.

a) Construir la tabla de contingencia del Tipo de Baja Laboral por Género.


b) ¿Qué proporción de hombres han requerido una baja de LD?
c) Del total de trabajadores qué proporción han requerido baja de CD

4.- Se han examinado una serie de soluciones patrón de fluoresceína en un espectrómetro de


fluorescencia, y han conducido a las siguientes intensidades de fluorescencia (en unidades
arbitrarias):

Intensidades de fluorescencia 2.1 5.0 9.0 12.6 17.3 21.0 24.7


Concentración (pg /ml) 0 2 4 6 8 10 12

a) Calcular el coeficiente de correlación lineal de Pearson para interpretar el grado de


asociación existe entre ambas y valorar si el espectrómetro pudiera estar calibrado.
b) Construir la recta de regresión indicando cuál se considera como variable independiente
(causa) y cuál será la variable dependiente (efecto).
c) Hacer una representación conjunta de los datos reales y la recta de regresión, que
representan a los datos estimados.

5.- Una cadena de tiendas que ha abierto nuevos establecimientos en Gran Canaria, en tres
zonas comerciales de la isla, ha recogido información sobre el número de hurtos (Y) durante
los 25 primeros meses desde su apertura (X). Los datos obtenidos para cada uno de los
establecimientos se muestran en los siguientes gráficos:

81
Un estudio más detallado de esta información ha revelado que los coeficientes de correlación
lineal (r) de los establecimientos son 0.1, -0.80 y 0.98. Teniendo en cuenta la representación
de las nubes de puntos y los valores de r , asignar a cada gráfica el valor del coeficiente de
correlación lineal que le corresponde. Razona tu respuesta.

82
BIBLIOGRAFÍA

González, J.J. y otros (2010). Métodos estadísticos. Departamento de Matemáticas:


Universidad de Las Palmas de Gran Canaria.

Grant, Eugene L.; Leavenworth, Richard S. (1989). Control estadístico de calidad.


México: Compañía Editorial Continental.

Peña, D. (2001). Fundamentos de Estadística. Madrid: Alianza Editorial.

Quesada, V.; Isidoro, A.; López, L.A. (1989). Curso y ejercicios de estadística: aplicación
a las ciencias biológicas, médicas y sociales. Madrid: Alhambra.

Rius, F.; Barón, F. (2005). Bioestadística. Madrid: Thomson.

Ross, S. (2008). Introducción a la Estadística. Barcelona: Reverté.

Spiegel, M. y otros. (2010). Probabilidad y Estadística. México: McGraw-Hill.

Walpole, Ronald E y otros (2012). Probabilidad y estadística para ingeniería y ciencias


México: Ed.Pearson.

83
EJERCICIOS DE AUTOEVALUACIÓN

1.- Si se quiere resumir y analizar la relación entre una variable cuantitativa y otra cualitativa
se procederá mediante:

a) La construcción de una tabla de contingencia


b) La representación mediante un gráfico de dispersión y el cálculo del coeficiente r
c) Se calcularán las medidas de síntesis de la variable cuantitativa para cada valor de la
cualitativa
d) Es necesario conocer el tipo de variables

2.- Las tablas de contingencia permiten resumir y analizar la relación entre dos variables:

a) Cuantitativas
b) Cualitativas y/o numéricas categorizadas
c) Discretas y continuas
d) Si el coeficiente de correlación lineal es distinto de cero

3.- En la tabla de contingencia la Frecuencia Marginal es:

a) La frecuencia absoluta dividida por el número total de observaciones


b) La frecuencia de los valores de una variable, si no tenemos en cuenta la existencia de la
otra
c) La frecuencia conjunta
d) La frecuencia de los valores de una variable, teniendo en cuenta la existencia de la otra

4.- El coeficiente de correlación lineal de Pearson permite valorar la asociación entre:

a) Variables cualitativas y cuantitativas


b) Dos variables cualitativas
c) Dos variables numéricas, independientemente de las unidades de éstas
d) Dos variables numéricas, pero depende de las unidades de éstas

84
5.- En la tabla de contingencia la frecuencia relativa conjunta, del par de valores (xi, yi), es:

a) El cociente entre la frecuencia absoluta conjunta, del par de valores (xi, yi), y el número
total de observaciones
b) El cociente entre la frecuencia absoluta conjunta, del par de valores (xi, yi), y el número
total de observaciones de y
c) El cociente entre la frecuencia absoluta conjunta, del par de valores (xi, yi), y el número
total de observaciones de x
d) El cociente entre la frecuencia absoluta conjunta, del par de valores (xi, yi), y la frecuencia
marginal

6.- El gráfico de barras apilados o agrupadas tiene interés para representar conjuntamente:

a) Dos variables numéricas


b) Dos variables categóricas
c) Una variable categórica con una numérica
d) Dos variables asociadas linealmente

7.- En una muestra de datos, donde se han observado dos o más variables, la estadística
bivariante:

a) Sólo permite calcular el coeficiente de correlación lineal de Pearson


b) No se puede utilizar, porque no se especifica el tipo de variables
c) Permite obtener las frecuencias conjuntas
d) Es de interés para detectar posibles asociaciones entre los pares de variables observados.

8.- Para representar conjuntamente una variable numérica y una variable categórica se
utiliza:

a) Un diagrama de Barras agrupadas

85
b) Un diagrama de Dispersión
c) Un diagrama de Cajas
d) Un diagrama de Sectores

9.- La tasa de delincuencia (Y) depende de la tasa de desempleo (X) y son variables que
están asociadas de forma positiva. Para una muestra dada se construye la recta de regresión
cuya pendiente toma el valor b = 2.13, lo que se interpreta de modo que

a) La observación de la tasa de desempleo es 2.13 veces más elevada que la tasa de


delincuencia
b) El valor medio de la tasa de delincuencia incrementa 2.13 unidades por cada unidad en
que se incrementa la tasa de desempleo.
c) Con los datos que se aportan no es posible interpretar el valor de b
d) El valor medio de la tasa de desempleo incrementa 2.13 unidades por cada unidad en que
se incrementa la tasa de delincuencia.

10.- Cuanto más próximo a 1 es el valor absoluto del coeficiente de correlación lineal de
Pearson:

a) Menor es la asociación lineal entre dos variables numéricas


b) Se deduce que no existe asociación lineal entre dos variables numéricas
c) Mayor es la asociación lineal entre dos variables numéricas
d) No se puede concluir que exista asociación lineal, porque se desconoce el signo del
coeficiente

86
SOLUCIONES DE LOS EJERCICIOS DE
AUTOEVALUACIÓN

1. c
2. b
3. b
4. c
5. a
6. b
7. d
8. c
9. b
10. c

87
GLOSARIO

Asociación entre variables: Relación existente entre dos variables aleatorias medidas sobre
un conjunto de sujetos u objetos, de modo que si existe dicha relación o asociación, ello
significa que hay una dependencia de la información de una variable en función de otra. La
independencia entre variables implicaría que no están asociadas.

Coeficiente de correlación lineal de Pearson (r): es un coeficiente adimensional que


permite cuantificar el grado de asociación, relación o dependencia entre dos variables
numéricas. El signo del mismo determinará si la relación es positiva o negativa. Valores
próximos a cero pueden deberse a una posible independencia o bien una asociación de tipo
no lineal.
Covarianza: es un coeficiente que permite cuantificar el grado de asociación, relación o
dependencia entre dos variables numéricas y dependen de las unidades de medida. Su valor
se utiliza para obtener el coeficiente de correlación lineal de Pearson.

Frecuencia marginal: Es la frecuencia absoluta o relativa de los valores de una variable, si


no tenemos en cuenta la existencia de la otra.

Pendiente de la recta de regresión: coeficiente que depende de la correlación lineal de


Pearson o de la covarianza y cuyo valor, en función del signo, indicará cuántas unidades por
término medio aumentará o disminuirá la variable dependiente, por cada unidad que
incremente la variable independiente.

Tabla de contingencia: Tabla de frecuencias que permite resumir pares de variables


categóricas o numéricas agrupadas por intervalos, mediante la frecuencia conjunta con la
aparecen en una muestra o población los pares de valores de ambas variables.

Recta de regresión: expresión matemática que permite estimar el valor de una variable
dependiente de otra, ambas numéricas.

88
PROBABILIDAD

3
Unidad de aprendizaje

89
90
PRESENTACIÓN

“Tous les effets de la nature ne sont


que résultats mathématiques d'un
petit nombre de lois immuables”.

Pierre S. Laplace

Cuando ponemos en funcionamiento un aparato eléctrico, en general no podemos predecir


con seguridad el tiempo de vida o funcionamiento óptimo del mismo.

Si se producen fuertes lluvias, en una época del año, en general no podemos predecir con
seguridad el desprendimiento de paredes (laderas) que afectan a zonas de circulación vial
(carreteras).

Si estamos interesados en estudiar una variable, como por ejemplo, la antigüedad o edad de
los vehículos españoles, tendremos que tomar una muestra aleatoria de vehículos, dado que
no es posible estudiar a toda la población (todos los vehículos matriculados en España). Los
resultados del estudio, evidentemente, dependerán de la muestra seleccionada (muestras
distintas producirán resultados distintos, aunque se espera que sean siempre parecidos a lo
que se habría obtenido de haber podido observar la población completa), y por tanto, también
tendrán naturaleza aleatoria.

Muchos fenómenos que habitualmente observamos en la vida cotidiana, en la ciencia, en


particular, en el campo de la ingeniería, la biología, etc., tienen una fuerte componente
aleatoria (aleatorio significa incierto, que depende de la suerte o el azar).

91
En el primero de los ejemplos anteriores es cierto que el tiempo de vida del aparato eléctrico
no es una cantidad completamente aleatoria y quizás se puede predecir aproximadamente en
función de la marca, el modelo, los materiales utilizados en su fabricación, condiciones de
uso, condiciones ambientales, etc. Una forma habitual de realizar esta predicción es observar
que, por ejemplo, todos los aparatos eléctricos utilizados en esas condiciones tienen un
tiempo de vida medio de 3 años. En tal caso sabemos a priori que un aparato eléctrico
escogido arbitrariamente entre todos los fabricados con dichas características, tendrá un
tiempo de vida de aproximadamente 3 años. Ahora bien su tiempo de vida exacto será
realmente 3 +  años, donde  es una cantidad (positiva o negativa) en la que se incluye el
efecto combinado de muchísimas variables de las que se desconoce la forma exacta en que
afectan al tiempo de vida del aparato (incluido el mero azar que ha dado lugar a que el aparato
eléctrico unos días haya tenido más carga de trabajo, otros menos, que haya podido funcionar
en condiciones de temperatura elevadas, etc). Esta combinación de pequeños efectos
impredecibles es la que da lugar en última instancia al valor  que, a efectos prácticos, es
completamente aleatorio.

En el tercer ejemplo se pretende evaluar el comportamiento de una variable (la antigüedad


o edad de los vehículos) en una población a través de la información recogida en una muestra
elegida al azar. La razón principal para elegir muestras al azar es evitar en la medida de lo
posible la introducción de sesgos (aún involuntarios) por parte del investigador. Al hacer
una evaluación global de una variable, usualmente es preciso sintetizar la información
utilizando su valor medio, varianza, distribución de frecuencias, etc. Dado que de lo que
disponemos es de una muestra, estos valores se calcularán sobre ésta, y no sobre la población.
Si  y  son, respectivamente, la media y la varianza (desconocidas pero fijas) de la
población, y x y s2 son esas cantidades calculadas en la muestra (y por tanto conocidas,
aunque normalmente varían de una muestra a otra), podemos esperar que:
x    1
s2   2   2

92
donde 1 y 2 son cantidades que dependen de la muestra escogida y que son aleatorias
precisamente porque la muestra se ha escogido al azar.

El hecho de que el resultado de un fenómeno aleatorio sea incierto, no quiere decir que no
se pueda hacer una predicción. Lo que sucede es que la predicción habrá que hacerla en
términos de probabilidad:

A la hora de predecir la antigüedad de los vehículos españoles, deberemos sustituir la


afirmación segura: “Al haberse estudiado una muestra de vehículos españoles, la
antigüedad es de 11,5 años” por una afirmación probabilística: “Al haberse estudiado una
muestra de vehículos españoles, la duración media es de 11,5 años (con una desviación
típica de 2,5 años), si bien con una probabilidad del 95% puede ocurrir que al escoger un
vehículo al azar su edad oscile entre 5 años arriba, 5 años abajo, es decir, tenga una
antigüedad entre 6,5 años y 16,5 años.”

93
OBJETIVOS

 Entender el concepto de probabilidad de sucesos y especialmente el de sucesos


incompatibles
 Dominar los axiomas o propiedades de la probabilidad.
 Comprender el concepto de suceso dependiente e independiente, sus aplicaciones al
cálculo de la probabilidad condicionada.
 Conocer y aplicar el teorema de la probabilidad total y el teorema de Bayes.

94
ESQUEMA DE CONTENIDOS

PROBABILID
AD

P(A|
Propiedades B) Calculo de la
probabilidad “a
t i i”

P(A» P(A…
B) B)

Sucesos Sucesos

Sucesos Sucesos
Independientes Dependientes

95
96
EXPOSICIÓN DE LOS CONTENIDOS

1. Introducción

El concepto de la probabilidad no es ajeno al campo de la ciencia: cuando los resultados de


nuestros experimentos no pueden predecirse con exactitud, es importante disponer al menos
de una medida del grado de certidumbre con que puede ocurrir cada uno de sus posibles
resultados. Esa medida es precisamente lo que llamamos probabilidad.

Ejemplo 1:
Cuando lanzamos una moneda al aire no sabemos si va a salir cara o cruz. No obstante,
si la moneda está bien construida, podemos esperar que la mitad de las veces que la
lancemos salga cara y la otra mitad cruz. Decimos de esta manera que la probabilidad
de sacar cara es de un 50% y la de sacar cruz otro 50%. Aunque aquí hemos expresado
la probabilidad en tanto por ciento, en la práctica es más frecuente expresar la
probabilidad como proporción (en tanto por 1): esto es, la probabilidad de sacar cara es
0.5, y la de sacar cruz es también 0.5.

Ejemplo 2:
Se ha observado que entre los aficionados que acuden a un evento deportivo sólo el 30%
lo hacen con antelación a los 30 minutos antes de que se inicie el evento, mientras que
el restante 70% acceden como máximo 30 minutos antes. Si seleccionamos a un
aficionado elegido arbitrariamente, aunque a priori no sabemos si accederá al centro con
antelación o como máximo 30 minutos antes de iniciarse el evento deportivo, sí que
podemos decir que las probabilidades de cada una de estas situaciones son,
respectivamente, del 30% y del 70%, o expresadas en tanto por uno, de 0.3 y 0.7.

Nótese que en estos dos ejemplos, la forma de asignar probabilidades a los resultados
posibles ha sido distinta. En el caso de la moneda hemos empleado un razonamiento
abstracto (Si la moneda está bien hecha, las probabilidades de cara y cruz son 50% y 50%
respectivamente), mientras que en el caso de los aficionados hemos debido hacer

97
observaciones previas (se ha observado que el 30% de los accesos se hacen con antelación
a los 30 minutos antes de que se inicie el evento frente al 70% restante que lo hace como
máximo 30 minutos antes)

Para definir correctamente el concepto de probabilidad debemos definir una serie de


conceptos previos.

2. Conceptos básicos

 Experimento aleatorio: Es aquel cuyo resultado es incierto o depende del azar. Su


opuesto sería un experimento determinista, cuyo resultado es predecible con anterioridad
a la realización del experimento.

 Espacio muestral: se llama espacio muestral asociado a un experimento aleatorio al


conjunto de posibles resultados elementales del experimento. Representaremos
habitualmente el espacio muestral por E.

Ejemplo 3: Al lanzar un dado, el conjunto de posibles resultados elementales del


experimento es E = {1,2,3,4,5,6}.

 Suceso elemental: se llama así a cualquier elemento del espacio muestral.

 Suceso: Un suceso es cualquier colección de sucesos elementales (esto es, cualquier


subconjunto de E)

Ejemplo 4: Sea E = {1,2,3,4,5,6} el espacio muestral del experimento “lanzar un dado”


. Si S es el conjunto de todos los sucesos de dicho espacio muestral, tenemos:
S ={, E, {1}, ... ,{6}, ... ,{1,3},{4,6}, ... ,{2,4,6},{1,3,5}, {1,2,3},{4,5,6}, ..., {2,3,4,5},
...}

Sucesos especiales:

98
 Suceso seguro: Es aquel que podremos predecir que con seguridad ocurrirá al realizar el
experimento aleatorio. Contendrá pues todos los sucesos elementales, por lo que es el
propio espacio muestral E.

Ejemplo 5: Al lanzar un dado al azar, el Suceso Seguro es “Obtener un número del 1 a


6” = E.

 Suceso imposible: Es aquel que podremos predecir que con seguridad no ocurrirá. Como
conjunto no contendrá a ningún suceso elemental, por lo que se trata del conjunto vacío,
el cual representaremos por .

Ejemplo 6: Al lanzar un dado al azar, el Suceso “Obtener un número mayor que 6” es


un suceso imposible.

 Suceso contrario: Dado un suceso A, el suceso contrario lo representaremos por Ac ó A


y está formado por todos los sucesos elementales que no están en A. La ocurrencia de A
supone, por tanto, la no ocurrencia de Ac, y viceversa.

Ejemplo 7: Al lanzar un dado al azar, si A = “Obtener un número par”, entonces A =


“Obtener número impar”.

Operaciones con sucesos:

 Inclusión de sucesos: Se dice que un suceso A está incluido en otro suceso B (es decir,
A  B), si siempre que ocurre A, ocurre también B. Es decir todos los elementos de A
son también elementos de B.

Ejemplo 8: Al lanzar un dado al azar, sea A = Suceso “Obtener un cinco”, y sea B =


Suceso “Obtener número impar”. Se tiene, pues que, A = {5}  B = {1,3,5}.

99
 Unión de sucesos: Dados dos sucesos A y B, se llama unión de sucesos, al nuevo suceso
A B, que consiste en que ocurra alguno de los dos. Por tanto, A B es la reunión de
todos los sucesos elementales de A con los sucesos elementales de B.

Ejemplo 9: Al lanzar un dado al azar, sea A =Suceso “Obtener un número par”, y B =


Suceso “Obtener número mayor a tres” = {4,5,6}. Entonces, AB = Suceso “Obtener
número par o mayor a tres” = {2,4,5,6}.

 Intersección de sucesos: Dados dos sucesos A y B, se llama intersección de sucesos, al


nuevo suceso AB, que consiste en que ocurran ambos a la vez. Por tanto, AB es el
conjunto los sucesos elementales que pertenecen a ambos conjuntos a la vez.

Ejemplo 10: Al lanzar un dado al azar, sea A=Suceso “Obtener un número par”, y B =
Suceso “Obtener número mayor a tres” = {4,5,6}. Entonces, AB = Suceso “Obtener
número par mayor a tres” = {4,6}.

Incompatibilidad de sucesos:

 Sucesos incompatibles: Dados dos sucesos A y B, se dicen que son incompatibles si no


pueden ocurrir simultáneamente. Por tanto, si A y B son incompatibles se tiene que AB
= .

Ejemplo 11: Al lanzar un dado al azar, sean el suceso A =“Obtener un número


par”={2,4,6}, y el suceso B = “Obtener número impar” = {1,3,5}. Entonces, AB = .

3. Definición formal de probabilidad

100
Formalmente, si representamos por S el conjunto de todos los sucesos de un espacio muestral
E, una medida de probabilidad es una función definida para todos los elementos de S y que
toma valores en el intervalo [0,1], es decir,

P: S  [0,1]
A  P(A)

y que verifica las siguientes condiciones:

1. El suceso seguro tiene probabilidad 1: P(E)=1


2. Si A y B son dos sucesos incompatibles (AB = ), entonces:
P(AB)= P(A) + P(B)

De esta definición pueden deducirse las siguientes propiedades o axiomas:

1) El suceso imposible tiene probabilidad 0: P() = 0


2) Para cualesquiera dos sucesos A y B:

P(AB)= P(A) + P(B) - P(AB)

3) Si A1, A2, ... , An, son n sucesos incompatibles dos a dos (es decir, Ai  Aj = ,
con ij), entonces:

P(A1  A2 ...  An) = P(A1) + P(A2) + ... + P(An)

4) P(Ac)= 1- P(A)
5) Si A  B  P(B-A) = P(B) – P(A)

4. Asignación de probabilidades a sucesos de un espacio muestral

101
La determinación de la probabilidad de un suceso se puede fundamentar en uno de los
siguientes criterios:

Asignación mediante la Regla de Laplace.

Consideremos un espacio muestral finito con n elementos que suponemos equiprobables (es
decir, todos tienen la misma probabilidad de ocurrir). Entonces:

 La probabilidad de que ocurra cada elemento es 1/n.


 Si un suceso A está compuesto por k elementos del espacio muestral, su probabilidad es:

k nº de casos favorables
P ( A)  
n nº de casos posibles

Ejemplo 12: Sea E={1,2,3,4,5,6} el espacio muestral que se obtiene al realizar el


experimento aleatorio “Lanzar un dado”. Se tiene que:
1
P(1) = P(2) = P(3) = P(4) = P(5) = P(6)=
6
2
P(Obtener multiplo de 3) = P({3,6}) =
6
4
P(No obtener multiplo de 3) = P({1,2,4,5}) =  1  P({3,6})
6

Asignación mediante Frecuencias Relativas.

En muchas ocasiones no es factible asignar probabilidades según la regla de Laplace, por no


ser equiprobables los sucesos elementales. Para asignar probabilidades a estos sucesos en
tales casos podemos recurrir a la observación: realizamos el experimento aleatorio muchas
veces y asignamos como probabilidad de un suceso A la frecuencia relativa (proporción de
veces) con que ocurre el mismo.

102
Esta definición sólo tiene sentido si la frecuencia relativa con que ocurre un suceso tiende a
estabilizarse a medida que el experimento aleatorio se realiza más y más veces. En tal caso
podemos correctamente definir la probabilidad de un suceso A como:
nA
P(A)= lim
n  n

donde n es el número de veces que se realiza el experimento y nA el número de veces que el


resultado del experimento ha sido el suceso A.

Ejemplo 13: En una pista de bolos se colocan 11 casillas alineadas, se lanza una pelota
pequeña, ¿Cuál es la probabilidad de acertar en la casilla central?

Si lanza un tirador inexperto al hacer un lanzamiento podría caer por igual en cualquier
casilla y tras muchos lanzamientos se podría tener un diagrama de barras como el de la
figura 1 (a). Sin embargo, si lanza un tirador experto, lo más probable es que la mayoría
de las tiradas se acerquen más al centro, y sería de esperar un diagrama de barras como
el de la figura 1 (b).

(a) (b)
100

200
60

50 100
20
0

1 3 5 7 9 11 1 3 5 7 9 11

Figura 1. Resultados del experimento de lanzar una bola pequeña


contra 11 casillas alineadas, intentando acertar en la central. (a)
Tirador inexperto (b) Tirador experto. El lanzamiento se ha repetido
10.000 veces en cada caso.

103
En ambos casos, la probabilidad de acertar en una casilla determinada se puede calcular
como el límite de la frecuencia relativa con que se acierta en esa casilla a medida que el
número de tiradas va aumentando. En el primer caso la distribución de frecuencias (y por
tanto de probabilidad) tiende a ser uniforme (igualmente repartida entre todas las casillas),
mientras que en el segundo caso tiene una forma acampanada (más probabilidad en el
centro que en los extremos)

5. Probabilidad Condicionada

Si dos sucesos A y B están relacionados, la ocurrencia o no de A afecta a la probabilidad de


ocurrencia de B.

Ejemplo 14:
Al lanzar un dado, sean los sucesos A = “Obtener número Par” y B = “Obtener
número mayor a tres”. Tenemos, por tanto, A ={2,4,6} y B ={4,5,6}

 Si no se tiene ninguna otra información, la probabilidad de que ocurra el suceso B


es

NB 3
P( B)    0.5 .
N 6

 Si se dispone de la información de que al lanzar el dado ha ocurrido el suceso A (ha


salido un número par), la probabilidad de que ocurra B es:

P  B A 
casos favorables a B sabiendo que ha ocurrido A 2
  0.66
casos posibles sabiendo que ha ocurrido A 3

(Nótese como la probabilidad de B ha cambiado cuando se sabe que ha ocurrido A).

Observemos cómo hemos calculado esta probabilidad condicionada:

104
P  B A 
casos favorables a B sabiendo que ha ocurrido A

casos posibles sabiendo que ha ocurrido A
N 4,6  N  B A N  B A N P B A
   
N 2,4,6  N  A N  A N P A

Apoyándonos en esta idea, se define la probabilidad condicionada de que ocurra un suceso


B, dado que ha ocurrido otro suceso A, como:

P B  A 
P B A 
P ( A)

(Esta expresión viene a ser equivalente a calcular la probabilidad de B cuando el espacio


muestral queda reducido sólo al suceso A, que es la condición que se ha producido).

5.1 Dependencia e independencia de sucesos

Un suceso B se dice independiente de otro suceso A si la probabilidad de B no cambia


cuando se cuenta con la información de que ha ocurrido A, esto es, si:

P(B) = P(B|A)

Propiedades importantes: Si B es independiente de A, entonces:

i) P(A  B) = P(A) · P(B)

ii) P(A|B) = P(A), es decir A es independiente de B

105
En general, si A1, A2, ... , An son sucesos mutuamente independientes, de la primera
propiedad anterior se sigue que:
P(A1  A2 ...  An) = P(A1) · P(A2) · ... · P(An)

Ejemplo 15:
Consideremos el experimento consistente en extraer dos cartas de una baraja
española y sean los sucesos:
A= Obtener un oro en la primera extracción.
B= Obtener un oro en la segunda extracción.
Calcular la probabilidad de que ocurra B sabiendo que ha ocurrido A.

a) Si después de observar la primera carta, ésta no se repone al mazo de cartas,


ambos sucesos son dependientes y:

P  B A 
10 9
P ( A)  ;
40 39

b) Si tras observar la primera carta ésta se repone al mazo, y a continuación se


extrae la segunda carta, ambos sucesos son independientes y:

P  B A 
10 10
P ( A)  ;  P( B)
40 40

Nota:

Para dos sucesos cualesquiera A y B sabemos que:

P(AB) = P(A) + P(B) - P(AB)

1. Si A y B son sucesos incompatibles, entonces, P(AB) = P() = 0, siendo:

106
P(AB) = P(A) + P(B) - P(AB) = P(A) + P(B)

2. Si A y B son sucesos independientes, entonces, P(AB) = P(A)·P(B), siendo:

P(AB) = P(A) + P(B) - P(AB) = P(A) + P(B) - P(A)·P(B)

3. Si A y B son sucesos dependientes, entonces, P(AB) = P(B|A)·P(A) =


P(A|B)·P(B), siendo:

P(AB) = P(A) + P(B) - P(AB) = P(A) + P(B) - P(B|A)·P(A),

o bien,

P(AB) = P(A) + P(B) - P(AB) = P(A) + P(B) - P(A|B)·P(B).

5.2 Teorema de la probabilidad total y teorema de Bayes

Los siguientes resultados son de especial interés para resolver problemas relacionados con
las probabilidades condicionales. Su enunciado requiere el concepto de sistema completo de
sucesos que definimos a continuación:

Sistema completo de sucesos: En un espacio muestral E, se dice que n sucesos A1, A2 , ...,
An forman un sistema completo si Ai  Aj = , para cualquier par de conjuntos (son
incompatibles dos a dos) y E = A1  A2 ...  An (la reunión de todos es el suceso seguro).
Por tanto, dado un sistema completo de sucesos, ocurre uno y sólo uno de los sucesos que
lo forman.

Teorema de la Probabilidad Total: Sea A1, A2 , ..., An un sistema completo de sucesos y sea
B un suceso arbitrario. Se tiene entonces que:

107
n
P ( B )   P B Ai  P Ai 
i 1
Demostración:
P  B   P  B  E   P  B   A1  A2  ...  An    P   B  A1    B  A2   ...   B  An   
n n
  P  B  Ai   P  B Ai  P  Ai 
i 1 i 1

Ejemplo 16:

Los vehículos turismos en España se agrupan, según la antigüedad, en tres categorías: A1 los
que tienen menos de 7 años; A2 los que tienen una antigüedad de más de 7 años y menos de
15; y A3 los que tiene una antigüedad superior a los 15 años. Las proporciones de dichos
vehículos en España es tal que el 40% de turismos es del grupo A1, un 50% del grupo A2 y
el 10% del grupo A3. Se sabe, por estudios previos, que la probabilidad de accidente por
avería de un turismo de la categoría A1 es 0.07, la de accidente de uno del grupo A2 es 0.14
y del tipo A3 es 0.49. ¿Cuál es la probabilidad de que ocurra el suceso B = “Un turismo tenga
un accidente por avería”?

El espacio muestral E es el conjunto global de turismos españoles, por tanto E = A1  A2 


A3


P  B   P  B  E   P B   A1  A2  A3   P    B  A1  B  A2  B  A3   
 P  B  A1   P  B  A2   P  B  A3   P  B| A1  P ( A1 )  P  B| A2  P ( A2 )  P  B| A3  P ( A3 ) 

 0.07·0.4  0.14·0.5  0.49·0.1  0.147

En muchas ocasiones se dispone de una descomposición del espacio muestral en un sistema


completo de sucesos A1, A2, ..., An, cuyas probabilidades P(Ai) se conocen, en principio, para
todos los Ai (Probabilidades a priori). Supongamos que los Ai no son directamente
observables y que nos interesa calcular la probabilidad de que haya ocurrido concretamente
el suceso Aj. Si es posible realizar un experimento que produzca un resultado B, cuyas
probabilidades condicionales P(B / Ai) (verosimilitudes) también se conocen para todos los

108
Ai, entonces el siguiente teorema permite usar la información aportada por B para calcular la
probabilidad de que haya ocurrido Aj, esto es, la probabilidad P(Aj / B) (probabilidad a
posteriori)

Teorema de Bayes: Sea A1, A2 , ..., An un sistema completo de sucesos y sea B un suceso
que cumple que B  Ai  . Se tiene entonces:

  
 
P B Aj P Aj
P Aj B 
n
 P  B Ai  P  Ai 
i 1

Demostración:
P (A j  B ) P (B  A j ) P ( B | A j )·P ( A j )
P(A | B)   
j P (B ) P B  n
 P ( B | Ai )·P ( Ai )
i 1

Ejemplo 17:

En el ejemplo anterior podemos tener interés en averiguar, en el caso de que se haya


producido un accidente por avería, qué probabilidad hay de que el turismo pertenezca al
grupo A3, es decir, tenga más de 15 años de antigüedad:

P( A3  B ) P( B  A3 ) P(B|A 3 )·P(A 3 )
P( A | B)   
3 P( B ) PB  P( B | A1 )·P( A1 )+P( B | A2 )·P( A2 )+P( B | A3 )·P( A3 )

0.49·0.1
P( A | B)   0.333 (33.3%)
3 0.07·0.4+0.14·0.5+ 0.49·0.1

Hay un 33.3% de posibilidades de que al producirse un accidente por avería de un turismo,


éste tenga más de 15 años de antigüedad.

109
De igual modo podremos determinar las probabilidades:

0.14·0.5
P( A | B)   0.476 (47.6%)
2 0.07·0.4+ 0.14·0.5 +0.49·0.1

Hay un 47.6% de posibilidades de que al producirse un accidente por avería de un turismo,


éste sea un vehículo de entre 8 y 14 años de antigüedad.

0.07·0.4
P( A | B)   0.19 (19%)
1 0.07·0.4 +0.14·0.5+0.49·0.1

En un 19% de las ocasiones en las que se produce un accidente por avería de un turismo,
éste tiene una de antigüedad de 7 años o menos.

Ejemplo 18:
La información meteorológica advierte que durante el puente de vacaciones del mes de
diciembre, en una determinada zona, hay un 20% de probabilidades de que llueva, un 50%
de que nieve y un 30% de posibilidades de niebla. Teniendo en cuenta estos estados
meteorológicos, se sabe por experiencias previas que un accidente de tráfico en dicha zona,
en caso de lluvia, se produce con una probabilidad del 95%, en caso de nieve dicha
probabilidad es de un 50% y si hay niebla hay una posibilidad del 25%. Si se produce un
accidente durante el puente de vacaciones, ¿qué probabilidad hay de qué la situación
meteorológica fuera de nieve?.

De acuerdo con los datos proporcionados:

P(lluvia) = 0,20 P(Accidente de tráfico | lluvia) = 0.95

110
P(nieve) = 0.50 P(Accidente de tráfico | nieve) = 0.50
P(niebla) = 0.30 P(Accidente de tráfico | niebla) = 0.25

Queremos calcular P(nieve | Accidente de tráfico). Aplicando el teorema de Bayes:

P  AT Nv  P  Nv 
P  Nv AT   
P  AT Ll  P  Ll   P  AT / Nv  P  Nv   P  AT / Nbl  P  Nbl 
0.5  0.5
  0.485
0.95  0.20  0.5  0.5  0.25  0.30

Ejemplo 19:

En una época del año se sabe por datos históricos que la probabilidad de que el agua de un
río esté contaminada es 0.2. Se dispone de un Test para analizar el agua y se sabe que este
test, cuando hay contaminación la detecta en un 95% de los casos, y cuando no hay
contaminación también da positivo en un 7% de los casos. Calcular la probabilidad de que,
habiendo dado el test negativo, haya realmente contaminación.

Los datos del enunciado nos aportan la siguiente información:

P(A) = 0.2 (un 20% de las veces está contaminada el agua del río)

P(Ac) = 1- P(A) = 0.8 (el 80% de las veces el agua NO está contaminada)

P(T|A) = 0.95 (El Test detecta contaminación, cuando la hay, en un 95% de los casos)

P(Tc |A) = 1- P(T|A) = 0.05 (El Test No detecta contaminación, cuando la hay, en un 5%
de los casos)

111
P(T|Ac) = 0.07 (El Test detecta contaminación (da positivo), cuando No la hay, en un 7% de
los casos)

P(Tc|Ac) = 1- P(T|Ac) = 0.93 (El Test NO detecta contaminación (da negativo), cuando No
la hay, en un 93% de los casos)

A continuación mostramos la información en la primera tabla de contingencia, en la que


disponemos de las probabilidades “ a priori” de que el agua esté contaminada o no:

A (Agua Ac
Contaminada)

T (Test detecta P(AT) P(AcT) P(T)


contaminación)

T
c
P(ATc) P(AcTc) P(Tc)

P(A) = 0.2 P(Ac) = 0.8 1

Además disponemos de los siguientes datos:

 Sensibilidad = P(T|A) = 0.95


 Especificidad = P(Tc|Ac) = 0.93
 Coeficiente de Falso-Positivo= P(T|Ac) =0.07
 Coeficiente de Falso-Negativo= P(Tc |A) = 0.05

112
A (Agua Contaminada) Ac

T (Test detecta P(T|A) = 0.95 P(T|Ac) =


contaminación) = P(AT)/P(A) 0.07

c
T P(Tc|A) = 0.05 P(Tc|Ac) =
0.93

1 1

Mediante el Teorema de la probabilidad total podemos calcular P(T) y con el teorema de


Bayes determinamos los valores de las probabilidades “a posteriori” P(A|T) y P(Ac|Tc) que
completan la siguiente tabla:
c
P(T) = P(T|A)·P(A) + P(T|Ac)· P(A ) = 0.95·0.2 + 0.07·0.8 = 0.246 (24.6%)

A (Agua Contaminada) Ac

T (Test detecta P(A|T) P(Ac|T) 1


contaminación)

c
T P(A|Tc) = P(ATc)/P(Tc) = P(Ac|Tc) 1

= P(T|cA)·P(A)/[1-P(T)]

Siento, por lo tanto, la probabilidad de que haya contaminación habiendo dado el test
negativo:

P(A|Tc) = P(ATc)/P(Tc) = P(T|cA)·P(A)/[1-P(T)] = 0.05·0.2/(1-0.246) = 0.013


(1.3%)

113
ACTIVIDADES

1.- Una empresa hotelera tiene 400 empleados, de los cuales 180 son mujeres y 220 hombres,
y se encuentran organizados en tres grupos: A (recepcionistas, administrativos, gestores), B
(camareros, cocineros) y C (servicio de mantenimiento, personal de limpieza). De las 180
mujeres, 60 pertenecen al grupo A, 100 al C y el resto al grupo B. De los 220 hombres 95
pertenecen al grupo C, 60 al B y el resto al A. Se elige un trabajador al azar:

a) ¿Qué probabilidad hay de que sea hombre y pertenezca al grupo C?.


b) ¿Qué probabilidad hay de que sea mujer y se no pertenezca al grupo A?.
c) ¿Qué probabilidad hay de que no pertenezca al grupo C?.
d) ¿Qué probabilidad hay de que sea hombre o pertenezca al grupo B?.
e) Si el trabajador seleccionado es hombre, ¿qué probabilidad hay de que pertenezca al grupo
C?
f) Si el trabajador seleccionado es del grupo C, ¿qué probabilidad hay de que sea hombre?

2.- Del total de trabajadores de una empresa un 65% realizan su jornada laboral en horario
diurno y el resto en horario nocturno. Se sabe que durante la jornada diurna hay un 21% de
posibilidades de sufrir un accidente laboral, siendo de un 43% la posibilidad de que sea
durante la jornada nocturna. Si se selecciona al azar un trabajador de la empresa:

a) ¿Cuál es la probabilidad de que pueda sufrir un accidente laboral?.


b) Si ha sufrido sufrido un accidente laboral en la empresa. ¿Cuál es la probabilidad de que
sea un trabador del horario nocturno?

3.- Se contratan tres laboratorios para realizar los análisis químicos en una empresa de medio
ambiente. Los datos que a continuación se expresan reflejan la experiencia a largo plazo con
estos laboratorios y la entrega de los resultados de dichos análisis:

114
% de análisis % de resultados de análisis
Laboratorio asignados a cada entregados con más de un mes de
laboratorio retraso
1 50 % 30 %
2 30 % 40 %
3 20 % 20 %

a) Calcular la probabilidad de que el resultado de un análisis químico sea entregado con


más de un mes de retraso.
b) Si se detecta un análisis químico cuyo resultado ha sido entregado con más de un
mes de retraso, ¿qué probabilidad de que sea el laboratorio 2 el responsable de
realizar el análisis?.
c) Realizar el mismo cálculo del apartado b) considerando los laboratorios 1 y 3.

4.- En el centro de control de enfermedades tropicales se recibió en una semana a 50


personas, de los cuales 10 habían viajado a Nigeria, 15 a Guinea, 5 Liberia y el resto a Sierra
Leona. De las personas que han viajado a Nigeria la posibilidad de ser afectados por el virus
del Ébola es de un 60%, de los que han viajado a Guinea es de un 75%, en el caso de los que
han viajado a Liberia es de un 32% y para los que han visitado Sierra Leona es de un 56%.
Basándonos en esta información, si seleccionamos al azar a uno de estos viajeros:

a) ¿Cuál es la probabilidad de que esté afectado por el virus del Ébola?


b) Si uno de estos viajeros da positivo y está afectado por el virus, ¿qué probabilidad hay
de que haya viajado a Liberia?

5.- La fiabilidad de un sistema es la probabilidad de que funcione satisfactoriamente durante


un periodo de tiempo. Luego, si un sistema electrónico está formado por 4 componentes de
la misma marca, C1, C2, C3 y C4, colocadas en serie:

C1 C2 C3 C4
de modo que deben funcionar todos correctamente para que lo haga el sistema. Según el
fabricante de dichos componentes la probabilidad de que un componente Ci funcione,

115
después de mil horas uso, es de 0.85. Suponiendo que los componentes funcionan
independientemente unos de otros

a) ¿cuál es la probabilidad de que el sistema electrónico en serie funcione, después de mil


horas de uso?.

Si se considera ahora diseñar el sistema electrónico en paralelo, tal como se indica la figura
a continuación:

C1 C2

C3 C4

Y considerando al igual que al inicio que los componentes se averían independientemente y


la probabilidad de que cada uno funcione, tras mil horas de uso, es 0.85:

b) ¿cuál es la probabilidad de que el sistema electrónico en paralelo funcione, después de


mil horas de uso? (Comparar y comentar los resultados de ambos apartados).

116
BIBLIOGRAFÍA

González, J.J. y otros (2010). Métodos estadísticos. Departamento de Matemáticas:


Universidad de Las Palmas de Gran Canaria.

Peña, D. (2001). Fundamentos de Estadística. Madrid: Alianza Editorial.

Quesada, V.; Isidoro, A.; López, L.A. (1989). Curso y ejercicios de estadística: aplicación
a las ciencias biológicas, médicas y sociales. Madrid: Alhambra.

Rius, F.; Barón, F. (2005). Bioestadística. Madrid: Thomson.

Ross, S. (2008). Introducción a la Estadística. Barcelona: Reverté.

Spiegel, M. y otros. (2010). Probabilidad y Estadística. México: McGraw-Hill.

Vose, David (2008). Risk Analysis. A Quantitative Guide. England: John Wiley & Sons, Ltd.

Walpole, Ronald E. y otros (2012). Probabilidad y estadística para ingeniería y ciencias


México: Ed.Pearson.

117
EJERCICIOS DE AUTOEVALUACIÓN

1.- Si dos sucesos A y B son independientes, entonces P(AB) es igual a:


a) P(A) + P(B)
b) P(A)·P(B)
c) P(A) + P(B) – P(A)·P(B)
d) P(A | B)· P(B)

2.- Si dos sucesos A y B son incompatibles, entonces P(AB) es:


a) = P(A)·P(B)
b) = P(A) + P(B)
c) = P(A) - P(B)
d) = 0

3.- Si P(A|B) = 0.4, P(B) = 0.8 y P(A) = 0.4, ¿puede afirmarse que los sucesos B y Ac son
independientes?
a) No, puesto que P(AB)  P(A)·P(B)
b) Sí, puesto que P(A|B) = P(A)
c) No, puesto que P(A|B)·P(B)  P(A)
d) Sí, puesto que P(A|B) = P(B)-P(A)

4.- Un centro de menores tienen acogidos a 120 adolescentes de los cuales 40 son chicas y
80 chicos, y se encuentran organizados en tres grupos de delitos: Violencia, Robo y delitos
contra la seguridad vial. De los 80 chicos, 20 han cometido delitos contra la seguridad vial,
20 actos de violencia y el resto robos. De las 40 chicas 10 han cometido robos, 25 están
detenidas por violencia, y el resto por delitos contra la seguridad vial. Se elige un adolescente
del centro al azar ¿qué probabilidad hay de que sea chico y esté detenido por robo, es decir,
P(Chico…Robo)?.
a) 0.5
b) 0.25
c) 0.33
d) 0.67

118
5.- En un determinado hotel el 18% de los clientes son canarios, un 22% son
peninsulares y el resto extranjeros. En cada uno de estos grupos el porcentaje de
reclamaciones presentadas es de un 10%, un 14% y un 6%, respectivamente. A partir
de estos datos se puede decir que el porcentaje de reclamaciones del hotel es:
a) 6.73%
b) 30%
c) 60%
d) 8.48%

6.- La siguiente tabla de contingencia recoge el porcentaje de profesionales que sufren infarto
de miocardio (durante la jornada laboral o no) según el tipo de Profesión. Si se selecciona
un trabajador de la construcción, ¿cuál es la probabilidad de sufrir infarto durante la jornada
laboral, es decir, P(I|C)?

I (sufre infarto durante


Ic
la jornada laboral)

Construcción 23% 12% 35%

Conductor de vehículos pesados 12% 8% 20%

Personal de carga/descarga 15% 11% 26%

Agricultor 15% 4% 19%

65% 35% 100%

a) 0.657
b) 0.354
c) 0.538
d) 0.343

7.- Una corriente de agua debe pasar del punto A al B a través de un circuito que consta de 3
válvulas (V1, V2 y V3). Las probabilidades de que el agua pase a través de V1, V2 y V3 son 0.8,

119
0.85 y 0.9, respectivamente. Sabiendo que el paso de agua por cada una de las tres válvulas es
independiente del paso a través de las restantes, calcular la probabilidad de que el agua pase de A
a B en los siguientes casos:

a) (i) P(V1)·P(V2)·P(V3) = 0.612 y (ii) P(V1)·P(V2)+P(V3) - P(V1)·P(V2)·P(V3) = 0.968


b) (i) P(V1)+P(V2)+P(V3) = 2.55 y (ii) P(V1)·P(V2)·P(V3) = 0.612
c) (i) P(V1)-P(V2)-P(V3) = -0.95 y (ii) P(V1)·P(V2)- P(V1)·P(V3) - P(V2)·P(V3) =
d) (i) P(V1)+P(V2)-P(V3) = 0.75 y (ii) P(V1)·P(V2)+P(V3) = 1.58

8.- Una empresa constructora se suministra de ladrillos para la construcción que adquiere de
3 factorías distintas: de la factoría A el 15%, de B el 45% y de C el resto de ladrillos. Se sabe
por experiencia que la factoría A genera un 7% de ladrillos defectuosos, en la factoría B se
producen un 3% y la C un 5%. Si en un control de calidad se detecta un ladrillo defectuoso,
¿qué probabilidad hay de que sea de la factoría B?
a) 0.0135
b) 0.3068
c) 0.044
d) 0.6932

9.- Una empresa de seguridad hace un estudio sobre el sistema de emergencia de una fábrica
que está dotado de alarma. La empresa de seguridad sabe que la probabilidad de que se
produzca una situación de peligro es de 0.03. Si ésta se produce, la probabilidad de que suene
la alarma es de 0.98. La probabilidad de que se dispare la alarma sin haber situación de
peligro es de 0.01. Calcular la probabilidad de que, habiendo funcionado la alarma, no haya
situación de peligro.
a) 0.0391
b) 0.0097
c) 0.248
d) 0.0294

120
10.- Del total de accidentes de tráfico, acontecidos a lo largo de un año, un 56% fueron
debidos a factores humanos, 31% a factores ambientales, un 7.3% por factores del vehículo
y el 5.7% por otros factores. Los porcentajes de accidentes de tráfico mortales debido a cada
uno de estos factores son, respectivamente, de un 67%, 46%, 35%, 14%. ¿Cuál es la
probabilidad de que se produzca un accidente de tráfico mortal?
a) 0.5513
b) 0.3752
c) 0.6806
d) 0.0255

121
SOLUCIONES DE LOS EJERCICIOS DE
AUTOEVALUACIÓN

1. c
2. d
3. b
4. c
5. d
6. a
7. a
8. b
9. c
10. a

122
GLOSARIO

Aleatorio: Que depende del azar.

Experimento aleatorio: Es aquel cuyos resultados no pueden predecirse con total seguridad
a priori.

Probabilidad condicionada: Probabilidad de un suceso que depende de la ocurrencia o no


de otro suceso acontecido.

Suceso: Es un evento o resultado que puede ocurrir al realizarse un experimento aleatorio.

Sucesos incompatibles: Son sucesos o eventos, de un experimento aleatorio, que no pueden


ocurrir simultáneamente.

Sucesos independientes: Son sucesos o eventos, de un experimento aleatorio, compatibles


y donde la ocurrencia de uno de ellos no afecta a la probabilidad de ocurrencia del otro.

123
124
VARIABLES ALEATORIAS Y DISTRIBUCIONES
DE PROBABILIDAD

4
Unidad de Aprendizaje

125
126

PRESENTACIÓN

“The true logic of this world is in the calculus of probabilities”


James Clerk Maxwell

El análisis práctico de aquellas situaciones en las que el azar juega un papel importante -
-y no cabe duda de que en las cuestiones relacionadas con la seguridad y el riesgo, el azar
es uno de los factores con mayor relevancia-- requiere que seamos capaces de modelar
adecuadamente todas las variables implicadas. En este contexto surge de manera natural
el concepto de variable aleatoria como valor numérico asignado al resultado de una
observación (o experimento) cuyo resultado es impredecible a priori. Por ejemplo:
¿Cuántos incendios habrá el próximo verano? ¿Cuántos accidentes de tráfico se
producirán el fin de semana? ¿Cuánto puede medir la superficie contaminada por el
combustible que vierte un barco accidentado en alta mar? Obviamente estas preguntas
carecen de una respuesta segura; la seguridad en estos casos se sustituye necesariamente
por una asignación de probabilidades a los posibles valores de la variable: no podemos
decir exactamente cuántos incendios va a haber, pero nos gustaría poder decir cuál es la
probabilidad de que no haya ninguno, o de que haya uno, dos, tres o más. Sólo en función
de estas probabilidades podrán asignarse de manera razonable recursos y personal a los
sistemas de extinción de incendios.

En esta unidad de aprendizaje presentamos y estudiamos el concepto de variable aleatoria


y su distribución de probabilidad, así como sus propiedades más importantes.
Conoceremos cuáles son los parámetros característicos de una distribución de
probabilidad y estudiaremos los modelos de distribución que con mayor frecuencia se
presentan en las aplicaciones prácticas.

OBJETIVOS
Al finalizar este capítulo el alumno deberá:

127
 Comprender el concepto de variable aleatoria y su función de distribución.
 Saber distinguir variables aleatorias discretas y continuas.
 Entender y saber manejar los conceptos de función de probabilidad (caso
discreto) y densidad de probabilidad (caso continuo). Ser capaz de pasar de
función de distribución a densidad y viceversa.
 Conocer las principales medidas resumen de una variable aleatoria:
momentos, esperanza, varianza y cuantiles. Conocer otras medidas de forma:
asimetría y apuntamiento.
 Conocer las distribuciones de probabilidad discretas y continuas más
habituales en la práctica: Bernoulli, Binomial, Poisson, Uniforme, Exponencial y
Normal.
 Saber calcular probabilidades asociadas a las distribuciones anteriores.

EXPOSICIÓN DE CONTENIDOS

1. Introducción
Hay muchos fenómenos aleatorios en los que resulta sencillo identificar el espacio
muestral y llevar a cabo una asignación de probabilidades. Por ejemplo, cuando lanzamos
un dado equilibrado sólo hay seis resultados posibles, todos ellos equiprobables, por lo
que la regla de Laplace nos indica que cada uno tiene una probabilidad 1/6 de suceder.
Sin embargo, hay casos en que realizar una asignación de probabilidades no es ni mucho
menos una tarea inmediata.
Pensemos, por ejemplo, que nuestro objetivo sea caracterizar la resistencia a la corrosión
de detectores de incendios situados en instalaciones marinas. En particular, supongamos
que nos interesa determinar cuál es la duración máxima de un sensor en condiciones
óptimas de funcionamiento. ¿Cómo determinamos la probabilidad de que un sensor
elegido al azar dure un tiempo determinado sin sufrir averías? Es obvio que aún cuando
todos los sensores se encuentren en la misma instalación, sean todos iguales y estén
sujetos a las mismas políticas de revisión y mantenimiento, siempre habrá algunos que
duren más y otros que duren menos. Así pues, medir la duración de un sensor de
incendios es un experimento aleatorio: no es posible conocer a priori cuánto va a durar

128
un sensor arbitrario.
Tras observar muchos de estos sensores a lo largo del tiempo, quizás comprobemos que
su duración en condiciones óptimas oscila entre las 3000 y las 6000 horas. Podemos
entonces asignar como espacio muestral el intervalo 3000,  6000 (o quizás uno un
poco mayor, por ejemplo el 2000,  7000 , si queremos darnos un margen para incluir
duraciones que quizás puedan darse pero que no se han registrado durante nuestro periodo
de observación). ¿Cómo realizamos ahora la asignación de probabilidades? O dicho de
otra forma, ¿cómo repartimos (distribuimos) la probabilidad total (que debe ser 1) entre
todos los valores de ese intervalo? Como este intervalo (en realidad, cualquier intervalo)
contiene infinitos valores, la regla de Laplace no resulta útil. Si utilizamos la asignación
de probabilidades mediante frecuencias relativas, podríamos asignar de manera sencilla
probabilidades a subintervalos del espacio muestral; quizás ocurre que un 5% de los
sensores observados dure entre 3000 y 3500 horas, un 15% dure entre 3500 y 4000, un
30% entre 4000 y 4500, etc. Estas proporciones nos servirían como aproximaciones de la
probabilidad de que la duración de un sensor se encuentre en cada uno de estos intervalos.
Pero, ¿qué hacemos si queremos saber cuál es la probabilidad de que un sensor dure entre
3520 y 3640 horas? Sí, podemos construir subintervalos más finos y volver a evaluar las
proporciones; pero para ello necesitaremos muchos más datos experimentales que pueden
ser difíciles de conseguir.
Por tanto se hace precisa una herramienta matemática que permita modelar y manejar
probabilidades en situaciones como ésta. En este capítulo veremos que los conceptos de
variable aleatoria y su distribución de probabilidad son la clave para alcanzar este
objetivo. Estos conceptos nos proporcionarán, como veremos, una colección de modelos
con la suficiente flexibilidad para adaptarse a un gran número de situaciones. Para
conseguir este objetivo deberemos aprender a identificar la estructura probabilista
subyacente al problema que nos ocupa; si en lugar de caracterizar la duración de unos
sensores antincendios, nuestro objetivo fuese caracterizar el volumen de madera quemada
durante un incendio, el número de víctimas de accidentes de tráfico en un fin de semana,
o la superficie de una mancha de fuel causada por el hundimiento de un barco, es muy
posible que podamos utilizar el mismo modelo, adaptando en cada caso los parámetros
de ajuste necesarios.

2. Concepto de variable aleatoria

129
Frecuentemente el resultado de un experimento aleatorio -un experimento que se
caracteriza porque resulta imposible predecir a priori su resultado exacto- puede medirse
de varias formas distintas, dependiendo de la finalidad con que se haya realizado ese
experimento. Si se lanza una moneda al aire, el resultado será cara o cruz; pero si hemos
apostado 10 euros a que sale cara, desde nuestra perspectiva el resultado del lanzamiento
será ganar 10 euros o perder 10 euros. Durante el curso de una campaña de prevención de
accidentes de tráfico se pueden escoger numerosos puntos de observación; en cada uno
de ellos se pueden medir diversas variables: número de vehículos que pasan cada hora,
velocidad de dichos vehículos, número de pasajeros que transportan, número de camiones
o autobuses, número de camiones que transportan mercancías peligrosas .... En un estudio
sobre la respuesta de los servicios de urgencias ante una llamada de emergencia se puede
medir el tiempo que se tarda en acudir, la efectividad del servicio, el número de personas
necesarias para resolver la emergencia, el tipo y duración del incidente atendido ...
Así pues, el valor numérico obtenido en un experimento aleatorio resulta de aplicar algún
instrumento de medida 1 a aquello que se observa. La formalización del concepto de
instrumento de medida conduce a la definición de variable aleatoria: una variable
aleatoria es una función que a cada suceso elemental de un espacio muestral le asigna un
valor numérico.
De una manera formal, podemos decir que, dado un experimento aleatorio cuyo espacio
muestral (esto es, el conjunto de posibles resultados elementales) es , una variable
aleatoria es una función que asocia a cada resultado del espacio muestral un número
real, de tal forma que para todo valor ∈ el conjunto ∈ : tiene una
probabilidad bien definida. Dicho de una manera menos técnica, una variable aleatoria es
una magnitud cuyo valor exacto no puede anticiparse antes de medirla, pero para la
que sí es posible calcular a priori la probabilidad de que tome un valor menor o igual que
para cualquier número real . El siguiente ejemplo ayudará a aclarar esta definición.

Ejemplo 1: Consideremos el experimento aleatorio consistente en lanzar


simultáneamente dos dados equilibrados. El espacio muestral es el conjunto de parejas de
valores:

1
El término instrumento de medida se entiende aquí en sentido amplio; puede ser un
cinemómetro que sirve para medir velocidad, un reloj para medir tiempo, o el ojo humano,
para contar por ejemplo el número de pasajeros de un vehículo.
130
, , , ∈ 1,2,3,4,5,6
( es el resultado del primer dado y el del segundo). Sobre este espacio muestral
definimos la variable aleatoria “Suma de las caras superiores de los dados”:
,
Obviamente, cuando lanzamos dos dados no es posible saber qué resultado va a salir; sin
embargo, para cualquier número real arbitrario puede calcularse sin mucha dificultad
la probabilidad de que (la suma de los dados) valga menos que . Por ejemplo:
 Si 1 es obvio que 1 0 (es imposible que al tirar dos
dados la suma dé un valor menor que -1);
 Por la misma razón 0 para cualquier valor negativo;
 La probabilidad de que 2 puede calcularse también fácilmente: la
única manera de que al tirar dos dados la suma sea menor o igual que 2 es que
salga un 1 en cada dado; por tanto hay un único caso favorable; cuando se tiran
dos dados hay 36 casos posibles: 1,1 ,  1,2 , 1,3 , … 6,6 . Por tanto
2 .

 Para calcular la probabilidad de que 3 basta observar que la suma de


los dos dados es menor o igual que 3 cuando en ambos sale un 1, cuando en el
primero sale un 1 y en el segundo un 2, o cuando en el primero sale un 2 y en el
segundo un 1. Por tanto hay tres casos favorables frente a 36 posibles, de donde
3

 El resto de probabilidades puede calcularse de modo similar sin mucha


dificultad.

3. Función de distribución de una variable aleatoria


La función que a cada valor le asigna la probabilidad de que , esto es,
∈ :
recibe el nombre de función de distribución acumulativa de la variable . Como esta
función mide una probabilidad, sólo puede tomar valores entre 0 y 1.

Ejemplo 2: Consideremos de nuevo el experimento aleatorio consistente en lanzar dos

131
dados equilibrados. El resultado de la suma de sus caras superiores es un número entero
entre 2 y 12. Si llamamos al suceso consistente en que la suma sea , y denotamos
por , al resultado consistente en obtener el valor en el primer dado y el valor en
el segundo (obviamente tanto como sólo pueden tomar los valores 1, 2, 3, 4, 5 y 6)
tenemos que los sucesos posibles son:
1,1
1,2 , 2,1
1,3 , 3,1 , 2,2
1,4 , 4,1 , 2,3 3,2
1,5 , 5,1 , 2,4 , 4,2 , 3,3
1,6 , 6,1 , 2,5 , 5,2 , 3,4 , 4,3
2,6 , 6,2 , 3,5 , 5,3 , 4,4
3,6 , 6,3 , 4,5 , 5,4
4,6 , 6,4 , 5,5
5,6 , 6,5
6,6

La probabilidad de cada uno de estos sucesos puede calcularse como

, siendo el número de formas en que la suma de los dos dados es . Por

tanto las probabilidades de los distintos resultados son:

2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36

Los sucesos , consistentes en que la suma de puntos sea menor o igual que , pueden
obtenerse como:
, : ∪ ∪ …∪ , 2, … ,12.

por lo que la probabilidad de cualquiera de los para 2,3, … ,12, será:

∪ ∪ …∪

Si tenemos en cuenta que, obviamente, ∅ si 2 (no es posible sacar una suma


menor que dos al tirar dos dados), si 12, y además para cualquier real tal

132
que 1 (con 2,3, … 11) se tiene que es inmediato construir la
función de distribución de :
0 2
1/36 2 3
3/36 3 4
6/36 4 5
10/36 5 6
15/36 6 7
21/36 7 8
26/36 8 9
30/36 9 10
33/36 10 11
35/36 11 12
1 12

La figura 1 muestra gráficamente esta función de distribución:

Figura 1. Función de distribución de la suma de caras al lanzar dos dados (ejemplo 4)

3.1 Propiedades de la función de distribución de una variable


aleatoria
1. 0 1    ∀ ∈
2. lim 0, y lim 1
→ →

133
3. es una función monótona no decreciente, esto es, si
entonces
4. Si entonces

4. Clasificación de variables aleatorias


Las variables aleatorias pueden clasificarse como discretas o continuas. Las primeras son
aquellas en las que sólo es posible observar como resultado un conjunto finito o
numerable de valores (sobre los que se reparte o distribuye la probabilidad). Las variables
continuas, por su parte, distribuyen la probabilidad sobre un rango continuo de valores.

4.1 Variables aleatorias discretas


Una variable aleatoria es discreta cuando el conjunto de valores que puede tomar es
finito o numerable. En tal caso, su distribución de probabilidad queda plenamente
especificada por la función de probabilidad , donde es cualquier valor que
pueda tomar la variable. Obviamente se tiene que ∑ 1.

Ejemplo 3: (variable discreta con un número finito de valores). Consideremos el


experimento aleatorio consistente en tirar una moneda equilibrada tres veces. Definimos
la variable aleatoria “Número de caras”. Para este experimento el espacio muestral
es
, , , , , , ,

Los únicos valores posibles de (número de caras) en este experimento son


0,1,2,3. Para cada la probabilidad puede obtenerse de manera sencilla a
partir del espacio muestral utilizando la regla de Laplace (casos favorables partido por
casos posibles) y se resume en la tabla siguiente:
0 1 2 3
1/8 3/8 3/8 1/8

La función de distribución acumulativa de esta variable aleatoria es:

134
0 0
1/8 0 1
4/8 1 2
7/8 2 3
1 3

La figura 2 muestra gráficamente las funciones de probabilidad y de distribución


acumulativa de esta variable aleatoria.

Figure 2. (a)Función de probabilidad y (b) Función de distribución acumulativa del número de


caras en el lanzamiento de tres monedas (ejemplo 1)

Ejemplo 4: (variable discreta con un número infinito numerable de valores2) Se realiza


el experimento aleatorio consistente en lanzar sucesivas veces una moneda hasta que sale
cara por primera vez. El espacio muestral asociado a este experimento es entonces
,  ,  ,  , … . Si denotamos por a la variable aleatoria "Número de
lanzamientos hasta que sale cara", teniendo en cuenta que los resultados de los sucesivos

2
Este ejemplo se incluye para que el alumno: (1) tome consciencia de que aunque una
variable tome un número infinito de valores, la suma de probabilidades de dichos valores
es 1; y (2) observe que desde la perspectiva matemática, no hay problema en la realización
de los cálculos que involucran infinitos valores. No obstante, dichos cálculos, dada su
complejidad técnica, no serán requisito de evaluación en este curso, por lo que el alumno
si lo desea puede omitir la lectura de este ejemplo.
135
lanzamientos constituyen sucesos independientes se tiene:
1
1
2
1 1 1 1
2 ∩ ⋅
2 2 2 4
3 ∩ ∩
1 1 1 1 1
⋅ ⋅
2 2 2 2 8

… ∩ …∩ ∩
1 1 1

2 2 2

(Obsérvese que esta variable aleatoria podría tomar infinitos valores ya que, al menos en
teoría, cabe la posibilidad de que en los sucesivos lanzamientos salga siempre cruz, por
lo que el experimento no se detiene nunca). Por tanto la función de distribución de esta
variable aleatoria, para 1,2,3, …, viene dada por3:

∑ ∑ 1

La figura 3 muestra las gráficas de la función de probabilidad y la función de


distribución acumulativa , sólo para los valores ∈ 0,10 .

Como hemos visto en los ejemplos anteriores, las variables aleatorias discretas se
caracterizan por tener funciones de distribución acumulativa escalonadas, que se van
incrementando a saltos. Las posiciones de los saltos corresponden a los valores que puede
tomar la variable aleatoria. A su vez, la magnitud de cada salto es igual a la probabilidad
de observar el valor correspondiente al punto de salto. Entre salto y salto, la función de
distribución es constante.

3
Es preciso utilizar que la suma de los primeros términos de una progresión
geométrica de razón menor que la unidad es ∑

136
4.2 Propiedades de la función de probabilidad de una variable
aleatoria discreta
Sea , , , … el conjunto (finito o infinito numerable) de todos los posibles
valores que puede tomar una variable aleatoria discreta . Suponemos además que
⋯ , y llamemos . Las siguientes propiedades se siguen
inmediatamente de la definición de :

1. 0 1 para todo ∈
2. ∑ ∈ 1

3. ∑
4.

137
Figura 3. (a) Función de probabilidad y (b) Función de distribución acumulativa del número de
lanzamientos de una moneda hasta que sale cara por primera vez (ejemplo 1).

4.3 Variables aleatorias continuas


Las variables aleatorias cuya función de distribución acumulativa es continua reciben el
nombre de variables aleatorias continuas. Se caracterizan por tomar valores en un rango
continuo (intervalo), sin que haya puntos concretos en los que se acumule la probabilidad;
dicho de otra forma, si   es una v.a. continua, 0 para cualquier valor ∈
.
Ejemplo 5: Realizamos el experimento consistente en tirar de los extremos de una
cuerda de 1 metro de longitud hasta que se parte. Supondremos que la cuerda está
fabricada con un material completamente homogéneo, de forma que a priori es igualmente
probable que se rompa en cualquier punto. Consideremos la variable aleatoria
=“Posición del punto en que se parte la cuerda”.
Dado que existen infinitos puntos entre 0 y 1 en los que la cuerda puede romperse (todos
equiprobables, por ser la cuerda homogénea), la regla de Laplace nos indicaría que la

138
probabilidad de que se rompa en un punto concreto es 0, cualquiera que sea :
0   ∀ ∈ 0,1
Ahora bien, si consideramos el punto medio ( ), por ser la cuerda homogénea la

probabilidad de que se parta a la izquierda de ese punto debe ser igual a la probabilidad

de que se parta a la derecha; por tanto . De igual forma, si consideramos

el punto , como el trozo a la izquierda de este punto mide una tercera parte de la

longitud total de la cuerda, nuevamente la homogeneidad de ésta implica que

. En general, el mismo argumento nos permite concluir que para cualquier

∈ 0,1 , . Asimismo, como la cuerda no puede partirse antes de 0,


se tiene 0 0 ; y como tampoco puede partirse después de 1 , resulta
1 para los 1.
Observemos, pues, que aunque para esta variable sea 0   ∀ ∈ 0,1 , el
razonamiento anterior nos ha permitido construir su función de distribución acumulativa
para cualquier valor ∈ :
0 0
0 1
1 1

La figura 4 muestra gráficamente esta función de distribución.

Un caso particular de variables aleatorias continuas son las absolutamente continuas, que
se caracterizan porque su función de distribución es absolutamente continua. Esto
significa que existe una función real , positiva e integrable en el conjunto de números
reales, tal que la función de distribución acumulativa se puede expresar como:

(1)

139
Figura 4. Función de distribución acumulativa descrita en el ejemplo 2.

La función recibe el nombre de función de densidad de probabilidad de la variable


aleatoria . Este nombre no es arbitrario, ya que admite una interpretación análoga
a la del concepto físico de densidad. En efecto de la ecuación (1) se sigue que es la
derivada de y por tanto:

lim

lim lim
→ →

lo que nos indica que representa la cantidad de probabilidad en un entorno próximo


de , dividida por la medida Δ de ese entorno. Utilizando un símil físico,
Δ puede entenderse como la masa total de probabilidad que se
concentra en un volumen Δ alrededor de . Masa partido por volumen es precisamente
la definición clásica de densidad, lo que justifica el nombre de la función .

Asimismo, de la expresión anterior se sigue también que para un valor Δ

140
suficientemente pequeño:
∈ , Δ ≅ Δ

lo que significa que la probabilidad de que la variable aleatoria esté dentro de un


intervalo muy pequeño que contenga a un valor es aproximadamente igual a
veces la amplitud de dicho intervalo. Geométricamente, el término Δ representa
el área de un rectángulo de base Δ y altura . Por tanto la probabilidad de que
tome valores en un intervalo muy pequeño coincide con el área de un rectángulo que
tiene dicho intervalo como base, y el valor como altura. Veremos que esta idea de
interpretar la probabilidad como área subyace al cálculo de probabilidades con variables
aleatorias continuas.

Continuación del ejemplo 5: Recordemos que en este ejemplo considerábamos la


variable aleatoria “punto donde se rompe una cuerda homogénea de 1 metro de
longitud al tirar de sus extremos”. La función de distribución de esta variable era de la
forma:
0 0
0 1
1 1

Derivando obtenemos la función de densidad :


0 0
1 0 1
0 1

Como vemos, esta función es constante en el intervalo 0,1 , lo que se corresponde con
la idea intuitiva de que, por ser la cuerda homogénea, es igualmente probable que se
rompa en cualquier punto; por tanto la densidad de dicha probabilidad debe ser constante
a lo largo de todo el recorrido de la cuerda.

Nota: Si bien es posible definir variables aleatorias continuas que no sean absolutamente

141
continuas, constituyen la excepción antes que la regla. La inmensa mayoría de las
variables aleatorias continuas que nos encontramos en las aplicaciones son también
absolutamente continuas. Por ello, con el objetivo de simplificar la terminología, cuando
en este texto utilicemos la expresión variable aleatoria continua nos estaremos refiriendo
en realidad a variables aleatorias absolutamente continuas, y por tanto con función de
densidad bien definida.

4.4 Propiedades de la función de densidad de probabilidad de


variables aleatorias continuas
1.   1
2. 0 para todo ∈

3.    

La última propiedad nos indica que la probabilidad de que una variable aleatoria
continua tome valores entre dos puntos y coincide con el área bajo la
función de densidad entre esos dos puntos (recuérdese que el significado geométrico
de la integral es precisamente el área bajo la función)

Continuación del ejemplo 5: La probabilidad de que la cuerda se parta entre los puntos
0.3 y 0.7 puede calcularse como:
. .
.
0.3 0.7     1 . 0.7 0.3 0.4
. .

donde hemos tenido en cuenta que 1 para ∈ 0,1 . La figura 1 muestra el


significado geométrico de esta integral. La probabilidad que se ha calculado es el área
bajo la función 1 entre 0.3 y 0.7, que en este caso corresponde simplemente a
un rectángulo de altura 1 y base 0.2.

Nota: no es objetivo de este curso que el alumno resuelva integrales. Se muestra aquí este
cálculo para ilustrar el uso más “técnico” de la función de densidad. Para comprender el

142
resto de contenidos basta que el alumno haya entendido el significado geométrico de la
función de densidad.

Figure 5. La linea de trazo grueso representa la función de densidad de la variable aleatoria


descrita en el ejemplo 5 (punto aleatorio en que se rompe una cuerda de un metro). El área
coloreada representa la probabilidad de que la cuerda se rompa entre los puntos 0.3 y 0.7

Ejemplo 6: En una centralita de atención a llamadas de urgencia (112) se ha observado


que en horario de mañana los tiempos entre la recepción de llamadas sucesivas son más
bien cortos, y resulta muy improbable que pase un tiempo largo entre llamada y llamada.
De un modo más técnico, se ha observado que la probabilidad de que el tiempo entre
llamadas sucesivas sea superior a disminuye exponencialmente con el valor de . En
particular, en la centralita de cierta ciudad de tamaño medio, la variable =“tiempo (en
minutos) entre llamadas sucesivas al servicio de urgencias” tiene como función de
densidad
.
0.1 , 0
0 0
Obviamente está bien definida como función de densidad, ya que 0, ∀ y
además:

143
. .
0.1 1

Si se desea obtener la probabilidad de que entre dos llamadas sucesivas transcurran entre
10 y 25 minutos calculamos simplemente:

. .
10 25 0.1

. ⋅ . ⋅
0.38

La figura 6 muestra la función de densidad de esta variable. La probabilidad que se acaba


de calcular corresponde al área bajo esta función entre los valores 5 y 15, que se ha
representado también en esta gráfica.

Figura 6. Función de densidad de la variable descrita en el ejemplo 6

5. Independencia de variables aleatorias


Recordemos que dos sucesos y se dicen independientes si la ocurrencia de no
condiciona la ocurrencia de . Traducido en términos de probabilidad, y son
independientes si la probabilidad de que ocurra no se ve alterada (condicionada) por
la ocurrencia de , esto es, | . En el capítulo de probabilidad se indicó
además que de esta definición se seguía que si y son independientes, la probabilidad
144
de su ocurrencia conjunta es igual al producto de sus probabilidades individuales, esto es,
∩ ⋅ . Estas ideas pueden generalizarse al caso de variables
aleatorias. Así, dos variables aleatorias e se dicen estocásticamente independientes
o simplemente, independientes, si para cualesquiera , , , ∈ los sucesos
y son independientes, esto es:

(2)

Dicho de forma menos técnica, e son independientes si el conocimiento del
resultado de no altera las probabilidades de los posibles resultados de . A modo de
ejemplo, si tiramos dos dados sucesivamente y llamamos al resultado del primero y
al resultado del segundo, saber lo que vale no nos aporta información para cambiar
nuestras probabilidades sobre lo que valdrá . Por tanto e son independientes. Otro
ejemplo: si es la temperatura a mediodía en una región boscosa y es una variable
indicatriz que vale 1 si ocurre un incendio y 0 si no ocurre, la asignación de probabilidades
que podamos hacer para (es decir, nuestra evaluación del riesgo de incendio) depende
del valor de : si la temperatura es alta, el riesgo (la probabilidad) de incendio es mayor
que si la temperatura es baja; por tanto, en este caso e Y son variables aleatorias
dependientes.

6. Parámetros característicos de las distribuciones de


probabilidad
En esta sección presentaremos algunas medidas que tienen como objetivo sintetizar –
resumir– la distribución de probabilidad de una variable aleatoria en unos pocos valores
característicos. Estos valores tienen el mismo nombre que las medidas descriptivas
equivalentes que ya hemos visto en capítulos anteriores. De la misma forma que en aquél
caso esas medidas descriptivas (media, varianza, curtosis, etc.) datan cuenta de la forma
de la distribución de los datos empírcos, ahora estas medidas dan cuenta de la forma de
la distribución de probabilidad de la variable aleatoria considerada. Las medidas de
resumen que consideraremos son las siguientes:
 Esperanza: Valor que describe dónde se encuentra el “centro” de la
distribución de probabilidad.
 Varianza: Valor que describe el grado de dispersión de los valores que

145
toma la variable aleatoria.
 Cuantiles: Valores por debajo de los cuales se acumula una determinada
probabilidad (normalmente el 1%, 2.5%,5%, 25%, 50%, 75%, 95%, 97.5%, 99%).

6.1 Esperanza matemática


La esperanza matemática de una variable aleatoria se define como:
 Si es discreta: ∑ ⋅
 Si es continua y tiene función de densidad :

Si en el caso discreto identificamos la probabilidad de un valor con su masa, y en el caso


continuo la densidad de probabilidad de un valor con la densidad de masa en un entorno
del mismo, podemos interpretar la esperanza de una variable aleatoria como el centro de
gravedad de su distribución de probabilidad. Más concretamente, si imaginamos la
gráfica de la función de probabilidad (caso discreto) o de la densidad de probabilidad
(caso continuo) como un objeto físico, la esperanza coincide con la posición del eje en
que deberíamos apoyar este objeto para que permanezca en equilibrio. La figura 7 muestra
sendos ejemplos de la posición de la esperanza: en la figura (a) se muestra la función de
probabilidad de una variable aleatoria discreta (concretamente la del ejemplo 2), y en la
figura (b) la función de densidad de probabilidad de la altura de las olas que llegan a una
playa (nótese que la zona más alta de la curva se sitúa entre los valores 1 y 2. Ello significa
que entre dichos valores el área es mucho mayor que, por ejemplo, entre 5 y 7. Como el
área es equivalente a la probabilidad, esa figura nos indica que en la playa son más
probables las olas de entre 1 y 2 metros que las olas mayores que 5 metros). En ambos
casos la posición de la esperanza se ha marcado con un pequeño triángulo. Se puede
apreciar a simple vista que la esperanza corresponde al centro de gravedad en ambas
figuras.

146
Figure 7. (a) Representación de la función de probabilidad de una variable aleatoria discreta (b)
Representación de la densidad de probabilidad de una variable aleatoria continua. En ambos casos
la posición de su esperanza (centro de gravedad de la figura) se representa mediante un triángulo.

147
Ejemplo 7: Para la variable aleatoria definida en el ejemplo 2, correspondiente al
resultado de la suma de las caras superiores resultantes al lanzar dos dados, la esperanza
se obtiene fácilmente como:

1 2 3 4 5 6
2⋅ 3⋅ 4⋅ 5⋅ 6⋅ 7⋅
36 36 36 36 36 36

5 4 3 2 1
8⋅ 9⋅ 10 ⋅ 11 ⋅ 12 ⋅ 7
36 36 36 36 36

Ejemplo 8: Para la variable aleatoria definida en el ejemplo 5 (punto en que se parte


una cuerda homogénea de un metro), la esperanza es:
1
⋅1⋅
2 2

6.2 Propiedades de la esperanza matemática


1. Para cualquier constante arbitraria :

2. Dadas una variable aleatoria , y una constante arbitraria :



3. Dadas dos variables aleatorias e :

4. Si e son independientes, entonces:
⋅ ⋅

6.3 Medidas de dispersión de una variable aleatoria


La varianza es una medida de dispersión de los valores de una variable aleatoria . Si la
esperanza es , la varianza se define como:

La varianza es, pues, el valor esperado de la distancia al cuadrado entre los valores que

148
toma la variable aleatoria y su esperanza4; si los valores están muy agrupados, estarán
muy cerca de su centro (la esperanza) y la varianza será pequeña; por contra, si los valores
de está muy alejados entre sí, lo estarán también de su centro, y la varianza será grande.
Por tanto la varianza es, efectivamente, una medida de dispersión.
Dada su definición, es obvio que las unidades en que se mide la varianza corresponden al
cuadrado de las unidades en que se mide la variable . Esto resulta poco práctico en
muchas ocasiones, por lo que se suele emplear como medida de dispersión la desviación
típica definida como5:
sd var

Es habitual denotar la desviación típica de una variable aleatoria mediante la letra griega
. De la misma forma, la varianza suele denotarse como .

Figura 8. Funciones de densidad de tres variables aleatorias con distintas desviaciones típicas.

4
Esta distancia se toma al cuadrado para evitar la presencia de valores negativos, que
pueden falsear su significado.
5
Utilizamos aquí la notación sd para la desviación típica, que deriva de su denominación
inglesa standard deviation.
149
La figura 8 muestra tres funciones de densidad correspondientes a variables aleatorias
con la misma esperanza 0, y con distintas desviaciones típicas. Como puede
apreciarse, a medida que aumenta la desviación típica, la densidad se distribuye en un
rango más amplio (la variable toma valores más dispersos). Nótese también que como el
área total bajo la función de densidad debe ser siempre 1, cuando se incrementa el rango
que abarca dicha función, su altura disminuye.

6.4 Propiedades de la varianza

1. Dadas una variable aleatoria , y una constante arbitraria :


var var var var
2. var
3. Si e son variables aleatorias independientes,
var var var

7. Desigualdad de Chebyshev
La desigualdad de Chebyshev permite utilizar la varianza de una variable aleatoria para
acotar el valor de ciertas probabilidades que resultan de interés práctico. Concretamente,
si es una variable aleatoria tal que y var esta desigualdad
establece que para todo 1:
1
| | 1

En otras palabras, la probabilidad de que tome valores que disten de su esperanza


menos de veces su desviación típica es al menos 1 . Así, por ejemplo:

 Eligiendo 2: | | 2 0.75

 Eligiendo 3: | | 3 1 0.89

 Eligiendo 4: | | 4 1 0.9375

En cualquier caso, es importante darse cuenta de que la desigualdad de Chebyshev


establece una cota inferior para estas probabilidades y puede alejarse mucho de la
probabilidad exacta. Así por ejemplo (con 2) la desigualdad nos indica que la

150
probabilidad de que los valores de se diferencien de en menos de 2 desviaciones
típicas es al menos 0.75, pero según como sea la distribución de , esa probabilidad
podría en realidad ser 0.8, 0.9, ó 0.95, por ejemplo.

8 Relación entre esperanza y media aritmética


Supongamos que la variable aleatoria mide alguna característica de los sujetos de una
población (peso, talla, temperatura, ...), y sean y var . Se eligen al
azar y de manera independiente sujetos de esa población. Llamaremos muestra
aleatoria simple a los valores , ,…, que toma la variable cuando se evalúa
sobre cada uno de esos sujetos. , ,…, son a su vez variables aleatorias, toda vez
que sus valores no se conocen antes de haber sido medidos. Son además independientes
porque si los sujetos de la muestra se han elegido al azar, conocer el valor de en uno
de ellos no nos aporta información sobre el valor de en los demás. Asimismo, como
todos los sujetos proceden de la misma población, las tendrán la misma distribución
de probabilidad de , por lo que y var para 1, … , .

La media aritmética de las observaciones, ∑ , es también una variable

aleatoria, ya que no es posible conocer su valor antes de haber obtenido la muestra. Cada
posible muestra producirá unos valores distintos de , ,…, , y por tanto un valor
distinto de . Tiene sentido, por tanto, que nos preguntemos por cuál es el valor esperado
de (el centro de masas de todos los posibles valores que puede tomar) y cuál es su
varianza. Ambos valores son fáciles de obtener. Aplicando las propiedades de la
esperanza, tenemos:

1 1 1 1 1

Asimismo, aplicando las propiedades de la varianza:

1 1 1 1 1
var var var var

151
Por tanto, a medida que aumenta el valor de , la varianza de se va reduciendo, de tal
forma que cuando es grande var ≅ 0. Ello significa que para valores grandes de

el valor de apenas se aparta de su valor esperado . De esta forma, cuando es


grande ≅ . Ello nos permite interpretar la esperanza de una variable aleatoria
como la media aritmética de los valores observados de la misma en muestras
aleatorias muy grandes.

9. Cuantiles
Dada una variable aleatoria cuya función de distribución acumulativa es , se
define el -ésimo cuantil (0 1) como el valor , tal que
.
Cuando es estrictamente creciente la ecuación anterior tiene solución única. En el
caso de que la variable aleatoria sea discreta, ya hemos visto que es escalonada; y
aún cuando sea continua, podría ocurrir que su función de distribución acumulativa
presente intervalos en los que su valor sea constante. En estos casos se define el -ésimo
cuantil como min :   .

Hay algunos cuantiles de uso muy frecuente, que reciben su propio nombre:
 La mediana (Me) es el cuantil 0.5. Por tanto, la probabilidad de que la
variable tome valores menores o iguales que la mediana es el 50%, y que tome
valores mayores que ella es otro 50%. Por esta razón, la mediana se usa
habitualmente como medida de posición central.
 Los cuartiles ( , y ): corresponden a los cuantiles 0.25, 0.5
(mediana) y 0.75.
 Los centiles o percentiles ( : corresponden a los cuantiles de la forma

, 1, … ,100

Ejemplo 9: En el ejemplo 6 vimos que el tiempo (en minutos) entre llamadas a una
centralita de urgencias es una variable aleatoria cuya densidad de probabilidad puede
.
modelarse por 0.1 . La función de distribución es entonces:

. .
0.1 1

152
Para calcular cualquier cuantil bastará con resolver la ecuación , que en
este caso queda de la forma:

. .
1
1 ⇒ 1 ⇒ log 1 10 log 1
0.1

Así, por ejemplo, la mediana sería 10 log 0 . 5 6.93, y el percentil 95 sería


10 log 0 . 05 29.96.

10. Principales distribuciones de probabilidad discretas.


En esta sección estudiaremos las distribuciones de probabilidad discretas de uso práctico
más frecuente.

10.1 Distribución Uniforme Discreta.


Definición:Una variable aleatoria que toma un número finito de valores
, ,…, sigue una distribución uniforme si todos sus valores son equiprobables.
Por tanto su función de probabilidad es de la forma:
1
∈ , ,…,
0 ∉ , ,…,

Esperanza y varianza:

1 1

1 1
var

Ejemplo: Si = “Resultado obtenido al lanzar un dado equilibrado”:

1 1
⋅ 21 3,5
6 6

1
var 3,5 2,91
6

153

10.2 Distribución de Bernoulli


Definición: Una variable aleatoria sigue una distribución de Bernoulli, , si
sólo toma dos posibles valores: 1 (“éxito”) ó 0 (“fracaso”), con probabilidades
respectivas y 1 . Su función de probabilidad es, por tanto:
1
1    0
0 ∉ 0,1
que podemos expresar también como:
1 ,    0,1

Esperanza y varianza:

⋅ 1⋅ 0⋅ 1
∈ ,

var 1 0 1
∈ ,

Ejemplo: Se realiza el experimento aleatorio consistente en lanzar una moneda


equlibrada y se define la variable aleatoria:
0 si sale cara
1 si sale cruz
Entonces
1
2

La función de probabilidad en este caso es:


1 1 1
1 ;       0 1
2 2 2

y la media y varianza:
1 1 1 1
;      1 ⋅
2 2 2 4

154
10.3 Distribución Binomial ,
Definición: Una variable aleatoria sigue una distribución Binomial de parámetros
y si representa el número de éxitos obtenidos al realizar repeticiones independientes
de un experimento de Bernoulli, siendo la probabilidad de éxito en cada experimento.
Obviamente sólo son posibles entre 0 y éxitos. La función de probabilidad de esta
variable es de la forma:

1 ,   ∈ 0,1,2, … ,
!
donde
! !

La figura 11 muestra esta función de probabilidad para diversos valores de y

Esperanza y varianza: Por definición, si , entonces ⋯


, siendo las variables de Bernoulli de parámetro independientes. Por tanto:
⋯ ⋯

var var ⋯ var var ⋯ var
1 1 ⋯ 1 1

Ejemplo: Por la experiencia acumulada a lo largo de los años se sabe que un 30% de
las llamadas recibidas en un puesto de bomberos corresponden a rescate de personas
atrapadas (ascensores, fosas, vehículos accidentados, ...). De las próximas 10 llamadas,
¿cuál es la probabilidad de que 5 sean para rescatar a personas?

De la descripción de esta variable se deduce que 10,0.3 , ya que:


 Desde la perspectiva de esta variable cada llamada tiene solo dos posibles valores
(es para un rescate o no lo es).
 Las llamadas se producen al azar y de manera independiente, y por tanto el objeto
de cada llamada no permite saber cuál va a ser el motivo de la llamadas siguiente.

Por tanto podemos calcular la probabilidad pedida como:

155
Figura 11. Función de probabilidad de la distribución binomial para diversos valores de y . La

altura de cada línea representa la .

10
5 0. 3 1 0.3 0.103
5

10.4 Distribución de Poisson

Definición: Una variable aleatoria discreta sigue una distribución de Poisson de


parámetro , si su función de probabilidad es de la forma:

156
;     0,1,2,3, . . ..
!
siendo un valor real positivo. La figura 12 muestra la forma de esta función de
probabilidad para diversos valores de .

Figura 12. Función de Probabilidad de la distribución de Poisson para varios valores de . La

altura de cada línea vertical representa la

En general, la distribución de Poisson constituye un modelo de probabilidad adecuado


para aquellas variables aleatorias que cuentan el número de puntos que se encuentran en
cierto espacio continuo, siempre y cuando estos puntos se encuentren repartidos
completamente al azar. A modo de ejemplo podemos citar:

157
 Número de barcos en una región marina (los puntos son las posiciones de
los barcos y el espacio continuo donde se encuentran es la superficie de la región).

 Número de llamadas telefónicas recibidas en una centralita a lo largo de


una mañana (los puntos son los instantes en que se producen las llamadas, y el
espacio continuo en que se sitúan estos puntos es el tiempo transcurrido entre las
8 y las 14 horas).

 Número de accidentes de tráfico producidos a lo largo de un fin de semana


(como en el ejemplo anterior, los puntos son los instantes en que se producen los
accidentes y el espacio continuo en que se sitúan estos puntos es el tiempo
transcurrido entre las 0 horas del sábado y las 24 horas del domingo.

Esperanza y varianza: Puede probarse que para la distribución de Poisson

var
!

Ejemplo: Si la región marítima de Canarias cuenta con una densidad media de barcos de
0.01 barcos por milla cuadrada (esto es, por término medio un barco cada 100 millas
cuadradas), y el número de barcos presentes en un momento arbitrario sigue una
distribución de Poisson, ¿cuál es la probabilidad de que una zona de mil millas cuadradas
de extensión haya 8 barcos?
Como la densidad media de barcos es de 0.01 barcos/milla2, en 1000 millas cuadradas
cabe esperar una media de 1000 ⋅ 0.01 10 barcos. Como el parámetro de la
distribución de Poisson coincide con su esperanza, tenemos por tanto que 10 .
Aplicando la distribución de Poisson:
10
8 0.113
8!

158
Ejemplo: Si el número de llamadas correspondientes a incidentes muy graves que se
reciben en una central de emergencias a lo largo de la mañana sigue una distribución de
Poisson de media 0.5 llamadas/hora (es decir, 1 llamada para comunicar un incidente
grave cada dos horas), ¿Cuál es la probabilidad de que a lo largo de una mañana (8 horas)
se produzca la comunicación de 3 incidentes graves?

En 8 horas cabe esperar que se produzcan por término medio 8 ⋅ 0.5 4 de estas
llamadas. Si es el número total efectivo de estas llamadas a lo largo de la mañana, se
tiene que 4 y por tanto:
4
3 0.195
3!

Ejemplo: En las mismas condiciones del ejemplo anterior, ¿cuál es la probabilidad de


que a lo largo de una mañana se produzcan al menos tres llamadas comunicando
incidentes graves?
Para calcular esta probabilidad hay que combinar lo que hemos aprendido de la
distribución de Poisson con lo que ya sabemos del cálculo de probabilidades; que ocurran
al menos tres llamadas es lo contrario de que ocurran menos de 3; como la probabilidad
de un suceso es igual a uno menos la probabilidad de su contrario, tenemos:
3 1 3 1 0 1 2
4 4 4
1 0.762
0! 1! 2!

Aproximación de la distribución binomial: Puede demostrarse que la distribución de


Poisson permite aproximar en el límite la distribución binomial cuando →∞ y → 0.
En la práctica, para que la aproximación funcione bien basta que 20 y 0.05, en
cuyo caso , ≅ , con ⋅ .
Para entender el sentido de esta aproximación consideremos el siguiente ejemplo: en una

159
pequeña ciudad hay 280 personas mayores que viven solas y disponen de pulsadores de
alarma para avisar a los servicios de emergencia. La probabilidad de que una de estas
personas utilice el pulsador un día arbitrario es 0.01. ¿Cuál es la probabilidad de que a lo
largo de un día no se registre ni un sólo aviso de pulsación en la central receptora de
alarmas?
Llamando =“Número de pulsaciones de alarma realizadas en un día arbitrario”,
tendríamos que 280,0.01 . La probabilidad de que ninguna persona utilice el
pulsador es entonces:
280
0 0.01 1 0.01 0.99 0.05996
0
Muchas calculadoras no son capaces de realizar correctamente este cálculo. La
aproximación de Poisson nos indica que 280,0.01 ≅ 280 ⋅ 0.01 2.8 .
Si utilizamos la distribución de Poisson para calcular la probabilidad pedida obtenemos
2. 8 . .
0 0.06081
0!

que se diferencia del verdadero valor en 0.00085, por lo que el error de aproximación es
inferior a una milésima. Vemos, pues, que la aproximación mediante la distribución de
Poisson funciona razonablemente bien, y es aconsejable su uso cuando no se dispone de
medios informáticos avanzados.

Aditividad de la distribución de Poisson. Si dos variables aleatorias independientes


y siguen sendas distribuciones de Poisson, y , entonces
. En general, si , ,…, , y además son
independientes, entonces ∑

Ejemplo: En un municipio turístico hay 3 playas. En la primera, el número de incidentes


que requieren intervención de los servicios de urgencias sigue una distribución de Poisson
de parámetro 2 (esto significa que por término medio se producen 2 de estos incidentes
al día); en la segunda playa, el número de incidentes es de Poisson de parámetro 1.4, y en
la tercera playa es también de Poisson de parámetro 0.7. ¿Cuál es la probabilidad de que
en un día en el municipio deban atenderse 5 incidentes?

160
Si ”Número de incidentes en la playa i”, se tiene que 2 , 1.4 y
0.7 . Por tanto, por la aditividad de la distribución de Poisson, el número total de
incidentes en las tres playas es 2 1.4 0.7 4.1 . La probabilidad de que
haya que atender 5 incidentes es pues:
4. 1 .
5 0.16
5!

11 Principales distribuciones de probabilidad continuas

11.1 Distribución uniforme ,


Definición: Una variable aleatoria sigue una distribución uniforme en el intervalo
real , , si su función de densidad es constante sobre ese intervalo:
1
∈ ,
0 ∉ ,
En la práctica esta distribución corresponde a variables del tipo: = “Resultado de
elegir al azar un valor del intervalo (a,b)” cuando la probabilidad de que el valor elegido
caiga en un intervalo de amplitud ℓ dentro de , es siempre la misma
independientemente de la posición de dicho intervalo.

Esperanza y varianza:
1 1

2 2 2

1 1
var
2 12

Ejemplo: La variable aleatoria = “Distancia, medida desde el extremo inicial, a la que


se rompe una cuerda homogénea de 1 metro cuando se tira con igual fuerza de ambos
extremos” que ya hemos visto en el capítulo anterior sigue una distribución 0,1 .

11.2 Distribución exponencial


Definición: Una variable aleatoria sigue una distribución exponencial de parámetro

161
si su función de densidad de probabilidad es de la forma:
1
,  0

En la práctica, esta distribución aparece asociada a variables que miden la distancia entre
sucesos puntuales que se dispersan completamente al azar en un medio continuo y cuyo
número tiene, por tanto, distribución de Poisson. En efecto, supongamos por simplicidad
que el medio continuo considerado es el tiempo y que estamos contando el número de
eventos que ocurren hasta un instante . Si el número de tales eventos sigue una
distribución de Poisson, siendo el número esperado de eventos por unidad de tiempo,
ello significa que es el tiempo esperado entre dos cualesquiera de tales sucesos. Si

llamamos =“Número de sucesos ocurridos en un intervalo de duración ” entonces

. Si acaba de ocurrir uno de estos sucesos, y llamamos al tiempo

que transcurre hasta que ocurre el siguiente, entonces:


1
0
0! 0!
(ya que significa que el siguiente suceso ocurre después de , o lo que es lo
mismo, que en un intervalo de duración no ha ocurrido ningún suceso, esto es 0).
Por tanto:

1
de donde:
1
,    0

La figura 13 muestra la forma de la distribución exponencial para varios valores del


parámetro .

Esperanza y varianza:
1

1 1
var

162
Ejemplo: El tiempo que transcurre entre la caída de dos rayos sucesivos durante la fase
central de una tormenta tropical sigue una distribución exponencial de parámetro 2.5
segundos. ¿Cuál es la probabilidad de que entre la caída de dos rayos sucesivos
transcurran como mucho 3 segundos? ¿Cuál es el tiempo esperado que transcurre entre
rayos sucesivos?

Figure 13. Función de densidad de la distribución exponencial para varios valores de .

Sea X = “Tiempo transcurrido entre dos rayos sucesivos” 2.5 . La probabilidad


pedida es entonces:
⋅ .
3 3 1 . 1 0.699

Dado que en una distribución exponencial el valor esperado coincide con su parámetro,

163
el tiempo esperado entre rayos sucesivos es 2.5 segundos.

11.3 Distribución Normal ,



Definición: Una variable aleatoria sigue una distribución Normal de parámetros
(media) y (desviación típica) si su función de densidad de probabilidad es de la forma:
1
,    ∈
√2

Nótese que es una función simétrica respecto a , esto es . La figura


2 muestra la forma de esta función de densidad, que corresponde a la conocida campana
de Gauss.

Figure 2. Función de densidad de la distribución normal. Está centrada en la media , valor en


torno al cual se concentra la mayor parte de la probabilidad.

En la práctica, la distribución normal aparece asociada a variables aleatorias que se


comportan de tal manera que lo más probable es observar valores en torno a la media; y
que los valores cada vez más alejados de la media, bien sea hacia arriba o hacia abajo,

164
van siendo progresivamente más difíciles de observar. Muchas variables biológicas se
comportan aproximadamente de esta forma: la talla, el peso, la temperatura corporal, etc.
También se comportan de esta manera los errores de medida. La distribución normal es
una de las más frecuentes en la naturaleza, lo que se justifica de manera teórica efecto del
llamado teorema central del límite (o teorema del límite central). Dicho de una manera
intuitiva, este teorema indica que si una variable es el resultado de la suma de efectos de
muchas otras variables independientes, la variable resultante tiene necesariamente
distribución normal. Si se piensa que las variables que hemos citado –peso, talla, errores
de medida, ...– son precisamente el efecto de muchas pequeñas causas que operan
independientemente se entiende por qué cabe esperar que su distribución de probabilidad
sea precisamente normal.
La figura 15 muestra la forma de la función de densidad de la distribución normal con
media 0 para varios valores de . Puede apreciarse la forma de campana de dicha
distribución y como la campana es más ancha cuanto mayor es la varianza

Figure 15. Función de densidad de la distribución normal de media para varios valores de

165
.

Esperanza y varianza: hemos definido la distribución normal precisamente a partir de


sus esperanza y varianza. No obstante se puede comprobar resolviendo las integrales
correspondientes, que tal como se ha definido la función de densidad se verifica
que:

var

Distribución normal tipificada: El caso particular de la distribución normal con


0 y 1 se conoce con el nombre de distribución normal tipificada o estándar
0,1 . Si 0,1 denotaremos como Φ .

Una de las dificultades prácticas que presenta la distribución normal es que su función de
densidad no tiene una función primitiva, lo que significa que las probabilidades
1
√2
deben calcularse numéricamente. Existen muchos programas que hacen este cálculo, así
como la mayoría de las calculadoras científicas e infinidad de aplicaciones para teléfonos
móviles. También es habitual hacer el cálculo mediante el uso de tablas. El interés de la
distribución normal tipificada es precisamente que es la única cuyas probabilidades se
encuentran tabuladas.

Uso de la tabla de la distribución normal tipificada. Esta tabla sólo proporciona


probabilidades de la forma , siendo 0,1 , correspondientes al área
sombreada en la figura 4. Para aprender a manejar esta tabla, supongamos que queremos
calcular la probabilidad 2.16 . Para ello simplemente separamos el número 2.16
en dos partes: una con la parte entera y las décimas (2.1), y otra con las centésimas (0.06).
A continuación vamos a la tabla y buscamos el punto de cruce de la fila etiquetada como
166
2.1 y la columna etiquetada como 0.06, donde encontramos el valor 0.01539, que
corresponde a la probabilidad buscada.

Figura 16. La tabla de la distribución , proporciona, para diversos valores de , el valor

de , correspondiente al área sombreada.

Si queremos calcular probabilidades de la forma simplemente utilizamos que


1 y procedemos igual que antes. Si queremos calcular
probabilidades para valores negativos de la variable basta tener en cuenta que la
distribución normal es simétrica y por tanto que . Por último la
tabla nos indica que si 4 entonces ≅ 0.

¿Cómo podemos utilizar esta tabla si queremos calcular probabilidades de una ,


con 0y 1? En tal caso aplicaríamos el siguiente resultado:

Tipificación de la distribución normal: Si , entonces 0,1

El significado de este enunciado es fácil de entender: los valores de se obtienen a partir

167
de los de por desplazamiento (al restar ) y cambio de escala (al dividir por ).
Ninguna de estas transformaciones cambia la forma de la función de densidad; por tanto
también debe seguir una distribución normal. Asimismo, la simple aplicación de las
propiedades de la media y la varianza permite ver de inmediato que
0 y var var

var 1.

Para calcular entonces probabilidades de la forma cuando , con


0y 1 bastará con tener en cuenta que

y localizar el último valor directamente en la tabla. Así, por ejemplo, si 20,4 ,


para calcular 25 procederíamos del siguiente modo:
20 25 20 5
25 1.25 0.10565
4 4 4
donde hemos encontrado el valor 0.10565 en el cruce de la fila 1.2 con la columna
0.05 de la distribución normal estándar.

Cuantiles de la , utilizando la tabla. Un problema frecuente en la práctica es la


determinación de cuantiles de la distribución 0,1 . Recordemos que el cuantil de
una variable aleatoria es el valor tal que . En el caso de la
distribución normal estándar llamaremos al cuantil ; esto es, es el valor tal
que 1 , o lo que es lo mismo, .

Para calcular los cuantiles utilizando la tabla habremos de proceder a la inversa que para
el cálculo de probabilidades; por ejemplo, supongamos que deseamos localizar el valor
. (es decir, el cuantil 0.975 ). Buscamos el valor 0.025 (o el que más se le
aproxime) en el interior de la tabla; en este caso encontramos el 0.025 en el cruce de la
fila 1.9 con la columna 0.06. Por tanto . 1.96.

Ejemplo: El coste de movilizar a los servicios de urgencias para atender una emergencia

168
por accidente de tráfico sigue una distribución normal de media 2800 euros y desviación
típica 400 euros. Si se acaba de producir un accidente, ¿cuál es la probabilidad de que el
coste de los servicios de emergencia supere los 3500 euros?
Si ”Coste del servicio” 2800,400 , tenemos que calcular:
3500 2800
3500 1.75 0.04
400

Por último presentamos una importante propiedad de la distribución normal, que nos
indica que la suma de variables normales sigue también una distribución normal. Esta
propiedad tiene gran aplicación práctica, ya que muchas veces habrán de calcularse
probabilidades de sumas de variables normales: ingresos totales de las sucursales de una
empresa durante un día laboral, coste total de los accidentes de tráfico producidos en un
día, distancia total recorrida por un animal durante una migración,...

Propiedad reproductiva de la distribución normal: dadas variables aleatorias


normales e independientes, tales que , ,    1, … , , su suma ∑
sigue también una distribución normal, siendo:

, 

Como consecuencia de esta propiedad, en el caso particular de que , para


1, … , , aplicando las propiedades de la esperanza y la varianza, se tiene que:

1
,

o, expresado de otra forma,

0,1
/√

Ejemplo: Si, como en el ejemplo anterior, el coste de atender una emergencia por
accidente de tráfico es 2800,400 , en un día en que haya habido que atender 10
169
accidentes, ¿Cuál es la probabilidad de que el coste total esté por encima de los 30000
euros?
Para responder a esta pregunta debemos tener en cuenta que el coste total es la suma de
los costes individuales de los 10 accidentes:

⋯ 2800 ⋅ 10, 400 ⋅ 10 28000,1264.911

y por tanto:
30000 28000
30000 1.58 0.057
1264.911

12 Distribuciones de probabilidad asociadas al muestreo de


variables con distribución normal
En muchas ocasiones nos encontramos con problemas que se refieren a características
globales de una variable. Por ejemplo ¿la concentración media de cierto contaminante en
una zona supera el umbral permitido por la legislación? ¿Es la velocidad media de
circulación en una autopista mayor que la permitida? ¿Se consigue mayor reducción en
la tasa de accidentalidad cuando se emite una campaña en TV o cuando se incrementa la
cuantía de las multas? ¿Se observa mayor variabilidad en el consumo de alcohol en los
hombres o en las mujeres? En estos ejemplos la pregunta a responder tiene que ver con
los valores medios o las varianzas de estas variables en las poblaciones de interés. Ahora
bien, en la práctica estos valores no se conocen, ya que no es posible acceder a todos los
sujetos de la población.
Como veremos en el próximo capítulo, la única manera de responder a estas cuestiones
consiste en adquirir información sobre las cantidades de interés a partir de una muestra
aleatoria. Esto nos conduce a la siguiente cuestión: el valor medio de una variable en una
población es único, pero como de una misma población es posible extraer muchas
muestras distintas, habrá tantas medias muestrales como muestras sea posible extraer. Lo
mismo puede decirse de la varianza. Si el problema es comparar dos poblaciones, pueden
extraerse muchas muestras distintas de cada una y por tanto son posibles muchos valores
distintos de la diferencia entre las medias muestrales. Como a priori, antes de obtener la
muestra (o muestras) es imposible predecir cuáles van a ser los valores resultantes de la
media, la varianza o la diferencia de medias, en su caso, resulta que estas cantidades son
variables aleatorias. Y si son variables aleatorias, debemos preguntarnos cuál es su
distribución de probabilidad, ya que es precisamente mediante el uso de dicha

170
distribución que podremos contestar a las preguntas planteadas más arriba.
En el caso particular de que la distribución de probabilidad de la variable de interés sea
normal , , se conocen las distribuciones de probabilidad de algunas de las variables
aleatorias que se presentan en el muestreo. Describimos a continuación dichas
distribuciones y posponemos a los próximos capítulos su aplicación concreta en los
problemas de inferencia ligados al muestreo, concretamente la construcción de intervalos
de confianza y de contrastes de hipótesis.

Nota: Las funciones de densidad de estas distribuciones se muestran a continuación


simplemente a título ilustrativo. Su forma es notablemente compleja, y los cálculos
relacionados con las mismas deben realizarse necesariamente con ordenador o mediante
tablas. No es objetivo de este curso que el alumno aprenda o memorice estas expresiones,
sino simplemente que las conozca, conozca su forma geométrica y sepa utilizar las tablas.

12.1 Distribución Chi-cuadrado



Definición: Una variable aleatoria sigue una distribución Chi-Cuadrado de Pearson
con grados de libertad ( ) si su función de densidad de probabilidad es de la forma:
1
,    0
2
2
La importancia práctica de esta distribución deriva de la siguiente propiedad, que
constituye el fundamento de la inferencia sobre la varianza en variables con distribución
normal.

Esperanza y varianza: si :

var 2

La figura 17 muestra la densidad de la para varios valores de .

171
Figura 17. Función de densidad de la distribución para varios valores de

12.2 Distribución t de Student



Definición: Una variable aleatoria sigue una distribución t de Student con grados
de libertad ( ) si su función de densidad de probabilidad es de la forma:
1
2 1 ,    0
√ 2
Por ser una función cuadrática en , la densidad de la de Student, al igual que ocurría
con la normal, es simétrica respecto al eje de ordenadas, esto es, . En la
figura 2 se muestra la forma de esta densidad para varios valores de . Puede apreciarse
la similitud de esta densidad con la normal. De hecho, para valores grandes de ambas
funciones son prácticamente indistinguibles.

172
Figure 2. Función de densidad de la distribución de Student para varios valores de .

El interés práctico de la distribución de Student deriva de que constituye el fundamento


de la inferencia sobre la media en variables con distribución normal de varianza
desconocida.

Esperanza y varianza: Si :
0    Si 1
∞ 1 2
var
2
2
Para 1 no están definidas la media ni la varianza.

12.3 Distribución F de Fisher-Snedecor ,

Definición: Una variable aleatoria sigue una distribución F de Fisher-Snedecor con


y grados de libertad ( , ) si su función de densidad de probabilidad es de la

173
forma:

/
2 ,    0
2 2 1

En realidad, conocer la expresión de la función de densidad de la distribución de Fisher


(al igual que la de la normal, la chi-cuadrado o la de Student) no nos sirve para
calcular probabilidades directamente, ya que no admite primitiva, por lo deberán
utilizarse métodos numéricos o tablas. El interés de esta distribución reside en su
aplicación en la inferencia relacionada con la comparación de varianzas de variables con
distribución normal.

La figura 19 muestra la forma de la función de densidad de la distribución para varios


valores de y .

Figure 3. Función de densidad de la distribución para varios valores de y .

174
13 Utilización de las tablas de la Chi-Cuadrado, de Student
y de Fisher-Snedecor
Como ya hemos señalado para el caso de la distribución normal, un problema que se
presenta con frecuencia en la práctica es el cálculo de cuantiles de estas distribuciones.
Para ello se dispone de tablas de fácil manejo, pero que no incluyen todos los posibles
grados de libertad asociados a estas distribuciones (en algunos casos es preciso
interpolar). Resulta recomendable en este caso utilizar calculadora, excel, u otro software
para el cálculo de estos cuantiles (muchas aplicaciones para teléfonos móviles o tablets
incluyen este cálculo).
Llamaremos , , , y , , a los cuantiles de las respectivas distribuciones
con sus grados de libertad correspondientes. De esta forma:
 Si , entonces , =
 Si , entonces , =
 Si , entonces , , =
La figura 20 muestra la posición de estos cuantiles para cada distribución. El área
sombreada es .

En las tablas de la y la los correspondientes valores de , y , se encuentran


en el cruce de la fila y la columna . Los valores de que figuran en la tabla son los
de uso más frecuente. En el caso de la , se dispone de una tabla para 0.025 y
otra para 0.05 (en muchos libros, sobre todo los más antiguos pueden encontrarse
tablas para otros valores de ; hoy en día, con la ubicuidad de la informática, tales tablas
en realidad resultan innecesarias). El valor , , se localiza simplemente en el cruce
de la fila con la columna . A veces resulta de interés calcular , , en cuyo
caso se puede utilizar la propiedad siguiente:
1
, ,
, ,

175
Figura 20. Posición de los cuantiles de las distribuciones Chi-Cuadrado de Pearson, de

Student y de Fisher-Snedecor. Estos cuantiles dejan a su derecha un área (sombreada en las


tres figuras).

14. Teorema central del límite


La propiedad reproductiva de la distribución normal, vista más arriba, nos indica que la
suma de variables aleatorias independientes con distribución normal sigue también una
distribución normal. El teorema central del límite va un poco más allá, estableciendo
condiciones bajo las cuales la suma de variables aleatorias independientes con
distribución no necesariamente normal sigue una distribución normal. Básicamente tales
condiciones son dos: que las variables que se suman tengan todas la misma distribución,
y que el número de sumandos sea grande. Estas condiciones se verifican en muchos casos
de aplicación práctica; en particular, se cumplen cuando se realiza un muestreo de una
variable con distribución no normal siempre que el número de observaciones sea
suficientemente grande, ya que todas las observaciones , ,…, proceden de la

176
misma distribución que .

Teorema Central del Límite Sea ,…, una secuencia de variables aleatorias
independientes y con la misma distribución de probabilidad, siendo y
var (finita) para 1, … , . Entonces, para → ∞:

→Φ

siendo Φ la función de distribución de la normal tipificada 0,1 .

Nota: El Teorema Central del Límite, tal como se ha enunciado requiere que todas las
variables sean independientes y tengan la misma distribución. Existen otras versiones
de este teorema, en las que se prueba que, bajo determinadas condiciones, si las son
independientes aunque tengan distribuciones de probabilidad diferentes, su suma
también tiene una distribución aproximadamente normal.

Nótese que:
 ∑ ∑
 var ∑ ∑ v ar   ⇒  sd ∑ √
 Por tanto, la conclusión del del teorema puede enunciarse diciendo que a

medida que aumenta, la distribución de la suma tipificada se va

aproximando a la 0,1 .

Asimismo, si observamos que:


1
∑ ∑
√ /√ /√
el teorema central del límite puede expresarse también como:

→Φ    para → ∞
/√
o, dicho de otra forma, la distribución de probabilidad de la media aritmética tipificada
177
de una secuencia de variables independientes y con la misma distribución, de
/√

media y desviación típica , se va aproximando a la distribución normal 0,1 a


medida que aumenta.

En la práctica, el efecto del teorema central del límite puede apreciarse frecuentemente
para valores de que, si bien son grandes, distan mucho de ∞. En muchas ocasiones,
con valores de del orden de entre 30 y 60 ya puede asumirse que, aproximadamente,

0,1 y 0,1 , o lo que es lo mismo, que aproximadamente
√ /√

∑ ,  √ y que ,   /√ .

Ejemplo: Por término medio en cierta isla se queman anualmente 300 hectáreas de
bosque debido a los incendios producidos durante el verano. Se ha observado además que
la desviación típica de la superficie quemada anualmente es de 95 hectáreas. Con estos
datos, ¿cuál es la probabilidad de que en los próximos 30 años ardan en total más de
10000 hectáreas?
Aunque no se nos informa de la distribución de probabilidad del número de hectáreas
quemadas anualmente, podemos aplicar el teorema central del límite (considerando que
los incendios producidos cada año son independientes de los producidos el año anterior),
en cuyo caso si llamamos a la superficie quemada en el año , la superficie total
quemada en treinta años será ∑ , y de acuerdo con el teorema central del límite:

∑ 30 ⋅ 300 10000 30 ⋅ 300


10000 1.92
√30 ⋅ 95 √30 ⋅ 95
0.027

178
Aproximación de la distribución binomial por la normal

Ya hemos visto que si , entonces ⋯ , siendo las


variables de Bernoulli de parámetro independientes. De acuerdo con el teorema central
del límite se tiene que, cuando → ∞:

0,1
1

En general esta aproximación funciona bien cuando 5, si bien todavía puede


mejorarse si se tiene en cuenta el hecho de que la distribución binomial es discreta y la
normal es continua. En efecto, la distribución binomial sólo asigna probabilidades a los
valores enteros 0,1,2, … , mientras que la normal asignaría probabilidades a todo el
rango continuo que contiene a estos valores. Para conseguir una mayor semejanza entre
ambas asignaciones se considera que cada valor entero queda representado por el
intervalo 0.5, 0.5 . Este procedimiento recibe el nombre de corrección por
continuidad. De esta forma, la aproximación de las probabilidades binomiales por el
teorema central del límite se llevaría a cabo del siguiente modo:

≅ 0.5 0.5 ≅
0.5 0.5

1 1 1
0.5 0.5
1 1
0.5
≅ 0.5 ≅
1
0.5
≅ 0.5 ≅
1
0.5
≅ 0.5 ≅
1
0.5
≅ 0.5 ≅
1

siendo 0,1

179
Ejemplo: Se sabe que en cada accidente de tráfico, la probabilidad de que se precise
atención médica es 0.30. ¿Cuál es la probabilidad de que en los próximos 50 accidentes
sea necesaria la asistencia média en más de 16?
Si es el número de accidentes que requieren asistencia médica, se tiene que
50,0.3 , que de acuerdo con el Teorema Central del Límite se puede aproximar por
una 50 ⋅ 0.3, 50 ⋅ 0.3 ⋅ 1 0.3 . La probabilidad pedida es entonces:
16.5 50 ⋅ 0.3
16 ≅ 16.5 ≅ 0.46 0.32276
√50 ⋅ 0.3 ⋅ 0.7
(hemos utilizado la tabla de la 0,1 para calcular la última probabilidad).

180
ACTIVIDADES
1. Clasifica las siguientes variables aleatorias en continuas o discretas:
a) Distancia desde una central de emergencias al lugar de un accidente.
b) Tiempo que se tarda en llegar desde la central al accidente.
c) Número de heridos en un accidente.
d) Número de bomberos que se desplazan para extinguir un incendio
2. Dado el experimento aleatorio consistente en lanzar dos veces un dado equilibrado, se

define la variable aleatoria X(i, j)  i  j .


a) Hallar la función de distribución de dicha variable.
b) Hallar la media de X.
c) Halla la varianza de X.

3. El número de llamadas que se registran diariamente en servicio de atención


telefónica es una variable aleatoria con función de probabilidad
0.97 ∙ 0.03
a) ¿Cuál es la probabilidad de que en un día no se registre ninguna llamada?
b) ¿Cuál es la probabilidad de que en un día se registren más de 3 llamadas?
4. La función de distribución acumulativa de la variable (número de llamadas
diarias) del problema anterior es 1 0.97 .
a) ¿Cuál es la probabilidad de que un día se reciban como mucho 50
llamadas?
b) ¿Cuál es la probabilidad de que se reciban más de 80?
c) ¿Cuál es la probabilidad de que se reciban entre 40 y 80 llamadas
(inclusive)?
5. El número de salidas semanales que debe realizar un helicóptero del servicio
aéreo de rescate sigue una distribución de Poisson de parámetro 4.
a) ¿Cuál es la probabilidad de que en una semana deba realizar más de cuatro
salidas?
b) ¿Cuál es la probabilidad de que en dos semanas deba realizar sólo 6
salidas?
6. La duración (en minutos) de cada servicio realizado por un helicóptero del SAR
es una variable aleatoria con distribución exponencial de parámetro 0.0185.
a) ¿Cuál es la duración media de los servicios?
b) ¿Cuánto vale la varianza de la duración de los servicios?

181
c) Calcula la probabilidad de que un servicio dure más de una hora.
7. El 60% de las llamadas recibidas en una central de emergencias son realizadas
desde teléfonos móviles.
a) ¿Cuál es la probabilidad de que de las últimas 10 llamadas recibidas, 6
hayan sido hechas desde teléfonos móviles.
b) ¿Cuál es la probabilidad de que de las últimas 1000 llamadas recibidas,
600 hayan sido realizadas desde móviles? (Sugerencia: utiliza la
aproximación de la distribución binomial por la normal)
c) De entre las próximas 1000 llamadas ¿Cuántas podemos esperar que
procedan de teléfonos móviles?
8. La distancia recorrida por un helicóptero del SAR durante un servicio es una
variable aleatoria con distribución normal de media 400 km y desviación típica
110 km.
a) ¿Cuál es la probabilidad de que durante un servicio se recorran más de 450
km?
b) ¿Cuál es la probabilidad de que se recorran menos de 340 km?
c) Con probabilidad 0.95 ¿cuál es el número máximo de kilómetros que se
recorren en un servicio? (sugerencia: hallar el valor M tal que
0.95)
d) ¿Cuál es la probabilidad de que en 10 servicios se recorran en total menos
de 5000 kilómetros?
9. La probabilidad de que un detector de incendios no funcione por falta de
mantenimiento es 0.08. Se lleva a cabo una revisión de 100 detectores de
incendios instalados en distintos edificios de oficinas de una gran ciudad (se elige
un solo detector por edificio, de forma que todos los detectores pueden
considerarse independientes)
a) ¿Cuál es la probabilidad de que 5 de esos 100 detectores no funcionen por
falta de mantenimiento?
b) ¿Cuál es la probabilidad de que no funcionen menos de 20 detectores?
c) ¿Cuál es la probabilidad de que funcionen los 100 extintores?
d) ¿Y de que no funcione ninguno?
10. La probabilidad de que, a lo largo de un año, un coche elegido al azar sufra un
accidente que pueda calificarse como siniestro total es 0.001. Una compañía de
seguros tiene asegurados 20000 vehículos.
182
a) Utilizando la aproximación de la distribución binomial por la de Poisson,
¿cuál es la probabilidad de que la compañía en un año deba hacer frente a
la cobertura de 20 siniestros totales?
b) Utilizando la aproximación de la distribución binomial por la normal,.
¿cuál es la probabilidad de que la compañía deba hacer frente a la
cobertura de más de 20 accidentes?
c) Con probabilidad 0.95 ¿cuál es el número máximo de siniestros totales que
deberá cubrir la compañía a lo largo de un año?

EJERCICIOS DE AUTOEVALUACIÓN

1. Los extintores de incendios sufren un riguroso control de calidad antes de ser puestos
a la venta. Una empresa fabricante ha comprobado que aproximadamente el 2% de
los extintores fabricados no pasa el control de calidad. En un lote de 10 extintores, la
probabilidad de que al menos uno no pase el control de calidad es:
a) 0.183
b) 0.019
c) 0.542
d) 0.02
2. El peso perdido por un bombero durante la extinción de un incendio es una variable
aleatoria con distribución normal del media 3 kg y desviación típica 0.8 kg. La
probabilidad de que un bombero pierda menos de 3.5 kg durante la extinción de un
incendio es entonces:
a) 0.52
b) 0.87
c) 0.34
d) 0.73
3. El número de cortes de luz que se producen anualmente en una fábrica es una variable
aleatoria con distribución de Poisson de media 8.9. La probabilidad de que en un año
se produzcan exactamente 8 cortes de luz es:
a) 0.945
b) 0.822
c) 0.133
d) 0.442
183
4. El número de heridos transportados diariamente por cada ambulancia del servicio de
urgencias de un hospital es una variable de Poisson de media 3. Si el hospital cuenta
con 5 ambulancias y el número de heridos transportados por cada una es
independiente del resto, ¿cuál es la probabilidad de que entre las 5 ambulancias en un
día transporten a 12 heridos?
a) 0.563
b) 0.082
c) 0.001
d) 0.123
5. El tiempo (en años) que transcurre entre dos olas de calor extremo en cierta zona
/
continental es una variable con función de distribución 1 . La
probabilidad de que entre dos olas de calor pasen menos de 4 años es:
a) 0.852
b) 0.393
c) 0.424
d) 0.565
6. En condiciones normales, la concentración (en ppm) de cierto producto químico en el
agua de una playa sigue una distribución N(30, 5). ¿Cuál es la probabilidad de que en
dichas condiciones la concentración del producto supere las 38 ppm?
a) 0.3456
b) 0.3321
c) 0.2742
d) 0.6744
7. El tiempo que tarda en disolverse una mancha de petróleo procedente de un vertido
es una variable aleatoria con distribución exponencial cuyo valor esperado es de 8,32
días. ¿Cuál es la probabilidad de que una mancha tarde en disolverse más de 6 días y
menos de 10?
a) 0.5681
b) 0.8615
c) 0.1856
d) 0.6851
8. Una central eléctrica es capaz de producir un máximo de 5000 MWh diarios. Esta
central debe abastecer una zona industrial donde operan 60 fábricas. Asumiendo que
las fábricas operan independientemente y que el consumo diario medio de cada una
184
es de 80 MWh con una desviación típica de 25 MWh, ¿cuál es la probabilidad de que
en un día elegido al azar la central no sea capaz de satisfacer la demanda conjunta de
todas las fábricas?
a) 0.0001
b) 0.0426
c) 0.1102
d) 0.2314
9. Una mina de carbón sufre filtraciones de agua. Se calcula que diariamente deben ser
desalojados 100.000 litros de agua de la mina. Para ello se instalarán bombas de
achique. Por la configuración de la mina y el tipo de bomba, la cantidad de agua que
puede extraer cada bomba diariamente sigue una distribución normal de media 20000
litros y desviación típica 6000 litros. Asumiendo que las bombas operan
independientemente y que no fallan, ¿cuántas bombas deberían instalarse para tener
una probabilidad de al menos el 95% de que se podrá desalojar toda el agua filtrada?
a) 4
b) 5
c) 6
d) 7
10. La altura de las olas en una playa en las condiciones habituales de viento es una
/
variable aleatoria con función de distribución 1 . ¿Cuál es la
probabilidad en estas condiciones de que la altura de una ola se encuentre entre los 2
y los 4 metros?
a) 0.3496
b) 0.6321
c) 0.9816
d) 0.5

RESPUESTAS A LOS EJERCICIOS DE


AUTOEVALUACIÓN.
1. (a)
2. (d)
3. (c)
4. (b)

185
5. (b)
6. (c)
7. (c)
8. (b)
9. (d)
10. (a)

BIBLIOGRAFÍA
Armitage, P., & Berry, G. (1997). Estadística para la investigación biomédica.

Harcourt Brace Madrid.

Cachero, M. L. (1996). Fundamentos y métodos de estadística.

De la Horra Navarro, J. (2003). Estadística aplicada.

Devore, J. L. (2008). Probabilidad Y Estadistica Para Ingenieria Y

Ciencias/Probability And Statistics For Engineering And Sciences. Cengage

Learning Editores.

Evans, M. J., & Rosenthal, J. S. (2005). Probabilidad y estadística. Reverté.

Gómez, A. A. (2008). Estadística básica con R y R-Commander. Servicio Publicaciones

UCA.

Johnson, R. R., & Kuby, P. (2008). Estadistica elemental/Just the Essentials of

Elementary Statistics: Lo esencial/The Essentials. Cengage Learning Editores.

Levin, J., del Valle, V., & Elorza, H. (1979). Fundamentos de estadística en la

investigación social. Harla.

Martel, P. J., & Vegas, F. J. D. (1997). Probabilidad y estadística matemática:

aplicaciones en la práctica clínica y en la gestión sanitaria. Ediciones Díaz de

Santos.

Martín, Q. M., & de Paz Santana, Y. del R. (2007). Tratamiento estadístico de datos

186
con SPSS. Editorial Paraninfo.

Mendenhall, W., Scheaffer, R. L., Wackerly, D. D., De la Fuente Pantoja, A., &

Verbeeck, D. V. (1986). Estadística matemática con aplicaciones. Grupo

Editorial Iberoamericana ^ eCalifornia California.

Mode, E. B. (1990). Elementos de probabilidad y estadística. Reverté.

Moore, D. S. (2005a). Estadística aplicada básica. Antoni Bosch editor.

Norman, G. R., Streiner, D. L., & Tarrés, J. (1996). Bioestadística. Mosby/Doyma

Libros.

Peebles, P. Z. (2006). Principios de probabilidad, variables aleatorias y señales

aleatorias. Santaló, L. A., & Scientific, R. (1970). Probabilidad e inferencia

estadística. Edwin S.

Seaman, J., Leivesley, S., & Hogg, C. (1989). Epidemiología de desastres naturales.

Harla.

Spiegel, M. R., Espadas, J. L. G., & Villasante, A. L. (1982). Teoría y problemas de

estadística. Mcgraw-hill.

187
188
ESTIMACION PUNTUAL Y POR INTERVALO

5
Unidad de Aprendizaje

189
190
PRESENTACIÓN

“Statistics is the grammar of science”


Karl Pearson

La inferencia estadística es el proceso mediante el cual se extienden o generalizan a una


población las conclusiones o resultados obtenidos a partir de la información
proporcionada por una muestra de la misma. Este proceso de inferencia puede perseguir
dos objetivos diferentes:

1. Estimación de parámetros: utilizar los datos de la muestra para obtener


valores aproximados de los parámetros que caracterizan el comportamiento de las
variables de interés en la población.

2. Contraste de hipótesis: utilizar la información de la muestra para decidir


sobre la validez o no de hipótesis relativas a alguna característica de la población.

Dado que la muestra sólo proporciona información parcial sobre la población, los
métodos de inferencia estadística se apoyan en el cálculo de probabilidades para
cuantificar los márgenes de error probables o para evaluar el riesgo de incurrir en
decisiones incorrectas.

Obviamente el desarrollo de los procedimientos de inferencia requiere disponer de una


muestra lo suficientemente representativa de la población. En este capítulo presentaremos
algunos conceptos elementales sobre muestreo, para a continuación ocuparnos del
problema de la estimación de parámetros: qué es un estimador, qué características debe
tener y cuáles son los estimadores que se utilizan más habitualmente en casos prácticos.
Aprenderemos también a construir intervalos de confianza que nos indican el margen de
error cometido al estimar un parámetro, así como a determinar el tamaño de muestra
necesario para estimar algunos parámetros de uso frecuente.

Señalemos por último que se ha querido proporcionar una justificación teórica y


conceptual de la construcción de los distintos intervalos de confianza. El lector de este
manual puede saltarse los detalles técnicos, teniendo en cuenta que lo verdaderamente
importante es saber qué intervalo debe aplicarse en cada caso, como puede calcularse y

191
como debe interpretarse. En todos los casos se ha procurado incluir ejemplos de
aplicación que ilustran estas cuestiones y que ayudarán a su comprensión.

OBJETIVOS
Al finalizar este capítulo, el alumno deberá:

1. Conocer y comprender los conceptos de población y muestra aleatoria.


2. Conocer el concepto de estimador puntual
3. Conocer y comprender el concepto de intervalo de confianza.
4. Entender la necesidad de acompañar la estimación de parámetros de la
estimación de su error estándar y su intervalo de confianza.
5. Ser capaz de calcular los intervalos de confianza más frecuentes en la
práctica.

EXPOSICIÓN DE CONTENIDOS

1. Población y muestra aleatoria


En la presentación de este capítulo hemos definido la inferencia estadística como el
proceso mediante el cual se extienden o generalizan a una población las conclusiones o
resultados obtenidos a partir de la información proporcionada por una muestra de la
misma. Conviene, por tanto, precisar el significado de los términos población y muestra.

La definición habitual de población es la de conjunto formado por todos los sujetos u


objetos que comparten una o varias características comunes, y sobre los que se desea
obtener información. Desde esta perspectiva podemos hablar, por ejemplo, de la
población formada por todos los seres humanos que habitan la Tierra, de la población de
hormigas de la isla de Gran Canaria, o de la población de bomberos que trabajan en
España. Esta definición, sin embargo, presenta dificultades en muchos casos: ¿cuál es la
población si el objetivo de nuestro estudio es caracterizar la temperatura del magma
volcánico? ¿Y si nuestro objetivo es estudiar la accidentalidad en tráfico urbano? En otro
contexto, si deseamos saber si un tratamiento médico es efectivo contra determinada
enfermedad, parece lógico considerar como población el conjunto de personas

192
susceptibles de recibir el tratamiento; pero este conjunto incluye tanto aquellos que
padecen la enfermedad actualmente, como aquellos que la padecerán en el futuro y a los
que podría aplicárseles el tratamiento.

Vemos, pues, que hay poblaciones tangibles (habitantes del planeta, bomberos de España
u hormigas de Gran Canaria), conceptuales (los estados físicos del magma o la
accidentalidad en tráfico urbano) e incluso hipotéticas (los sujetos que en el futuro
podrían contraer una enfermedad). En cualquier caso, cuando se estudia una población, el
objetivo no es, propiamente, el conjunto de sujetos, objetos u entes conceptuales que
puedan formar esa población en un instante concreto, sino determinadas características
que medimos sobre ellos, y que se traducen en variables aleatorias, toda vez que sus
valores no son conocidos a priori. En este sentido, desde un punto de vista práctico,
caracterizar una población es equivalente a conocer la distribución de probabilidad de la
variable aleatoria que se mide sobre la misma: la temperatura del magma, el número
de accidentes diarios, o la variable binaria 1 0 que indica si un paciente se cura o no.

Normalmente, la población completa no suele ser accesible (por su tamaño, por


cuestiones de coste o tiempo, o simplemente porque la población es hipotética), por lo
que su estudio habrá de realizarse a partir de sólo una parte de la misma. Se denomina
muestra a un subconjunto de la población. Para que la información proporcionada por una
muestra pueda emplearse aceptablemente para obtener conclusiones sobre la población es
necesario:

 Que la muestra sea representativa, esto es, que refleje de la mejor manera
posible las características de la población. Si una muestra no fuese representativa,
es obvio que lo que se pueda deducir de ella no podrá extenderse a la población;
en particular la estimación de parámetros en tales condiciones podría estar
fuertemente sesgada y los contrastes de hipótesis podrían conducir a decisiones
erróneas con mayor frecuencia de lo previsto.

 Que la muestra tenga un tamaño suficiente. En general, cuanto mayor sea


el tamaño, más información proporcionará. El tamaño adecuado de la muestra
depende de cuál sea el problema que nos planteamos (estimación de parámetros o
contraste de hipótesis), de las características de la población (en general, a mayor
heterogeneidad de la población con respecto a la variable de interés, mayor habrá

193
de ser el tamaño de la muestra) y de la magnitud de los errores que estamos
dispuestos a cometer en nuestro proceso de inferencia.

Como hemos señalado más arriba, habitualmente nuestro interés se centra en el estudio de
alguna variable aleatoria que se mide sobre la población. El comportamiento de dicha
variable aleatoria queda caracterizado por su distribución de probabilidad. En este
contexto, definimos una muestra aleatoria de tamaño de una distribución de
probabilidad como un conjunto de variables aleatorias ,…, independientes y con
la misma distribución que . En la práctica, la obtención de una muestra aleatoria se
traduce en seleccionar al azar y de manera independiente elementos de la población y
medir el valor de en cada uno de ellos. Así, si es el número de accidentes de tráfico
que se producen diariamente en vías urbanas, ,…, serían los números de accidentes
observados en días elegidos al azar; si es la variable binaria 1 0 que representa
la curación (o no) de una enfermedad tras aplicar un tratamiento, ,…, sería el
efecto del tratamiento en un conjunto de pacientes elegidos de manera independiente
en la misma población.

2. Conceptos generales de estimación


En el capítulo anterior hemos visto una colección de distribuciones de probabilidad que
permiten modelar el comportamiento de numerosas variables aleatorias que aparecen en
las aplicaciones prácticas. Este proceso de modelización requiere ajustar de algún modo
los parámetros característicos de la distribución de probabilidad a emplear. Así, por
ejemplo, si modelamos el coste diario de un servicio de emergencias mediante una
distribución normal, ¿cuáles son los valores de y adecuados?; si modelamos el
número de accidentes de tráfico leves en una ciudad mediante una distribución de
Poisson, ¿cuál es el valor de ?; si modelamos el número de falsas alarmas que se
producen cada 100 avisos al servicio de emergencias mediante una binomial 100, ,
¿cuál es el valor de ?

La obtención del valor aproximado de un parámetro se denomina estimación. La


estimación es puntual si proporciona un único valor aproximado para dicho parámetro; es
por intervalo si proporciona un intervalo que, con cierta confianza, contiene al parámetro.

194
3. Estimación puntual
 Estadístico: Dada una muestra aleatoria , ,…, se llama estadístico a
cualquier función de sus valores.

 Estimador: Dado un parámetro característico de una población, y una


muestra aleatoria , ,…, de la misma, se llama estimador de a cualquier
estadístico , ,..., cuyos valores se aproximen a .

Es importante señalar que un estimador es una variable aleatoria: no puede predecirse su


valor mientras no se haya obtenido la muestra. Para entender de qué estamos hablando,
supongamos que queremos estimar la duración media de los servicios de atención médica
a domicilio; para llevar a cabo esta tarea, normalmente seleccionaremos una muestra de
atenciones domiciliarias (por ejemplo 20 servicios de atención a domicilio), anotaremos
cuánto duró cada servicio, y la duración media de los servicios en esta muestra nos dará
una aproximación de la duración media de estos servicios en general. Ahora bien basta
pensar un poco para darse cuenta de que si tomamos una nueva muestra de 20 servicios,
su duración media será parecida, pero seguramente distinta, a la duración media de los
servicios de la muestra anterior. Así pues, en este caso nuestro parámetro desconocido es
la duración media de los servicios de atención médica en la población de referencia del
servicio de emergencias; el estimador de este parámetro es la media de una muestra
aleatoria de servicios de atención. Como este estimador se puede aplicar a muchas
muestras, en teoría al menos, podemos obtener muchas estimaciones distintas del valor de
(en la práctica normalmente sólo tomaremos una muestra y tendremos por tanto una
única estimación). Obviamente, antes de tomar la muestra no se sabe cuál va a ser su valor
medio por lo cual dicho valor es una variable aleatoria.

Como distintas muestras producirán distintos valores del estimador de un parámetro


, es de esperar que algunos de estos valores estén más próximos al valor de y otros
estén más alejados. Existen diversos métodos que permiten construir estimadores con
garantías de que los valores que proporcionan son, en general, próximos al valor del
parámetro que se pretende estimar. Dichos métodos pretenden conseguir, entre otros
objetivos, estimadores que sean centrados (o sin sesgo) y que tengan mínima varianza.
Aclaremos brevemente estos conceptos:
195
 Estimador centrado: cuando se pretende estimar un parámetro
mediante un estimador , el estimador se dice centrado si el promedio de todos
sus valores coincide con . Volviendo al ejemplo anterior, supongamos que el
tiempo medio de servicio (para toda la población) es (desconocido), y que la
primera muestra de 20 tiempos de servicio produjo la estimación ; la segunda
muestra de otros 20 servicios produjo la estimación ; la tercera produjo el valor
;... El estimador que está produciendo los valores es centrado si la media de
todos los posibles valores de coincide con el valor de . De algún modo, que
un estimador sea centrado significa que no tiende a sobrevalorar ni infravalorar el
valor del parámetro .

 Estimador de mínima varianza: Dado que cada muestra proporciona un


valor distinto del estimador, interesa que en la medida de lo posible que el
estimador sea tal que de muestra a muestra su valor no varíe en demasía; en otras
palabras, que su variabilidad sea la mínima posible. De algún modo, ello garantiza
que, sea cual sea la muestra que finalmente se obtenga, el valor estimado obtenido
va a ser siempre muy similar al de cualquier otra muestra.

La combinación de ambas propiedades en un mismo estimador, garantiza que, cualquiera


que sea la muestra que finalmente se obtenga, su valor va a estar muy próximo al del
parámatro que se desea estimar.

El estudio de los métodos de obtención de estimadores y de otras medidas de calidad de


los mismos excede los límites de este curso. Por ello nos limitaremos simplemente a
utilizar los llamados estimadores de analogía. La idea de estos estimadores consiste en
estimar el valor del parámetro utilizando para ello una función análoga en la muestra: si
queremos estimar la media de la población utilizaremos como estimador la media de la
muestra; si queremos estimar una proporción poblacional, utilizaremos la proporción
muestral; para estimar la varianza poblacional utilizaremos la varianza de la muestra1 ...

1
Debemos decir que en el cálculo de la varianza muestral se utiliza como denominador el
valor 1 (el tamaño de la muestra menos 1). La razón de hacer esto así es porque de
esta forma se consigue un estimador centrado de la varianza poblacional.
196
4. Estimación por intervalos de confianza

4.1 Definición de intervalo de confianza


Dado un parámetro desconocido , que caracteriza la distribución de probabilidad de una
variable aleatoria determinada, y dada una muestra aleatoria , ,…, de
dicha variable, diremos que un intervalo de la forma , , donde y
son variables aleatorias que dependen de la muestra, es un intervalo de confianza a
nivel 1 para el parámetro si la probabilidad de que el intervalo contenga a dicho
parámetro es 1 , esto es:

∈ , 1

De esta forma, si disponemos de un intervalo de confianza para un parámetro


desconocido, ya no nos limitaremos a decir que tiene un valor parecido a (su
estimador puntual), sino que además podemos afirmar que con probabilidad 1
(donde es en general un valor pequeño) el valor de se encuentra entre y
. Ello nos da una idea aproximada de la precisión conseguida en la estimación.
Nótese que en la definición de intervalo de confianza, los extremos y son
variables aleatorias ya que son funciones de la muestra y ésta es aleatoria. Ello significa
que muestras distintas de la misma población producirán intervalos de confianza
distintos.

4.2 Intervalo de confianza para la esperanza de una variable


, con conocida.
Supongamos que se desea estimar la esperanza de una variable con distribución
normal de varianza conocida2. Aquí podría ser el tiempo que se tarda en realizar
cierto recorrido fijo, la concentración de un contaminante en el mar tras un vertido, la
duración de una cita de enfermería, o cualquier otra variable cuya distribución de
probabilidad pueda razonablemente considerarse normal.

En el tema de variables aleatorias ya hemos visto que, debido a la propiedad reproductiva

2
Debemos confesar que, en la práctica, la varianza no se conoce nunca, por lo que el
intervalo que vamos a construir carece de interés práctico; no obstante, resulta simple e
ilustrativo para entender el concepto y modo de construcción de estos intervalos.
197
de la distribución normal, si es la media aritmética de variables independientes
, entonces:

0,1
/√

Por tanto, si / es el percentil 1 /2 de la distribución normal estándar 0,1


(véase figura 1), se tiene que:

/ / 1
/√

de donde:

/ / 1
√ √

que, tras reordenar términos puede escribirse como:

/ / 1
√ √

o, de modo análogo:

∈ / ,  / 1
√ √

Por tanto, de acuerdo con la definición dada más arriba, el intervalo

/ ,  /
√ √

es un intervalo de confianza a nivel 1 para el parámetro .

198
Figura 1. Función de densidad de la distribución normal estándar , . La zona
sombreada encierra un área . El percentil / es el valor que deja a su derecha un
área / , esto es, / / , por lo que / /

Ejemplo de aplicación a una muestra particular: Se dispone de una muestra de 20


tiempos de respuesta, en segundos, de un servicio de emergencias (el tiempo de respuesta
es el tiempo que se tarda desde que se recibe una llamada en la central de alertas hasta el
momento en que el primer equipo de emergencia se pone en movimiento). Los valores
registrados fueron 402, 308, 261, 357, 425, 378, 457, 345, 372, 321, 305, 370, 293, 439,
363, 392, 417, 452, 291 y 244 segundos. Suponiendo que el tiempo de respuesta en estas
condiciones sigue una distribución , , siendo 60 , se desea construir un
intervalo de confianza al 95% para .

Para ello basta tener en cuenta que como la confianza buscada es 1 0.95,
entonces 0.05 y utilizando la tabla de la 0,1 encontramos / .

1.96. La media aritmética de los 20 valores anteriores es 359.6 segundos, y el intervalo de


confianza sería entonces:

199
60 60
/ ,  / 359.6 1.96 , 359.6 1.96
√ √ √20 √20
359.6 26.3 333.3,   385.9

Por tanto, con un 95% de confianza podemos asegurar que el tiempo medio de respuesta
está comprendido entre 333.3 y 385.9 segundos. Otra forma de expresar esta idea es
decir que nuestra estimación del tiempo medio de respuesta es de 359.6 segundos (casi 6
minutos), con um margen de error (al 95% de confianza) de 26.3 segundos.

4.3 Interpretación del intervalo de confianza: ¿por qué el


término “confianza”
Para la determinación del intervalo de confianza que hemos visto en el ejemplo anterior,
nos apoyamos en el hecho de que, antes de obtener la muestra, la media muestral

∑ es una variable aleatoria con distribución , . A partir de aquí hemos


deducido que:

∈ / ,  / 1
√ √

Por tanto, mientras no se haya obtenido la muestra, los extremos del intervalo son
variables aleatorias y se puede calcular la probabilidad de que dicho intervalo contenga a
. Ahora bien, una vez que se ha obtenido una muestra, los extremos del intervalo son
valores fijos, como 333.3 y 385.9 en el ejemplo anterior. En este momento, el valor de
estará comprendido entre ellos o no, pero ya no cabe hablar de la probabilidad de que ésto
ocurra.

Podemos utilizar el símil del lanzador de cuchillos circense que se dispone a lanzar un
cuchillo contra una diana con los ojos vendados. Él sabe, por su experiencia, que la
probabilidad de acertar en la diana es del 95%. Ahora bien, una vez que ha lanzado el
cuchillo habrá acertado o no, pero ya no se puede hablar de la probabilidad de que acierte.
Si el lanzador continúa con los ojos vendados tras el lanzamiento, puede confiar en que ha
acertado (incluso, tener mucha confianza en ello, ya que sabe que tiene muy buena
puntería), pero no puede estar del todo seguro.

La situación de un investigador que construye un intervalo de confianza a partir de unos


datos experimentales es análoga a la del lanzador de cuchillos que nunca se quita la venda

200
de los ojos: antes de tomar la muestra sabe que la probabilidad de que el intervalo
contenga al parámetro es del 95%; por tanto, cuando tome los datos y obtenga un
intervalo concreto, puede tener mucha confianza (que puede valorar en ese mismo 95%)
en que el intervalo habrá “capturado” al parámetro, pero no puede saber con seguridad si
lo ha capturado o no, ya que el valor del parámetro sigue siendo desconocido.

De un modo más general, si para un parámetro de una distribución de probabilidad


disponemos de dos estadísticos y tales que:

∈ , 1

siendo , ,…, una muestra aleatoria de dicha distribución, entonces cabe


esperar que el 100 1 % de los intervalos construidos de esta manera contengan a
y, obviamente, que el restante 100 % no lo contengan. Una vez que obtenemos una
muestra particular , ,…, y calculamos los valores , ,…, y
, ,…, , tenemos un intervalo concreto , . En realidad no sabemos
si este intervalo contiene o no a , pero confiamos en que sea uno de entre el 100 1
% de intervalos que contienen al parámetro. De ahí que valoremos nuestra confianza
en 1 .

La figura 2 representa 100 intervalos de confianza para la media de una distribución


normal obtenidos por simulación (se ha simulado la obtención de 100 muestras, cada una
de tamaño 20, de una distribución normal de media 10; a partir de cada muestra se
ha calculado un intervalo de confianza para el parámetro; los 100 intervalos así obtenidos
son los representados en esta figura). La línea vertical corresponde al valor de 10.
Como vemos, 94 de los intervalos cubren al parámetro y 6 (marcados en rojo) no lo
contienen. Por tanto, en esta simulación el 94% de los intervalos de confianza (calculados
al 95%) contienen realmente al parámetro. Remarquemos una vez más, que en la práctica
el investigador toma una única muestra, no 100 ni 1000. El investigador confía (con un
nivel de confianza del 95%) en haber capturado al parámetro. Pero, si ha ocurrido que esa
única muestra le lleva a obtener un intervalo de los que se han marcado en rojo entonces,
lamentablemente, el parámetro se le habrá escapado, sin que nuestro investigador tenga
ningún medio de saberlo.

201
Figura 2. 100 intervalos de confianza al 95% para el parámetro de una
distribución normal de varianza conocida. En rojo los intervalos que no contienen
a .

4.4 Método general de construcción de intervalos de confianza.


El procedimiento de construcción de un intervalo de confianza para un parámetro
sigue en líneas generales los pasos dados en la sección anterior para obtener el intervalo
de confianza para la media de una población normal de varianza conocida.
Partiendo de una muestra aleatoria , ,…, :

1. Deberemos disponer de una función pivote , cuya distribución de

202
probabilidad sea conocida y no dependa de .

2. A partir del pivote y de su distribución de probabilidad deberán


encontrarse dos valores y tales que:

, 1

3. Si la función , es monótona en , las ecuaciones:

,
,

tienen solución única. Si , y , son las respectivas soluciones de


estas ecuaciones, se tiene que

, , 1

por lo que el intervalo de confianza a nivel 1 es , , , (o R)

Para entender bien el significado de este procedimiento recordemos que para estimar la
media de una distribución normal de varianza conocida , la función pivote utilizada
fue:

,
/√

cuya distribución de probabilidad es 0,1 (y por tanto no depende de . En este caso,


/ y / . Los extremos del intervalo se hallan resolviendo:

, ⇒ / ⇒ /
/√ √

, ⇒ / ⇒ /
/√ √

5. Intervalo de confianza para la esperanza de una variable


, con desconocida.
Ya hemos anteriormente como contruir un intervalo de confianza para la media de una

203
variable aleatoria con distribución normal de varianza conocida. Este intervalo en la
práctica resulta de poca utilidad, toda vez que normalmente la varianza es
desconocida. Afortunadamente, es posible demostrar que si , , …,X es una muestra
aleatoria de una distribución , entonces:

/√


siendo la desviación típica de la muestra.

Figura 3. Posición de los percentiles / y / de la distribución de


Student denotados, respectivamente, como , / y , / . El área entre
estos dos percentiles es .

Podemos ahora utilizar las tablas de la de Student para encontrar el percentil , /

de esta distribución, de tal forma que

, / , / 1

(ver figura 3). Podemos escribir entonces:

204
, / , / 1
/√

de donde, operando en el interior del intervalo:

, / , / 1
√ √

o, expresado de otra forma:

∈ , / , , / 1
√ √

Así pues, el intervalo de confianza a nivel 1 para la media de una distribución


, con desconocida es

, / , , /
√ √

Ejemplo de aplicación a una muestra particular: Consideremos nuevamente la


muestra de los tiempos de respuesta de un servicio de urgencias del ejemplo anterior: 402,
308, 261, 357, 425, 378, 457, 345, 372, 321, 305, 370, 293, 439, 363, 392, 417, 452, 291
y 244. Si el tiempo de respuesta sigue una distribución , , considerando ahora
que es desconocida, para construir un intervalo de confianza al 95% para , podemos
utilizar la expresión anterior; debemos buscar en la tabla de la de Student el valor
, . 2.093. Asimismo, calculamos :

∑ ∑ 359.6
62.8
1 19

El intervalo de confianza es entonces:

62.8 62.8
359.6 ⋅ 2.093,   359.6 ⋅ 2.093,4.8 359.6 29.39
√20 √20
330.21,  388.99

Por tanto podemos concluir, con una confianza del 95%, que el tiempo medio de
respuesta (en segundos) se encuentra en el intervalo 330.21,  388.99 ; dicho de otro

205
modo, podemos afirmar con una confianza del 95% que el tiempo medio de respuesta es
aproximadamente de 359.6 segundos, con un margen de error de 29.39 segundos.
Nótese que ahora el margen de error es mayor que el obtenido antes cuando resolvimos el
problema dando la varianza por conocida; es lógico que esto ocurra así, ya que ahora
tenemos menos información (no conocemos la varianza, lo que incrementa nuestro nivel
de incertidumbre y por ende nuestro margen de error).

6. Intervalo de confianza para la varianza de una


población normal.
Ya hemos señalado anteriormente que la varianza muestral:

1
1

es un estimador centrado de la varianza de la variable aleatoria . En el caso particular de


que , , dada una muestra aleatoria , ,…, de , es posible probar
que:

Por tanto, utilizando la tabla de la distribución podemos encontrar los percentiles

, / y , / (ver figura 1) para los que:

1
, / , / 1

206
Figura 4. Posición de los percentiles / y / de la distribución
(denotados, respectivamente, como , / y , / ). El área entre estos
dos percentiles es .

Operando en el interior del intervalo podemos despejar :

1 1
1
, / , /

Por tanto el intervalo de confianza a nivel 1 para la varianza de una variable


aleatoria con distribución normal , es:

1 1
, 
, / , /

Aplicación a una muestra particular: Siguiendo con nuestro ejemplo de los tiempos de
respuesta de un servicio de emergencia, si deseamos calcular un intervalo de confianza al
95% para la varianza de esta variable, asumiendo que sigue una distribución normal, y
partiendo de la anterior muestra de 20 tiempos de respuesta, en la tabla de la
encontramos los valores ,  . 8.906 y ,  . 32.852. La varianza muestral

207
es:

∑ ∑ 359.6
3944.25
1 19

Por tanto, el intervalo de confianza para es:

19 ⋅ 3944.25 19 ⋅ 3944.25
,  2281.16,  8414.64
32.852 8.906

Si queremos calcular el intervalo para la desviación típica √ basta con aplicar la


raíz cuadrada a los extremos del intervalo anterior:

19 ⋅ 3944.25 19 ⋅ 3944.25
,  47.76,  91.73
32.852 8.906

Por tanto podemos concluir, con una confianza del 95%, que la desviación típica del
tiempo de respuesta (en segundos) de nuestro servicio de emergencias se encuentra en el
intervalo 47.76,  91.73 .

7. Intervalo de confianza para el cociente de varianzas de


poblaciones normales
Si se dispone de dos muestras aleatorias independientes de tamaños respectivos y ,
de dos distribuciones normales con varianzas respectivas y , puede probarse que:

/
,
/

siendo y las respectivas varianzas muestrales.

Por tanto, utilizando la tabla de la distribución , podemos encontrar los percentiles /2


y 1 /2 de modo que:

/
, , / , , / 1
/

208
Ordenando términos en la desigualdad:

/ /
1
, , / , , /

Por tanto el intervalo de confianza a nivel 1 para el cociente de varianzas / de


poblaciones normales es:

/ /
,
, , / , , /

Nota: si sólo se dispone de la tabla para el nivel /2 utilizaremos la propiedad:

1
, , /
, , /

Ejemplo de aplicación: Siguiendo con nuestro ejemplo del tiempo de respuesta en un


servicio de emergencias, supongamos que se ensaya nuevo protocolo de actuación. Los
tiempos de respuesta (en segundos) en 24 intervenciones realizadas bajo el nuevo
protocolo fueron los siguientes: 439, 425, 345, 368, 390, 424, 448, 332, 452, 420, 422,
311,382, 383, 419, 387, 456, 500, 436, 446, 385, 391, 368, 405. Obviamente estos
tiempos de respuesta son variables (no se tarda lo mismo en responder en todas las
intervencienes). Se desea estimar la diferencia entre esta variabilidad y la que se produce
con el protocolo anterior.

Las variabilidades de los tiempos de respuesta con ambos protocolos pueden


cuantificarse mediante las varianzas muestrales respectivas. Si denotamos por
, ,…, y , ,…, las dos muestras, siendo 20, 24, y
las medias muestrales respectivas 359.6 y 405.58, tenemos:

∑ ∑ 359.6
3944.25
1 19

209
∑ ∑ 405.58
1895.91
1 23

El cociente entre ambos valores es:

3944.25
2.08
1895.91

por lo que la variabilidad observada cuando se aplica el protocolo inicial es el doble que
cuando se aplica el nuevo protocolo. El intervalo de confianza al 95% nos ayuda a poner
este dato en perspectiva ya que nos proporciona el margen de error probable en esta
estimación:

/ / 2.08 2.08
, ,
, , / , , / , , . 1/ , , .

2.08 2.08
, 0.88,5.13
2.374 1/2.465

De esta forma vemos que, con la información que tenemos, y con un 95% de confianza, el
valor (desconocido) del cociente / podría llegar a ser tan pequeño como 0.88 o tan
grande como 5.13. Nótese que el hecho de que 0.88 sea menor que 1, significa que podría
ser que ; como el valor 1 también está incluído en el intervalo, ello significa que
podría ser / 1 y por tanto ; y como el intervalo contiene también
valores mayores que 1, ello implicaría que podría ocurrir también que .
Evidentemente las tres cosas no pueden ocurrir al mismo tiempo, y el resultado que
hemos obtenido, en definitiva, nos indica que no tenemos información suficiente para
distinguir de una manera clara entre las tres situaciones. Por tanto, aunque en las muestras
disponibles la varianza observada con el primer protocolo duplique a la varianza
observada con el segundo, no hay evidencia suficiente para generalizar este resultado,
pudiendo achacarse la diferencia observada al puro azar.

8. Intervalos de confianza para la diferencia de medias de


poblaciones normales
En muchas ocasiones resulta de interés estimar un intervalo de confianza para la
diferencia entre las medias de dos distribuciones normales , y
, . La diferencia entre las medias muestrales nos permite estimar
210
, y el intervalo de confianza nos dará una idea de la precisión conseguida en la
estimación. Para ello será preciso disponer de sendas muestras aleatorias de ambas
variables. Denotaremos a dichas muestras como , ,…, y
, ,…, . El diseño del muestreo puede llevarse a cabo de dos formas:

 Muestras independientes: las variables y son independientes: el


conocimiento de no aporta información sobre . En general, cuando se
utilizan muestras independientes, los sujetos u objetos sobre los que se mide
no tienen relación ni asociación alguna con aquellos sobre los que se mide . Por
ejemplo, en un ensayo sobre el tiempo de respuesta a emergencias utilizando dos
protocolos de actuación distintos, si el primer protocolo se experimenta con
avisos, y la segunda sobre otros avisos distintos y no relacionados con los
anteriores, ambas muestras son independientes. Los valores de y pueden
ser iguales o distintos.

 Muestras emparejadas: las variables y están asociadas, y por


tanto, el conocimiento de los valores de una aporta información sobre los valores
de la otra. En un diseño de muestras emparejadas ambas muestras son del mismo
tamaño. Las variables y se suelen medir sobre los mismos sujetos u
objetos, o bien sobre objetos que han sido cuidadosamente emparejados según
características comunes. Supongamos, por ejemplo, que se desea determinar si
hay diferencias en los tiempos de desplazamiento entre la central y el lugar de una
emergencia dependiendo de si el desplazamiento ocurre a primera hora de la
mañana o si ocurre a primera hora de la tarde. La mejor forma de llevar a cabo el
estudio consiste en realizar recorridos por la mañana y los mismos
recorridos por la tarde, ya que ésta es la mejor forma de garantizar que si se
detectan diferencias, éstas se deben precisamente al horario. Si los recorridos de
mañana fueran distintos de los recorridos de tarde, en caso de detectarse alguna
diferencia, sería complicado decidir si dicha diferencia se debe al horario o se
debe a haber realizado distintos recorridos.

8.1 Muestras Independientes: Varianzas conocidas.


Si , y , , y se toma una muestra de tamaño de , y una
muestra de tamaño de , siendo ambas muestras independientes, entonces

211
, /√ y , /√ . De acuerdo con la propiedad reproductiva de la
distribución normal, se tiene que

por lo que:

0,1

A partir de aquí podemos proceder de modo análogo al caso del intervalo de confianza
para la media de una población normal con varianza conocida, y el intervalo resultante es:

El intervalo de confianza a nivel 1 para la diferencia de medias de dos


poblaciones normales con varianzas conocidas es entonces:

Señalemos que este intervalo es de escasa aplicación práctica, ya que las varianzas
poblacionales normalmente no son conocidas. El siguiente intervalo es mucho más
utilizado:

8.2 Muestras Independientes: Varianzas desconocidas.


Si , y , , y se dispone de sendas muestras aleatorias
independientes de ambas variables, de tamaños respectivos y entonces, es posible
demostrar que:

siendo:

212
1 1
1 1

De aquí puede deducirse que el intervalo de confianza a nivel 1 para la diferencia de


medias de dos poblaciones normales con varianzas desconocidas y distintas es
entonces:

, /

Ejemplo de aplicación: Para calcular un intervalo de confianza para la diferencia del


tiempo medio de respuesta a emergencias según que se use el protocolo 1 o el protocolo 2
que hemos visto en ejemplos anteriores, calculamos en primer lugar:

3944.25 1895.91
20 24 32.91 ≅ 33
1 1 3944.25 1 1895.91 1
1 1 20 19 24 23

El intervalo de confianza para la diferencia de medias es entonces:

, /

3944.25 1895.91
359.6 405.5833333 , .
20 24

79.8, 12.17

Variables no normales: Otra cuestión es si las variables cuyas medias se comparan


tienen o no distribución normal. Por efecto del teorema central del límite, en caso de que
se disponga de muestras de gran tamaño, aún cuando la distribución de las variables no
sea normal, un intervalo de confianza a nivel 1 para la diferencia de medias es:

213
/

En la práctica este intervalo se suele utilizar si y son ambos mayores que 30.

En caso de que las variables cuyas medias se comparan no tengan distribución normal, y
los tamaños de muestra sean pequeños los intervalos de confianza mostrados en este
curso no son de aplicación y debe recurrirse a otras técnicas (no incluidas en este curso).

9.3 Muestras emparejadas

Los intervalos de confianza para las diferencias de medias vistos hasta ahora son de
aplicación cuando la comparación se realiza sobre muestras independientes. En el caso de
que se utilice un diseño de muestras emparejadas, los valores de no son
independientes de los de . La construcción del intervalo de confianza, no obstante, es
sencilla sin más que considerar que si , , , y
cov , , entonces la variable sigue una distribución ,
donde:

Siendo la covarianza entre ambas variables.

Nótese que si , ,…, y , ,…, , son las muestras de y ,


respectivamente, se dispone entonces de una muestra de , dada por

, ,…, , ,…,

Por tanto, construir un intervalo para en estas condiciones es equivalente a


construir un intervalo de confianza para la media de una variable normal ,
a partir de la muestra anterior. Si es desconocida, como suele ser habitual en la
práctica, este intervalo según hemos visto anteriormente es de la forma:

214
, / , , /
√ √

donde:

∑ ∑
1 1


1

∑ ∑ 2∑
1

Por tanto el intervalo de confianza a nivel 1 para la diferencia de medias


de poblaciones normales en muestras emparejadas de tamaño es:

, /

Ejemplo de aplicación: Se dispone de una muestra de los tiempos empleados por una
ambulancia en realizar 12 recorridos distintos. Cada recorrido se ha realizado dos veces,
una a primera hora de la mañana y otra a primera hora de la tarde, con los resultados que
se muestran a continuación (tiempo en segundos, cada columna corresponde a un
recorrido):

Mañana 822 745 814 817 858 816 827 740 786 859 780 803

Tarde 784 715 749 801 856 808 775 713 763 827 795 796

215
Suponiendo que ambas variables siguen sendas distribuciones normales, se desea calcular
un intervalo de confianza al 95% para la diferencia .

Obviamente estos datos corresponden a un diseño de muestras emparejadas, ya que cada


pareja de valores se ha medido sobre un mismo recorrido, por lo que cabe esperar que
ambas medidas estén asociadas. Las diferencias entre los tiempos observados en cada
recorrido son:

Diferencias 38 30 65 16 2 8 52 27 23 32 -15 7

Se tiene entonces:

805.58 (Tiempo medio por la mañana),

781.83 (Tiempo medio por la tarde)


23.75, 22.12

, . 2.201

Por tanto, el intervalo de confianza para es

22.12
, / 23.75 2.201 23.75 14.05 9.7,37.8
√ √12

Dicho de otra forma, se estima que por término medio, por la mañana se tardan 23.75
segundos más en hacer el recorrido; con un 95% de confianza el verdadero valor de esta
diferencia se encuentra entre 9.7 y 37.8 segundos.

10. Intervalo de confianza para una proporción


La estimación de una proporción es un problema frecuente en la práctica: qué proporción
de los heridos en un accidente de tráfico tienen lesiones medulares; cuál es la proporción
de mujeres entre los conductores causantes de accidentes de tráfico, qué proporción de los
avisos recibidos en una central de emergencias son falsas alarmas, qué proporción de
216
enfermos experimenta mejoría cuando se les aplica un tratamiento concreto, etc.

Podemos tratar este problema desde un punto de vista general considerando que en estos
casos se observa una variable aleatoria con distribución de Bernoulli de parámetro
desconocido . Recordemos que la variable aleatoria de Bernouilli se caracteriza por
tomar uno de dos posibles valores, 1 (éxito) ó 0 (fracaso), siendo la probabilidad de
éxito. En cada caso particular, el éxito corresponderá a aquel suceso cuya probabilidad
queremos estimar: que un herido tenga una lesión medular, que el causante de un
accidente sea mujer, o que un aviso de emergencia sea una falsa alarma, por ejemplo.

Sea , ,…, una muestra aleatoria de la variable de Bernoulli. Si ∑


es el número observado de éxitos en la muestra, un estimador de es:

esto es, la proporción de éxitos en la muestra. Sabemos además que el número de éxitos
en pruebas sigue una distribución binomial , , por lo que:

1 1

y por tanto es un estimador centrado de .

Ejemplo de aplicación: Se han elegido al azar 60 heridos graves en accidente de


tráfico. Tras el correspondiente examen médico se observa que 23 de estos heridos tienen
lesiones medulares. De esta forma, la proporción de heridos con lesiones medulares entre
aquellos que sufren accidentes de tráfico graves puede estimarse como 23/60
0.3833 ≅ 38.33%.

Para calcular un intervalo de confianza para la proporción existen varios métodos, que
describimos a continuación.

10.1 Método de Wilson


Este método se aplica si 5 y 1 5):

/ /2 / √
∈ 1 / /4 1
/ /

217
Ejemplo de aplicación: Para calcular un intervalo de confianza al 95% para la
proporción de heridos con lesiones medulares entre aquellos que sufren accidente de
tráfico graves 1, calculamos 23/60 0.3833 y obtenemos / . 1.96
en la tabla de la distribución normal. Sustituyendo estos valores en la expresión anterior
obtenemos el intervalo:

0.39035 0.11947 0.27088,  0.50982

por lo que, con un 95% de confianza la proporción de heridos afectados de lesiones


medulares se encuentra entre el 27.088% y el 50.982% del total de heridos.

10.2 Método de Agresti-Coull


Este método proporciona un intervalo de confianza para la proporción con una expresión
algo más sencilla que la anterior, si bien requiere tamaños muestrales ( mayores que
40. El intervalo de confianza de Agresti-Coull a nivel 1 es de la forma:

1
/

Siendo:

/ /2

Ejemplo de aplicación: Calculamos de nuevo un intervalo de confianza al 95% para la


proporción de heridos que sufren lesiones medulares a partir de los datos del ejemplo 1,
utilizando ahora el método de Agresti-Coull (podemos hacerlo ya que 40 . En este
caso se tiene 0.39035, . 1.96 y 63.84. Sustituyendo se obtiene el
intervalo:

0.39035 1.96 ⋅ 0.06105 0.39035 1.96 ⋅ 0.11964 0.27069,0.51002

218
que como puede apreciarse es muy similar al obtenido por el método de Wilson (los
extremos se diferencian en menos de una milésima). De hecho, a medida que aumenta
los métodos de Agresti y Coull, y Wilson tienden a producir el mismo intervalo.

10.3 Método de Wald


Este método es similar al anterior, si bien su cálculo es más sencillo ya que sólo depende
de , pero requiere tamaños muestrales aún mayores ( 60 y que 5 y

5. El intervalo de Wald es de la forma:

1
/

10.4 Método de Clopper y Pearson


En el caso de que el tamaño de la muestra o el valor de la proporción estimada sean
tan pequeños que no se dan las condiciones para aplicar los métodos de Wilson o Agresti
y Coull, puede probarse que el siguiente intervalo garantiza un nivel de confianza de al
menos 1 para la estimación del parámetro :

1
,
1 1

(Intervalo de Clopper-Pearson) donde:

, , / ,    , , /

son percentiles de la distribución de Fisher. Conviene señalar que al ser un intervalo


que garantiza que la confianza es al menos 1 , en muchas ocasiones el nivel de
confianza real será mayor, por lo cual este intervalo resulta en general más amplio y por
tanto más impreciso que los anteriores, y sólo debe emplearse si no se dan las condiciones
para utilizar alguno de aquéllos.

Ejemplo de aplicación: Si con los datos del ejemplo anterior calculamos el intervalo de
Clopper-Pearson, obtenemos:

219
, ⋅ , . , , . 1.71636,

, , . , , . 1.65605

y el intervalo es entonces:

23 23 1 ⋅ 1.65605
,
60 23 1 1.71636 23 60 23 23 1 ⋅ 1.65605
0.26071,  0.51789

Como puede apreciarse este intervalo es similar a los anteriores, aunque algo más amplio.
Esta mayor amplitud se debe, como hemos señalado, a que el nivel de confianza de este
intervalo es en realidad algo mayor que el 95%.

11 Intervalos de confianza para la comparación de


proporciones en poblaciones independientes

En ocasiones se desean comparar los parámetros y de sendas distribuciones de


Bernoulli en poblaciones independientes. Por ejemplo: ¿Cuál es la diferencia entre las
proporciones de enfermos que mejoran con dos tratamientos alternativos? ¿La proporción
de microchips defectuosos difiere mucho entre dos técnicas diferentes de fabricación de
microchips?. La comparación de dos proporciones puede llevarse a cabo mediante su
diferencia o mediante su cociente / . Cada una de las dos proporciones se
estima mediante la proporción muestral, por lo que el estimador de la diferencia será
y el del cociente será / . Como en todos los casos anteriores, en la práctica
será conveniente acompañar la estimación por un intervalo de confianza.

Si los tamaños muestrales son grandes, el teorema central del límite nos indica que,
aproximadamente:

1
, ,     1,2

por lo que

1 1
,

220
de donde se deduce fácilmente que un intervalo de confianza aproximado a nivel 1
para sería de la forma:

1 1
/

(intervalo de Wald). El comportamiento de este intervalo mejora si se introduce una


corrección por continuidad en la aproximación de la distribución binomial por la normal.
Se obtiene así el intervalo de Wald corregido:

1 1 1 1 1
/
2

Cuando la comparación de las proporciones se realiza a través del cociente, puede


probarse que el siguiente intervalo, con muestras grandes ( 30), proporciona una
confianza aproximada de 1 para la estimación del logaritmo de / :

1 1
ln ∈ ln /

Ejemplo de aplicación: Se eligen al azar 160 heridos en accidentes de tráfico graves, que
viajaban en los asientos traseros de los respectivos vehículos, observándose que 30
tuvieron lesiones medulares. Asimismo se seleccionaron (independientemente de los
anteriores) 125 heridos de entre los que viajaban en los asientos delanteros,
comprobándose que 28 presentaban lesiones medulares. Se desean calcular intervalos de
confianza al 95% para la diferencia y para el cociente de las proporciones de lesionados
medulares según que se viaje en los asientos traseros o delanteros.

En este caso las proporciones de lesionados medulares según posición del asiento son,
respectivamente, 0.1875 ≅ 18.75% y 0.224 ≅ 22.4% . El

intervalo para la diferencia de proporciones es entonces:

221
0.1875 0.224

0.1875 1 0.1875 0.224 1 0.224


1.96
160 125

1 1 1
2 160 125

0.0365 0.1020 0.1385,0.0655

Así pues, se estima que entre los que viajan en el asiento trasero, el porcentaje de
lesionados medulares es un 3.65% inferior al de los que viajan en el asiento delantero, si
bien el margen de error para esta cifra es tal que con un 95% de confianza el porcentaje
podría oscilar desde un 13.85% menos a un 6.55% más.

Si deseamos estimar el cociente de proporciones, tenemos que / 0.1875/


0.224 0.8371 ≅ 83.71% , esto es, por cada 100 lesionados medulares entre los
ocupantes de asientos delanteros, hay 83.71 lesionados medulares entre los ocupantes de
los asientos traseros (la tasa de lesiones medulares en asientos traseros es un 83.71% de la
tasa en asientos delanteros). El intervalo de confianza al 95% para el logaritmo de este
cociente es:

1 0.1875 1 0.224
ln 0.8371 1.96 0.1779 0.4588
30 28

0.6367,0.2809

y el intervalo al 95% de confianza para el cociente puede obtenerse sencillamente como:

. .
, 0.5290,1.3244

Por tanto, con un 95% de confianza podemos decir que, con la incertidumbre que
presentan estos datos, la tasa de lesionados medulares entre ocupantes de asientos traseros

222
podría ser desde poco más de la mitad que la de los asientos delanteros, hasta una vez y un
tercio esta última.

Nótese que el intervalo para la diferencia contiene al cero, lo que indica que, con la
información que tenemos no es descartable que las tasas de lesiones medulares sean
iguales tanto ocupando posiciones delanteras como traseras. Idéntica conclusión
podemos alcanzar observando que el intervalo para el cociente contiene al 1.

12 Intervalo de confianza para el parámetro de una


distribución exponencial
Para obtener este intervalo recordemos que si sigue una distribución exponencial de
parámetro , entonces . Por tanto si , ,…, es una muestra aleatoria
de esa distribución, el método de analogía nos indica que el estimador de es ̂

. Puede demostrarse además que el intervalo de confianza a nivel 1 para

el parámetro de una distribución exponencial calculado a partir de una muestra


aleatoria , ,…, con media es:

 2 2
,
, / , /

Ejemplo: En una instalación eléctrica, cada vez que se funde un fusible, es reemplazado
por otro de iguales características. El tiempo entre reemplazamientos se supone
exponencial. A partir de los datos de los últimos 20 fusibles que se han reemplazado, se
ha obtenido un tiempo medio entre reemplazamientos de 23 días. Se desea estimar el
valor del parámetro , así como obtener un intervalo de confianza al 95% para dicho
parámetro.

El estimador de es simplemente ̂ 23 . En la tabla de la distribución


encontramos los valores , . 24.433,    , . 59.342 . Por tanto el intervalo
de confianza al 95 % es:

, / , / 2 ⋅ 20 ⋅ 23 2 ⋅ 20 ⋅ 23
, , 15.5,  37.6
2 2 59.342 24.433

223
Por tanto, la duración media de los fusibles es de 23 días, si bien con una confianza del
95% podemos decir que el margen de error de dicha estimación es tal que con un 95% de
confianza la duración media puede estar entre los 15.5 y los 37.6 días.

13 Intervalo de confianza para el parámetro de una


distribución de Poisson
Otra situación frecuente en la práctica es que los datos disponibles procedan de una
distribución de Poisson de parámetro . Si se dispone de una muestra aleatoria
, ,…, de una distribución de Poisson, llamando ∑ , puede
demostrarse que el siguiente intervalo garantiza un nivel de confianza de al menos 1 -
para la estimación del parámetro:

1 1
∈ , / , , /   ,        2 ,      2 1
2 2

Ejemplo: Se realiza un estudio del número diario de accidentes de tráfico con víctimas
mortales. Para ello se han seleccionado al azar 40 días del último año y se ha
contado el número de accidentes con víctimas mortales cada día. Durante ese periodo se
observó un total de 134 de tales accidentes. Suponiendo que el número de
accidentes diarios con víctimas mortales sigue una distribución de Poisson, se desea
estimar el parámetro de dicha distribución con un intervalo de confianza del 95%.

Procediendo del mismo modo que con la exponencial es fácil observar que el estimador
puntual de parámetro de Poisson es ̄ 3.35 . Para obtener el intervalo de

confianza calculamos:

2 2 ⋅ 134 268,           2 134 1 270


, . 224.5465                , . 317.4092

Por tanto, el intervalo de confianza al 95% es:

1 1
224.5465, 317.4092   2.807,   3.968
80 80

224
14. Tamaño de la muestra
Los intervalos de confianza nos permiten determinar el tamaño de muestra necesario para
estimar un parámetro con una precisión predeterminada. Para ello, el procedimiento
general consiste en fijar el error máximo que estamos dispuestos a cometer en la
estimación, y el nivel de confianza 1 de la misma. A continuación, utilizando el
intervalo de confianza más adecuado para el parámetro que se desea estimar, se iguala el
margen de error de dicho intervalo al valor de y se despeja el valor de , que será
entonces el tamaño de muestra buscado.

En caso de que el parámetro a estimar dependa de dos muestras de tamaños respectivos


y (por ejemplo en la estimación de la diferencia de medias, la diferencia de
proporciones o el cociente de varianzas), consideraremos que y
utilizaremos el mismo tamaño muestral para ambas muestras.

Asimismo, en caso de que el intervalo de confianza dependa de alguna cantidad que no se


conoce antes de llevar a efecto el muestreo (caso de la varianza muestral o la proporción
muestral), podemos recurrir a varias alternativas:

 Tomar una muestra piloto (usualmente una muestra de tamaño reducido


que sea posible tomar de forma rápida y con un coste de tiempo y recursos dentro
de lo razonable y/o disponible) que nos proporcione un valor aproximado de dicha
cantidad.

 Buscar en la literatura referente al problema que nos ocupa valores que


puedan resultar razonables en nuestro caso para esa cantidad desconocida.

 Utilizar como valor de el que resultaría del intervalo más grande


posible. Por ejemplo, al estimar una proporción, la longitud del intervalo depende
del valor de ̂ ; dicho valor no se conoce antes de tomar la muestra, pero el
intervalo más grande (el peor de los posibles) se obtiene cuando ̂ 1/2. Este
valor es el que se utilizará para despejar .

14.1 Tamaño de muestra para la estimación de la media de una


población normal

225
En este caso, el intervalo de confianza para es

, /

Por tanto, si queremos estimar con un error máximo igualamos:

, /

y despejamos :

, /

Obviamente, como no se conoce , no puede calcularse el valor de , / . Ahora bien,


teniendo en cuenta que para valores grandes de , la de Student se aproxima a la
normal (y grande en este contexto puede ser del orden de 30), en la ecuación anterior se
sustituye el valor , / por / y por tanto el tamaño de la muestra es:

donde el valor de (desviación típica) habrá de obtenerse por alguno de los métodos
señalados anteriormente (muestra piloto o información publicada en la literatura).

14.2 Tamaño de muestra para la estimación de la varianza de


una población normal
El intervalo de confianza a nivel 1 para estimar esta varianza es:

1 1
∈ ,
, / , /

Si queremos estimar con un error máximo deberemos determinar de forma que

1 1 1
2 , / , /

de donde:

226
1 1 2
1
, / , /

Esta ecuación no puede resolverse explícitamente, por lo que habrá que probar diversos
valores de . Del mismo modo que en el caso anterior, no se conoce antes de llevar a
cabo el muestreo, por lo que su valor habrá de sustituirse por un valor calculado sobre una
muestra piloto, o por un valor máximo razonable que pueda encontrarse en la bibliografía
referente al problema en estudio.

14.3. Tamaño de muestra para la estimación de la diferencia


de medias de poblaciones normales independientes
El intervalo de confianza para la diferencia de medias en poblaciones normales es de la
forma:

∓ , /

Si hacemos y aproximamos , / / , el tamaño de muestra para


un error máximo se obtiene de:

esto es:

Como siempre, y habrán de obtenerse de una muestra piloto o de alguna otra


fuente de información disponible.

14.4 Tamaño de muestra para la estimación de una proporción


Ya hemos visto (intervalo de Wald) que si 60 el intervalo de confianza a nivel 1
para es aproximadamente:

1
∈ /

227
Entonces, si queremos estimar con un error inferior a un valor prefijado deberemos
despejar de:

1 /
/ ⇒ 1

Obviamente, como es desconocido, esta ecuación no resulta útil. Si se dispone de una


estimación previa (obtenida en una muestra piloto, en una revisión bibliográfica o en
un problema similar) puede sustituirse dicha estimación en la fórmula anterior. Otra
alternativa consiste en observar que en esta fórmula el valor más grande de se obtiene
cuando 1/2 (ya que 1 representa una parábola invertida con su máximo en
ese valor). Por tanto, en el peor de los casos, si no se tiene información sobre ,
sustituiremos el valor 1/2 en la ecuación anterior, en cuyo caso, el tamaño de
muestra es:

/
2

que garantiza un error de estimación inferior a cualquiera que sea el valor de .

228
ACTIVIDADES
1. El tiempo transcurrido entre las llamadas que se reciben diariamente en un
servicio de atención telefónica es una variable aleatoria con distribución
exponencial. Los tiempos transcurridos entre las últimas 10 llamadas fueron los
siguientes (en minutos): 1.72, 10.96, 2.11, 0.53, 3.10, 11.54, 3.46, 9.16, 2.58,
0.33.
a) Estima el valor del parámetro de esta distribución.
b) Calcula un intervalo de confianza al 95% para dicho parámetro.
c) Calcula un intervalo de confianza al 90% para el parámetro.

2. El número de visitas diarias a la consulta de un médico sigue una distribución de


Poisson. Se elige al azar una muestra de 15 días. El número de visitas recibido
cada uno de esos días fue: 13, 14, 14, 16, 13, 7, ,9, 11, 17, 12, 17, 17, 9, 13, 6.
Estima el parámetro de la dsitribución de Poisson y calcula un intervalo de
confianza al 95% para el mismo. 

3. El tiempo (en minutos) que tarda en llegar el técnico de mantenimiento al lugar en


que se ha producido una avería sigue una distribución exponencial de parámetro
desconocido. Se han registrado los tiempos que ha tardado en llegar el técnico a
40 averías elegidas al azar entre las producidas el último año, observándose un
tiempo medio de 48,09 minutos. Calcula un intervalo de confianza al 90% para el
parámetro.

4. Se ha llevado a cabo una encuesta de satisfacción sobre un servicio de atención


telefónica. Se ha preguntado a 500 personas, de las cuales 386 afirmaron estar
satisfechas y el resto indicaron que el servicio era mejorable. Estima la proporción
de personas en la población que se encuentran satisfechas con este servicio y
calcula un intervalo de confianza al 95% para dicha proporción.

5. Se ensayan dos procedimientos para la depuración de aguas residuales. Como


variable respuesta se mide la concentración de coliformes totales por litro de agua.
El procedimiento 1 se prueba 23 veces produciendo una concentración media de
893 coliformes/litro y una desviación típica de 156 col/litro. El procedimiento 2 se

229
prueba 25 veces produciendo una concentración media de 954 col/litro con
desviación típica de 185 col/litro.
a) Calcula un intervalo de confianza al 90% para la concentración media de
coliformes conseguida con cada procedimiento.
b) Calcula un intervalo de confianza al 95% para la diferencia entre las
concentraciones medias de ambos procedimientos.
c) Calcula un intervalo de confianza al 95% para la varianza del primer
procedimiento.
d) Calcula un intervalo de confianza al 90% para el cociente de varianzas
entre ambos procedimientos.
e) ¿Muestran estos datos evidencias de que la concentración media de
coliformes difiera entre ambos procedimientos?

6. Se desea estimar el consumo medio diario de agua en los hogares de cierta ciudad.
Datos preliminares indican que la desviación típica de dicho consumo está
alrededor de los 130 litros diarios. Determinar el tamaño de la muestra si:
a) Se desea estimar el consumo medio con un error inferior a 20 litros con
una confianza del 95%
b) Se desea estimar el consumo medio con un error inferior a 30 litros con
una confianza del 90%

7. Con objeto de diseñar una campaña contra el tabaco se realiza una encuesta en dos
ciudades A y B. En la ciudad A, de 500 encuestados fumaban 238; en la ciudad B
se entrevistó a 600 personas, de las que fumaban 324.
a) Calcula intervalos de confianza al 95% para la proporción de fumadores
en cada una de las ciudades.
b) Calcula un intervalo de confianza al 95% para el cociente de ambas
proporciones.
c) Calcula un intervalo de confianza al 95% para la diferencia de ambas
proporciones
d) ¿Muestran estos intervalos evidencia de que la proporción de fumadores
difiera entre ambas ciudades?

8. Se dispone de registros de velocidad del viento medidos en una localidad costera.

230
Concretamente en una muestra de 60 valores de velocidad, la desviación típica ha
sido de 34 m/seg. En otra localidad, también con una muestra de 60 valores, la
desviación típica ha sido de 39 m/seg.
a) Calcula un intervalo de confianza para el cociente de ambas varianzas.
¿Sugiere el intervalo que la variabilidad de la velocidad del viento difiere
entre ambas localidades?
b) Supongamos ahora que se han registrado los mismos valores de varianza,
pero ahora sobre muestras de 150 registros de viento en cada localidad.
Vuelve a calcular el intervalo de confianza. ¿Se mantiene la conclusión
del apartado anterior?

9. Se ha realizado un experimento para comparar dos métodos diferentes de


medición de la concentración de cierto contaminante en agua. Para ello se
tomaron 10 muestras de agua en una playa, cada muestra de 100 cc. Al llegar al
laboratorio, cada muestra se agitó bien y se separó en dos fracciones de 50 cc; la
primera fracción fue analizada con el método A y la segunda con el método B. La
siguiente tabla muestra los resultados obtenidos (concentración medida en mg/cc)
Muestra Método A Método B
1 58.61 63.32
2 98.72 105.87
3 77.28 75.89
4 73.52 74.5
5 93.12 95.09
6 75.79 83.76
7 66.58 71.06
8 66 66.18
9 83.02 84.33
10 108.49 119.54

a) Calcula la media y la desviación típica de la concentración medida con


cada método
b) Calcula un intervalo de confianza al 99% para la concentración media
medida con cada método

231
c) Calcula un intervalo de confianza al 95% para la diferencia entre las
concentraciones medias medidas con cada método.
d) ¿Sugiere el intervalo de confianza que ambos métodos difieren en su
medidas de la concentración?

10. Se han tomado muestras de sangre de trabajadores sometidos a contaminación


ambiental en su puesto de trabajo. Interesa determinar si hay diferencias en la
protección conseguida con dos distintos sistemas de descontaminación. Para ello
se eligen dos fábricas en idénticas condiciones; en una de ellas se instala un
sistema que llamaremos A y en la otra un sistema que llamaremos B. El efecto de
la contaminación se puede detectar a través de la concentración de cierta enzima
en la sangre. Los datos de esta concentración procedentes de 24 trabajadores de la
fábrica con el sistema A fueron 76, 80, 78, 87, 77, 80, 82, 86, 75, 78, 84, 56, 68,
97, 78, 79, 77, 89, 92, 86, 75, 77, 89, 84. En la fábrica equipada con el sistema B
se midió la concentración en 20 trabajadores, con el siguiente resultado: 65, 58,
74, 78, 98, 56, 64, 68, 69, 75, 77, 84, 85, 64, 67, 72, 71, 77, 78, 64. Suponiendo
que la concentración de enzimas sigue una distribución normal, calcula un
intervalo de confianza al 95% para la diferencia entre las concentraciones medias
medidas en cada fábrica. ¿Sugieren los datos que el sistema B puede ser más
eficiente que el A? (la eficiencia se entiende en el sentido de que disminuye la
concentración de contaminante).

EJERCICIOS DE AUTOEVALUACIÓN

1. La duración (en meses) de las mangueras de cierta marca comercial utilizadas en


un paqrque de bomberos siguen una distribución exponencial. Se han probado 30
de estas mangueras, resultando una duración media de 30,46 meses. Un intervalo
de confianza al 95% para el parámetro de la distribución exponencial es:
a) [0.022, 0.046]
b) [0.032, 0.042]
c) [0.012, 0.056]
d) [21.276, 43.478]

232
2. Para estimar el tiempo en horas que se emplea en tareas de descontaminación por
vertidos se realizan 20 pruebas sobre sendas regiones experimentales de 1 km^2
de extensión. Los tiempos (en horas) empleados en cada una de estas pruebas
fueron: 17.1, 14.6, 16.7, 18.6, 14.9, 18.4, 19.3, 17.2, 10.7, 16.0, 18.5, 17.4, 15.5,
22.5, 14.5, 21.8, 15.2, 15.2, 23.0, 20.0. El intervalo de confianza al 95% para el
tiempo medio de descontaminación es:
a) [15.94, 18.77]
b) [16.18, 18.52]
c) [15.42, 19.29]
d) [15.42, 18.52]

3. En una central química, la densidad de cierto gas en el reactor principal es una


variable aleatoria con distribución normal. Se toman 24 medidas de esta variable,
observándose una densidad media de 1.95 kg/m3, con una desviación típica de
0.3. Un intervalo de confianza al 95% para la densidad media de este gas en el
reactor es:
a) [1.462, 2.496]
b) [1,827, 2,08]
c) [1.279, 2.704]
d) [1.644, 2.288]
4. El tiempo de recarga para cierto modelo de vehículo eléctrico sigue una
distribución normal. Se ha tomado una muestra de 36 de estos vehículos,
observándose un tiempo medio de recarga de 6.3 horas, con desviación típica de
1.51 horas. Un intervalo de confianza al 90% para el tiempo medio de recarga es:
a) [4.1146 8.7490]
b) [4.7024 8.0760]
c) [5.2902 7.4030]
d) [5.878 6.730]

5. La energía producida anualmente por los aerogeneradores de cierta clase sigue


una distribución normal. Se ha medido la energía producida por 64
aerogeneradores de un campo eólico durante 6 meses, dando como resultado una
media de 603,31 kWh, con una desviación típica de 158,69. Un intervalo de

233
confianza al 95% para la desviación típica de la energía producida por los
aerogeneradores de esta clase es:
a) [121.6548, 211.4123]
b) [94.6204, 249.8509]
c) [135.172, 192.193]
d) [108.1376, 230.6316]

6. Se ha seleccionado una muestra aleatoria de 150 extintores fabricados por cierta


marca. 8 presentaron defectos de fabricación. Utilizando el método de
Agresti-Coull, el intervalo de confianza al 95% para la proporción de extintores
con defectos de fabricación es:
a) [0.02567, 0.1033]
b) [0.02846, 0.1048]
c) [0.02260, 0.1014]
d) [0.03408, 0.1160]

7. El número de items que deben ser desechados cada hora en una linea de
producción debido a defectos de fabricación sigue una distribución de Poisson. Se
ha realizado un muestreo aleatorio durante 60 horas, obsevándose una media de
3,78 items desechados por hora. Un intervalo de confianza al 95% para el
parámetro λ de esta distribución es:
a) [0.351 0.264]
b) [0.303 0.232]
c) [4.828 6.021]
d) [3.304 4.305]

8. Se realizan análisis de calidad de agua en dos puntos de una red de abasto. En el


punto 1 se han tomado 30 muestras que han dado una concentración media de
9.83 mg/l de contaminante, con una desviación típica de 1.85 mg/l. En el punto 2
se han tomado 34 muestras que han dado una concentración media de 8.43 mg/l
con una desviación típica de 2.60 mg/l. El intervalo de confianza al 90% para la
diferencia en las concentraciones medias de este contaminante es:
a) [0.46, 2.33]
b) [0.27, 2.51]

234
c) [-0.098, 2.88]
d) [0.15, 2.64]

9. En una ciudad del interior, se toma una muestra aleatoria de 196 personas, de las
cuales 25 padecen alergias estacionales. En una ciudad costera de la misma
región, en una muestra de 208 personas se han detectado 30 con alergias
poblacionales. Un intervalo de confianza al 95% para la diferencia entre las
proporciones de afectados por alergias poblacionales en ambas ciudades es:
a) [-0.08 , 0.04]
b) [-0.07 , 0.03]
c) [-0.09 , 0.06]
d) [-0.06 , 0.02]

10. Se ha pasado un test psicotécnico a dos grupos de trabajadores de una empresa; el


grupo A ha recibido entrenamiento específico para hacer frente a situaciones de
emergencia, mientras que el grupo B no lo ha recibido. La puntuación del test
valora la disposición psicológica para hacer frente a dichas situaciones;
puntuaciones cercanas a cero denotan individuos que se bloquean con facilidad y
puntuaciones próximas a 100 indican sujetos con alta capacidad para organizarse
y responder a la emergencia. El grupo A está formado por 27 trabajadores y la
puntuación media alcanzada ha sido de 63.9 con desviación típica 11.7; el grupo
B, con 34 trabajadores, ha obtenido una puntuación media de 58.2 con desviación
típica 24.1. El intervalo de confianza al 95% para el cociente de las varianzas (del
grupo A dividida por la del grupo B) es:
a) [0.10, 0.58]
b) [0.13, 0.44]
c) [0.12, 0.46]
d) [0.11, 0.50]

SOLUCIONES A LOS EJERCICIOS DE


AUTOEVALUACIÓN

235
1. (a)
2. (a)
3. (b)
4. (d)
5. (c)
6. (a)
7. (d)
8. (a)
9. (c)
10. (d)

BIBLIOGRAFÍA
Armitage, P., & Berry, G. (1997). Estadística para la investigación biomédica. Harcourt

Brace Madrid.

Cachero, M. L. (1996). Fundamentos y métodos de estadística.

De la Horra Navarro, J. (2003). Estadística aplicada.

Devore, J. L. (2008). Probabilidad Y Estadistica Para Ingenieria Y Ciencias/Probability

And Statistics For Engineering And Sciences. Cengage Learning Editores.

Evans, M. J., & Rosenthal, J. S. (2005). Probabilidad y estadística. Reverté.

Gómez, A. A. (2008). Estadística básica con R y R-Commander. Servicio Publicaciones

UCA.

Johnson, R. R., & Kuby, P. (2008). Estadistica elemental/Just the Essentials of

Elementary Statistics: Lo esencial/The Essentials. Cengage Learning Editores.

Levin, J., del Valle, V., & Elorza, H. (1979). Fundamentos de estadística en la

investigación social. Harla.

Martel, P. J., & Vegas, F. J. D. (1997). Probabilidad y estadística matemática:

aplicaciones en la práctica clínica y en la gestión sanitaria. Ediciones Díaz de

236
Santos.

Martín, Q. M., & de Paz Santana, Y. del R. (2007). Tratamiento estadístico de datos con

SPSS. Editorial Paraninfo.

Mendenhall, W., Scheaffer, R. L., Wackerly, D. D., De la Fuente Pantoja, A., &

Verbeeck, D. V. (1986). Estadística matemática con aplicaciones. Grupo

Editorial Iberoamericana ^ eCalifornia California.

Mode, E. B. (1990). Elementos de probabilidad y estadística. Reverté.

Moore, D. S. (2005a). Estadística aplicada básica. Antoni Bosch editor.

Norman, G. R., Streiner, D. L., & Tarrés, J. (1996). Bioestadística. Mosby/Doyma

Libros.

Peebles, P. Z. (2006). Principios de probabilidad, variables aleatorias y señales

aleatorias. Santaló, L. A., & Scientific, R. (1970). Probabilidad e inferencia

estadística. Edwin S.

Seaman, J., Leivesley, S., & Hogg, C. (1989). Epidemiología de desastres naturales.

Harla.

Spiegel, M. R., Espadas, J. L. G., & Villasante, A. L. (1982). Teoría y problemas de

estadística. Mcgraw-hill.

237
TABLA DE LA DISTRIBUCIÓN NORMAL UNITARIA, N(0;1)

z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09


0 0.5 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.4721 0.46812 0.46414
0.1 0.46017 0.4562 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465
0.2 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591
0.3 0.38209 0.37828 0.37448 0.3707 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827
0.4 0.34458 0.3409 0.33724 0.3336 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207
0.5 0.30854 0.30503 0.30153 0.29806 0.2946 0.29116 0.28774 0.28434 0.28096 0.2776
0.6 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.2451
0.7 0.24196 0.23885 0.23576 0.2327 0.22965 0.22663 0.22363 0.22065 0.2177 0.21476
0.8 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673
0.9 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109
1 0.15866 0.15625 0.15386 0.15151 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786
1.1 0.13567 0.1335 0.13136 0.12924 0.12714 0.12507 0.12302 0.121 0.119 0.11702
1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853
1.3 0.0968 0.0951 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226
1.4 0.08076 0.07927 0.0778 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811
1.5 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592
1.6 0.0548 0.0537 0.05262 0.05155 0.0505 0.04947 0.04846 0.04746 0.04648 0.04551
1.7 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.0392 0.03836 0.03754 0.03673
1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938
1.9 0.02872 0.02807 0.02743 0.0268 0.02619 0.02559 0.025 0.02442 0.02385 0.0233
2 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.0197 0.01923 0.01876 0.01831
2.1 0.01786 0.01743 0.017 0.01659 0.01618 0.01578 0.01539 0.015 0.01463 0.01426
2.2 0.0139 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.0116 0.0113 0.01101
2.3 0.01072 0.01044 0.01017 0.0099 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842
2.4 0.0082 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639
2.5 0.00621 0.00604 0.00587 0.0057 0.00554 0.00539 0.00523 0.00508 0.00494 0.0048
2.6 0.00466 0.00453 0.0044 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357
2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.0028 0.00272 0.00264
2.8 0.00256 0.00248 0.0024 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193
2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139
3 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.001
3.1 0.00097 0.00094 0.0009 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071
3.2 0.00069 0.00066 0.00064 0.00062 0.0006 0.00058 0.00056 0.00054 0.00052 0.0005
3.3 0.00048 0.00047 0.00045 0.00043 0.00042 0.0004 0.00039 0.00038 0.00036 0.00035
3.4 0.00034 0.00032 0.00031 0.0003 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024
3.5 0.00023 0.00022 0.00022 0.00021 0.0002 0.00019 0.00019 0.00018 0.00017 0.00017
3.6 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011
3.7 0.00011 0.0001 0.0001 0.0001 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008
3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005
3.9 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003
4 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002 0.00002
4.1 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00001 0.00001
4.2 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001
4.3 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001
4.4 0.00001 0.00001 0 0 0 0 0 0 0 0
TABLA DE LA DISTRIBUCIÓN t STUDENT

Probabilidad a
t 0.45 0.4 0.3 0.2 0.1 0.05 0.025 0.01 0.005
1 0.15838 0.32492 0.72654 1.37638 3.07768 6.31375 12.7062 31.8205 63.6567
2 0.14213 0.28868 0.61721 1.06066 1.88562 2.91999 4.30265 6.96456 9.92484
3 0.1366 0.27667 0.58439 0.97847 1.63774 2.35336 3.18245 4.5407 5.84091
4 0.13383 0.27072 0.56865 0.94096 1.53321 2.13185 2.77645 3.74695 4.60409
5 0.13218 0.26718 0.55943 0.91954 1.47588 2.01505 2.57058 3.36493 4.03214
6 0.13108 0.26483 0.55338 0.9057 1.43976 1.94318 2.44691 3.14267 3.70743
7 0.13029 0.26317 0.54911 0.89603 1.41492 1.89458 2.36462 2.99795 3.49948
8 0.12971 0.26192 0.54593 0.88889 1.39682 1.85955 2.306 2.89646 3.35539
9 0.12925 0.26096 0.54348 0.8834 1.38303 1.83311 2.26216 2.82144 3.24984
10 0.12889 0.26018 0.54153 0.87906 1.37218 1.81246 2.22814 2.76377 3.16927
11 0.12859 0.25956 0.53994 0.87553 1.36343 1.79588 2.20099 2.71808 3.10581
12 0.12835 0.25903 0.53862 0.87261 1.35622 1.78229 2.17881 2.681 3.05454
13 0.12814 0.25859 0.5375 0.87015 1.35017 1.77093 2.16037 2.65031 3.01228
14 0.12796 0.25821 0.53655 0.86805 1.34503 1.76131 2.14479 2.62449 2.97684
15 0.12781 0.25789 0.53573 0.86624 1.34061 1.75305 2.13145 2.60248 2.94671
16 0.12767 0.2576 0.53501 0.86467 1.33676 1.74588 2.11991 2.58349 2.92078
17 0.12755 0.25735 0.53438 0.86328 1.33338 1.73961 2.10982 2.56693 2.89823
18 0.12745 0.25712 0.53382 0.86205 1.33039 1.73406 2.10092 2.55238 2.87844
19 0.12735 0.25692 0.53331 0.86095 1.32773 1.72913 2.09302 2.53948 2.86093
20 0.12727 0.25674 0.53286 0.85996 1.32534 1.72472 2.08596 2.52798 2.84534
21 0.12719 0.25658 0.53246 0.85907 1.32319 1.72074 2.07961 2.51765 2.83136
22 0.12712 0.25643 0.53208 0.85827 1.32124 1.71714 2.07387 2.50832 2.81876
23 0.12706 0.2563 0.53175 0.85753 1.31946 1.71387 2.06866 2.49987 2.80734
24 0.127 0.25617 0.53144 0.85686 1.31784 1.71088 2.0639 2.49216 2.79694
25 0.12694 0.25606 0.53115 0.85624 1.31635 1.70814 2.05954 2.48511 2.78744
26 0.12689 0.25595 0.53089 0.85567 1.31497 1.70562 2.05553 2.47863 2.77871
27 0.12685 0.25586 0.53065 0.85514 1.3137 1.70329 2.05183 2.47266 2.77068
28 0.12681 0.25577 0.53042 0.85465 1.31253 1.70113 2.04841 2.46714 2.76326
29 0.12677 0.25568 0.53021 0.85419 1.31143 1.69913 2.04523 2.46202 2.75639
30 0.12673 0.25561 0.53002 0.85377 1.31042 1.69726 2.04227 2.45726 2.75
31 0.1267 0.25553 0.52984 0.85337 1.30946 1.69552 2.03951 2.45282 2.74404
32 0.12666 0.25546 0.52967 0.853 1.30857 1.69389 2.03693 2.44868 2.73848
33 0.12663 0.2554 0.5295 0.85265 1.30774 1.69236 2.03452 2.44479 2.73328
34 0.1266 0.25534 0.52935 0.85232 1.30695 1.69092 2.03224 2.44115 2.72839
35 0.12658 0.25528 0.52921 0.85201 1.30621 1.68957 2.03011 2.43772 2.72381
45 0.12637 0.25485 0.52814 0.84968 1.30065 1.67943 2.0141 2.41212 2.68959
55 0.12624 0.25458 0.52745 0.84821 1.29713 1.67303 2.00404 2.39608 2.66822
65 0.12615 0.25439 0.52698 0.84719 1.29471 1.66864 1.99714 2.3851 2.6536
75 0.12609 0.25425 0.52664 0.84644 1.29294 1.66543 1.9921 2.3771 2.64298
85 0.12604 0.25414 0.52637 0.84587 1.29159 1.66298 1.98827 2.37102 2.63491
95 0.126 0.25406 0.52616 0.84542 1.29053 1.66105 1.98525 2.36624 2.62858
105 0.12597 0.25399 0.526 0.84506 1.28967 1.6595 1.98282 2.36239 2.62347
115 0.12594 0.25393 0.52586 0.84476 1.28896 1.65821 1.98081 2.35921 2.61926
125 0.12592 0.25389 0.52574 0.84451 1.28836 1.65714 1.97912 2.35655 2.61573
∞ 0.12566 0.25335 0.5244 0.84162 1.28155 1.64485 1.95996 2.32635 2.57583
TABLA DE LA DISTRIBUCIÓN CHI CUADRADO

Probabilidad a
c2 0.995 0.99 0.975 0.95 0.9 0.5 0.2 0.1 0.05 0.025 0.01 0.005
1 7.879 6.635 5.024 3.841 2.706 0.455 0.064 0.016 0.004 0.001 0.000 0.000
2 10.597 9.210 7.378 5.991 4.605 1.386 0.446 0.211 0.103 0.051 0.020 0.010
3 12.838 11.345 9.348 7.815 6.251 2.366 1.005 0.584 0.352 0.216 0.115 0.072
4 14.860 13.277 11.143 9.488 7.779 3.357 1.649 1.064 0.711 0.484 0.297 0.207
5 16.750 15.086 12.833 11.070 9.236 4.351 2.343 1.610 1.145 0.831 0.554 0.412
6 18.548 16.812 14.449 12.592 10.645 5.348 3.070 2.204 1.635 1.237 0.872 0.676
7 20.278 18.475 16.013 14.067 12.017 6.346 3.822 2.833 2.167 1.690 1.239 0.989
8 21.955 20.090 17.535 15.507 13.362 7.344 4.594 3.490 2.733 2.180 1.646 1.344
9 23.589 21.666 19.023 16.919 14.684 8.343 5.380 4.168 3.325 2.700 2.088 1.735
10 25.188 23.209 20.483 18.307 15.987 9.342 6.179 4.865 3.940 3.247 2.558 2.156
11 26.757 24.725 21.920 19.675 17.275 10.341 6.989 5.578 4.575 3.816 3.053 2.603
12 28.300 26.217 23.337 21.026 18.549 11.340 7.807 6.304 5.226 4.404 3.571 3.074
13 29.819 27.688 24.736 22.362 19.812 12.340 8.634 7.042 5.892 5.009 4.107 3.565
14 31.319 29.141 26.119 23.685 21.064 13.339 9.467 7.790 6.571 5.629 4.660 4.075
15 32.801 30.578 27.488 24.996 22.307 14.339 10.307 8.547 7.261 6.262 5.229 4.601
16 34.267 32.000 28.845 26.296 23.542 15.338 11.152 9.312 7.962 6.908 5.812 5.142
17 35.718 33.409 30.191 27.587 24.769 16.338 12.002 10.085 8.672 7.564 6.408 5.697
18 37.156 34.805 31.526 28.869 25.989 17.338 12.857 10.865 9.390 8.231 7.015 6.265
19 38.582 36.191 32.852 30.144 27.204 18.338 13.716 11.651 10.117 8.907 7.633 6.844
Grados de libertad

20 39.997 37.566 34.170 31.410 28.412 19.337 14.578 12.443 10.851 9.591 8.260 7.434
21 41.401 38.932 35.479 32.671 29.615 20.337 15.445 13.240 11.591 10.283 8.897 8.034
22 42.796 40.289 36.781 33.924 30.813 21.337 16.314 14.041 12.338 10.982 9.542 8.643
23 44.181 41.638 38.076 35.172 32.007 22.337 17.187 14.848 13.091 11.689 10.196 9.260
24 45.559 42.980 39.364 36.415 33.196 23.337 18.062 15.659 13.848 12.401 10.856 9.886
25 46.928 44.314 40.646 37.652 34.382 24.337 18.940 16.473 14.611 13.120 11.524 10.520
26 48.290 45.642 41.923 38.885 35.563 25.336 19.820 17.292 15.379 13.844 12.198 11.160
27 49.645 46.963 43.195 40.113 36.741 26.336 20.703 18.114 16.151 14.573 12.879 11.808
28 50.993 48.278 44.461 41.337 37.916 27.336 21.588 18.939 16.928 15.308 13.565 12.461
29 52.336 49.588 45.722 42.557 39.087 28.336 22.475 19.768 17.708 16.047 14.256 13.121
30 53.672 50.892 46.979 43.773 40.256 29.336 23.364 20.599 18.493 16.791 14.953 13.787
31 55.003 52.191 48.232 44.985 41.422 30.336 24.255 21.434 19.281 17.539 15.655 14.458
32 56.328 53.486 49.480 46.194 42.585 31.336 25.148 22.271 20.072 18.291 16.362 15.134
33 57.648 54.776 50.725 47.400 43.745 32.336 26.042 23.110 20.867 19.047 17.074 15.815
34 58.964 56.061 51.966 48.602 44.903 33.336 26.938 23.952 21.664 19.806 17.789 16.501
35 60.275 57.342 53.203 49.802 46.059 34.336 27.836 24.797 22.465 20.569 18.509 17.192
45 73.166 69.957 65.410 61.656 57.505 44.335 36.884 33.350 30.612 28.366 25.901 24.311
55 85.749 82.292 77.380 73.311 68.796 54.335 46.036 42.060 38.958 36.398 33.570 31.735
65 98.105 94.422 89.177 84.821 79.973 64.335 55.262 50.883 47.450 44.603 41.444 39.383
75 110.29 106.39 100.839 96.217 91.061 74.334 64.547 59.795 56.054 52.942 49.475 47.206
85 122.32 118.24 112.393 107.52 102.08 84.334 73.878 68.777 64.749 61.389 57.634 55.170
95 134.25 129.97 123.858 118.75 113.04 94.334 83.248 77.818 73.520 69.925 65.898 63.250
105 146.07 141.62 135.247 129.92 123.95 104.33 92.650 86.909 82.354 78.536 74.252 71.428
115 157.81 153.19 146.571 141.03 134.81 114.33 102.081 96.043 91.242 87.213 82.682 79.692
125 169.47 164.69 157.839 152.09 145.64 124.33 111.536 105.21 100.178 95.946 91.180 88.029
150 198.36 193.21 185.800 179.58 172.58 149.33 135.263 128.28 122.692 117.98 112.67 109.14
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.1)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 39.86 8.53 5.54 4.54 4.06 3.78 3.59 3.46 3.36 3.29 3.23 3.18 3.14 3.10 3.07 2.97 2.92 2.88 2.85 2.84 2.82 2.81 2.80 2.79 2.77 2.75 2.71
2 49.50 9.00 5.46 4.32 3.78 3.46 3.26 3.11 3.01 2.92 2.86 2.81 2.76 2.73 2.70 2.59 2.53 2.49 2.46 2.44 2.42 2.41 2.40 2.39 2.37 2.35 2.30
3 53.59 9.16 5.39 4.19 3.62 3.29 3.07 2.92 2.81 2.73 2.66 2.61 2.56 2.52 2.49 2.38 2.32 2.28 2.25 2.23 2.21 2.20 2.19 2.18 2.15 2.13 2.08
4 55.83 9.24 5.34 4.11 3.52 3.18 2.96 2.81 2.69 2.61 2.54 2.48 2.43 2.39 2.36 2.25 2.18 2.14 2.11 2.09 2.07 2.06 2.05 2.04 2.02 1.99 1.94
5 57.24 9.29 5.31 4.05 3.45 3.11 2.88 2.73 2.61 2.52 2.45 2.39 2.35 2.31 2.27 2.16 2.09 2.05 2.02 2.00 1.98 1.97 1.95 1.95 1.92 1.90 1.85
6 58.20 9.33 5.28 4.01 3.40 3.05 2.83 2.67 2.55 2.46 2.39 2.33 2.28 2.24 2.21 2.09 2.02 1.98 1.95 1.93 1.91 1.90 1.88 1.87 1.85 1.82 1.77
7 58.91 9.35 5.27 3.98 3.37 3.01 2.78 2.62 2.51 2.41 2.34 2.28 2.23 2.19 2.16 2.04 1.97 1.93 1.90 1.87 1.85 1.84 1.83 1.82 1.79 1.77 1.72
8 59.44 9.37 5.25 3.95 3.34 2.98 2.75 2.59 2.47 2.38 2.30 2.24 2.20 2.15 2.12 2.00 1.93 1.88 1.85 1.83 1.81 1.80 1.78 1.77 1.75 1.72 1.67
9 59.86 9.38 5.24 3.94 3.32 2.96 2.72 2.56 2.44 2.35 2.27 2.21 2.16 2.12 2.09 1.96 1.89 1.85 1.82 1.79 1.77 1.76 1.75 1.74 1.71 1.68 1.63
10 60.19 9.39 5.23 3.92 3.30 2.94 2.70 2.54 2.42 2.32 2.25 2.19 2.14 2.10 2.06 1.94 1.87 1.82 1.79 1.76 1.74 1.73 1.72 1.71 1.68 1.65 1.60
11 60.47 9.40 5.22 3.91 3.28 2.92 2.68 2.52 2.40 2.30 2.23 2.17 2.12 2.07 2.04 1.91 1.84 1.79 1.76 1.74 1.72 1.70 1.69 1.68 1.65 1.63 1.57
12 60.71 9.41 5.22 3.90 3.27 2.90 2.67 2.50 2.38 2.28 2.21 2.15 2.10 2.05 2.02 1.89 1.82 1.77 1.74 1.71 1.70 1.68 1.67 1.66 1.63 1.60 1.55
Grados de libertad del numerador

13 60.90 9.41 5.21 3.89 3.26 2.89 2.65 2.49 2.36 2.27 2.19 2.13 2.08 2.04 2.00 1.87 1.80 1.75 1.72 1.70 1.68 1.66 1.65 1.64 1.61 1.58 1.52
14 61.07 9.42 5.20 3.88 3.25 2.88 2.64 2.48 2.35 2.26 2.18 2.12 2.07 2.02 1.99 1.86 1.79 1.74 1.70 1.68 1.66 1.64 1.63 1.62 1.59 1.56 1.50
15 61.22 9.42 5.20 3.87 3.24 2.87 2.63 2.46 2.34 2.24 2.17 2.10 2.05 2.01 1.97 1.84 1.77 1.72 1.69 1.66 1.64 1.63 1.61 1.60 1.57 1.55 1.49
20 61.74 9.44 5.18 3.84 3.21 2.84 2.59 2.42 2.30 2.20 2.12 2.06 2.01 1.96 1.92 1.79 1.72 1.67 1.63 1.61 1.58 1.57 1.55 1.54 1.51 1.48 1.42
25 62.05 9.45 5.17 3.83 3.19 2.81 2.57 2.40 2.27 2.17 2.10 2.03 1.98 1.93 1.89 1.76 1.68 1.63 1.60 1.57 1.55 1.53 1.52 1.50 1.47 1.44 1.38
30 62.26 9.46 5.17 3.82 3.17 2.80 2.56 2.38 2.25 2.16 2.08 2.01 1.96 1.91 1.87 1.74 1.66 1.61 1.57 1.54 1.52 1.50 1.49 1.48 1.44 1.41 1.34
35 62.42 9.46 5.16 3.81 3.16 2.79 2.54 2.37 2.24 2.14 2.06 2.00 1.94 1.90 1.86 1.72 1.64 1.59 1.55 1.52 1.50 1.48 1.47 1.45 1.42 1.39 1.32
40 62.53 9.47 5.16 3.80 3.16 2.78 2.54 2.36 2.23 2.13 2.05 1.99 1.93 1.89 1.85 1.71 1.63 1.57 1.53 1.51 1.48 1.46 1.45 1.44 1.40 1.37 1.30
45 62.62 9.47 5.16 3.80 3.15 2.77 2.53 2.35 2.22 2.12 2.04 1.98 1.92 1.88 1.84 1.70 1.62 1.56 1.52 1.49 1.47 1.45 1.44 1.42 1.39 1.35 1.28
50 62.69 9.47 5.15 3.80 3.15 2.77 2.52 2.35 2.22 2.12 2.04 1.97 1.92 1.87 1.83 1.69 1.61 1.55 1.51 1.48 1.46 1.44 1.43 1.41 1.38 1.34 1.26
55 62.75 9.47 5.15 3.79 3.14 2.77 2.52 2.34 2.21 2.11 2.03 1.96 1.91 1.86 1.82 1.68 1.60 1.54 1.50 1.47 1.45 1.43 1.42 1.40 1.37 1.33 1.25
60 62.79 9.47 5.15 3.79 3.14 2.76 2.51 2.34 2.21 2.11 2.03 1.96 1.90 1.86 1.82 1.68 1.59 1.54 1.50 1.47 1.44 1.42 1.41 1.40 1.36 1.32 1.24
65 62.84 9.48 5.15 3.79 3.14 2.76 2.51 2.34 2.20 2.10 2.02 1.96 1.90 1.85 1.81 1.67 1.59 1.53 1.49 1.46 1.44 1.42 1.40 1.39 1.35 1.31 1.23
70 62.87 9.48 5.15 3.79 3.14 2.76 2.51 2.33 2.20 2.10 2.02 1.95 1.90 1.85 1.81 1.67 1.58 1.53 1.49 1.46 1.43 1.41 1.40 1.38 1.34 1.31 1.22
75 62.90 9.48 5.15 3.78 3.13 2.75 2.51 2.33 2.20 2.10 2.02 1.95 1.89 1.85 1.80 1.66 1.58 1.52 1.48 1.45 1.43 1.41 1.39 1.38 1.34 1.30 1.21
80 62.93 9.48 5.15 3.78 3.13 2.75 2.50 2.33 2.20 2.09 2.01 1.95 1.89 1.84 1.80 1.66 1.58 1.52 1.48 1.45 1.42 1.40 1.39 1.37 1.33 1.29 1.21
85 62.95 9.48 5.15 3.78 3.13 2.75 2.50 2.33 2.19 2.09 2.01 1.94 1.89 1.84 1.80 1.66 1.57 1.52 1.47 1.44 1.42 1.40 1.38 1.37 1.33 1.29 1.20
90 62.97 9.48 5.15 3.78 3.13 2.75 2.50 2.32 2.19 2.09 2.01 1.94 1.89 1.84 1.80 1.65 1.57 1.51 1.47 1.44 1.41 1.39 1.38 1.36 1.33 1.28 1.20
95 62.99 9.48 5.14 3.78 3.13 2.75 2.50 2.32 2.19 2.09 2.01 1.94 1.88 1.84 1.79 1.65 1.57 1.51 1.47 1.44 1.41 1.39 1.37 1.36 1.32 1.28 1.19
100 63.01 9.48 5.14 3.78 3.13 2.75 2.50 2.32 2.19 2.09 2.01 1.94 1.88 1.83 1.79 1.65 1.56 1.51 1.47 1.43 1.41 1.39 1.37 1.36 1.32 1.28 1.18
105 63.02 9.48 5.14 3.78 3.13 2.75 2.50 2.32 2.19 2.09 2.00 1.94 1.88 1.83 1.79 1.65 1.56 1.50 1.46 1.43 1.41 1.39 1.37 1.35 1.31 1.27 1.18
110 63.04 9.48 5.14 3.78 3.12 2.74 2.49 2.32 2.19 2.08 2.00 1.93 1.88 1.83 1.79 1.65 1.56 1.50 1.46 1.43 1.40 1.38 1.37 1.35 1.31 1.27 1.18
115 63.05 9.48 5.14 3.78 3.12 2.74 2.49 2.32 2.19 2.08 2.00 1.93 1.88 1.83 1.79 1.64 1.56 1.50 1.46 1.43 1.40 1.38 1.36 1.35 1.31 1.27 1.17
120 63.06 9.48 5.14 3.78 3.12 2.74 2.49 2.32 2.18 2.08 2.00 1.93 1.88 1.83 1.79 1.64 1.56 1.50 1.46 1.42 1.40 1.38 1.36 1.35 1.31 1.26 1.17
125 63.07 9.48 5.14 3.77 3.12 2.74 2.49 2.32 2.18 2.08 2.00 1.93 1.87 1.83 1.79 1.64 1.56 1.50 1.46 1.42 1.40 1.38 1.36 1.35 1.30 1.26 1.17
∞ 63.33 9.49 5.13 3.76 3.10 2.72 2.47 2.29 2.16 2.06 1.97 1.90 1.85 1.80 1.76 1.61 1.52 1.46 1.41 1.38 1.35 1.33 1.31 1.29 1.24 1.19 1.00
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.01)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 4052.18 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 9.65 9.33 9.07 8.86 8.68 8.10 7.77 7.56 7.42 7.31 7.23 7.17 7.12 7.08 6.96 6.85 6.63
2 4999.50 99.00 30.82 18.00 13.27 10.92 9.55 8.65 8.02 7.56 7.21 6.93 6.70 6.51 6.36 5.85 5.57 5.39 5.27 5.18 5.11 5.06 5.01 4.98 4.88 4.79 4.61
3 5403.35 99.17 29.46 16.69 12.06 9.78 8.45 7.59 6.99 6.55 6.22 5.95 5.74 5.56 5.42 4.94 4.68 4.51 4.40 4.31 4.25 4.20 4.16 4.13 4.04 3.95 3.78
4 5624.58 99.25 28.71 15.98 11.39 9.15 7.85 7.01 6.42 5.99 5.67 5.41 5.21 5.04 4.89 4.43 4.18 4.02 3.91 3.83 3.77 3.72 3.68 3.65 3.56 3.48 3.32
5 5763.65 99.30 28.24 15.52 10.97 8.75 7.46 6.63 6.06 5.64 5.32 5.06 4.86 4.69 4.56 4.10 3.85 3.70 3.59 3.51 3.45 3.41 3.37 3.34 3.26 3.17 3.02
6 5858.99 99.33 27.91 15.21 10.67 8.47 7.19 6.37 5.80 5.39 5.07 4.82 4.62 4.46 4.32 3.87 3.63 3.47 3.37 3.29 3.23 3.19 3.15 3.12 3.04 2.96 2.80
7 5928.36 99.36 27.67 14.98 10.46 8.26 6.99 6.18 5.61 5.20 4.89 4.64 4.44 4.28 4.14 3.70 3.46 3.30 3.20 3.12 3.07 3.02 2.98 2.95 2.87 2.79 2.64
8 5981.07 99.37 27.49 14.80 10.29 8.10 6.84 6.03 5.47 5.06 4.74 4.50 4.30 4.14 4.00 3.56 3.32 3.17 3.07 2.99 2.94 2.89 2.85 2.82 2.74 2.66 2.51
9 6022.47 99.39 27.35 14.66 10.16 7.98 6.72 5.91 5.35 4.94 4.63 4.39 4.19 4.03 3.89 3.46 3.22 3.07 2.96 2.89 2.83 2.78 2.75 2.72 2.64 2.56 2.41
10 6055.85 99.40 27.23 14.55 10.05 7.87 6.62 5.81 5.26 4.85 4.54 4.30 4.10 3.94 3.80 3.37 3.13 2.98 2.88 2.80 2.74 2.70 2.66 2.63 2.55 2.47 2.32
11 6083.32 99.41 27.13 14.45 9.96 7.79 6.54 5.73 5.18 4.77 4.46 4.22 4.02 3.86 3.73 3.29 3.06 2.91 2.80 2.73 2.67 2.63 2.59 2.56 2.48 2.40 2.25
12 6106.32 99.42 27.05 14.37 9.89 7.72 6.47 5.67 5.11 4.71 4.40 4.16 3.96 3.80 3.67 3.23 2.99 2.84 2.74 2.66 2.61 2.56 2.53 2.50 2.42 2.34 2.18
Grados de libertad del numerador

13 6125.86 99.42 26.98 14.31 9.82 7.66 6.41 5.61 5.05 4.65 4.34 4.10 3.91 3.75 3.61 3.18 2.94 2.79 2.69 2.61 2.55 2.51 2.47 2.44 2.36 2.28 2.13
14 6142.67 99.43 26.92 14.25 9.77 7.60 6.36 5.56 5.01 4.60 4.29 4.05 3.86 3.70 3.56 3.13 2.89 2.74 2.64 2.56 2.51 2.46 2.42 2.39 2.31 2.23 2.08
15 6157.28 99.43 26.87 14.20 9.72 7.56 6.31 5.52 4.96 4.56 4.25 4.01 3.82 3.66 3.52 3.09 2.85 2.70 2.60 2.52 2.46 2.42 2.38 2.35 2.27 2.19 2.04
20 6208.73 99.45 26.69 14.02 9.55 7.40 6.16 5.36 4.81 4.41 4.10 3.86 3.66 3.51 3.37 2.94 2.70 2.55 2.44 2.37 2.31 2.27 2.23 2.20 2.12 2.03 1.88
25 6239.83 99.46 26.58 13.91 9.45 7.30 6.06 5.26 4.71 4.31 4.01 3.76 3.57 3.41 3.28 2.84 2.60 2.45 2.35 2.27 2.21 2.17 2.13 2.10 2.01 1.93 1.77
30 6260.65 99.47 26.50 13.84 9.38 7.23 5.99 5.20 4.65 4.25 3.94 3.70 3.51 3.35 3.21 2.78 2.54 2.39 2.28 2.20 2.14 2.10 2.06 2.03 1.94 1.86 1.70
35 6275.57 99.47 26.45 13.79 9.33 7.18 5.94 5.15 4.60 4.20 3.89 3.65 3.46 3.30 3.17 2.73 2.49 2.34 2.23 2.15 2.09 2.05 2.01 1.98 1.89 1.81 1.64
40 6286.78 99.47 26.41 13.75 9.29 7.14 5.91 5.12 4.57 4.17 3.86 3.62 3.43 3.27 3.13 2.69 2.45 2.30 2.19 2.11 2.05 2.01 1.97 1.94 1.85 1.76 1.59
45 6295.52 99.48 26.38 13.71 9.26 7.11 5.88 5.09 4.54 4.14 3.83 3.59 3.40 3.24 3.10 2.67 2.42 2.27 2.16 2.08 2.02 1.97 1.94 1.90 1.82 1.73 1.55
50 6302.52 99.48 26.35 13.69 9.24 7.09 5.86 5.07 4.52 4.12 3.81 3.57 3.38 3.22 3.08 2.64 2.40 2.25 2.14 2.06 2.00 1.95 1.91 1.88 1.79 1.70 1.52
55 6308.25 99.48 26.33 13.67 9.22 7.07 5.84 5.05 4.50 4.10 3.79 3.55 3.36 3.20 3.06 2.62 2.38 2.22 2.12 2.04 1.98 1.93 1.89 1.86 1.77 1.68 1.50
60 6313.03 99.48 26.32 13.65 9.20 7.06 5.82 5.03 4.48 4.08 3.78 3.54 3.34 3.18 3.05 2.61 2.36 2.21 2.10 2.02 1.96 1.91 1.87 1.84 1.75 1.66 1.47
65 6317.08 99.48 26.30 13.64 9.19 7.04 5.81 5.02 4.47 4.07 3.76 3.52 3.33 3.17 3.03 2.59 2.35 2.19 2.08 2.00 1.94 1.89 1.85 1.82 1.73 1.64 1.45
70 6320.55 99.48 26.29 13.63 9.18 7.03 5.80 5.01 4.46 4.06 3.75 3.51 3.32 3.16 3.02 2.58 2.34 2.18 2.07 1.99 1.93 1.88 1.84 1.81 1.71 1.62 1.43
75 6323.56 99.49 26.28 13.61 9.17 7.02 5.79 5.00 4.45 4.05 3.74 3.50 3.31 3.15 3.01 2.57 2.33 2.17 2.06 1.98 1.92 1.87 1.83 1.79 1.70 1.61 1.42
80 6326.20 99.49 26.27 13.61 9.16 7.01 5.78 4.99 4.44 4.04 3.73 3.49 3.30 3.14 3.00 2.56 2.32 2.16 2.05 1.97 1.91 1.86 1.82 1.78 1.69 1.60 1.40
85 6328.52 99.49 26.26 13.60 9.15 7.01 5.77 4.98 4.43 4.03 3.73 3.49 3.29 3.13 3.00 2.55 2.31 2.15 2.04 1.96 1.90 1.85 1.81 1.77 1.68 1.59 1.39
90 6330.59 99.49 26.25 13.59 9.14 7.00 5.77 4.97 4.43 4.03 3.72 3.48 3.28 3.12 2.99 2.55 2.30 2.14 2.03 1.95 1.89 1.84 1.80 1.76 1.67 1.58 1.38
95 6332.44 99.49 26.25 13.58 9.14 6.99 5.76 4.97 4.42 4.02 3.71 3.47 3.28 3.12 2.98 2.54 2.29 2.14 2.03 1.94 1.88 1.83 1.79 1.76 1.66 1.57 1.37
100 6334.11 99.49 26.24 13.58 9.13 6.99 5.75 4.96 4.41 4.01 3.71 3.47 3.27 3.11 2.98 2.54 2.29 2.13 2.02 1.94 1.88 1.82 1.78 1.75 1.65 1.56 1.36
105 6335.62 99.49 26.23 13.57 9.12 6.98 5.75 4.96 4.41 4.01 3.70 3.46 3.27 3.11 2.97 2.53 2.28 2.13 2.01 1.93 1.87 1.82 1.78 1.74 1.65 1.55 1.35
110 6336.99 99.49 26.23 13.57 9.12 6.98 5.75 4.95 4.41 4.00 3.70 3.46 3.26 3.10 2.97 2.53 2.28 2.12 2.01 1.93 1.86 1.81 1.77 1.74 1.64 1.55 1.34
115 6338.24 99.49 26.23 13.56 9.12 6.97 5.74 4.95 4.40 4.00 3.69 3.45 3.26 3.10 2.96 2.52 2.27 2.12 2.00 1.92 1.86 1.81 1.77 1.73 1.64 1.54 1.33
120 6339.39 99.49 26.22 13.56 9.11 6.97 5.74 4.95 4.40 4.00 3.69 3.45 3.25 3.09 2.96 2.52 2.27 2.11 2.00 1.92 1.85 1.80 1.76 1.73 1.63 1.53 1.32
125 6340.45 99.49 26.22 13.55 9.11 6.97 5.73 4.94 4.39 3.99 3.69 3.45 3.25 3.09 2.96 2.51 2.27 2.11 2.00 1.91 1.85 1.80 1.76 1.72 1.63 1.53 1.32
∞ 6365.86 99.50 26.13 13.46 9.02 6.88 5.65 4.86 4.31 3.91 3.60 3.36 3.17 3.00 2.87 2.42 2.17 2.01 1.89 1.80 1.74 1.68 1.64 1.60 1.49 1.38 1.00
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.05)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 161.45 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.35 4.24 4.17 4.12 4.08 4.06 4.03 4.02 4.00 3.96 3.92 3.84
2 199.50 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.49 3.39 3.32 3.27 3.23 3.20 3.18 3.16 3.15 3.11 3.07 3.00
3 215.71 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.10 2.99 2.92 2.87 2.84 2.81 2.79 2.77 2.76 2.72 2.68 2.60
4 224.58 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 2.87 2.76 2.69 2.64 2.61 2.58 2.56 2.54 2.53 2.49 2.45 2.37
5 230.16 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.71 2.60 2.53 2.49 2.45 2.42 2.40 2.38 2.37 2.33 2.29 2.21
6 233.99 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.60 2.49 2.42 2.37 2.34 2.31 2.29 2.27 2.25 2.21 2.18 2.10
7 236.77 19.35 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.51 2.40 2.33 2.29 2.25 2.22 2.20 2.18 2.17 2.13 2.09 2.01
8 238.88 19.37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.45 2.34 2.27 2.22 2.18 2.15 2.13 2.11 2.10 2.06 2.02 1.94
9 240.54 19.38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.39 2.28 2.21 2.16 2.12 2.10 2.07 2.06 2.04 2.00 1.96 1.88
10 241.88 19.40 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.35 2.24 2.16 2.11 2.08 2.05 2.03 2.01 1.99 1.95 1.91 1.83
11 242.98 19.40 8.76 5.94 4.70 4.03 3.60 3.31 3.10 2.94 2.82 2.72 2.63 2.57 2.51 2.31 2.20 2.13 2.07 2.04 2.01 1.99 1.97 1.95 1.91 1.87 1.79
12 243.91 19.41 8.74 5.91 4.68 4.00 3.57 3.28 3.07 2.91 2.79 2.69 2.60 2.53 2.48 2.28 2.16 2.09 2.04 2.00 1.97 1.95 1.93 1.92 1.88 1.83 1.75
Grados de libertad del numerador

13 244.69 19.42 8.73 5.89 4.66 3.98 3.55 3.26 3.05 2.89 2.76 2.66 2.58 2.51 2.45 2.25 2.14 2.06 2.01 1.97 1.94 1.92 1.90 1.89 1.84 1.80 1.72
14 245.36 19.42 8.71 5.87 4.64 3.96 3.53 3.24 3.03 2.86 2.74 2.64 2.55 2.48 2.42 2.22 2.11 2.04 1.99 1.95 1.92 1.89 1.88 1.86 1.82 1.78 1.69
15 245.95 19.43 8.70 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.40 2.20 2.09 2.01 1.96 1.92 1.89 1.87 1.85 1.84 1.79 1.75 1.67
20 248.01 19.45 8.66 5.80 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.12 2.01 1.93 1.88 1.84 1.81 1.78 1.76 1.75 1.70 1.66 1.57
25 249.26 19.46 8.63 5.77 4.52 3.83 3.40 3.11 2.89 2.73 2.60 2.50 2.41 2.34 2.28 2.07 1.96 1.88 1.82 1.78 1.75 1.73 1.71 1.69 1.64 1.60 1.51
30 250.10 19.46 8.62 5.75 4.50 3.81 3.38 3.08 2.86 2.70 2.57 2.47 2.38 2.31 2.25 2.04 1.92 1.84 1.79 1.74 1.71 1.69 1.67 1.65 1.60 1.55 1.46
35 250.69 19.47 8.60 5.73 4.48 3.79 3.36 3.06 2.84 2.68 2.55 2.44 2.36 2.28 2.22 2.01 1.89 1.81 1.76 1.72 1.68 1.66 1.64 1.62 1.57 1.52 1.42
40 251.14 19.47 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.20 1.99 1.87 1.79 1.74 1.69 1.66 1.63 1.61 1.59 1.54 1.50 1.39
45 251.49 19.47 8.59 5.71 4.45 3.76 3.33 3.03 2.81 2.65 2.52 2.41 2.33 2.25 2.19 1.98 1.86 1.77 1.72 1.67 1.64 1.61 1.59 1.57 1.52 1.47 1.37
50 251.77 19.48 8.58 5.70 4.44 3.75 3.32 3.02 2.80 2.64 2.51 2.40 2.31 2.24 2.18 1.97 1.84 1.76 1.70 1.66 1.63 1.60 1.58 1.56 1.51 1.46 1.35
55 252.00 19.48 8.58 5.69 4.44 3.75 3.31 3.01 2.79 2.63 2.50 2.39 2.30 2.23 2.17 1.96 1.83 1.75 1.69 1.65 1.61 1.59 1.56 1.55 1.49 1.44 1.33
60 252.20 19.48 8.57 5.69 4.43 3.74 3.30 3.01 2.79 2.62 2.49 2.38 2.30 2.22 2.16 1.95 1.82 1.74 1.68 1.64 1.60 1.58 1.55 1.53 1.48 1.43 1.32
65 252.36 19.48 8.57 5.68 4.43 3.73 3.30 3.00 2.78 2.61 2.48 2.38 2.29 2.22 2.15 1.94 1.81 1.73 1.67 1.63 1.59 1.57 1.54 1.52 1.47 1.42 1.30
70 252.50 19.48 8.57 5.68 4.42 3.73 3.29 2.99 2.78 2.61 2.48 2.37 2.28 2.21 2.15 1.93 1.81 1.72 1.66 1.62 1.59 1.56 1.54 1.52 1.46 1.41 1.29
75 252.62 19.48 8.56 5.68 4.42 3.73 3.29 2.99 2.77 2.60 2.47 2.37 2.28 2.21 2.14 1.93 1.80 1.72 1.66 1.61 1.58 1.55 1.53 1.51 1.45 1.40 1.28
80 252.72 19.48 8.56 5.67 4.41 3.72 3.29 2.99 2.77 2.60 2.47 2.36 2.27 2.20 2.14 1.92 1.80 1.71 1.65 1.61 1.57 1.54 1.52 1.50 1.45 1.39 1.27
85 252.82 19.48 8.56 5.67 4.41 3.72 3.28 2.98 2.76 2.60 2.47 2.36 2.27 2.20 2.13 1.92 1.79 1.71 1.65 1.60 1.57 1.54 1.52 1.50 1.44 1.39 1.26
90 252.90 19.48 8.56 5.67 4.41 3.72 3.28 2.98 2.76 2.59 2.46 2.36 2.27 2.19 2.13 1.91 1.79 1.70 1.64 1.60 1.56 1.53 1.51 1.49 1.44 1.38 1.26
95 252.97 19.49 8.56 5.67 4.41 3.71 3.28 2.98 2.76 2.59 2.46 2.35 2.26 2.19 2.13 1.91 1.78 1.70 1.64 1.59 1.56 1.53 1.51 1.49 1.43 1.37 1.25
100 253.04 19.49 8.55 5.66 4.41 3.71 3.27 2.97 2.76 2.59 2.46 2.35 2.26 2.19 2.12 1.91 1.78 1.70 1.63 1.59 1.55 1.52 1.50 1.48 1.43 1.37 1.24
105 253.10 19.49 8.55 5.66 4.40 3.71 3.27 2.97 2.75 2.59 2.45 2.35 2.26 2.18 2.12 1.90 1.78 1.69 1.63 1.59 1.55 1.52 1.50 1.48 1.42 1.36 1.24
110 253.16 19.49 8.55 5.66 4.40 3.71 3.27 2.97 2.75 2.58 2.45 2.34 2.26 2.18 2.12 1.90 1.77 1.69 1.63 1.58 1.55 1.52 1.49 1.47 1.42 1.36 1.23
115 253.21 19.49 8.55 5.66 4.40 3.71 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.12 1.90 1.77 1.69 1.63 1.58 1.54 1.51 1.49 1.47 1.41 1.36 1.23
120 253.25 19.49 8.55 5.66 4.40 3.70 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.11 1.90 1.77 1.68 1.62 1.58 1.54 1.51 1.49 1.47 1.41 1.35 1.22
125 253.30 19.49 8.55 5.66 4.40 3.70 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.11 1.89 1.77 1.68 1.62 1.57 1.54 1.51 1.48 1.46 1.41 1.35 1.22
∞ 254.31 19.50 8.53 5.63 4.36 3.67 3.23 2.93 2.71 2.54 2.40 2.30 2.21 2.13 2.07 1.84 1.71 1.62 1.56 1.51 1.47 1.44 1.41 1.39 1.32 1.25 1.00
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.025)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 647.79 38.51 17.44 12.22 10.01 8.81 8.07 7.57 7.21 6.94 6.72 6.55 6.41 6.30 6.20 5.87 5.69 5.57 5.48 5.42 5.38 5.34 5.31 5.29 5.22 5.15 5.02
2 799.50 39.00 16.04 10.65 8.43 7.26 6.54 6.06 5.71 5.46 5.26 5.10 4.97 4.86 4.77 4.46 4.29 4.18 4.11 4.05 4.01 3.97 3.95 3.93 3.86 3.80 3.69
3 864.16 39.17 15.44 9.98 7.76 6.60 5.89 5.42 5.08 4.83 4.63 4.47 4.35 4.24 4.15 3.86 3.69 3.59 3.52 3.46 3.42 3.39 3.36 3.34 3.28 3.23 3.12
4 899.58 39.25 15.10 9.60 7.39 6.23 5.52 5.05 4.72 4.47 4.28 4.12 4.00 3.89 3.80 3.51 3.35 3.25 3.18 3.13 3.09 3.05 3.03 3.01 2.95 2.89 2.79
5 921.85 39.30 14.88 9.36 7.15 5.99 5.29 4.82 4.48 4.24 4.04 3.89 3.77 3.66 3.58 3.29 3.13 3.03 2.96 2.90 2.86 2.83 2.81 2.79 2.73 2.67 2.57
6 937.11 39.33 14.73 9.20 6.98 5.82 5.12 4.65 4.32 4.07 3.88 3.73 3.60 3.50 3.41 3.13 2.97 2.87 2.80 2.74 2.70 2.67 2.65 2.63 2.57 2.52 2.41
7 948.22 39.36 14.62 9.07 6.85 5.70 4.99 4.53 4.20 3.95 3.76 3.61 3.48 3.38 3.29 3.01 2.85 2.75 2.68 2.62 2.58 2.55 2.53 2.51 2.45 2.39 2.29
8 956.66 39.37 14.54 8.98 6.76 5.60 4.90 4.43 4.10 3.85 3.66 3.51 3.39 3.29 3.20 2.91 2.75 2.65 2.58 2.53 2.49 2.46 2.43 2.41 2.35 2.30 2.19
9 963.28 39.39 14.47 8.90 6.68 5.52 4.82 4.36 4.03 3.78 3.59 3.44 3.31 3.21 3.12 2.84 2.68 2.57 2.50 2.45 2.41 2.38 2.36 2.33 2.28 2.22 2.11
10 968.63 39.40 14.42 8.84 6.62 5.46 4.76 4.30 3.96 3.72 3.53 3.37 3.25 3.15 3.06 2.77 2.61 2.51 2.44 2.39 2.35 2.32 2.29 2.27 2.21 2.16 2.05
11 973.03 39.41 14.37 8.79 6.57 5.41 4.71 4.24 3.91 3.66 3.47 3.32 3.20 3.09 3.01 2.72 2.56 2.46 2.39 2.33 2.29 2.26 2.24 2.22 2.16 2.10 1.99
12 976.71 39.41 14.34 8.75 6.52 5.37 4.67 4.20 3.87 3.62 3.43 3.28 3.15 3.05 2.96 2.68 2.51 2.41 2.34 2.29 2.25 2.22 2.19 2.17 2.11 2.05 1.94
Grados de libertad del numerador

13 979.84 39.42 14.30 8.71 6.49 5.33 4.63 4.16 3.83 3.58 3.39 3.24 3.12 3.01 2.92 2.64 2.48 2.37 2.30 2.25 2.21 2.18 2.15 2.13 2.07 2.01 1.90
14 982.53 39.43 14.28 8.68 6.46 5.30 4.60 4.13 3.80 3.55 3.36 3.21 3.08 2.98 2.89 2.60 2.44 2.34 2.27 2.21 2.17 2.14 2.11 2.09 2.03 1.98 1.87
15 984.87 39.43 14.25 8.66 6.43 5.27 4.57 4.10 3.77 3.52 3.33 3.18 3.05 2.95 2.86 2.57 2.41 2.31 2.23 2.18 2.14 2.11 2.08 2.06 2.00 1.94 1.83
20 993.10 39.45 14.17 8.56 6.33 5.17 4.47 4.00 3.67 3.42 3.23 3.07 2.95 2.84 2.76 2.46 2.30 2.20 2.12 2.07 2.03 1.99 1.97 1.94 1.88 1.82 1.71
25 998.08 39.46 14.12 8.50 6.27 5.11 4.40 3.94 3.60 3.35 3.16 3.01 2.88 2.78 2.69 2.40 2.23 2.12 2.05 1.99 1.95 1.92 1.89 1.87 1.81 1.75 1.63
30 1001.41 39.46 14.08 8.46 6.23 5.07 4.36 3.89 3.56 3.31 3.12 2.96 2.84 2.73 2.64 2.35 2.18 2.07 2.00 1.94 1.90 1.87 1.84 1.82 1.75 1.69 1.57
35 1003.80 39.47 14.06 8.43 6.20 5.04 4.33 3.86 3.53 3.28 3.09 2.93 2.80 2.70 2.61 2.31 2.15 2.04 1.96 1.90 1.86 1.83 1.80 1.78 1.71 1.65 1.52
40 1005.60 39.47 14.04 8.41 6.18 5.01 4.31 3.84 3.51 3.26 3.06 2.91 2.78 2.67 2.59 2.29 2.12 2.01 1.93 1.88 1.83 1.80 1.77 1.74 1.68 1.61 1.48
45 1007.00 39.48 14.02 8.39 6.16 4.99 4.29 3.82 3.49 3.24 3.04 2.89 2.76 2.65 2.56 2.27 2.10 1.99 1.91 1.85 1.81 1.77 1.74 1.72 1.65 1.59 1.45
50 1008.12 39.48 14.01 8.38 6.14 4.98 4.28 3.81 3.47 3.22 3.03 2.87 2.74 2.64 2.55 2.25 2.08 1.97 1.89 1.83 1.79 1.75 1.72 1.70 1.63 1.56 1.43
55 1009.03 39.48 14.00 8.37 6.13 4.97 4.26 3.79 3.46 3.21 3.01 2.86 2.73 2.63 2.54 2.24 2.06 1.95 1.87 1.82 1.77 1.74 1.71 1.68 1.61 1.55 1.41
60 1009.80 39.48 13.99 8.36 6.12 4.96 4.25 3.78 3.45 3.20 3.00 2.85 2.72 2.61 2.52 2.22 2.05 1.94 1.86 1.80 1.76 1.72 1.69 1.67 1.60 1.53 1.39
65 1010.45 39.48 13.99 8.35 6.11 4.95 4.25 3.78 3.44 3.19 2.99 2.84 2.71 2.60 2.51 2.21 2.04 1.93 1.85 1.79 1.75 1.71 1.68 1.65 1.59 1.52 1.37
70 1011.00 39.48 13.98 8.35 6.11 4.94 4.24 3.77 3.43 3.18 2.99 2.83 2.70 2.60 2.51 2.20 2.03 1.92 1.84 1.78 1.74 1.70 1.67 1.64 1.57 1.50 1.36
75 1011.49 39.48 13.97 8.34 6.10 4.94 4.23 3.76 3.43 3.18 2.98 2.82 2.70 2.59 2.50 2.20 2.02 1.91 1.83 1.77 1.73 1.69 1.66 1.63 1.56 1.49 1.34
80 1011.91 39.49 13.97 8.33 6.10 4.93 4.23 3.76 3.42 3.17 2.97 2.82 2.69 2.58 2.49 2.19 2.02 1.90 1.82 1.76 1.72 1.68 1.65 1.63 1.55 1.48 1.33
85 1012.28 39.49 13.97 8.33 6.09 4.93 4.22 3.75 3.42 3.16 2.97 2.81 2.68 2.58 2.49 2.18 2.01 1.90 1.82 1.76 1.71 1.67 1.64 1.62 1.55 1.47 1.32
90 1012.61 39.49 13.96 8.33 6.09 4.92 4.22 3.75 3.41 3.16 2.96 2.81 2.68 2.57 2.48 2.18 2.01 1.89 1.81 1.75 1.70 1.67 1.64 1.61 1.54 1.47 1.31
95 1012.91 39.49 13.96 8.32 6.08 4.92 4.21 3.74 3.41 3.16 2.96 2.80 2.68 2.57 2.48 2.17 2.00 1.89 1.81 1.75 1.70 1.66 1.63 1.60 1.53 1.46 1.30
100 1013.17 39.49 13.96 8.32 6.08 4.92 4.21 3.74 3.40 3.15 2.96 2.80 2.67 2.56 2.47 2.17 2.00 1.88 1.80 1.74 1.69 1.66 1.62 1.60 1.53 1.45 1.30
105 1013.42 39.49 13.95 8.32 6.08 4.91 4.21 3.74 3.40 3.15 2.95 2.80 2.67 2.56 2.47 2.17 1.99 1.88 1.80 1.74 1.69 1.65 1.62 1.59 1.52 1.45 1.29
110 1013.64 39.49 13.95 8.31 6.07 4.91 4.20 3.73 3.40 3.15 2.95 2.79 2.66 2.56 2.47 2.16 1.99 1.87 1.79 1.73 1.68 1.65 1.62 1.59 1.52 1.44 1.28
115 1013.84 39.49 13.95 8.31 6.07 4.91 4.20 3.73 3.39 3.14 2.95 2.79 2.66 2.55 2.46 2.16 1.98 1.87 1.79 1.73 1.68 1.64 1.61 1.58 1.51 1.44 1.27
120 1014.02 39.49 13.95 8.31 6.07 4.90 4.20 3.73 3.39 3.14 2.94 2.79 2.66 2.55 2.46 2.16 1.98 1.87 1.79 1.72 1.68 1.64 1.61 1.58 1.51 1.43 1.27
125 1014.19 39.49 13.95 8.31 6.07 4.90 4.20 3.73 3.39 3.14 2.94 2.78 2.66 2.55 2.46 2.15 1.98 1.86 1.78 1.72 1.67 1.64 1.60 1.58 1.50 1.43 1.26
∞ 1018.26 39.50 13.90 8.26 6.02 4.85 4.14 3.67 3.33 3.08 2.88 2.72 2.60 2.49 2.40 2.09 1.91 1.79 1.70 1.64 1.59 1.55 1.51 1.48 1.40 1.31 1.00
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.005)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 16210.72 198.50 55.55 31.33 22.78 18.63 16.24 14.69 13.61 12.83 12.23 11.75 11.37 11.06 10.80 9.94 9.48 9.18 8.98 8.83 8.71 8.63 8.55 8.49 8.33 8.18 7.88
2 19999.50 199.00 49.80 26.28 18.31 14.54 12.40 11.04 10.11 9.43 8.91 8.51 8.19 7.92 7.70 6.99 6.60 6.35 6.19 6.07 5.97 5.90 5.84 5.79 5.67 5.54 5.30
3 21614.74 199.17 47.47 24.26 16.53 12.92 10.88 9.60 8.72 8.08 7.60 7.23 6.93 6.68 6.48 5.82 5.46 5.24 5.09 4.98 4.89 4.83 4.77 4.73 4.61 4.50 4.28
4 22499.58 199.25 46.19 23.15 15.56 12.03 10.05 8.81 7.96 7.34 6.88 6.52 6.23 6.00 5.80 5.17 4.84 4.62 4.48 4.37 4.29 4.23 4.18 4.14 4.03 3.92 3.72
5 23055.80 199.30 45.39 22.46 14.94 11.46 9.52 8.30 7.47 6.87 6.42 6.07 5.79 5.56 5.37 4.76 4.43 4.23 4.09 3.99 3.91 3.85 3.80 3.76 3.65 3.55 3.35
6 23437.11 199.33 44.84 21.97 14.51 11.07 9.16 7.95 7.13 6.54 6.10 5.76 5.48 5.26 5.07 4.47 4.15 3.95 3.81 3.71 3.64 3.58 3.53 3.49 3.39 3.28 3.09
7 23714.57 199.36 44.43 21.62 14.20 10.79 8.89 7.69 6.88 6.30 5.86 5.52 5.25 5.03 4.85 4.26 3.94 3.74 3.61 3.51 3.43 3.38 3.33 3.29 3.19 3.09 2.90
8 23925.41 199.37 44.13 21.35 13.96 10.57 8.68 7.50 6.69 6.12 5.68 5.35 5.08 4.86 4.67 4.09 3.78 3.58 3.45 3.35 3.28 3.22 3.17 3.13 3.03 2.93 2.74
9 24091.00 199.39 43.88 21.14 13.77 10.39 8.51 7.34 6.54 5.97 5.54 5.20 4.94 4.72 4.54 3.96 3.64 3.45 3.32 3.22 3.15 3.09 3.05 3.01 2.91 2.81 2.62
10 24224.49 199.40 43.69 20.97 13.62 10.25 8.38 7.21 6.42 5.85 5.42 5.09 4.82 4.60 4.42 3.85 3.54 3.34 3.21 3.12 3.04 2.99 2.94 2.90 2.80 2.71 2.52
11 24334.36 199.41 43.52 20.82 13.49 10.13 8.27 7.10 6.31 5.75 5.32 4.99 4.72 4.51 4.33 3.76 3.45 3.25 3.12 3.03 2.96 2.90 2.85 2.82 2.72 2.62 2.43
12 24426.37 199.42 43.39 20.70 13.38 10.03 8.18 7.01 6.23 5.66 5.24 4.91 4.64 4.43 4.25 3.68 3.37 3.18 3.05 2.95 2.88 2.82 2.78 2.74 2.64 2.54 2.36
Grados de libertad del numerador

13 24504.54 199.42 43.27 20.60 13.29 9.95 8.10 6.94 6.15 5.59 5.16 4.84 4.57 4.36 4.18 3.61 3.30 3.11 2.98 2.89 2.82 2.76 2.71 2.68 2.58 2.48 2.29
14 24571.77 199.43 43.17 20.51 13.21 9.88 8.03 6.87 6.09 5.53 5.10 4.77 4.51 4.30 4.12 3.55 3.25 3.06 2.93 2.83 2.76 2.70 2.66 2.62 2.52 2.42 2.24
15 24630.21 199.43 43.08 20.44 13.15 9.81 7.97 6.81 6.03 5.47 5.05 4.72 4.46 4.25 4.07 3.50 3.20 3.01 2.88 2.78 2.71 2.65 2.61 2.57 2.47 2.37 2.19
20 24835.97 199.45 42.78 20.17 12.90 9.59 7.75 6.61 5.83 5.27 4.86 4.53 4.27 4.06 3.88 3.32 3.01 2.82 2.69 2.60 2.53 2.47 2.42 2.39 2.29 2.19 2.00
25 24960.34 199.46 42.59 20.00 12.76 9.45 7.62 6.48 5.71 5.15 4.74 4.41 4.15 3.94 3.77 3.20 2.90 2.71 2.58 2.48 2.41 2.35 2.31 2.27 2.17 2.07 1.88
30 25043.63 199.47 42.47 19.89 12.66 9.36 7.53 6.40 5.62 5.07 4.65 4.33 4.07 3.86 3.69 3.12 2.82 2.63 2.50 2.40 2.33 2.27 2.23 2.19 2.08 1.98 1.79
35 25103.30 199.47 42.38 19.81 12.58 9.29 7.47 6.33 5.56 5.01 4.60 4.27 4.01 3.80 3.63 3.07 2.76 2.57 2.44 2.34 2.27 2.21 2.16 2.13 2.02 1.92 1.72
40 25148.15 199.47 42.31 19.75 12.53 9.24 7.42 6.29 5.52 4.97 4.55 4.23 3.97 3.76 3.58 3.02 2.72 2.52 2.39 2.30 2.22 2.16 2.12 2.08 1.97 1.87 1.67
45 25183.10 199.48 42.26 19.70 12.49 9.20 7.38 6.25 5.48 4.93 4.52 4.19 3.94 3.73 3.55 2.99 2.68 2.49 2.36 2.26 2.19 2.13 2.08 2.04 1.94 1.83 1.63
50 25211.09 199.48 42.21 19.67 12.45 9.17 7.35 6.22 5.45 4.90 4.49 4.17 3.91 3.70 3.52 2.96 2.65 2.46 2.33 2.23 2.16 2.10 2.05 2.01 1.90 1.80 1.59
55 25234.02 199.48 42.18 19.64 12.43 9.14 7.33 6.20 5.43 4.88 4.46 4.14 3.88 3.67 3.50 2.94 2.63 2.44 2.30 2.20 2.13 2.07 2.02 1.98 1.88 1.77 1.56
60 25253.14 199.48 42.15 19.61 12.40 9.12 7.31 6.18 5.41 4.86 4.45 4.12 3.87 3.66 3.48 2.92 2.61 2.42 2.28 2.18 2.11 2.05 2.00 1.96 1.85 1.75 1.53
65 25269.33 199.48 42.12 19.59 12.38 9.10 7.29 6.16 5.39 4.84 4.43 4.11 3.85 3.64 3.46 2.90 2.59 2.40 2.26 2.17 2.09 2.03 1.98 1.94 1.83 1.73 1.51
70 25283.22 199.49 42.10 19.57 12.37 9.09 7.28 6.15 5.38 4.83 4.41 4.09 3.84 3.62 3.45 2.88 2.58 2.38 2.25 2.15 2.08 2.02 1.97 1.93 1.82 1.71 1.49
75 25295.26 199.49 42.09 19.55 12.35 9.07 7.26 6.13 5.37 4.82 4.40 4.08 3.82 3.61 3.44 2.87 2.56 2.37 2.24 2.14 2.06 2.00 1.95 1.91 1.80 1.69 1.47
80 25305.80 199.49 42.07 19.54 12.34 9.06 7.25 6.12 5.36 4.80 4.39 4.07 3.81 3.60 3.43 2.86 2.55 2.36 2.22 2.12 2.05 1.99 1.94 1.90 1.79 1.68 1.45
85 25315.10 199.49 42.06 19.53 12.33 9.05 7.24 6.11 5.35 4.80 4.38 4.06 3.80 3.59 3.42 2.85 2.54 2.35 2.21 2.11 2.04 1.98 1.93 1.89 1.78 1.67 1.44
90 25323.38 199.49 42.04 19.52 12.32 9.04 7.23 6.10 5.34 4.79 4.37 4.05 3.79 3.58 3.41 2.84 2.53 2.34 2.20 2.10 2.03 1.97 1.92 1.88 1.77 1.66 1.43
95 25330.78 199.49 42.03 19.51 12.31 9.03 7.22 6.09 5.33 4.78 4.37 4.04 3.79 3.58 3.40 2.84 2.53 2.33 2.20 2.10 2.02 1.96 1.91 1.87 1.76 1.64 1.41
100 25337.45 199.49 42.02 19.50 12.30 9.03 7.22 6.09 5.32 4.77 4.36 4.04 3.78 3.57 3.39 2.83 2.52 2.32 2.19 2.09 2.01 1.95 1.90 1.86 1.75 1.64 1.40
105 25343.48 199.49 42.01 19.49 12.29 9.02 7.21 6.08 5.32 4.77 4.35 4.03 3.77 3.56 3.39 2.82 2.51 2.32 2.18 2.08 2.00 1.94 1.89 1.85 1.74 1.63 1.39
110 25348.97 199.49 42.00 19.48 12.29 9.01 7.20 6.08 5.31 4.76 4.35 4.02 3.77 3.56 3.38 2.82 2.51 2.31 2.17 2.07 2.00 1.94 1.89 1.85 1.73 1.62 1.38
115 25353.98 199.49 42.00 19.47 12.28 9.01 7.20 6.07 5.30 4.75 4.34 4.02 3.76 3.55 3.38 2.81 2.50 2.30 2.17 2.07 1.99 1.93 1.88 1.84 1.73 1.61 1.37
120 25358.57 199.49 41.99 19.47 12.27 9.00 7.19 6.06 5.30 4.75 4.34 4.01 3.76 3.55 3.37 2.81 2.50 2.30 2.16 2.06 1.99 1.93 1.88 1.83 1.72 1.61 1.36
125 25362.80 199.49 41.98 19.46 12.27 9.00 7.19 6.06 5.30 4.75 4.33 4.01 3.75 3.54 3.37 2.80 2.49 2.30 2.16 2.06 1.98 1.92 1.87 1.83 1.71 1.60 1.36
∞ 25464.46 199.50 41.83 19.32 12.14 8.88 7.08 5.95 5.19 4.64 4.23 3.90 3.65 3.44 3.26 2.69 2.38 2.18 2.04 1.93 1.85 1.79 1.73 1.69 1.56 1.43 1.00

S-ar putea să vă placă și