Documente Academic
Documente Profesional
Documente Cultură
Teleformación ULPGC
Md G rado en
Apuntes de
41206
Estadística Básica
Juan José González Henríquez
María del Pino Quintana Montesdeoca
Ángelo Santana del Pino
2015
COLECCIÓN: Manuales docentes de Grado en Seguridad y Control de Riesgos
Apuntes de Estadística Básica
© del texto:
Juan José González Henríquez
María del Pino Quintana Montesdeoca
Ángelo Santana del Pino
© de la edición:
Vicerrectorado de Profesorado y Planificación Académica
Estructura de Teleformación ULPGC
Maquetación y diseño:
SERVICIO DE PUBLICACIONES DE LA UNIVERSIDAD DE LAS PALMAS DE GRAN
CANARIA
ISBN Pendiente
Depósito Legal: GC-129-2015
Impresión:
SERVICIO DE REPROGRAFÍA, ENCUADERNACIÓN Y AUTOEDICIÓN DE LA ULPGC
Queda rigurosamente prohibida, sin la autorización escrita de los titulares del Copyright», bajo las
sanciones establecidas por las leyes, la reproducción parcial o total de esta obra por cualquier medio o
procedimiento, comprendidos la reprografía y el tratamiento informático.
Índice
PRESENTACIÓN ................................................................................................................. 1
Objetivos de la asignatura.......................................................................................... 3
PRESENTACIÓN ..................................................................................................... 7
OBJETIVOS .............................................................................................................. 7
1. Introducción ........................................................................................................... 9
GLOSARIO ............................................................................................................. 89
PRESENTACIÓN ................................................................................................... 91
OBJETIVOS ............................................................................................................ 94
1. Introducción ......................................................................................................... 97
BILIOGRAFIA...................................................................................................... 185
INTRODUCCIÓN A LA ASIGNATURA
PRESENTACIÓN
La asignatura de estadística Básica es una asignatura básica del segundo semestre donde el
estudiante aprende parte de los conceptos fundamentales que serán imprescindibles en todo
el desempeño posterior, académico y profesional. Pertenece al módulo técnico y su principal
objetivo es que el estudiante aprenda las principales técnicas estadísticas descriptivas e
inferenciales para evaluar la seguridad y conocer los riesgos que afectan a la sociedad.
COMPETENCIAS Y OBJETIVOS
1
G.1. Capacidad para conocer y comprender teorías, principios, modelos y conceptos, así
como normas y conceptos jurídicos básicos
G.2. Capacidad para dominar las teorías los conceptos y los instrumentos necesarios para
comprender el entorno económico y socio demográfico, así como el comportamiento
individual y colectivo.
G.10. Capacidad para respetar los derechos fundamentales y de igualdad entre hombres y
mujeres, así como los principios de igualdad de oportunidades y de accesibilidad universal
de las personas con discapacidad y con los valores propios de una cultura de paz y de
valores democráticos.
E.17. Capacidad para comunicarse eficazmente con las personas que puedan verse
implicadas en una situación de riesgo utilizando los diversos sistemas de comunicación
existentes para la transmisión de datos, valorando la vulnerabilidad de los diferentes
sistemas de comunicación y transmisión.
E.18. Capacidad para analizar los procedimientos que determinan la correcta utilización del
lenguaje radiotelefónico, los diferentes sistemas y técnicas que dan protección a las redes de
intrusiones no deseadas y el marco legislativo y normativo, nacional e internacional que
2
Objetivos de la asignatura
3
4
ESTADÍSTICA DESCRIPTIVA UNIVARIANTE
1
Unidad de Aprendizaje
5
6
PRESENTACIÓN
Florence Nightingale
Es muy importante dominar los conceptos aquí presentados ya que los documentos
científicos relacionados con la seguridad y el control de riesgos expresan y difunden sus
hallazgos usando esta terminología. Por tanto, resulta fundamental conocerlos para leer y
escribir bien un documento científico en esta área.
OBJETIVOS
Distinguir y conocer los conceptos de población y muestra
Conocer el conceptos de variable y los tipos de variables
Saber realizar e interpretar una tabla de frecuencias.
Saber representar gráficamente e interpretar un histograma, una ojiva, un diagrama
de barras (agrupadas y apiladas), un diagrama de cajas y bigotes y un diagrama de
tallos y hojas.
7
Conocer y saber calcular las medidas de tendencia central e identificar cuándo es más
adecuada una que otra.
Saber calcular correctamente las medidas de dispersión y las medidas de posición e
interpretar correctamente su significado.
Conocer la regla empírica y el Teorema de Tchebysheff y saber aplicarlo
correctamente.
Conocer y saber calcular las medidas de formas e interpretar correctamente su
significado.
8
EXPOSICIÓN DE CONTENIDOS
1. Introducción
La estadística es la ciencia de los datos. Su objetivo es recolectar, clasificar, resumir,
organizar, analizar e interpretar datos. Existen dos grandes ramas de la estadística, la
estadística descriptiva y la estadística inferencial. La estadística descriptiva como su propio
nombre indica tiene por objeto describir, resumir e interpretar los datos. Básicamente,
transforma un conjunto de datos en unas pocas medidas resumen que informan acerca de
ciertas características de los datos. Estas medidas permiten la comparación con otras medidas
de otro conjunto de datos y así poder establecer diferencias y similitudes. La estadística
inferencial tiene por objeto conocer el todo a partir de una parte. A modo de ejemplo, si un
investigador desea conocer la altura media de los habitantes de una región una forma de
averiguarlo sería medir a todos los sujetos de esa región y después promediar todos los
valores encontrados. Es obvio que esta tarea es imposible ya que consumiría mucho tiempo
y nunca estaríamos seguros de haber medido a todos los sujetos. Lo que normalmente se hace
es tomar una pequeña parte de sujetos de esa región (muestra), medirles la altura y a partir
de este valor hallar un intervalo u horquilla que intente encerrar a la media poblacional. Por
supuesto, el intervalo hallado tiene un riesgo de no haber encerrado al verdadero valor
buscado. En resumen, dado un parámetro poblacional el objetivo de la estadística inferencial
es proporcionar con cierto riego y a partir de una muestra aleatoria, un intervalo que encierre
al verdadero parámetro poblacional.
9
etiquetarse o tener un nombre corto que lo identifique unívocamente. Si introducimos en una
urna todas las etiquetas podríamos elegir al azar n valores de la urna y por tanto elegir al azar
a n sujetos u objetos de la población. A este subgrupo de la población elegido de esta manera
lo denominaremos muestra aleatoria. A partir de la medida de cada elemento de la muestra
tendremos el conjunto de observaciones o conjunto de datos que con frecuencia
mencionaremos a lo largo de esta unidad de aprendizaje.
10
los diferentes valores que toma esta variable son 1, 2, 3, 4 y 5. Denotaremos por
x , x , x , . . . , x a las modalidades de la variable X. Para cada modalidad x definiremos las
siguientes cantidades:
1. La frecuencia absoluta, denotada por n , definida como el número de veces que aparece
el valor x en la muestra. Denotaremos por f al conjunto de todas las frecuencias
absolutas.
2. La frecuencia relativa, denotada por f , definida como f . En otras palabras, f es el
número de veces que se repite el valor x dividido por el número total de observaciones.
Denotaremos por f al conjunto de todas las frecuencias relativas.
Obsérvese que tanto las frecuencias relativas como las frecuencias absolutas acumuladas sólo
tienen sentido para variables numéricas discretas y categóricas ordinales. Para las variables
categóricas nominales sólo podemos hallar las frecuencias absolutas y las frecuencias
relativas. Las frecuencia relativas y las frecuencias relativas acumuladas suelen expresarse
en porcentaje (%) o tanto por ciento.
11
Tabla 1: Tabla de frecuencias para datos categóricos y numéricos discretos
X f f F F
x n f N F
x n f N F
⋮ ⋮ ⋮ ⋮ ⋮
x n f N F
⋮ ⋮ ⋮ ⋮ ⋮
x n f N F
x n f n 1
Ejemplo:
Una colisión es un contacto violento entre dos o más vehículos en movimiento, que por la
forma en que se producen, pueden clasificarse en: frontales, embestidas, por alcance, por
raspado y múltiple. A continuación se muestran el tipo y el número de heridos (entre
paréntesis) de 50 colisiones producidas en cierto tramo de carretera durante un año:
múltiple(2), por alcance(1), por raspado(1), por raspado(0), por raspado(1), embestida(1),
por raspado(0), múltiple(3), por raspado(0), por alcance(0), por raspado(0), por raspado(0),
embestida(2), por raspado(0), por alcance(0), por raspado(0), por alcance(0), por raspado(0),
múltiple(3), por raspado(0), embestida(1), por raspado(0), múltiple(0), frontal(3),
múltiple(3), por raspado(0), por alcance(0), por alcance(0), múltiple(2), por raspado(2),
embestida(2), por raspado(1), por raspado(0), por raspado(1), por alcance(0), frontal(2),
por alcance(0), embestida(2), frontal(2), por alcance(0), embestida(1), por alcance(0),
embestida(3), por alcance(0), frontal(3), por raspado(0), por raspado(0), embestida(1),
frontal(1), múltiple(3).
La variable tipo de colisión es una variable de tipo categórico que puede tomar 5
modalidades, mientras que la variable número de heridos pueden tomar cualquier valor entero
positivo. Para este ejemplo, en la Tabla 2 y la Tabla 3 podemos observar la tabla de
frecuencias para la variable tipo de colisión y número de heridos, respectivamente.
12
Tipo Colisión f f %
embestida 8 16
frontal 5 10
múltiple 7 14
por alcance 11 22
por raspado 19 38
Número de Heridos f f % F F %
0 25 25 50 50
1 10 35 20 70
2 8 43 16 86
3 7 50 14 100
A partir de las tablas de frecuencias es muy sencillo realizar representaciones gráficas. Para
datos categóricos y numéricos discretos las más usuales son el diagrama de barras y el
diagrama de sectores. Inicialmente, para la construcción del diagrama de barras, el cual
puede ser horizontal o vertical, se dibuja los ejes cartesianos colocando equiespaciadamente
las modalidades de la variable categórica o numérica discreta en el eje positivo de las X.
Posteriormente, sobre cada modalidad de la variable se dibuja una barra rectangular con
altura igual o proporcional a su frecuencia absoluta. Para construir un diagrama de sectores
debemos asignarle a cada modalidad x un sector circular con angulo α proporcional a su
frecuencia absoluta n . Concretamente, a la modalidad x le asignamos un ángulo α f ⋅
360º. La representación gráfica del diagrma de barras y el diagrama de sectores para la
variable tipo de colisión puede apreciarse en la Figura 1 y Figura 2, respectivamente.
Número de accidentes f F f F
0 n N 0.355 F
1 n N f 0.72
2 n 180 f F
3 n N 0.075 F
4 5 N f F
Para resolver este tipo de ejercicios es preciso tener en cuenta las siguientes propiedades entre
los elementos de una tabla de una variable numérica discreta o categórica ordinal con k
modalidades:
1. n n n ... n n
2. f f f ... f 1
3. N n n n ...n
4. F f f f ...f
180 0.075 ⋅ n 5 n
16
Despejando, n 200. Con el número total de obervaciones es muy fácil determinar
.
las frecuencias absolutas. Por ejemplo, n n⋅f 200 ⋅ 0.355 71, n n⋅f
200 ⋅ 0.365 73, n 180 n n2 36, n 200 71 73 36 5 15.
Obviamente teniendo ya las frecuencias absolutas de cada una de las modalidades de la
variable es muy fácil hallar los elementos restantes y por tanto, la tabla pedida.
Número de accidentes f F f F
0 71 71 0.355 0.355
1 73 144 0.365 0.72
2 36 180 0.18 0.9
3 15 195 0.075 0.975
4 5 200 0.025 1
Una variable de tipo continuo es aquella que toma todos los valores en un continuo, es decir,
dados dos valores cualesquiera a y b de una variable X siempre es posible encontrar otro
valor c entre estos dos. Por ejemplo, la variable altura de una persona es una variable de tipo
continuo ya que si un sujeto mide 1.73 y otro mide 1.74, es posible encontrar otro sujeto que
mida 1.735 o cualquier otro valor entre 1.73 y 1.74. Por lo general, en la práctica, para este
tipo de variables es muy difícil encontrar dos valores idénticos de la variable. Esto quiere
decir que si disponemos de n observaciones y construimos una tabla de frecuencias igual que
para una variable numérica discreta obtendríamos una tabla con alrededor de n modalidades
y la mayoría de ellas con frecuencia 1. Esta tabla resulta tan poco informativa como las
propias observaciones y es por ello que necesitamos agruparlas en intervalos. Básicamente,
17
construiremos un conjunto de k intervalos que cubra a las observaciones y contaremos el
número de observaciones que se encuentran en cada intervalo. Obsérvese que hasta ahora no
hemos precisado cuántos intervalos k construiremos. Al respecto existen varios criterios,
citaremos los más relevantes:
De las tres reglas anteriores, en este manual, adoptaremos como convenio usar la regla de
Rice. Una vez conozcamos el número k de intervalos debemos determinar la amplitud h de
los intervalos. A partir del máximo y el mínimo valor de las observaciones el valor de h es:
max min
h
k 1
Como el valor de h puede tener varias cifras decimales, por convenio, redondearemos a la
décima. Por último para determinar de forma fija al conjunto de intervalos precisamos de un
valor x a partir del cual construir los intervalos. Tomaremos como valor x la parte entera
del menor valor de las observaciones. En caso de que el primer intervalo x , x h no
contenga al mínimo, tomaremos x h, x 2h como primer intervalo o bien el primer
intervalo a la derecha que contenga al mínimo. Por último, para cada intervalo, denominado
intervalo de clase, se elige un representante numérico denominado marca de clase, que
coincide con el punto medio de cada intervalo.
18
X Marca f f F F
a ,a x n f N F
a ,a x n f N F
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
a ,a x n f N F
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
a ,a x n f n 1
En la Tabla 5 puede observarse, para diferentes muestras de diferentes tamaños, el valor del
máximo y el mínimo, el número k de intervalos, el valor h de la amplitud de cada intervalo,
el valor x y el primer intervalo y el último del conjunto de intervalos que cubre a las
observaciones de cada muestra. Merece especial atención la muestra de tamaño 30 ya que en
ella el valor x 16 y sin embargo el primer intervalo que cubre al valor mínimo es
17.9,18.8 . Esto se debe a que el intervalo 16,16.8 no cubre al valor mínimo y por tanto
debemos tomar al siguiente como el primero. El resto de los casos no presenta esta
característica. Sería un buen ejercicio comprobar que todos los parámetros de cada muestra
son correctos.
Ejemplo: Se han registrado durante 30 ocasiones el tiempo (en minutos) que un vehículo de
emergencia tarda en trasladarse desde su base hasta al punto del accidente. A partir de las
observaciones que a continuación se muestran, construir la correspondiente tabla de
frecuencias: 18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,
20.78, 18.76, 15.57, 22.25, 19.91, 19.97, 21.89, 21.64, 21.19, 21.84, 21.56, 20.15, 16.02,
21.24, 19.89, 19.69, 17.06, 19.04, 20.84.
19
El primer paso es hallar según la regla de Rice el número de intervalos de nuestra tabla. Dado
/
que tenemos 30 observaciones, el valor k 2 ⋅ 30 6.21 y redondeando esta valor al
entero superior tenemos que k 7. Ahora debemos identificar a los valores mínimo y
máximo en la muestra. El mínimo valor es 15.57 y el máximo es 23.19. Con los valores
mínimo, máximo y el valor de k podemos determinar la amplitud h de los intervalos
Si redondeamos a la décima el valor de h obtenemos que h 1.3. Para finalizar con el cálculo
de parámetros necesarios para construir la tabla hallamos x y el primer intervalo x , x
h para comprobar si cubre al valor mínimo. Es facil ver x 15 y que le primer intervalo
x ,x h 15,16.3 cubre al mínimo valor. Por tanto, los restantes 6 intervalos serán
16.3,17.6 , 17.6,18.9 , 18.9,20.2 , 20.2,21.5 , 21.5,22.8 , 22.8,24.1 . Identificados
los intervalos debemos hallar las marcas de clase y contar el número de observaciones que
se encuentran en cada intervalo y a partir de ellas calcular las frecuencias relativas, las
frecuencias absolutas acumuladas y las frecuencias relativas acumuladas. En la Tabla 6
podemos observar la tabla con todos los valores calculados.
Intervalos Marca f f F F
[15,16.3) 15.65 2 0.07 2 0.07
[16.3,17.6) 16.95 1 0.03 3 0.1
[17.6,18.9) 18.25 4 0.13 7 0.23
[18.9,20.2) 19.55 7 0.23 14 0.46
[20.2,21.5) 20.85 9 0.3 23 0.76
[21.5,22.8) 22.15 5 0.17 28 0.93
[22.8,24.1) 23.45 2 0.07 30 1
Para los datos de tipo continuo existen dos tipos de gráficos, el histograma y el histograma
de frecuencias acumuladas. Para representar gráficamente el histograma se representan
sobre eje de abscisas los valores de los extremos de los intervalos de clase y para cada
20
intervalo se levanta un rectángulo de altura igual a la frecuencia absoluta o relativa y base la
anchura del intervalo de clase correspondiente. Es común, unir los puntos medios de los lados
superiores de cada uno de los rectángulos y formar el denominado polígono de frecuencias
absolutas. Para representar el histograma de frecuencias acumuladas se procede igual que
con el histograma pero tomando como altura de los rectángulos las frecuencias absolutas
acumuladas o las frecuencias relativas acumuladas. Junto con el histograma de frecuencias
acumuladas se suele superponer el denominado polígono de frecuencias acumuladas o
ojiva. Para sus representaciones gráficas se unen mediante una línea recta todos los pares de
puntos formados por los extremos superiores de los intervalos de clase y sus frecuencias
absolutas acumuladas o frecuencias relativas acumuladas junto con el par formado por el
extremo inferior del primer intervalo y el cero. A continuación representaremos
gráficamente, para la tabla del ejemplo anterior, el histograma junto con el polígono de
frecuencias absolutas y el histograma de frecuencias acumuladas junto con el polígono de
frecuencias acumuladas u ojiva.
21
Figura 5: Histograma y polígono de frecuencias absolutas
22
3.1 Medidas de tendencia central
Las medidas de tendencia central son medidas resumen que se ubican alrededor del centro
de la distribución de los datos, siendo las principales: la media aritmética, la moda y la
mediana.
La media, como todos conocemos, resulta de sumar todas las observaciones y dividir por el
número total de ellas. Se suele denotar como x y matemáticamente se expresa de varias
maneras:
La mediana, es aquel valor que deja a su izquierda el 50% de las observaciones y se obtiene
de la siguiente manera: Si el número total de observaciones n es par, ordenamos las
observaciones de menor a mayor y tomamos como valor mediano al promedio de las
observaciones que ocupan la posición n/2 y n/2 1. En caso que n sea impar entonces el
valor mediano es la observación que tras la ordenación ocupa el valor central. Denotaremos
a la mediana mediante el símbolo Med. En el caso de datos tabulados, la mediana se obtendrá
según una fórmula que veremos posteriormente en la sección de medidas de posición.
Anticiparemos que para datos de tipo discreto la mediana, tanto si los datos están tabulados
como si no coincide. Sin embargo, en el caso de datos de tipo continuo la mediana hallada a
23
partir de los datos originales es, por lo general, diferente a la obtenida a partir de la
información tabulada.
Los valores muy grandes y muy pequeños alteran considerablemente el valor de la media
aritmética. Por ejemplo, la media de 1, 2, 3, 4 y 30 es 8 mientras que la media sin este último
valor es 2.5. Cuando la discrepancia entre la media de un conjunto de observaciones con un
valor x y sin él es notable, diremos que x puede ser un outlier o valor atípico (una valor
que puede resultar de una mala anotación o una mala medición). Una medida de tendencia
central resistente a este tipo de datos es la mediana. Además es muy adecuada en datos con
asimetría positiva o negativa, es decir, conjunto de datos cuyas observaciones están
concentrados hacia uno de los lados de los valores mínimo o máximo y muy dispersas hacia
el otro.
La moda, como su nombre indica, es el valor de la variable con mayor frecuencia absoluta.
Esta medida puede determinarse en todo tipo de variables y no exclusivamente en variables
numéricas como le ocurre a la media aritmética y mediana. En caso de datos tabulados de
tipo continuo se suele estimar la moda M mediante la siguiente fórmula:
h n n
M x ⋅
2 2n n n
donde, x es la marca de clase del intervalo modal (aquel que tiene mayor frecuencia
absoluta), h es la amplitud del los intevalos de clase, n la frecuencia absoluta del intervalo
modal y, n y n las frecuencias absolutas del intervalo inmediatamente anterior y
posterior al intervalo modal. Esta estimación de la moda resulta ser la abscisa del vértice de
la parábola que pasa por los puntos medio, del intervalo modal y los intervalos
inmediatamente anterior y posterior a éste.
24
Como ejemplo vamos a determinar la moda del ejemplo de la sección de tablas de frecuencias
para datos continuos. En la tabla 6 identificamos que el intervalo modal es 20.2,21.5 ya
que es el que tiene mayor frecuencia absoluta. Teniendo en cuenta que x 20.85, h 1.3,
n 9, n 7yn 5, tenemos que la moda es:
1.3 5 7
M 20.85 ⋅ 20.6333
2 18 5 7
La moda no tiene que por qué ser única sino que puede haber dos o más valores con la misma
frecuencia y por tanto ser el conjunto de observaciones bimodal, o más generalmente,
multimodal. En el caso de que todos los valores tengan la misma frecuencia absoluta se dice
que no existe moda.
A parte de la media aritmética existen otras medias como la media ponderada, la media
geométrica y la media armónica. Dado un conjunto de n observaciones x , x , . . . , x las
fórmulas para cada una de estas medias son las siguientes:
25
piden la media, x , formada por la unión de los dos conjuntos de datos. Es un error
⋅ ⋅
frecuente tomar como x , la media de las medias, , cuando x .
/
2. Media geométrica: M x ⋅ x ⋅ x ⋅. . .⋅ x . Un sencillo ejemplo sería el de una
asignatura con dos calificaciones parciales x y x cuya calificación final es la media
geométrica de ellas, es decir, √x ⋅ x . En estas circunstancias, si un estudiante obtiene
calificaciones parciales de 7 y 8, su calificación final es √7 ∙ 8 √56 7.4833. La
media geométrica es una buena alternativa en conjuntos de observaciones cuyas
observaciones están muy concentradas hacia uno de los extremos (mínimo y máximo)
de los datos y muy dispersas hacia el otro (lo que denominaremos posteriormente
asimetría positiva o negativa)
3. Media armónica: M . Es una media usual para velocidades, etc.
∑
Ejemplo: Durante 30 años se han registrado en Canarias el número de delitos civiles por año.
Las 30 observaciones son las siguientes: 1, 3, 3, 3, 1, 2, 1, 5, 0, 4, 2, 1, 2, 1, 3, 3, 1, 2, 4, 2, 0,
2, 1, 1, 1, 1, 0, 2, 2, 1. Hallar el primer cuartil, la mediana y el percentil 90.
1. El primer cuartil Q es el cuantil 0.25, por tanto p 0.25 y n 30. Las observaciones
ordenadas de menor a mayor son: 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,
2, 3, 3, 3, 3, 3, 4, 4, 5. Aquí j 30 1 ⋅ 0.25 7.75 y el valor i 7. Ahora
buscamos entre las observaciones ordenadas aquella que ocupa el lugar 7 y 8, x 1
yx 1. Finalmente le primer cuartil es: x x x ⋅ 7.75 7 x
0 ⋅ 0.75 1, Q 1.
2. La mediana Q es el cuantil 0.5, por tanto p 0.5 y n 30. Aquí j 30 1 ⋅ 0.5
15.5 y el valor i 15. Ahora buscamos entre las observaciones ordenadas aquella que
ocupa el lugar 15 y 16, x 2yx 2. Ocurre igual que en el caso anterior, esto
es, como las dos observaciones consecutivas son iguales la mediana es x 2, esto
es, Q 2.
3. El percentil 90 es el cuantil 0.90, por tanto p 0.9 y n 30. Aquí j 30 1 ⋅ 0.9
27.9 y el valor i 27. Ahora buscamos entre las observaciones ordenadas aquella que
ocupa el lugar 27 y 28, x 3yx 4. Aplicando la fórmula correspondiente
tenemos que x x x ⋅ 27.9 29 3 1 ⋅ 0.9 3.9, P 3.9.
27
Número de delitos f F f F
0 3 3 0.1 0.1
1 11 14 0.3667 0.4667
2 8 22 0.2667 0.7333
3 5 27 0.1667 0.9
4 2 29 0.06667 0.9667
5 1 30 0.03333 1
Con respecto a los datos de tipo continuo distinguiremos dos casos: datos tabulados y las
observaciones originales. Para este último los cuantiles se obtienen como en el caso de
variables numéricas discretas explicado anteriormente. Más concretamente, si deseamos
hallar el cuantil p:
28
1. Hallamos la cantidad j n 1 ⋅ p y su parte entera a la que denominaremos i.
2. Ordenamos el conjunto de observaciones en orden creciente e identificamos el valor que
ocupa la posición i en tal ordenación. A este valor lo denotaremos por x , y al valor
que ocupa la posición siguiente por, x .
3. La estimación de cuantil p es: x x x ⋅ j i .
En el caso de datos tabulados los cuantiles se obtienen por interpolación lineal. En la Figura
7 podemos ver la ojiva de 50 observaciones tabuladas y donde desea hallarse el percentil 35.
Para hallarlo debemos determinar el valor x del eje de abscisas cuya valor en el eje de
ordenadas sea 17.5 (17.5 50 ⋅ 0.35). El método de interpolación lineal para datos
tabulados se basa en la semejanza de los triángulos ABC y AB'C'. De esta manera tenemos,
9.113333.
29
Figura 7: Histograma de frecuencias acumuladas y ojiva
p⋅n N
C a ⋅h
n
donde:
Ejemplo: Para los datos tabulados en la Tabla 8 hallar el percentil 30, 76, 90.
Intervalos Marca f f F F
[15,16.3) 15.65 2 0.07 2 0.07
[16.3,17.6) 16.95 1 0.03 3 0.1
[17.6,18.9) 18.25 4 0.13 7 0.23
[18.9,20.2) 19.55 7 0.23 14 0.46
[20.2,21.5) 20.85 9 0.3 23 0.76
[21.5,22.8) 22.15 5 0.17 28 0.93
[22.8,24.1) 23.45 2 0.07 30 1
1. Percentil 30: En primer lugar identificaremos el intervalo que acumula o supera 0.3 en
la columna de frecuencias relativas acumuladas. Se trata del intervalo [18.9,20.2). P
. ⋅
18.9 ⋅ 1.3 19.27143.
31
El rango: Se trata de la diferencia entre el máximo y el mínimo de las observaciones.
Obviamente a mayor valor del rango mayor dispersión. Sin embargo es una medida muy
vasta ya que por ejemplo, el conjunto de observaciones 1,5,5,5,5, 10 y el conjunto
1,1,1,10,10,10 tiene el mismo rango y sin embargo el segundo conjunto al tener las
observaciones en uno de los dos extremos tiene mayor dispersión que el primero.
1. Datos originales: En este caso y para cualquier variable numérica la fórmula es, s
∑ x x .
2. Datos tabulados: Al igual que ocurría con la media aritmética los valores x son
modalidades y la fórmula será s ∑ n ⋅ x x . Obsérvese que aquí el
¿Puede aplicarse la regla empírica a conjuntos de datos con histogramas sin forma de
montículo? La respuesta, desafortunadamente, es no. En ese caso aplicaremos un teorema
general denominado Teorema de Tchebysheff. Este teorema establece que al menos 1
del total de las observaciones cae en el intervalo x k ⋅ s. Por tanto para k=2 esto quiere
decir para cualquier conjunto de datos en x 2 ⋅ s cae al menos un 75% de lo datos y en x
3 ⋅ s cae al menos el 89% de las observaciones.
Ejemplo: En una determinada autopista se registra los tiempos (en días) entre accidentes
mortales. A partir de las últimas 10 observaciones determinar la media, la mediana, el rango,
la varianza y la desviación típica. Las observaciones son las siguientes: 7, 52, 14, 42, 1, 26,
13, 68, 44, 25.
La media es muy sencilla pues tan sólo debemos promediar los valores:
7 52 14 42 1 26 68 44 25
x 29.2
10
33
. . . . . .
s ∑ x x
. . . .
468.62. La desviación típica es la raiz cuadrada
Para hallar la mediana como el número de observaciones es par debemos promediar, después
de ordenar de menor a mayor, la observación x yx . Las observaciones ordenadas son
1, 7, 13, 14, 25, 26, 42, 44, 52, 68 y la observación x 25 y x 26 por lo que la
próxima a cero. Es una medida de dispersión relativa, expresada comunmente en tantos por
cien, muy útil para comparar la dispersión de varios conjuntos de datos cada uno con
diferentes unidades de medida. Por ejemplo si un grupo de observaciones tiene media 20
minutos y desviación típica de 4 minutos y otro conjunto de datos tiene una media de 80 Kg.
con una desviación típica de 10 kg. entonces para saber cuál de los dos tiene mayor dispersión
no podemos comparar las desviación es típica ya que no están en las mismas unidades. En
vez, utilizaremos en el coeficiente de variación siendo el del primer grupo CV | |
0.2
datos tiene menor dispersión relativa. Nótese que por definición el coeficiente de variación
es adimensional.
Rango intercuartílico: Es una medida de dispersión algo parecida al rango pero más estable
(mayor robustez). Se define como RI Q Q . Al igual que el rango a menor valor menor
34
dispersión en los datos. A veces, se suele usar como medida de dispersión el rango semi-
intercuartílico, la mitad del RI.
Las medidas de asimetría como su nombre indica, miden el grado de asimetría de una
distribución de datos numéricos. Si la asimetría es cero o aproximadamente cero entonces la
distribución de datos es simétrica, Si es positiva diremos que tiene asimetría positiva y si es
negativa diremos que tiene asimetría negativa. Las medidas de asimetría que trataremos en
este manual son las siguientes:
35
tabulados. El coeficiente de apuntamiento mide el grado de picudez junto con el peso de las
colas en la distribución de los datos comparado con la denominada distribución normal
unitaria. Si es cero es igual a la distribución normal unitaria, si es mayor que cero es más
picuda que la normal y con colas más pesadas que ésta (colas con mayor frecuencia).
36
Figura 8: Moda, mediana y media en una distribución con asimetría negativa
37
1. El bigote superior en Q 1.5 ⋅ Q Q y el bigote inferior en Q 1.5 ⋅ Q Q .
En este manual adoptaremos este lugar para ubicar los bigotes.
2. El bigote superior en P y el bigote inferior en P .
3. El bigote superior en P y el bigote inferior en P .
Al no colocar los bigotes en el máximo y mínimo, habrá observaciones que excedan estos
límites. Esos valores son potencialmente outliers o valores atípicos, observaciones mal
registradas o errores instrumentales accidentales. Recuérdese que estos valores alteran
considerablemente la media aritmética y la desviación típica.
1. Un diagrama más o menos simétrico con respecto a la mediana indicará una distribución
datos simétrica mientras que un diagrama donde al plegar por la mediana bigotes y tercer
38
y primer cuartil quedan muy distanciados sugieren asimetría en los datos. En diagramas
asimétricos es donde suelen surgir mayor número de posibles outliers.
2. Entre el valor del primer cuartil y la mediana se encuentran el 25% de las observaciones
al igual que entre la mediana y tercer cuartil. Si la distancia entre el primer cuartil y la
mediana es mayor que la distancia entre el tercer cuartil y la mediana entonces en ese
tramo hay menor dispersión que en el segundo.
En ocasiones se suele pintar dos o más diagrama de cajas y bigotes en un mismo gráfico para
comparar la distribución de los datos en los diferentes grupos.
39
A través del él podemos identificar asimetría, unimodalidad o multimodalidad, et. Para
entender bien cómo construir un diagrama de tallos y hojas daremos un sencillo ejemplo.
Supongamos que tenemos las siguientes 10 observaciones 5,9,12,13,20,21,23,24,30,31 y
queremos realizar un diagrama de tallos y hojas. Para ello separaremos cada número en dos
partes, la decena para el tallo y la unidad para la hoja. Así, por ejemplo 13 los separaremos
en dos partes 1|2, donde 1 será el tallo y 2 será la hoja. De esta manera tendremos el siguiente
diagrama. Obsérvese que básicamente se trata de juntar las observaciones por la unidad de la
decena. Por tanto, 2 | 0134 significa que hay 4 observaciones que comparten la misma decena
(el dos) y cuyas unidades son, 0, 1, 3 y 4, respectivamente.
0 | 59
1 | 23
2 | 0134
3 | 01
En caso de que tengamos un conjunto de observaciones con varias cifras decimales como el
siguiente:6.631, 9.712, 12.36, 11.363, 10.286, 7.615, 12.338, 10.158, 9.096, 13.284, 8.461,
10.607, 12.563, 11.204, 9.386, 9.163, 10.71, 11.027, 10.037, 12.637, 9.868, 8.599, 11.075,
5.596, 10.784, 10.994, 9.55, 7.766, 9.21, 13.1, 8.513, 5.337, 11.624, 8.997, 8.978, 7.569,
9.955, 11.402, 8.825, 8.787 lo que podemos hacer es redondear a la primera cifra decimal
6.6, 9.7, 12.4, 11.4, 10.3, 7.6, 12.3, 10.2, 9.1, 13.3, 8.5, 10.6, 12.6, 11.2, 9.4, 9.2, 10.7, 11,
10, 12.6, 9.9, 8.6, 11.1, 5.6, 10.8, 11, 9.6, 7.8, 9.2, 13.1, 8.5, 5.3, 11.6, 9, 9, 7.6, 10, 11.4, 8.8,
8.8 y después tomar como tallos la parte entera y como hojas la parte decimal. El diagrama
correspondiente quedaría así:
5 | 36
6|6
7 | 668
8 | 55688
9 | 001224679
10 | 0023678
11 | 0012446
12 | 3466
13 | 13
40
A veces, cuando tenemos dos conjunto de datos, los diagramas de tallos y hojas comparten
los tallos y se representan gráficamente los dos a la vez, con los tallos en el centro y las hojas
de un conjunto hacia la izquierda y la del otro hacia la derecha (tallos contra tallos).
5| 5 |
0| 6 |5
9720| 7 |4
7776533| 8 |123
9988877766432210| 9 |1278
9877776631| 10 |000122235668
88765554321111| 11 |0013458
8722| 12 |0012445889
910| 13 |1144678
| 14 |0117
| 15 |1456
| 16 |237
| 17 |03
ACTIVIDADES
Número de accidentes f F f F
0 n N f 0.39
1 78 N f F
2 n N 0.175 F
3 n 197 f F
4 n 200 f F
41
2. Hallar los cuartiles correspondientes a las siguientes 30 observaciones: 29.76, 35.97,
29.15, 32.52, 24.89, 30.12, 29.27, 32.19, 29.72, 30.18, 31.03, 29.86, 31.92, 30.79, 31.04,
27.66, 27.34, 28.31, 27.31, 30.39, 33.37, 27.52, 29.03, 30.48, 33.25, 27.86, 30.03, 27.86,
25.49, 33.27.
3. Las siguientes 40 observaciones corresponde a la medición de la altura de ola registrada
por la denominada boya Gran Canaria situada al noroestes de Gran Canaria: 1.47, 2.42,
2.01, 1.73, 0.74, 1.23, 2.21, 1.09, 1.05, 2.27, 3.26, 0.66, 1.14, 1.12, 0.16, 1.18, 1.23,
0.66, 0.49, 1.13, 1.75, 1.61, 1.52, 3.4, 2.29, 0.54, 1.09, 1.21, 1.71, 0.69, 2.44, 2.26, 1.13,
1.66, 0.2, 0.79, 1.37, 3.04, 2.51, 2.07. Se pide:
43
21.27, 1.43, 4.86, 1.32, 17.48, 2.85, 6.15, 4.42, 10.37, 1.39, 6.94, 1.2, 3.12, 7.51, 4.77,
9.65 y 2.22.
9. En tres lugares de una región se han colocado tres instrumentos similares para medir
niveles de ozono. El primer instrumento ha realizado 30 mediciones con un valor medio
de 160 ppb (partes por billón), el segundo instrumento ha realizado 35 mediciones con
un valor promedio de 180 ppb y el tercer instrumento ha realizado 40 mediciones con
un valor promedio de 200 ppb. Hallar un valor promedio para toda la región.
10. En una base datos se dispone de 3 variables medida en diferentes unidades y se desea
saber cuál de ellas tiene menor variación. A partir de la información de la siguiente tabla
resolver el problema:
EJERCICIOS DE AUTOEVALUACIÓN
1. En el siguiente histograma puede observarse las edades de los miembros de una empresa
de gestión del riesgo. A partir de dicho histograma se tiene que:
a) El percentil 60 es 31,5.
44
b) El percentil 30 es 25,8667.
c) El percentil 10 es 22,2667.
d) El percentil 90 es 34,4.
2. Un profesor imparte una misma materia en dos grupos diferentes A y B. La nota media de
cada grupo en la asignatura es 6,47 y 7,68, respectivamente. Si en el grupo A hay 40
estudiantes y en el grupo B hay 64 estudiantes entonces la nota media de los dos grupos
juntos es:
a) 7,07
b) 7,21
c) 8,43
d) 6,05
3. A partir de las siguientes 20 observaciones 6, 5.81, 3.23, 5.46, 5.69, 2.94, 2.84, 6.86, 4.04,
1.23, 2.54, 3.95, 1.78, 2.76, 7.41, 4.07, 1.7, 1.98, 5.06, 5.49 relativas a la altura de ola, la
altura significativa de ola (significant wave height, H ) es:
a) 6.354
b) 4.042
c) 2.345
d) 0.567
4. A un grupo de agentes de seguridad se les ha registrado la Altura (en cm.), el Peso (en
Kg.), el número de palabras que recordaban en una prueba de Memoria y el Tiempo invertido
(en segundos) en realizar una prueba de 100 metros lisos. En la siguiente tabla se recogen las
medias y las varianzas de las 4 variables. A partir de esta información la variable con menor
variabilidad es:
a) 27,5 y 38,5
b) 27,5 y 46.
46
c) 27 y 46,5.
d) 27 y 46.
Intervalos Freccuencia
absoluta
[15,16.3) 1
[16.3,17.6) 1
[17.6,18.9) 9
[18.9,20.2) 7
[20.2,21.5) 3
[21.5,22.8) 5
[22.8,24.1) 4
a) 17.7
b) 18.64
c) 18.8
d) 18.25
a) La media
b) La moda
c) La media ponderada
d) La mediana
47
10. El máximo y el mínimo de un conjunto de 40 observaciones de una variable continua
son 25 y 10, respectivamente, entonces la amplitud de los intervalos en la tabla de frecuencia
de acuerdo con la regla de Rice es:
a) 1.4
b) 1.2
c) 1
d) 0.97
48
SOLUCIONES A LOS EJERCICIOS DE AUTOEVALUACIÓN
1. d
2. b
3. a
4. a
5. c
6. d
7. b
8. d
9. d
10. c
49
BIBLIOGRAFÍA
Asensio, F. M., & Marqués, F. (2009). Estadística descriptiva a través de Excel. RC Libros.
Astudillo, M. J. P., Vieytes, A. R., Palomo, R. R., & del Campo Campos, C. (2007).
Estadística: problemas resueltos.
Dalgaard, P. (2008). Introductory statistics with R. Springer Science & Business Media.
Dixon, W. J., Massey, F. J., & Vilaplana, J. P. (1966). Introducción al análisis estadístico.
McGraw-Hill.
Grünhut, M. (1951). Statistics in criminology. Journal of the Royal Statistical Society. Series
A (General), 114(2), 139–162.
Hyndman, R. J., & Fan, Y. (1996). Sample quantiles in statistical packages. The American
Statistician, 50(4), 361–365.
Martín-Guzmán, M. P., Muñoz, M. I. T., Ortega, F. J. L., & Ortega, N. B. (2006). Manual de
estadística: descriptiva. Editorial Civitas.
Martín, Q. M., & de Paz Santana, Y. del R. (2007). Tratamiento estadístico de datos con
SPSS. Editorial Paraninfo.
50
Norman, G. R., Streiner, D. L., & Tarrés, J. (1996). Bioestadística. Mosby/Doyma Libros.
Sokal, R. R., & Rohlf, F. J. (1986). Introducción a la Bioestadística (Vol. 5). Reverté.
Sturges, H. (1926). The Choice of a Class Interval. Journal of the American Statistical
Association, 21(153), 65-66.
Walker, J., & Maddan, S. (2008). Statistics in criminology and criminal justice: analysis and
interpretation. Jones & Bartlett Learning.
Wheater, C. P., & Cook, P. A. (2000). Using statistics to understand the environment.
Psychology Press.
51
GLOSARIO
Datos crudos y datos tabulados: Se denomina datos crudos al conjunto de observaciones
de cada uno de los sujetos u objetos de una muestra. Si esta información original se agrupa
según algún criterio, la información resultante se dice que está tabulada o más generalmente
que es información agregada.
Diagrama de cajas y bigotes: Diagrama formado por un rectángulo central (la caja) dividido
en dos partes por una línea central más oscura o de mayor grueso (la mediana). El extremo
superior e inferior de la caja central marca el tercer y primer cuartil, respectivamente. Desde
el punto medio de los lados superiores e inferiores de la caja parten unos segmentos (los
bigotes) cuya longitud es 1.5 veces el rango intercuartílico. Sirve para detectar asimetría en
los datos y para detectar posibles valores atípicos. Es muy útil en la comparación de varios
grupos de observaciones.
Diagrama de tallos y hojas: Una forma de histograma muy útil para identificar asimetría,
número de modas. En general para ver cómo se distribuyen las observaciones.
Valores atípicos: Observaciones muy distantes de las demás que altera el valor de la media
y la desviación típica al omitirlas en los cálculos. Las marcas que aparecen en forma de
pequeños círculos en los extremos de los bigotes de un diagrama de cajas y bigotes suelen
ser candidatos a valores atípicos o outliers.
53
54
ESTADÍSTICA DESCRIPTIVA BIVARIANTE
2
Unidad de Aprendizaje
55
56
PRESENTACIÓN
Objeto X Y
1 x1 y1
2 x2 y2
.... ... ...
i xi yi
... ... ...
n xn yn
Una primera fase para la identificación de las posibles asociaciones, tendencias, etc.,
presentes en los datos consiste en organizarlos apropiadamente, tal como describiremos a
continuación.
OBJETIVOS
57
ESQUEMA DE CONTENIDOS
Estadística Bivariante
Representar Representar
Representar mediante mediante
mediante Diagrama de Diagrama de
Diagrama de Cajas Barras Agrupadas Dispersión o
Nube de Puntos
Medidas de Síntesis
de la variable Tablas de
Numérica para cada Contingencias
categoría de la
Coeficiente de Correlación
lineal del Pearson y
Pendiente de la Recta de
Regresión
58
EXPOSICIÓN DE LOS CONTENIDOS
Número de
Municipio Mes
accidentes
Tejeda Ene 13
Tejeda Feb 6
.... ... ...
Tejeda Dic 8
--- --- ---
Galdar Ene 17
Galdar Feb 7
.... ... ...
Galdar Dic 15
Tabla 1: Tabla de datos del número de accidentes por mes, en un año, para cada municipio.
59
Número de accidentes
Municipios
Media (±D.E.) Mínimo Máximo
Tejeda 14.3(±2.7) 6 19
… … … …
Galdar 15.3 (±1.6) 7 16
Tabla 2: Resumen del número esperado de accidentes por año en cada municipio.
Para representar conjuntamente una variable cualitativa y una cuantitativa se suele utilizar
el diagrama de cajas. Este tipo de gráfico representa, con las cajas, los percentiles 25, 50 y
75 de la variable numérica para cada categoría de la variable cualitativa, siendo
especialmente útiles para comparar las submuestras o poblaciones, generadas a partir de las
categorías de la variable cualitativa.
Número de accidentes
Gáldar
Guía
Tejeda
Los valores de los datos que quedan fuera de las barras superior e inferior se marcan con
puntos y se entendería que pueden ser anómalos o extremos, y deben ser revisados por si
constituyeran errores, datos correspondientes a otra población, etc.
Si las dos variables a resumir son cualitativas, y se pretende valorar la relación entre ellas,
lo haremos a través de las frecuencias absolutas y porcentajes. Las tablas que se utilizan para
60
presentar conjuntamente dicho resumen reciben el nombre de tablas de frecuencias cruzadas
o tablas de contingencia. En dichas tablas se incluyen las frecuencias marginales, que nos
indican cuántas veces se repiten los valores de cada variable consideradas por separado, y
las frecuencias conjuntas, o lo que es lo mismo, el número de veces que se contabilizan las
parejas de valores de ambas variables consideradas conjuntamente.
Variable 1 (X)
Frecuencia Marginal de Y
x1 x2 x3
y1 n11 n12 n13 ny1 = n11+ n12+ n13
Variable 2 (Y)
y2 n21 n22 n23 ny2
Frec. Marginal de X nx1= n11+ n21 nx2 nx3 n = ny1 + ny2 = nx1 + nx2 + nx3
Siendo, por ejemplo, n11 = “Frecuencia absoluta conjunta o número de veces que aparece la
pareja de valores (X1, Y1) en la muestra observada”. Asimismo, ny1 = “Frecuencia absoluta
marginal o número de veces que aparece el valor Y1 en la muestra observada”. Donde n =
“tamaño de la muestra o número total de datos observados”.
Ejemplo 1
61
Empresas Total
1 2 3
Estado del Rechazado 1 2 6 9
Extintor Aceptado 19 18 14 51
Total 20 20 20 60
En esta tabla figuran las frecuencias absolutas con que se ha observado cada par de valores;
así vemos que ha fallado uno sólo de los extintores retimbrado por la empresa 1, dos de los
revisados por la empresa 2, etc. En los márgenes de la tabla (última columna y última fila)
figuran las frecuencias absolutas totales. En la práctica suele resultar de mayor utilidad el
expresar los datos en frecuencias relativas (porcentajes), bien con respecto a su fila o bien
respecto a su columna, ya que de esa forma es más fácil percibir las posibles asociaciones
entre variables. Así, por ejemplo, si expresamos los datos en porcentajes respecto al total de
su columna obtenemos la tabla 5.
Empresas Total
1 2 3
Recuento 1 2 6 9
Rechazado
Estado del % 5,0% 10,0% 30,0% 15,0%
Extintor Recuento 19 18 14 51
Aceptado
% 95,0% 90,0% 70,0% 85,0%
Recuento 20 20 20 60
Total
% 100,0% 100,0% 100,0% 100,0%
Con la tabla expresada de esa forma podemos observar directamente que el 95% (= 19/20 x
100) extintores retimbrados por la empresa 1 funcionaron correctamente (aceptados) al
realizarse la prueba. Para la empresa 2 lo hace correctamente el 90% (= 18/20 x 100) y de
los extintores revisados por la empresa 3 funcionan correctamente sólo el 70% (=14/20 x
100). Los datos parecen indicar, por tanto, que la tercera empresa es la que detecta más fallos
(rechazos) al utilizar los extintores. Los métodos de inferencia estadística son los que nos
permiten decidir, en cualquier caso, si la información obtenida en este experimento es
suficiente para poder generalizar esta última observación (que la empresa 3 presenta peores
resultados).
62
En general, cuando las dos variables que se analizan conjuntamente sean ambas discretas o
categóricas (como en este último ejemplo), la representación tabular más utilizada es la
anterior. En cada casilla de la tabla se representan las frecuencias absolutas nij
correspondientes al número de veces que el valor que encabeza la fila i aparece acompañado
del valor que encabeza la columna j, tal como en la tabla 4. Según convenga pueden
consignarse también las frecuencias relativas (porcentajes), por filas, por columnas (como
en la tabla 5), o sobre el total.
Si las dos variables a resumir son cuantitativas, y se pretende valorar la relación entre ellas,
lo haremos a través de gráficos de dispersión o nubes de puntos y evaluando el grado de
asociación lineal, mediante el coeficiente de correlación lineal de Pearson.
Ejemplo 2
Para estudiar en una determinada zona de bosque, la posible relación de la altura de la llama
en función de la velocidad de propagación del fuego, se han analizado los pares de datos
recogidos en 25 incendios forestales ocurridos en dicho bosque, en una misma época del
año. Los resultados obtenidos son los siguientes:
V. Propagac.(m/min) 53 44 38 56 35 58 35 49 31 69 42 60 46
Altura llama (m) 5,0 4,7 4,8 5,3 4,8 5,2 4,7 5,0 4,6 5,3 4,7 5,0 5,1
V. Propagac.(m/min) 58 60 31 68 34 40 55 48 43 34 37 67
Altura llama (m) 5,0 5,2 4,6 5,4 4,8 4,8 5,2 5,0 4,8 4,6 4,7 5,5
63
En la tabla 6 se muestra la tabla de contingencia correspondiente a estos datos. Nótese que,
dado que las variables son continuas y el número de valores distintos puede ser muy grande,
conviene agrupar dichos valores en intervalos de clase. También en este caso se pueden
consignar sólo las frecuencias absolutas, o los porcentajes por filas, por columnas o sobre el
total.
Velocidad de propagación del fuego
Total
(m/min)
(30, 40] (40, 50] (50, 60] (60, 70]
Recuento 9 3 0 0 12
(4.6, 4.9]
% 100,0% 50,0% 0,0% 0,0% 48,0%
Altura de
Recuento 0 3 6 0 9
la llama (4.9, 5.2]
% 0,0% 50,0% 85,7% 0,0% 36,0%
(m)
Recuento 0 0 1 3 4
(5.2, 5.5]
% 0,0% 0,0% 14,3% 100,0% 16,0%
Total Recuento 9 6 7 3 25
% 100,0% 100,0% 100,0% 100,0% 100,0%
En lo que se refiere a las representaciones gráficas más adecuadas para este tipo de datos, si
bien es posible construir diagramas de barras apiladas, resulta mucho más informativo
construir el diagrama de dispersión o nube de puntos. Este diagrama consiste simplemente
en dibujar sobre un par de ejes cartesianos los puntos correspondientes a los pares de
observaciones. Esto es, si se observan dos variables X e Y sobre un conjunto de n objetos, y
los datos obtenidos son {(x1,y1), …, (xn,yn)}, el diagrama de dispersión se obtiene
representando cada punto (xi,yi) en el plano XY .La figura 4 muestra el diagrama de
dispersión de los datos del ejemplo 2
Altura de la llama (m)
64
El diagrama de dispersión presenta la ventaja de que permite percibir posibles relaciones
funcionales entre las dos variables estudiadas. Así en la figura 4 podemos apreciar que entre
la velocidad de propagación (m/min) y la altura de la llama (m) existe una relación
aproximadamente lineal: a medida que aumenta la velocidad de propagación, aumenta
proporcionalmente la altura de la llama.
4. Asociación e independencia
Ejemplo 3: tipo de vestimenta y status socioeconómico son variables que están asociadas.
La observación de que una persona lleva ropa cara nos informa de que probablemente goza
de un nivel socioeconómico alto.
Ejemplo 4: normalmente, conocer la talla del zapato de una persona no nos dice nada sobre
su número de hermanos.
Debe notarse que asociación o independencia no son propiedades absolutas de una pareja de
variables, sino que dependen también de la población sobre la que se evalúen. Así en los
ejemplos anteriores:
Podría ocurrir que las personas de nivel socioeconómico más bajo de un barrio
determinado recibiesen una donación de ropa cara (aunque usada). Para la población
65
de este barrio, saber que una persona lleva ropa cara no permite concluir que
pertenece a un nivel socioeconómico alto.
Si en un pueblo ocurre que hay muchas familias numerosas formadas por individuos
de tamaño grande (y por tanto con talla de zapato grande), mientras que las personas
de tamaño pequeño (y por tanto con pies pequeños) tienden a tener hijos únicos, la
talla del zapato de una persona sí que nos daría alguna indicación de cuál puede ser
su número de hermanos.
Cuando entre dos variables X e Y medidas en una población determinada se detecta algún
tipo de asociación, se plantean de inmediato las dos siguientes cuestiones:
¿Cuál es la forma de la asociación entre X e Y?
¿Cuál es la intensidad de la asociación entre X e Y?
5. Regresión lineal
Si volvemos a los datos del ejemplo 2, la representación gráfica de la figura 4 nos indica la
posible existencia de una asociación lineal entre la altura de la llama y velocidad de
66
propagación del incendio. Esto significa que los datos se ajustan aproximadamente a una
línea recta, que representamos en la figura 5.
Si observamos esta recta con atención, vemos que aproximadamente por cada 10 m/min que
aumenta la variable X (velocidad de propagación del fuego), la variable Y (altura de la llama)
se incrementa por término medio en 0,2 m. O lo que es lo mismo, por cada m/min que
aumenta la velocidad de propagación, la altura de la llama se incrementa aproximadamente
en un promedio de 0,02 m.
Cuando, como en este caso, los valores de una variable cambian proporcionalmente a los
valores de la otra, se dice que entre ambas existe una relación lineal. En general en la práctica
resulta de interés determinar la ecuación de la recta que define esta relación y que permite
calcular el valor medio aproximado de Y cuando se conoce el valor de X. Esta recta se
denomina recta de regresión de Y sobre X, y su ecuación es de la forma:
Ŷ = a + bX
67
La variable X recibe el nombre de variable explicativa (o independiente) y la Y el de variable
respuesta (o dependiente), siendo la Ŷ es el valor medio aproximado de Y. El valor de b es
la pendiente y a es la ordenada en el origen.
68
aproximadamente 4 m. Esto podría explicarse por otros factores como pueden ser el tipo de
vegetación de la zona, la intensidad de calor de la época del año, etc. En otros casos, el valor
de la ordenada en el origen habría de interpretarse simplemente como un coeficiente de
ajuste necesario para que, en el rango de valores de X observados, la recta se ajuste bien a
la nube de puntos.
n n
De esta forma se consigue que la recta pase simultáneamente lo más cerca posible de todos
los puntos observados. La figura 7 ilustra gráficamente esta idea.
Y
Valor *
observado *
yi ** *
* *
Valor *
aproximado por
la recta de *
xi X
Llamemos:
n
L( a, b) ( yi a bxi ) 2
i 1
Para obtener los valores de a y b que minimizan esta expresión derivamos con respecto a a
y a b e igualamos a 0, obteniendo las llamadas ecuaciones normales de mínimos cuadrados:
69
L ( a , b ) n
2 ( yi a bxi ) 0
a i 1
L ( a , b ) n
2 ( yi a bxi ) xi 0
b i 1
n n n n n
2 ( yi a bxi ) 0 ( yi a bxi ) 0 yi a bxi 0
i 1 i 1 i 1 i 1 i 1
n n
n n y i x i
yi na b xi 0 a i 1
b i 1
a y bx
i 1 i 1 n n
x y yx bxx bx
i 1
i i
i 1
i
i 1
i
i 1
2
i 0 xi yi y xi b x xi xi2 0
i 1 i 1 i 1 i 1
x i n y i n
x i 1
xi nx ; y i 1
yi ny
n i 1 n i 1
n
n 2 2
i 1
x y
i i nxy b xi nx 0
i 1
de donde:
n
x y i i nxy
b i 1
n
x
i 1
i
2
nx 2
a y bx
70
6. Correlación
La figura 8 nos muestra dos nubes de puntos. Es obvio que los datos de la nube (a) muestran
una asociación lineal nula o muy débil, mientras que los de la nube (b) muestran una
asociación lineal fuerte.
(a) (b)
14
45
12
40
10
y
y
8
35
6
30
4
40 45 50 55 60 45 50 55 60
x x
1 n 1 n
S XY i
n 1 i 1
( x x )( yi y ) xi yi n·x
n 1 i 1
y
x, y .
71
14
45
(a) (b) (a) (b)
12
40
10
y
y
y
y
8
35
6
30
4
40 45 x
50 55 60 45 x
50 55 60
x x
Observemos que:
en el sector (a) se tiene que xi x ; yi y ; por tanto xi x yi y 0
1 n
Cuando calculamos la covarianza S XY ( xi x )( yi y ) en el gráfico de la izquierda
n 1 i 1
(nula o muy poca asociación lineal), vemos que en todos los sectores hay aproximadamente
el mismo número de puntos y en posiciones muy parecidas. Ello da lugar a que al sumar los
productos ( xi x )( yi y ) , los que tiene valor positivo tiendan a cancelarse con los que
tienen valor negativo, con lo que la covarianza dará un valor próximo a cero. Sin embargo,
en el gráfico de la derecha (fuerte asociación lineal), la mayoría de los puntos están en los
sectores (c) y (b), mientras que apenas hay puntos en los sectores (a) y (d). De esta forma, la
gran mayoría de los productos ( xi x )( yi y ) son positivos (muchos incluso grandes en
valor absoluto por corresponder a puntos alejados del centro), por lo cual al sumarlos se
72
obtendrá un valor positivo alto de la covarianza. Es fácil ver que si los datos se ajustaran a
una recta decreciente (con pendiente negativa), la covarianza tomaría un alto valor negativo.
De esta forma, valores altos (positivos o negativos) de la covarianza, indican fuerte
asociación lineal, mientras que valores bajos indicarían ausencia de asociación lineal.
Debe advertirse, en cualquier caso, que el hecho de que la covarianza sea cero o próxima a
cero no implica que las variables no estén asociadas; podría de hecho ocurrir que entre ellas
hubiese una fuerte asociación no lineal. En la figura 10 se muestra un ejemplo de esta
situación. Las variables X e Y están fuertemente asociadas, aunque de modo no lineal.
Repitiendo el argumento anterior, vemos que en los cuatro sectores en que se divide la
gráfica cuando se centra un nuevo par de ejes en el punto medio x , y tienen un número
similar de puntos, y en posiciones aproximadamente simétricas. Ello producirá que los
productos ( xi x )( yi y ) positivos tiendan a cancelarse con los negativos dando lugar a
una covarianza pequeña.
30
25
20
15
y
10
5
0
6 8 10 12 14
Figura 10. Nubes de puntos con fuerte asociación, pero para la que la
covarianza en muy baja
73
valor de la covarianza entre ambas será un número mucho mayor si X e Y se miden en
centímetros que si se miden en metros). Por tanto, es preciso introducir una nueva medida
de asociación lineal que no dependa de las unidades de X e Y. Esta medida será el coeficiente
de correlación de Pearson.
S XY
r
S X SY
donde SX y SY son las desviaciones típicas respectivas de las variables X e Y, definidas como:
1 n 1 n
SX
n 1 i 1
( xi x ) 2 SY
n 1 i 1
( yi y ) 2
r > 0: indica la presencia de una asociación lineal positiva (recta ascendente: cuando
aumenta el valor de X aumenta proporcionalmente el valor de Y)
74
10.0 11.0 12.0
r= 1 r = -1
0
-1
y
-2
-3
9.0
x x
r = 0.01 r = 0.4
7
9
6
8
5
y
7
4
6
3
3 4 5 6 7 8 9 10 4 5 6 7 8
x x
r = -0.7 r = 0.9
3
12
2
11
1
y
10
0
9
-1
4 5 6 7 8 9 4 5 6 7 8
x x
75
El valor r = -1 representa la asociación lineal negativa máxima, y corresponde al caso en
que la nube de puntos observada se encuentra íntegramente sobre una recta decreciente.
1. La relación entre las variables es no lineal: se observa que los puntos se distribuyen a lo
largo de alguna figura geométrica regular distinta de una recta. En este caso lo mejor es
tratar de encontrar el modelo matemático que mejor se ajusta a las observaciones. Ello
puede significar utilizar, por ejemplo, regresión lineal múltiple (regresión lineal con
varias variables independientes) o regresión no lineal.
2. El coeficiente de correlación también debe usarse con precaución cuando las variables
se miden sobre varios grupos distintos, por ejemplo, si se miden sobre máquinas nuevas
y sobre máquinas con mucho tiempo de uso. Pudiera ocurrir que en cada uno de los
grupos estudiados la correlación fuese cero, pero conjuntamente diesen lugar a un
coeficiente de correlación alto. Esto ocurriría, por ejemplo, en el caso que se ilustra a
continuación:
76
80
60
y
40
20
0 10 20 30 40 50
x
r = 0.988
20
50
y
5 10
30
0
10
-5
0 10 20 30 40 -10 0 10 30 50
x x
r = 0.954 r = -0.012
Los outliers pueden tener gran influencia en el cálculo del coeficiente de correlación.
Así, en el caso mostrado a la izquierda, la presencia del outlier hace que el coeficiente
de correlación lineal sea alto cuando realmente no existe asociación lineal entre las
variables. En el caso de la derecha, aún habiendo una asociación lineal positiva fuerte
en el cuerpo principal de las observaciones, la presencia del outlier produce que el
coeficiente de correlación sea muy bajo (incluso ligeramente negativo). Por ello, en
estos casos, este coeficiente es una pobre medida de la asociación entre las variables.
77
La presencia de outliers, en general, puede tener diversas causas: datos que han sido mal
medidos en el muestreo (en cuyo caso se puede prescindir de ellos, eliminándolos del
estudio); datos que proceden de otra población distinta de la que se estudia (si se ha
identificado que éste es el problema, también se puede prescindir de los outliers, y
calcular la correlación para cada una de las poblaciones por separado); o puede ocurrir
simplemente que el modelo lineal no sea el adecuado para describir la relación entre las
variables.
1 n
n 1 i 1
xi yi nxy
S XY
b
1 n
2 S X2
i
n 1 i 1
x 2
nx
S XY S
b 2
r Y
SX SX
Estas expresiones nos indican que si la covarianza (o la correlación) son nulas, también es
nula la pendiente de la recta de regresión; la recta quedaría reducida a y = a, lo que significa
que y no depende linealmente de x.
78
Por ejemplo, es muy fácil comprobar que en España la venta de helados y el número de
ahogamientos en playas y piscinas tienen una fuerte correlación positiva: cuantos más
helados se venden más gente muere ahogada. Y viceversa, cuando se venden pocos helados
disminuye la tasa de mortalidad por ahogamiento ¿Cabe deducir de esta correlación que
debería prohibirse la venta de helados en las piscinas? En este ejemplo es muy fácil
descubrir donde está la falacia: la venta de helados aumenta con el buen tiempo, al mismo
tiempo que aumenta la asistencia a playas y piscinas y consecuentemente el número de
personas que se ahogan. Es el buen tiempo el que actúa como factor de confusión. En muchos
problemas aplicados del ámbito de la Ingeniería o de la Medicina es muy frecuente encontrar
correlaciones altas entre variables y sentir la tentación de interpretar inmediatamente dicha
correlación en el sentido de que una variable es causa de la otra, sobre todo cuando los
posibles factores de confusión no son tan obvios como en el ejemplo citado. Conviene por
tanto ser siempre precavido y ante una fuerte correlación entre variables tratar de localizar y
eliminar el efecto de posibles factores de confusión antes de aventurar conclusiones de
carácter causal.
79
ACTIVIDADES
1.- Los datos recogidos sobre el nivel de gravedad del accidente de un vehículo (X) y la
velocidad de circulación del mismo (Y en Km/h), en una determinado tramo de carretera se
muestran a continuación:
X Bajo Medio Alto Medio Alto Bajo Alto Alto Bajo Bajo
Y 70 95 120 70 90 80 100 100 75 80
2.- Sea (X, Y) una variable bidimensional cuyas frecuencias absolutas conjuntas vienen dadas
en la siguiente tabla:
Y −2 0 2
X
−1 2 n12 0 n1. = 2+ n12+0
0 4 n22 3 8
1 n31 1 3 n3.
n.1= 2+ 4+ n31 n.2 n.3 n=16
n3 n
b) ¿Cómo interpretarías en la tabla anterior los valores y 3 ?
n n
80
3.- Se realiza un estudio sobre una muestra de 250 bajas laborales, motivadas por accidente
laboral, en trabajadores de una empresa hotelera. Los tipos de bajas laborales se han
clasificado en tres grupos según su duración: Las de larga duración que han precisado más
de 6 meses (LD), las de duración media, de menos de 6 meses y más de 3 (DM) y las baja
duración, que han requerido menos de 3 meses (CD). Del total de trabajadores 156 son
mujeres (M) y el resto hombres (H). Entre el total de mujeres se han contabilizado 75 bajas
de DM, 45 de LD y 36 de CD. Dentro del grupo de hombres 40 bajas han sido de CD, 34 de
DM y el resto de LD.
5.- Una cadena de tiendas que ha abierto nuevos establecimientos en Gran Canaria, en tres
zonas comerciales de la isla, ha recogido información sobre el número de hurtos (Y) durante
los 25 primeros meses desde su apertura (X). Los datos obtenidos para cada uno de los
establecimientos se muestran en los siguientes gráficos:
81
Un estudio más detallado de esta información ha revelado que los coeficientes de correlación
lineal (r) de los establecimientos son 0.1, -0.80 y 0.98. Teniendo en cuenta la representación
de las nubes de puntos y los valores de r , asignar a cada gráfica el valor del coeficiente de
correlación lineal que le corresponde. Razona tu respuesta.
82
BIBLIOGRAFÍA
Quesada, V.; Isidoro, A.; López, L.A. (1989). Curso y ejercicios de estadística: aplicación
a las ciencias biológicas, médicas y sociales. Madrid: Alhambra.
83
EJERCICIOS DE AUTOEVALUACIÓN
1.- Si se quiere resumir y analizar la relación entre una variable cuantitativa y otra cualitativa
se procederá mediante:
2.- Las tablas de contingencia permiten resumir y analizar la relación entre dos variables:
a) Cuantitativas
b) Cualitativas y/o numéricas categorizadas
c) Discretas y continuas
d) Si el coeficiente de correlación lineal es distinto de cero
84
5.- En la tabla de contingencia la frecuencia relativa conjunta, del par de valores (xi, yi), es:
a) El cociente entre la frecuencia absoluta conjunta, del par de valores (xi, yi), y el número
total de observaciones
b) El cociente entre la frecuencia absoluta conjunta, del par de valores (xi, yi), y el número
total de observaciones de y
c) El cociente entre la frecuencia absoluta conjunta, del par de valores (xi, yi), y el número
total de observaciones de x
d) El cociente entre la frecuencia absoluta conjunta, del par de valores (xi, yi), y la frecuencia
marginal
6.- El gráfico de barras apilados o agrupadas tiene interés para representar conjuntamente:
7.- En una muestra de datos, donde se han observado dos o más variables, la estadística
bivariante:
8.- Para representar conjuntamente una variable numérica y una variable categórica se
utiliza:
85
b) Un diagrama de Dispersión
c) Un diagrama de Cajas
d) Un diagrama de Sectores
9.- La tasa de delincuencia (Y) depende de la tasa de desempleo (X) y son variables que
están asociadas de forma positiva. Para una muestra dada se construye la recta de regresión
cuya pendiente toma el valor b = 2.13, lo que se interpreta de modo que
10.- Cuanto más próximo a 1 es el valor absoluto del coeficiente de correlación lineal de
Pearson:
86
SOLUCIONES DE LOS EJERCICIOS DE
AUTOEVALUACIÓN
1. c
2. b
3. b
4. c
5. a
6. b
7. d
8. c
9. b
10. c
87
GLOSARIO
Asociación entre variables: Relación existente entre dos variables aleatorias medidas sobre
un conjunto de sujetos u objetos, de modo que si existe dicha relación o asociación, ello
significa que hay una dependencia de la información de una variable en función de otra. La
independencia entre variables implicaría que no están asociadas.
Recta de regresión: expresión matemática que permite estimar el valor de una variable
dependiente de otra, ambas numéricas.
88
PROBABILIDAD
3
Unidad de aprendizaje
89
90
PRESENTACIÓN
Pierre S. Laplace
Si se producen fuertes lluvias, en una época del año, en general no podemos predecir con
seguridad el desprendimiento de paredes (laderas) que afectan a zonas de circulación vial
(carreteras).
Si estamos interesados en estudiar una variable, como por ejemplo, la antigüedad o edad de
los vehículos españoles, tendremos que tomar una muestra aleatoria de vehículos, dado que
no es posible estudiar a toda la población (todos los vehículos matriculados en España). Los
resultados del estudio, evidentemente, dependerán de la muestra seleccionada (muestras
distintas producirán resultados distintos, aunque se espera que sean siempre parecidos a lo
que se habría obtenido de haber podido observar la población completa), y por tanto, también
tendrán naturaleza aleatoria.
91
En el primero de los ejemplos anteriores es cierto que el tiempo de vida del aparato eléctrico
no es una cantidad completamente aleatoria y quizás se puede predecir aproximadamente en
función de la marca, el modelo, los materiales utilizados en su fabricación, condiciones de
uso, condiciones ambientales, etc. Una forma habitual de realizar esta predicción es observar
que, por ejemplo, todos los aparatos eléctricos utilizados en esas condiciones tienen un
tiempo de vida medio de 3 años. En tal caso sabemos a priori que un aparato eléctrico
escogido arbitrariamente entre todos los fabricados con dichas características, tendrá un
tiempo de vida de aproximadamente 3 años. Ahora bien su tiempo de vida exacto será
realmente 3 + años, donde es una cantidad (positiva o negativa) en la que se incluye el
efecto combinado de muchísimas variables de las que se desconoce la forma exacta en que
afectan al tiempo de vida del aparato (incluido el mero azar que ha dado lugar a que el aparato
eléctrico unos días haya tenido más carga de trabajo, otros menos, que haya podido funcionar
en condiciones de temperatura elevadas, etc). Esta combinación de pequeños efectos
impredecibles es la que da lugar en última instancia al valor que, a efectos prácticos, es
completamente aleatorio.
92
donde 1 y 2 son cantidades que dependen de la muestra escogida y que son aleatorias
precisamente porque la muestra se ha escogido al azar.
El hecho de que el resultado de un fenómeno aleatorio sea incierto, no quiere decir que no
se pueda hacer una predicción. Lo que sucede es que la predicción habrá que hacerla en
términos de probabilidad:
93
OBJETIVOS
94
ESQUEMA DE CONTENIDOS
PROBABILID
AD
P(A|
Propiedades B) Calculo de la
probabilidad “a
t i i”
P(A» P(A…
B) B)
Sucesos Sucesos
Sucesos Sucesos
Independientes Dependientes
95
96
EXPOSICIÓN DE LOS CONTENIDOS
1. Introducción
Ejemplo 1:
Cuando lanzamos una moneda al aire no sabemos si va a salir cara o cruz. No obstante,
si la moneda está bien construida, podemos esperar que la mitad de las veces que la
lancemos salga cara y la otra mitad cruz. Decimos de esta manera que la probabilidad
de sacar cara es de un 50% y la de sacar cruz otro 50%. Aunque aquí hemos expresado
la probabilidad en tanto por ciento, en la práctica es más frecuente expresar la
probabilidad como proporción (en tanto por 1): esto es, la probabilidad de sacar cara es
0.5, y la de sacar cruz es también 0.5.
Ejemplo 2:
Se ha observado que entre los aficionados que acuden a un evento deportivo sólo el 30%
lo hacen con antelación a los 30 minutos antes de que se inicie el evento, mientras que
el restante 70% acceden como máximo 30 minutos antes. Si seleccionamos a un
aficionado elegido arbitrariamente, aunque a priori no sabemos si accederá al centro con
antelación o como máximo 30 minutos antes de iniciarse el evento deportivo, sí que
podemos decir que las probabilidades de cada una de estas situaciones son,
respectivamente, del 30% y del 70%, o expresadas en tanto por uno, de 0.3 y 0.7.
Nótese que en estos dos ejemplos, la forma de asignar probabilidades a los resultados
posibles ha sido distinta. En el caso de la moneda hemos empleado un razonamiento
abstracto (Si la moneda está bien hecha, las probabilidades de cara y cruz son 50% y 50%
respectivamente), mientras que en el caso de los aficionados hemos debido hacer
97
observaciones previas (se ha observado que el 30% de los accesos se hacen con antelación
a los 30 minutos antes de que se inicie el evento frente al 70% restante que lo hace como
máximo 30 minutos antes)
2. Conceptos básicos
Sucesos especiales:
98
Suceso seguro: Es aquel que podremos predecir que con seguridad ocurrirá al realizar el
experimento aleatorio. Contendrá pues todos los sucesos elementales, por lo que es el
propio espacio muestral E.
Suceso imposible: Es aquel que podremos predecir que con seguridad no ocurrirá. Como
conjunto no contendrá a ningún suceso elemental, por lo que se trata del conjunto vacío,
el cual representaremos por .
Inclusión de sucesos: Se dice que un suceso A está incluido en otro suceso B (es decir,
A B), si siempre que ocurre A, ocurre también B. Es decir todos los elementos de A
son también elementos de B.
99
Unión de sucesos: Dados dos sucesos A y B, se llama unión de sucesos, al nuevo suceso
A B, que consiste en que ocurra alguno de los dos. Por tanto, A B es la reunión de
todos los sucesos elementales de A con los sucesos elementales de B.
Ejemplo 10: Al lanzar un dado al azar, sea A=Suceso “Obtener un número par”, y B =
Suceso “Obtener número mayor a tres” = {4,5,6}. Entonces, AB = Suceso “Obtener
número par mayor a tres” = {4,6}.
Incompatibilidad de sucesos:
100
Formalmente, si representamos por S el conjunto de todos los sucesos de un espacio muestral
E, una medida de probabilidad es una función definida para todos los elementos de S y que
toma valores en el intervalo [0,1], es decir,
P: S [0,1]
A P(A)
3) Si A1, A2, ... , An, son n sucesos incompatibles dos a dos (es decir, Ai Aj = ,
con ij), entonces:
4) P(Ac)= 1- P(A)
5) Si A B P(B-A) = P(B) – P(A)
101
La determinación de la probabilidad de un suceso se puede fundamentar en uno de los
siguientes criterios:
Consideremos un espacio muestral finito con n elementos que suponemos equiprobables (es
decir, todos tienen la misma probabilidad de ocurrir). Entonces:
k nº de casos favorables
P ( A)
n nº de casos posibles
102
Esta definición sólo tiene sentido si la frecuencia relativa con que ocurre un suceso tiende a
estabilizarse a medida que el experimento aleatorio se realiza más y más veces. En tal caso
podemos correctamente definir la probabilidad de un suceso A como:
nA
P(A)= lim
n n
Ejemplo 13: En una pista de bolos se colocan 11 casillas alineadas, se lanza una pelota
pequeña, ¿Cuál es la probabilidad de acertar en la casilla central?
Si lanza un tirador inexperto al hacer un lanzamiento podría caer por igual en cualquier
casilla y tras muchos lanzamientos se podría tener un diagrama de barras como el de la
figura 1 (a). Sin embargo, si lanza un tirador experto, lo más probable es que la mayoría
de las tiradas se acerquen más al centro, y sería de esperar un diagrama de barras como
el de la figura 1 (b).
(a) (b)
100
200
60
50 100
20
0
1 3 5 7 9 11 1 3 5 7 9 11
103
En ambos casos, la probabilidad de acertar en una casilla determinada se puede calcular
como el límite de la frecuencia relativa con que se acierta en esa casilla a medida que el
número de tiradas va aumentando. En el primer caso la distribución de frecuencias (y por
tanto de probabilidad) tiende a ser uniforme (igualmente repartida entre todas las casillas),
mientras que en el segundo caso tiene una forma acampanada (más probabilidad en el
centro que en los extremos)
5. Probabilidad Condicionada
Ejemplo 14:
Al lanzar un dado, sean los sucesos A = “Obtener número Par” y B = “Obtener
número mayor a tres”. Tenemos, por tanto, A ={2,4,6} y B ={4,5,6}
NB 3
P( B) 0.5 .
N 6
P B A
casos favorables a B sabiendo que ha ocurrido A 2
0.66
casos posibles sabiendo que ha ocurrido A 3
104
P B A
casos favorables a B sabiendo que ha ocurrido A
casos posibles sabiendo que ha ocurrido A
N 4,6 N B A N B A N P B A
N 2,4,6 N A N A N P A
P B A
P B A
P ( A)
P(B) = P(B|A)
105
En general, si A1, A2, ... , An son sucesos mutuamente independientes, de la primera
propiedad anterior se sigue que:
P(A1 A2 ... An) = P(A1) · P(A2) · ... · P(An)
Ejemplo 15:
Consideremos el experimento consistente en extraer dos cartas de una baraja
española y sean los sucesos:
A= Obtener un oro en la primera extracción.
B= Obtener un oro en la segunda extracción.
Calcular la probabilidad de que ocurra B sabiendo que ha ocurrido A.
P B A
10 9
P ( A) ;
40 39
P B A
10 10
P ( A) ; P( B)
40 40
Nota:
106
P(AB) = P(A) + P(B) - P(AB) = P(A) + P(B)
o bien,
Los siguientes resultados son de especial interés para resolver problemas relacionados con
las probabilidades condicionales. Su enunciado requiere el concepto de sistema completo de
sucesos que definimos a continuación:
Sistema completo de sucesos: En un espacio muestral E, se dice que n sucesos A1, A2 , ...,
An forman un sistema completo si Ai Aj = , para cualquier par de conjuntos (son
incompatibles dos a dos) y E = A1 A2 ... An (la reunión de todos es el suceso seguro).
Por tanto, dado un sistema completo de sucesos, ocurre uno y sólo uno de los sucesos que
lo forman.
Teorema de la Probabilidad Total: Sea A1, A2 , ..., An un sistema completo de sucesos y sea
B un suceso arbitrario. Se tiene entonces que:
107
n
P ( B ) P B Ai P Ai
i 1
Demostración:
P B P B E P B A1 A2 ... An P B A1 B A2 ... B An
n n
P B Ai P B Ai P Ai
i 1 i 1
Ejemplo 16:
Los vehículos turismos en España se agrupan, según la antigüedad, en tres categorías: A1 los
que tienen menos de 7 años; A2 los que tienen una antigüedad de más de 7 años y menos de
15; y A3 los que tiene una antigüedad superior a los 15 años. Las proporciones de dichos
vehículos en España es tal que el 40% de turismos es del grupo A1, un 50% del grupo A2 y
el 10% del grupo A3. Se sabe, por estudios previos, que la probabilidad de accidente por
avería de un turismo de la categoría A1 es 0.07, la de accidente de uno del grupo A2 es 0.14
y del tipo A3 es 0.49. ¿Cuál es la probabilidad de que ocurra el suceso B = “Un turismo tenga
un accidente por avería”?
P B P B E P B A1 A2 A3 P B A1 B A2 B A3
P B A1 P B A2 P B A3 P B| A1 P ( A1 ) P B| A2 P ( A2 ) P B| A3 P ( A3 )
108
Ai, entonces el siguiente teorema permite usar la información aportada por B para calcular la
probabilidad de que haya ocurrido Aj, esto es, la probabilidad P(Aj / B) (probabilidad a
posteriori)
Teorema de Bayes: Sea A1, A2 , ..., An un sistema completo de sucesos y sea B un suceso
que cumple que B Ai . Se tiene entonces:
P B Aj P Aj
P Aj B
n
P B Ai P Ai
i 1
Demostración:
P (A j B ) P (B A j ) P ( B | A j )·P ( A j )
P(A | B)
j P (B ) P B n
P ( B | Ai )·P ( Ai )
i 1
Ejemplo 17:
P( A3 B ) P( B A3 ) P(B|A 3 )·P(A 3 )
P( A | B)
3 P( B ) PB P( B | A1 )·P( A1 )+P( B | A2 )·P( A2 )+P( B | A3 )·P( A3 )
0.49·0.1
P( A | B) 0.333 (33.3%)
3 0.07·0.4+0.14·0.5+ 0.49·0.1
109
De igual modo podremos determinar las probabilidades:
0.14·0.5
P( A | B) 0.476 (47.6%)
2 0.07·0.4+ 0.14·0.5 +0.49·0.1
0.07·0.4
P( A | B) 0.19 (19%)
1 0.07·0.4 +0.14·0.5+0.49·0.1
En un 19% de las ocasiones en las que se produce un accidente por avería de un turismo,
éste tiene una de antigüedad de 7 años o menos.
Ejemplo 18:
La información meteorológica advierte que durante el puente de vacaciones del mes de
diciembre, en una determinada zona, hay un 20% de probabilidades de que llueva, un 50%
de que nieve y un 30% de posibilidades de niebla. Teniendo en cuenta estos estados
meteorológicos, se sabe por experiencias previas que un accidente de tráfico en dicha zona,
en caso de lluvia, se produce con una probabilidad del 95%, en caso de nieve dicha
probabilidad es de un 50% y si hay niebla hay una posibilidad del 25%. Si se produce un
accidente durante el puente de vacaciones, ¿qué probabilidad hay de qué la situación
meteorológica fuera de nieve?.
110
P(nieve) = 0.50 P(Accidente de tráfico | nieve) = 0.50
P(niebla) = 0.30 P(Accidente de tráfico | niebla) = 0.25
P AT Nv P Nv
P Nv AT
P AT Ll P Ll P AT / Nv P Nv P AT / Nbl P Nbl
0.5 0.5
0.485
0.95 0.20 0.5 0.5 0.25 0.30
Ejemplo 19:
En una época del año se sabe por datos históricos que la probabilidad de que el agua de un
río esté contaminada es 0.2. Se dispone de un Test para analizar el agua y se sabe que este
test, cuando hay contaminación la detecta en un 95% de los casos, y cuando no hay
contaminación también da positivo en un 7% de los casos. Calcular la probabilidad de que,
habiendo dado el test negativo, haya realmente contaminación.
P(A) = 0.2 (un 20% de las veces está contaminada el agua del río)
P(Ac) = 1- P(A) = 0.8 (el 80% de las veces el agua NO está contaminada)
P(T|A) = 0.95 (El Test detecta contaminación, cuando la hay, en un 95% de los casos)
P(Tc |A) = 1- P(T|A) = 0.05 (El Test No detecta contaminación, cuando la hay, en un 5%
de los casos)
111
P(T|Ac) = 0.07 (El Test detecta contaminación (da positivo), cuando No la hay, en un 7% de
los casos)
P(Tc|Ac) = 1- P(T|Ac) = 0.93 (El Test NO detecta contaminación (da negativo), cuando No
la hay, en un 93% de los casos)
A (Agua Ac
Contaminada)
T
c
P(ATc) P(AcTc) P(Tc)
112
A (Agua Contaminada) Ac
c
T P(Tc|A) = 0.05 P(Tc|Ac) =
0.93
1 1
A (Agua Contaminada) Ac
c
T P(A|Tc) = P(ATc)/P(Tc) = P(Ac|Tc) 1
= P(T|cA)·P(A)/[1-P(T)]
Siento, por lo tanto, la probabilidad de que haya contaminación habiendo dado el test
negativo:
113
ACTIVIDADES
1.- Una empresa hotelera tiene 400 empleados, de los cuales 180 son mujeres y 220 hombres,
y se encuentran organizados en tres grupos: A (recepcionistas, administrativos, gestores), B
(camareros, cocineros) y C (servicio de mantenimiento, personal de limpieza). De las 180
mujeres, 60 pertenecen al grupo A, 100 al C y el resto al grupo B. De los 220 hombres 95
pertenecen al grupo C, 60 al B y el resto al A. Se elige un trabajador al azar:
2.- Del total de trabajadores de una empresa un 65% realizan su jornada laboral en horario
diurno y el resto en horario nocturno. Se sabe que durante la jornada diurna hay un 21% de
posibilidades de sufrir un accidente laboral, siendo de un 43% la posibilidad de que sea
durante la jornada nocturna. Si se selecciona al azar un trabajador de la empresa:
3.- Se contratan tres laboratorios para realizar los análisis químicos en una empresa de medio
ambiente. Los datos que a continuación se expresan reflejan la experiencia a largo plazo con
estos laboratorios y la entrega de los resultados de dichos análisis:
114
% de análisis % de resultados de análisis
Laboratorio asignados a cada entregados con más de un mes de
laboratorio retraso
1 50 % 30 %
2 30 % 40 %
3 20 % 20 %
C1 C2 C3 C4
de modo que deben funcionar todos correctamente para que lo haga el sistema. Según el
fabricante de dichos componentes la probabilidad de que un componente Ci funcione,
115
después de mil horas uso, es de 0.85. Suponiendo que los componentes funcionan
independientemente unos de otros
Si se considera ahora diseñar el sistema electrónico en paralelo, tal como se indica la figura
a continuación:
C1 C2
C3 C4
116
BIBLIOGRAFÍA
Quesada, V.; Isidoro, A.; López, L.A. (1989). Curso y ejercicios de estadística: aplicación
a las ciencias biológicas, médicas y sociales. Madrid: Alhambra.
Vose, David (2008). Risk Analysis. A Quantitative Guide. England: John Wiley & Sons, Ltd.
117
EJERCICIOS DE AUTOEVALUACIÓN
3.- Si P(A|B) = 0.4, P(B) = 0.8 y P(A) = 0.4, ¿puede afirmarse que los sucesos B y Ac son
independientes?
a) No, puesto que P(AB) P(A)·P(B)
b) Sí, puesto que P(A|B) = P(A)
c) No, puesto que P(A|B)·P(B) P(A)
d) Sí, puesto que P(A|B) = P(B)-P(A)
4.- Un centro de menores tienen acogidos a 120 adolescentes de los cuales 40 son chicas y
80 chicos, y se encuentran organizados en tres grupos de delitos: Violencia, Robo y delitos
contra la seguridad vial. De los 80 chicos, 20 han cometido delitos contra la seguridad vial,
20 actos de violencia y el resto robos. De las 40 chicas 10 han cometido robos, 25 están
detenidas por violencia, y el resto por delitos contra la seguridad vial. Se elige un adolescente
del centro al azar ¿qué probabilidad hay de que sea chico y esté detenido por robo, es decir,
P(Chico…Robo)?.
a) 0.5
b) 0.25
c) 0.33
d) 0.67
118
5.- En un determinado hotel el 18% de los clientes son canarios, un 22% son
peninsulares y el resto extranjeros. En cada uno de estos grupos el porcentaje de
reclamaciones presentadas es de un 10%, un 14% y un 6%, respectivamente. A partir
de estos datos se puede decir que el porcentaje de reclamaciones del hotel es:
a) 6.73%
b) 30%
c) 60%
d) 8.48%
6.- La siguiente tabla de contingencia recoge el porcentaje de profesionales que sufren infarto
de miocardio (durante la jornada laboral o no) según el tipo de Profesión. Si se selecciona
un trabajador de la construcción, ¿cuál es la probabilidad de sufrir infarto durante la jornada
laboral, es decir, P(I|C)?
a) 0.657
b) 0.354
c) 0.538
d) 0.343
7.- Una corriente de agua debe pasar del punto A al B a través de un circuito que consta de 3
válvulas (V1, V2 y V3). Las probabilidades de que el agua pase a través de V1, V2 y V3 son 0.8,
119
0.85 y 0.9, respectivamente. Sabiendo que el paso de agua por cada una de las tres válvulas es
independiente del paso a través de las restantes, calcular la probabilidad de que el agua pase de A
a B en los siguientes casos:
8.- Una empresa constructora se suministra de ladrillos para la construcción que adquiere de
3 factorías distintas: de la factoría A el 15%, de B el 45% y de C el resto de ladrillos. Se sabe
por experiencia que la factoría A genera un 7% de ladrillos defectuosos, en la factoría B se
producen un 3% y la C un 5%. Si en un control de calidad se detecta un ladrillo defectuoso,
¿qué probabilidad hay de que sea de la factoría B?
a) 0.0135
b) 0.3068
c) 0.044
d) 0.6932
9.- Una empresa de seguridad hace un estudio sobre el sistema de emergencia de una fábrica
que está dotado de alarma. La empresa de seguridad sabe que la probabilidad de que se
produzca una situación de peligro es de 0.03. Si ésta se produce, la probabilidad de que suene
la alarma es de 0.98. La probabilidad de que se dispare la alarma sin haber situación de
peligro es de 0.01. Calcular la probabilidad de que, habiendo funcionado la alarma, no haya
situación de peligro.
a) 0.0391
b) 0.0097
c) 0.248
d) 0.0294
120
10.- Del total de accidentes de tráfico, acontecidos a lo largo de un año, un 56% fueron
debidos a factores humanos, 31% a factores ambientales, un 7.3% por factores del vehículo
y el 5.7% por otros factores. Los porcentajes de accidentes de tráfico mortales debido a cada
uno de estos factores son, respectivamente, de un 67%, 46%, 35%, 14%. ¿Cuál es la
probabilidad de que se produzca un accidente de tráfico mortal?
a) 0.5513
b) 0.3752
c) 0.6806
d) 0.0255
121
SOLUCIONES DE LOS EJERCICIOS DE
AUTOEVALUACIÓN
1. c
2. d
3. b
4. c
5. d
6. a
7. a
8. b
9. c
10. a
122
GLOSARIO
Experimento aleatorio: Es aquel cuyos resultados no pueden predecirse con total seguridad
a priori.
123
124
VARIABLES ALEATORIAS Y DISTRIBUCIONES
DE PROBABILIDAD
4
Unidad de Aprendizaje
125
126
PRESENTACIÓN
El análisis práctico de aquellas situaciones en las que el azar juega un papel importante -
-y no cabe duda de que en las cuestiones relacionadas con la seguridad y el riesgo, el azar
es uno de los factores con mayor relevancia-- requiere que seamos capaces de modelar
adecuadamente todas las variables implicadas. En este contexto surge de manera natural
el concepto de variable aleatoria como valor numérico asignado al resultado de una
observación (o experimento) cuyo resultado es impredecible a priori. Por ejemplo:
¿Cuántos incendios habrá el próximo verano? ¿Cuántos accidentes de tráfico se
producirán el fin de semana? ¿Cuánto puede medir la superficie contaminada por el
combustible que vierte un barco accidentado en alta mar? Obviamente estas preguntas
carecen de una respuesta segura; la seguridad en estos casos se sustituye necesariamente
por una asignación de probabilidades a los posibles valores de la variable: no podemos
decir exactamente cuántos incendios va a haber, pero nos gustaría poder decir cuál es la
probabilidad de que no haya ninguno, o de que haya uno, dos, tres o más. Sólo en función
de estas probabilidades podrán asignarse de manera razonable recursos y personal a los
sistemas de extinción de incendios.
OBJETIVOS
Al finalizar este capítulo el alumno deberá:
127
Comprender el concepto de variable aleatoria y su función de distribución.
Saber distinguir variables aleatorias discretas y continuas.
Entender y saber manejar los conceptos de función de probabilidad (caso
discreto) y densidad de probabilidad (caso continuo). Ser capaz de pasar de
función de distribución a densidad y viceversa.
Conocer las principales medidas resumen de una variable aleatoria:
momentos, esperanza, varianza y cuantiles. Conocer otras medidas de forma:
asimetría y apuntamiento.
Conocer las distribuciones de probabilidad discretas y continuas más
habituales en la práctica: Bernoulli, Binomial, Poisson, Uniforme, Exponencial y
Normal.
Saber calcular probabilidades asociadas a las distribuciones anteriores.
EXPOSICIÓN DE CONTENIDOS
1. Introducción
Hay muchos fenómenos aleatorios en los que resulta sencillo identificar el espacio
muestral y llevar a cabo una asignación de probabilidades. Por ejemplo, cuando lanzamos
un dado equilibrado sólo hay seis resultados posibles, todos ellos equiprobables, por lo
que la regla de Laplace nos indica que cada uno tiene una probabilidad 1/6 de suceder.
Sin embargo, hay casos en que realizar una asignación de probabilidades no es ni mucho
menos una tarea inmediata.
Pensemos, por ejemplo, que nuestro objetivo sea caracterizar la resistencia a la corrosión
de detectores de incendios situados en instalaciones marinas. En particular, supongamos
que nos interesa determinar cuál es la duración máxima de un sensor en condiciones
óptimas de funcionamiento. ¿Cómo determinamos la probabilidad de que un sensor
elegido al azar dure un tiempo determinado sin sufrir averías? Es obvio que aún cuando
todos los sensores se encuentren en la misma instalación, sean todos iguales y estén
sujetos a las mismas políticas de revisión y mantenimiento, siempre habrá algunos que
duren más y otros que duren menos. Así pues, medir la duración de un sensor de
incendios es un experimento aleatorio: no es posible conocer a priori cuánto va a durar
128
un sensor arbitrario.
Tras observar muchos de estos sensores a lo largo del tiempo, quizás comprobemos que
su duración en condiciones óptimas oscila entre las 3000 y las 6000 horas. Podemos
entonces asignar como espacio muestral el intervalo 3000, 6000 (o quizás uno un
poco mayor, por ejemplo el 2000, 7000 , si queremos darnos un margen para incluir
duraciones que quizás puedan darse pero que no se han registrado durante nuestro periodo
de observación). ¿Cómo realizamos ahora la asignación de probabilidades? O dicho de
otra forma, ¿cómo repartimos (distribuimos) la probabilidad total (que debe ser 1) entre
todos los valores de ese intervalo? Como este intervalo (en realidad, cualquier intervalo)
contiene infinitos valores, la regla de Laplace no resulta útil. Si utilizamos la asignación
de probabilidades mediante frecuencias relativas, podríamos asignar de manera sencilla
probabilidades a subintervalos del espacio muestral; quizás ocurre que un 5% de los
sensores observados dure entre 3000 y 3500 horas, un 15% dure entre 3500 y 4000, un
30% entre 4000 y 4500, etc. Estas proporciones nos servirían como aproximaciones de la
probabilidad de que la duración de un sensor se encuentre en cada uno de estos intervalos.
Pero, ¿qué hacemos si queremos saber cuál es la probabilidad de que un sensor dure entre
3520 y 3640 horas? Sí, podemos construir subintervalos más finos y volver a evaluar las
proporciones; pero para ello necesitaremos muchos más datos experimentales que pueden
ser difíciles de conseguir.
Por tanto se hace precisa una herramienta matemática que permita modelar y manejar
probabilidades en situaciones como ésta. En este capítulo veremos que los conceptos de
variable aleatoria y su distribución de probabilidad son la clave para alcanzar este
objetivo. Estos conceptos nos proporcionarán, como veremos, una colección de modelos
con la suficiente flexibilidad para adaptarse a un gran número de situaciones. Para
conseguir este objetivo deberemos aprender a identificar la estructura probabilista
subyacente al problema que nos ocupa; si en lugar de caracterizar la duración de unos
sensores antincendios, nuestro objetivo fuese caracterizar el volumen de madera quemada
durante un incendio, el número de víctimas de accidentes de tráfico en un fin de semana,
o la superficie de una mancha de fuel causada por el hundimiento de un barco, es muy
posible que podamos utilizar el mismo modelo, adaptando en cada caso los parámetros
de ajuste necesarios.
129
Frecuentemente el resultado de un experimento aleatorio -un experimento que se
caracteriza porque resulta imposible predecir a priori su resultado exacto- puede medirse
de varias formas distintas, dependiendo de la finalidad con que se haya realizado ese
experimento. Si se lanza una moneda al aire, el resultado será cara o cruz; pero si hemos
apostado 10 euros a que sale cara, desde nuestra perspectiva el resultado del lanzamiento
será ganar 10 euros o perder 10 euros. Durante el curso de una campaña de prevención de
accidentes de tráfico se pueden escoger numerosos puntos de observación; en cada uno
de ellos se pueden medir diversas variables: número de vehículos que pasan cada hora,
velocidad de dichos vehículos, número de pasajeros que transportan, número de camiones
o autobuses, número de camiones que transportan mercancías peligrosas .... En un estudio
sobre la respuesta de los servicios de urgencias ante una llamada de emergencia se puede
medir el tiempo que se tarda en acudir, la efectividad del servicio, el número de personas
necesarias para resolver la emergencia, el tipo y duración del incidente atendido ...
Así pues, el valor numérico obtenido en un experimento aleatorio resulta de aplicar algún
instrumento de medida 1 a aquello que se observa. La formalización del concepto de
instrumento de medida conduce a la definición de variable aleatoria: una variable
aleatoria es una función que a cada suceso elemental de un espacio muestral le asigna un
valor numérico.
De una manera formal, podemos decir que, dado un experimento aleatorio cuyo espacio
muestral (esto es, el conjunto de posibles resultados elementales) es , una variable
aleatoria es una función que asocia a cada resultado del espacio muestral un número
real, de tal forma que para todo valor ∈ el conjunto ∈ : tiene una
probabilidad bien definida. Dicho de una manera menos técnica, una variable aleatoria es
una magnitud cuyo valor exacto no puede anticiparse antes de medirla, pero para la
que sí es posible calcular a priori la probabilidad de que tome un valor menor o igual que
para cualquier número real . El siguiente ejemplo ayudará a aclarar esta definición.
1
El término instrumento de medida se entiende aquí en sentido amplio; puede ser un
cinemómetro que sirve para medir velocidad, un reloj para medir tiempo, o el ojo humano,
para contar por ejemplo el número de pasajeros de un vehículo.
130
, , , ∈ 1,2,3,4,5,6
( es el resultado del primer dado y el del segundo). Sobre este espacio muestral
definimos la variable aleatoria “Suma de las caras superiores de los dados”:
,
Obviamente, cuando lanzamos dos dados no es posible saber qué resultado va a salir; sin
embargo, para cualquier número real arbitrario puede calcularse sin mucha dificultad
la probabilidad de que (la suma de los dados) valga menos que . Por ejemplo:
Si 1 es obvio que 1 0 (es imposible que al tirar dos
dados la suma dé un valor menor que -1);
Por la misma razón 0 para cualquier valor negativo;
La probabilidad de que 2 puede calcularse también fácilmente: la
única manera de que al tirar dos dados la suma sea menor o igual que 2 es que
salga un 1 en cada dado; por tanto hay un único caso favorable; cuando se tiran
dos dados hay 36 casos posibles: 1,1 , 1,2 , 1,3 , … 6,6 . Por tanto
2 .
131
dados equilibrados. El resultado de la suma de sus caras superiores es un número entero
entre 2 y 12. Si llamamos al suceso consistente en que la suma sea , y denotamos
por , al resultado consistente en obtener el valor en el primer dado y el valor en
el segundo (obviamente tanto como sólo pueden tomar los valores 1, 2, 3, 4, 5 y 6)
tenemos que los sucesos posibles son:
1,1
1,2 , 2,1
1,3 , 3,1 , 2,2
1,4 , 4,1 , 2,3 3,2
1,5 , 5,1 , 2,4 , 4,2 , 3,3
1,6 , 6,1 , 2,5 , 5,2 , 3,4 , 4,3
2,6 , 6,2 , 3,5 , 5,3 , 4,4
3,6 , 6,3 , 4,5 , 5,4
4,6 , 6,4 , 5,5
5,6 , 6,5
6,6
2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36
Los sucesos , consistentes en que la suma de puntos sea menor o igual que , pueden
obtenerse como:
, : ∪ ∪ …∪ , 2, … ,12.
∪ ∪ …∪
132
que 1 (con 2,3, … 11) se tiene que es inmediato construir la
función de distribución de :
0 2
1/36 2 3
3/36 3 4
6/36 4 5
10/36 5 6
15/36 6 7
21/36 7 8
26/36 8 9
30/36 9 10
33/36 10 11
35/36 11 12
1 12
133
3. es una función monótona no decreciente, esto es, si
entonces
4. Si entonces
134
0 0
1/8 0 1
4/8 1 2
7/8 2 3
1 3
2
Este ejemplo se incluye para que el alumno: (1) tome consciencia de que aunque una
variable tome un número infinito de valores, la suma de probabilidades de dichos valores
es 1; y (2) observe que desde la perspectiva matemática, no hay problema en la realización
de los cálculos que involucran infinitos valores. No obstante, dichos cálculos, dada su
complejidad técnica, no serán requisito de evaluación en este curso, por lo que el alumno
si lo desea puede omitir la lectura de este ejemplo.
135
lanzamientos constituyen sucesos independientes se tiene:
1
1
2
1 1 1 1
2 ∩ ⋅
2 2 2 4
3 ∩ ∩
1 1 1 1 1
⋅ ⋅
2 2 2 2 8
⋮
… ∩ …∩ ∩
1 1 1
⋅
2 2 2
⋮
(Obsérvese que esta variable aleatoria podría tomar infinitos valores ya que, al menos en
teoría, cabe la posibilidad de que en los sucesivos lanzamientos salga siempre cruz, por
lo que el experimento no se detiene nunca). Por tanto la función de distribución de esta
variable aleatoria, para 1,2,3, …, viene dada por3:
∑ ∑ 1
Como hemos visto en los ejemplos anteriores, las variables aleatorias discretas se
caracterizan por tener funciones de distribución acumulativa escalonadas, que se van
incrementando a saltos. Las posiciones de los saltos corresponden a los valores que puede
tomar la variable aleatoria. A su vez, la magnitud de cada salto es igual a la probabilidad
de observar el valor correspondiente al punto de salto. Entre salto y salto, la función de
distribución es constante.
3
Es preciso utilizar que la suma de los primeros términos de una progresión
geométrica de razón menor que la unidad es ∑
136
4.2 Propiedades de la función de probabilidad de una variable
aleatoria discreta
Sea , , , … el conjunto (finito o infinito numerable) de todos los posibles
valores que puede tomar una variable aleatoria discreta . Suponemos además que
⋯ , y llamemos . Las siguientes propiedades se siguen
inmediatamente de la definición de :
1. 0 1 para todo ∈
2. ∑ ∈ 1
3. ∑
4.
137
Figura 3. (a) Función de probabilidad y (b) Función de distribución acumulativa del número de
lanzamientos de una moneda hasta que sale cara por primera vez (ejemplo 1).
138
probabilidad de que se rompa en un punto concreto es 0, cualquiera que sea :
0 ∀ ∈ 0,1
Ahora bien, si consideramos el punto medio ( ), por ser la cuerda homogénea la
probabilidad de que se parta a la izquierda de ese punto debe ser igual a la probabilidad
el punto , como el trozo a la izquierda de este punto mide una tercera parte de la
Un caso particular de variables aleatorias continuas son las absolutamente continuas, que
se caracterizan porque su función de distribución es absolutamente continua. Esto
significa que existe una función real , positiva e integrable en el conjunto de números
reales, tal que la función de distribución acumulativa se puede expresar como:
(1)
139
Figura 4. Función de distribución acumulativa descrita en el ejemplo 2.
lim
→
lim lim
→ →
140
suficientemente pequeño:
∈ , Δ ≅ Δ
Como vemos, esta función es constante en el intervalo 0,1 , lo que se corresponde con
la idea intuitiva de que, por ser la cuerda homogénea, es igualmente probable que se
rompa en cualquier punto; por tanto la densidad de dicha probabilidad debe ser constante
a lo largo de todo el recorrido de la cuerda.
Nota: Si bien es posible definir variables aleatorias continuas que no sean absolutamente
141
continuas, constituyen la excepción antes que la regla. La inmensa mayoría de las
variables aleatorias continuas que nos encontramos en las aplicaciones son también
absolutamente continuas. Por ello, con el objetivo de simplificar la terminología, cuando
en este texto utilicemos la expresión variable aleatoria continua nos estaremos refiriendo
en realidad a variables aleatorias absolutamente continuas, y por tanto con función de
densidad bien definida.
3.
La última propiedad nos indica que la probabilidad de que una variable aleatoria
continua tome valores entre dos puntos y coincide con el área bajo la
función de densidad entre esos dos puntos (recuérdese que el significado geométrico
de la integral es precisamente el área bajo la función)
Continuación del ejemplo 5: La probabilidad de que la cuerda se parta entre los puntos
0.3 y 0.7 puede calcularse como:
. .
.
0.3 0.7 1 . 0.7 0.3 0.4
. .
Nota: no es objetivo de este curso que el alumno resuelva integrales. Se muestra aquí este
cálculo para ilustrar el uso más “técnico” de la función de densidad. Para comprender el
142
resto de contenidos basta que el alumno haya entendido el significado geométrico de la
función de densidad.
143
. .
0.1 1
Si se desea obtener la probabilidad de que entre dos llamadas sucesivas transcurran entre
10 y 25 minutos calculamos simplemente:
. .
10 25 0.1
. ⋅ . ⋅
0.38
145
toma la variable aleatoria.
Cuantiles: Valores por debajo de los cuales se acumula una determinada
probabilidad (normalmente el 1%, 2.5%,5%, 25%, 50%, 75%, 95%, 97.5%, 99%).
146
Figure 7. (a) Representación de la función de probabilidad de una variable aleatoria discreta (b)
Representación de la densidad de probabilidad de una variable aleatoria continua. En ambos casos
la posición de su esperanza (centro de gravedad de la figura) se representa mediante un triángulo.
147
Ejemplo 7: Para la variable aleatoria definida en el ejemplo 2, correspondiente al
resultado de la suma de las caras superiores resultantes al lanzar dos dados, la esperanza
se obtiene fácilmente como:
1 2 3 4 5 6
2⋅ 3⋅ 4⋅ 5⋅ 6⋅ 7⋅
36 36 36 36 36 36
5 4 3 2 1
8⋅ 9⋅ 10 ⋅ 11 ⋅ 12 ⋅ 7
36 36 36 36 36
La varianza es, pues, el valor esperado de la distancia al cuadrado entre los valores que
148
toma la variable aleatoria y su esperanza4; si los valores están muy agrupados, estarán
muy cerca de su centro (la esperanza) y la varianza será pequeña; por contra, si los valores
de está muy alejados entre sí, lo estarán también de su centro, y la varianza será grande.
Por tanto la varianza es, efectivamente, una medida de dispersión.
Dada su definición, es obvio que las unidades en que se mide la varianza corresponden al
cuadrado de las unidades en que se mide la variable . Esto resulta poco práctico en
muchas ocasiones, por lo que se suele emplear como medida de dispersión la desviación
típica definida como5:
sd var
Es habitual denotar la desviación típica de una variable aleatoria mediante la letra griega
. De la misma forma, la varianza suele denotarse como .
Figura 8. Funciones de densidad de tres variables aleatorias con distintas desviaciones típicas.
4
Esta distancia se toma al cuadrado para evitar la presencia de valores negativos, que
pueden falsear su significado.
5
Utilizamos aquí la notación sd para la desviación típica, que deriva de su denominación
inglesa standard deviation.
149
La figura 8 muestra tres funciones de densidad correspondientes a variables aleatorias
con la misma esperanza 0, y con distintas desviaciones típicas. Como puede
apreciarse, a medida que aumenta la desviación típica, la densidad se distribuye en un
rango más amplio (la variable toma valores más dispersos). Nótese también que como el
área total bajo la función de densidad debe ser siempre 1, cuando se incrementa el rango
que abarca dicha función, su altura disminuye.
7. Desigualdad de Chebyshev
La desigualdad de Chebyshev permite utilizar la varianza de una variable aleatoria para
acotar el valor de ciertas probabilidades que resultan de interés práctico. Concretamente,
si es una variable aleatoria tal que y var esta desigualdad
establece que para todo 1:
1
| | 1
Eligiendo 2: | | 2 0.75
Eligiendo 3: | | 3 1 0.89
Eligiendo 4: | | 4 1 0.9375
150
probabilidad de que los valores de se diferencien de en menos de 2 desviaciones
típicas es al menos 0.75, pero según como sea la distribución de , esa probabilidad
podría en realidad ser 0.8, 0.9, ó 0.95, por ejemplo.
aleatoria, ya que no es posible conocer su valor antes de haber obtenido la muestra. Cada
posible muestra producirá unos valores distintos de , ,…, , y por tanto un valor
distinto de . Tiene sentido, por tanto, que nos preguntemos por cuál es el valor esperado
de (el centro de masas de todos los posibles valores que puede tomar) y cuál es su
varianza. Ambos valores son fáciles de obtener. Aplicando las propiedades de la
esperanza, tenemos:
1 1 1 1 1
1 1 1 1 1
var var var var
151
Por tanto, a medida que aumenta el valor de , la varianza de se va reduciendo, de tal
forma que cuando es grande var ≅ 0. Ello significa que para valores grandes de
9. Cuantiles
Dada una variable aleatoria cuya función de distribución acumulativa es , se
define el -ésimo cuantil (0 1) como el valor , tal que
.
Cuando es estrictamente creciente la ecuación anterior tiene solución única. En el
caso de que la variable aleatoria sea discreta, ya hemos visto que es escalonada; y
aún cuando sea continua, podría ocurrir que su función de distribución acumulativa
presente intervalos en los que su valor sea constante. En estos casos se define el -ésimo
cuantil como min : .
Hay algunos cuantiles de uso muy frecuente, que reciben su propio nombre:
La mediana (Me) es el cuantil 0.5. Por tanto, la probabilidad de que la
variable tome valores menores o iguales que la mediana es el 50%, y que tome
valores mayores que ella es otro 50%. Por esta razón, la mediana se usa
habitualmente como medida de posición central.
Los cuartiles ( , y ): corresponden a los cuantiles 0.25, 0.5
(mediana) y 0.75.
Los centiles o percentiles ( : corresponden a los cuantiles de la forma
, 1, … ,100
Ejemplo 9: En el ejemplo 6 vimos que el tiempo (en minutos) entre llamadas a una
centralita de urgencias es una variable aleatoria cuya densidad de probabilidad puede
.
modelarse por 0.1 . La función de distribución es entonces:
. .
0.1 1
152
Para calcular cualquier cuantil bastará con resolver la ecuación , que en
este caso queda de la forma:
. .
1
1 ⇒ 1 ⇒ log 1 10 log 1
0.1
Esperanza y varianza:
1 1
⋅
1 1
var
1 1
⋅ 21 3,5
6 6
1
var 3,5 2,91
6
153
Esperanza y varianza:
⋅ 1⋅ 0⋅ 1
∈ ,
var 1 0 1
∈ ,
y la media y varianza:
1 1 1 1
; 1 ⋅
2 2 2 4
154
10.3 Distribución Binomial ,
Definición: Una variable aleatoria sigue una distribución Binomial de parámetros
y si representa el número de éxitos obtenidos al realizar repeticiones independientes
de un experimento de Bernoulli, siendo la probabilidad de éxito en cada experimento.
Obviamente sólo son posibles entre 0 y éxitos. La función de probabilidad de esta
variable es de la forma:
1 , ∈ 0,1,2, … ,
!
donde
! !
Ejemplo: Por la experiencia acumulada a lo largo de los años se sabe que un 30% de
las llamadas recibidas en un puesto de bomberos corresponden a rescate de personas
atrapadas (ascensores, fosas, vehículos accidentados, ...). De las próximas 10 llamadas,
¿cuál es la probabilidad de que 5 sean para rescatar a personas?
155
Figura 11. Función de probabilidad de la distribución binomial para diversos valores de y . La
10
5 0. 3 1 0.3 0.103
5
156
; 0,1,2,3, . . ..
!
siendo un valor real positivo. La figura 12 muestra la forma de esta función de
probabilidad para diversos valores de .
157
Número de barcos en una región marina (los puntos son las posiciones de
los barcos y el espacio continuo donde se encuentran es la superficie de la región).
var
!
Ejemplo: Si la región marítima de Canarias cuenta con una densidad media de barcos de
0.01 barcos por milla cuadrada (esto es, por término medio un barco cada 100 millas
cuadradas), y el número de barcos presentes en un momento arbitrario sigue una
distribución de Poisson, ¿cuál es la probabilidad de que una zona de mil millas cuadradas
de extensión haya 8 barcos?
Como la densidad media de barcos es de 0.01 barcos/milla2, en 1000 millas cuadradas
cabe esperar una media de 1000 ⋅ 0.01 10 barcos. Como el parámetro de la
distribución de Poisson coincide con su esperanza, tenemos por tanto que 10 .
Aplicando la distribución de Poisson:
10
8 0.113
8!
158
Ejemplo: Si el número de llamadas correspondientes a incidentes muy graves que se
reciben en una central de emergencias a lo largo de la mañana sigue una distribución de
Poisson de media 0.5 llamadas/hora (es decir, 1 llamada para comunicar un incidente
grave cada dos horas), ¿Cuál es la probabilidad de que a lo largo de una mañana (8 horas)
se produzca la comunicación de 3 incidentes graves?
En 8 horas cabe esperar que se produzcan por término medio 8 ⋅ 0.5 4 de estas
llamadas. Si es el número total efectivo de estas llamadas a lo largo de la mañana, se
tiene que 4 y por tanto:
4
3 0.195
3!
159
pequeña ciudad hay 280 personas mayores que viven solas y disponen de pulsadores de
alarma para avisar a los servicios de emergencia. La probabilidad de que una de estas
personas utilice el pulsador un día arbitrario es 0.01. ¿Cuál es la probabilidad de que a lo
largo de un día no se registre ni un sólo aviso de pulsación en la central receptora de
alarmas?
Llamando =“Número de pulsaciones de alarma realizadas en un día arbitrario”,
tendríamos que 280,0.01 . La probabilidad de que ninguna persona utilice el
pulsador es entonces:
280
0 0.01 1 0.01 0.99 0.05996
0
Muchas calculadoras no son capaces de realizar correctamente este cálculo. La
aproximación de Poisson nos indica que 280,0.01 ≅ 280 ⋅ 0.01 2.8 .
Si utilizamos la distribución de Poisson para calcular la probabilidad pedida obtenemos
2. 8 . .
0 0.06081
0!
que se diferencia del verdadero valor en 0.00085, por lo que el error de aproximación es
inferior a una milésima. Vemos, pues, que la aproximación mediante la distribución de
Poisson funciona razonablemente bien, y es aconsejable su uso cuando no se dispone de
medios informáticos avanzados.
160
Si ”Número de incidentes en la playa i”, se tiene que 2 , 1.4 y
0.7 . Por tanto, por la aditividad de la distribución de Poisson, el número total de
incidentes en las tres playas es 2 1.4 0.7 4.1 . La probabilidad de que
haya que atender 5 incidentes es pues:
4. 1 .
5 0.16
5!
Esperanza y varianza:
1 1
2 2 2
1 1
var
2 12
161
si su función de densidad de probabilidad es de la forma:
1
, 0
En la práctica, esta distribución aparece asociada a variables que miden la distancia entre
sucesos puntuales que se dispersan completamente al azar en un medio continuo y cuyo
número tiene, por tanto, distribución de Poisson. En efecto, supongamos por simplicidad
que el medio continuo considerado es el tiempo y que estamos contando el número de
eventos que ocurren hasta un instante . Si el número de tales eventos sigue una
distribución de Poisson, siendo el número esperado de eventos por unidad de tiempo,
ello significa que es el tiempo esperado entre dos cualesquiera de tales sucesos. Si
1
de donde:
1
, 0
Esperanza y varianza:
1
1 1
var
162
Ejemplo: El tiempo que transcurre entre la caída de dos rayos sucesivos durante la fase
central de una tormenta tropical sigue una distribución exponencial de parámetro 2.5
segundos. ¿Cuál es la probabilidad de que entre la caída de dos rayos sucesivos
transcurran como mucho 3 segundos? ¿Cuál es el tiempo esperado que transcurre entre
rayos sucesivos?
Dado que en una distribución exponencial el valor esperado coincide con su parámetro,
163
el tiempo esperado entre rayos sucesivos es 2.5 segundos.
164
van siendo progresivamente más difíciles de observar. Muchas variables biológicas se
comportan aproximadamente de esta forma: la talla, el peso, la temperatura corporal, etc.
También se comportan de esta manera los errores de medida. La distribución normal es
una de las más frecuentes en la naturaleza, lo que se justifica de manera teórica efecto del
llamado teorema central del límite (o teorema del límite central). Dicho de una manera
intuitiva, este teorema indica que si una variable es el resultado de la suma de efectos de
muchas otras variables independientes, la variable resultante tiene necesariamente
distribución normal. Si se piensa que las variables que hemos citado –peso, talla, errores
de medida, ...– son precisamente el efecto de muchas pequeñas causas que operan
independientemente se entiende por qué cabe esperar que su distribución de probabilidad
sea precisamente normal.
La figura 15 muestra la forma de la función de densidad de la distribución normal con
media 0 para varios valores de . Puede apreciarse la forma de campana de dicha
distribución y como la campana es más ancha cuanto mayor es la varianza
Figure 15. Función de densidad de la distribución normal de media para varios valores de
165
.
var
Una de las dificultades prácticas que presenta la distribución normal es que su función de
densidad no tiene una función primitiva, lo que significa que las probabilidades
1
√2
deben calcularse numéricamente. Existen muchos programas que hacen este cálculo, así
como la mayoría de las calculadoras científicas e infinidad de aplicaciones para teléfonos
móviles. También es habitual hacer el cálculo mediante el uso de tablas. El interés de la
distribución normal tipificada es precisamente que es la única cuyas probabilidades se
encuentran tabuladas.
167
de los de por desplazamiento (al restar ) y cambio de escala (al dividir por ).
Ninguna de estas transformaciones cambia la forma de la función de densidad; por tanto
también debe seguir una distribución normal. Asimismo, la simple aplicación de las
propiedades de la media y la varianza permite ver de inmediato que
0 y var var
var 1.
Para calcular los cuantiles utilizando la tabla habremos de proceder a la inversa que para
el cálculo de probabilidades; por ejemplo, supongamos que deseamos localizar el valor
. (es decir, el cuantil 0.975 ). Buscamos el valor 0.025 (o el que más se le
aproxime) en el interior de la tabla; en este caso encontramos el 0.025 en el cruce de la
fila 1.9 con la columna 0.06. Por tanto . 1.96.
Ejemplo: El coste de movilizar a los servicios de urgencias para atender una emergencia
168
por accidente de tráfico sigue una distribución normal de media 2800 euros y desviación
típica 400 euros. Si se acaba de producir un accidente, ¿cuál es la probabilidad de que el
coste de los servicios de emergencia supere los 3500 euros?
Si ”Coste del servicio” 2800,400 , tenemos que calcular:
3500 2800
3500 1.75 0.04
400
Por último presentamos una importante propiedad de la distribución normal, que nos
indica que la suma de variables normales sigue también una distribución normal. Esta
propiedad tiene gran aplicación práctica, ya que muchas veces habrán de calcularse
probabilidades de sumas de variables normales: ingresos totales de las sucursales de una
empresa durante un día laboral, coste total de los accidentes de tráfico producidos en un
día, distancia total recorrida por un animal durante una migración,...
,
1
,
√
o, expresado de otra forma,
0,1
/√
Ejemplo: Si, como en el ejemplo anterior, el coste de atender una emergencia por
accidente de tráfico es 2800,400 , en un día en que haya habido que atender 10
169
accidentes, ¿Cuál es la probabilidad de que el coste total esté por encima de los 30000
euros?
Para responder a esta pregunta debemos tener en cuenta que el coste total es la suma de
los costes individuales de los 10 accidentes:
y por tanto:
30000 28000
30000 1.58 0.057
1264.911
170
distribución que podremos contestar a las preguntas planteadas más arriba.
En el caso particular de que la distribución de probabilidad de la variable de interés sea
normal , , se conocen las distribuciones de probabilidad de algunas de las variables
aleatorias que se presentan en el muestreo. Describimos a continuación dichas
distribuciones y posponemos a los próximos capítulos su aplicación concreta en los
problemas de inferencia ligados al muestreo, concretamente la construcción de intervalos
de confianza y de contrastes de hipótesis.
Esperanza y varianza: si :
var 2
171
Figura 17. Función de densidad de la distribución para varios valores de
172
Figure 2. Función de densidad de la distribución de Student para varios valores de .
Esperanza y varianza: Si :
0 Si 1
∞ 1 2
var
2
2
Para 1 no están definidas la media ni la varianza.
173
forma:
/
2 , 0
2 2 1
174
13 Utilización de las tablas de la Chi-Cuadrado, de Student
y de Fisher-Snedecor
Como ya hemos señalado para el caso de la distribución normal, un problema que se
presenta con frecuencia en la práctica es el cálculo de cuantiles de estas distribuciones.
Para ello se dispone de tablas de fácil manejo, pero que no incluyen todos los posibles
grados de libertad asociados a estas distribuciones (en algunos casos es preciso
interpolar). Resulta recomendable en este caso utilizar calculadora, excel, u otro software
para el cálculo de estos cuantiles (muchas aplicaciones para teléfonos móviles o tablets
incluyen este cálculo).
Llamaremos , , , y , , a los cuantiles de las respectivas distribuciones
con sus grados de libertad correspondientes. De esta forma:
Si , entonces , =
Si , entonces , =
Si , entonces , , =
La figura 20 muestra la posición de estos cuantiles para cada distribución. El área
sombreada es .
175
Figura 20. Posición de los cuantiles de las distribuciones Chi-Cuadrado de Pearson, de
176
misma distribución que .
Teorema Central del Límite Sea ,…, una secuencia de variables aleatorias
independientes y con la misma distribución de probabilidad, siendo y
var (finita) para 1, … , . Entonces, para → ∞:
∑
→Φ
√
siendo Φ la función de distribución de la normal tipificada 0,1 .
Nota: El Teorema Central del Límite, tal como se ha enunciado requiere que todas las
variables sean independientes y tengan la misma distribución. Existen otras versiones
de este teorema, en las que se prueba que, bajo determinadas condiciones, si las son
independientes aunque tengan distribuciones de probabilidad diferentes, su suma
también tiene una distribución aproximadamente normal.
Nótese que:
∑ ∑
var ∑ ∑ v ar ⇒ sd ∑ √
Por tanto, la conclusión del del teorema puede enunciarse diciendo que a
∑
medida que aumenta, la distribución de la suma tipificada se va
√
aproximando a la 0,1 .
→Φ para → ∞
/√
o, dicho de otra forma, la distribución de probabilidad de la media aritmética tipificada
177
de una secuencia de variables independientes y con la misma distribución, de
/√
En la práctica, el efecto del teorema central del límite puede apreciarse frecuentemente
para valores de que, si bien son grandes, distan mucho de ∞. En muchas ocasiones,
con valores de del orden de entre 30 y 60 ya puede asumirse que, aproximadamente,
∑
0,1 y 0,1 , o lo que es lo mismo, que aproximadamente
√ /√
∑ , √ y que , /√ .
Ejemplo: Por término medio en cierta isla se queman anualmente 300 hectáreas de
bosque debido a los incendios producidos durante el verano. Se ha observado además que
la desviación típica de la superficie quemada anualmente es de 95 hectáreas. Con estos
datos, ¿cuál es la probabilidad de que en los próximos 30 años ardan en total más de
10000 hectáreas?
Aunque no se nos informa de la distribución de probabilidad del número de hectáreas
quemadas anualmente, podemos aplicar el teorema central del límite (considerando que
los incendios producidos cada año son independientes de los producidos el año anterior),
en cuyo caso si llamamos a la superficie quemada en el año , la superficie total
quemada en treinta años será ∑ , y de acuerdo con el teorema central del límite:
178
Aproximación de la distribución binomial por la normal
0,1
1
≅ 0.5 0.5 ≅
0.5 0.5
≅
1 1 1
0.5 0.5
1 1
0.5
≅ 0.5 ≅
1
0.5
≅ 0.5 ≅
1
0.5
≅ 0.5 ≅
1
0.5
≅ 0.5 ≅
1
siendo 0,1
179
Ejemplo: Se sabe que en cada accidente de tráfico, la probabilidad de que se precise
atención médica es 0.30. ¿Cuál es la probabilidad de que en los próximos 50 accidentes
sea necesaria la asistencia média en más de 16?
Si es el número de accidentes que requieren asistencia médica, se tiene que
50,0.3 , que de acuerdo con el Teorema Central del Límite se puede aproximar por
una 50 ⋅ 0.3, 50 ⋅ 0.3 ⋅ 1 0.3 . La probabilidad pedida es entonces:
16.5 50 ⋅ 0.3
16 ≅ 16.5 ≅ 0.46 0.32276
√50 ⋅ 0.3 ⋅ 0.7
(hemos utilizado la tabla de la 0,1 para calcular la última probabilidad).
180
ACTIVIDADES
1. Clasifica las siguientes variables aleatorias en continuas o discretas:
a) Distancia desde una central de emergencias al lugar de un accidente.
b) Tiempo que se tarda en llegar desde la central al accidente.
c) Número de heridos en un accidente.
d) Número de bomberos que se desplazan para extinguir un incendio
2. Dado el experimento aleatorio consistente en lanzar dos veces un dado equilibrado, se
181
c) Calcula la probabilidad de que un servicio dure más de una hora.
7. El 60% de las llamadas recibidas en una central de emergencias son realizadas
desde teléfonos móviles.
a) ¿Cuál es la probabilidad de que de las últimas 10 llamadas recibidas, 6
hayan sido hechas desde teléfonos móviles.
b) ¿Cuál es la probabilidad de que de las últimas 1000 llamadas recibidas,
600 hayan sido realizadas desde móviles? (Sugerencia: utiliza la
aproximación de la distribución binomial por la normal)
c) De entre las próximas 1000 llamadas ¿Cuántas podemos esperar que
procedan de teléfonos móviles?
8. La distancia recorrida por un helicóptero del SAR durante un servicio es una
variable aleatoria con distribución normal de media 400 km y desviación típica
110 km.
a) ¿Cuál es la probabilidad de que durante un servicio se recorran más de 450
km?
b) ¿Cuál es la probabilidad de que se recorran menos de 340 km?
c) Con probabilidad 0.95 ¿cuál es el número máximo de kilómetros que se
recorren en un servicio? (sugerencia: hallar el valor M tal que
0.95)
d) ¿Cuál es la probabilidad de que en 10 servicios se recorran en total menos
de 5000 kilómetros?
9. La probabilidad de que un detector de incendios no funcione por falta de
mantenimiento es 0.08. Se lleva a cabo una revisión de 100 detectores de
incendios instalados en distintos edificios de oficinas de una gran ciudad (se elige
un solo detector por edificio, de forma que todos los detectores pueden
considerarse independientes)
a) ¿Cuál es la probabilidad de que 5 de esos 100 detectores no funcionen por
falta de mantenimiento?
b) ¿Cuál es la probabilidad de que no funcionen menos de 20 detectores?
c) ¿Cuál es la probabilidad de que funcionen los 100 extintores?
d) ¿Y de que no funcione ninguno?
10. La probabilidad de que, a lo largo de un año, un coche elegido al azar sufra un
accidente que pueda calificarse como siniestro total es 0.001. Una compañía de
seguros tiene asegurados 20000 vehículos.
182
a) Utilizando la aproximación de la distribución binomial por la de Poisson,
¿cuál es la probabilidad de que la compañía en un año deba hacer frente a
la cobertura de 20 siniestros totales?
b) Utilizando la aproximación de la distribución binomial por la normal,.
¿cuál es la probabilidad de que la compañía deba hacer frente a la
cobertura de más de 20 accidentes?
c) Con probabilidad 0.95 ¿cuál es el número máximo de siniestros totales que
deberá cubrir la compañía a lo largo de un año?
EJERCICIOS DE AUTOEVALUACIÓN
1. Los extintores de incendios sufren un riguroso control de calidad antes de ser puestos
a la venta. Una empresa fabricante ha comprobado que aproximadamente el 2% de
los extintores fabricados no pasa el control de calidad. En un lote de 10 extintores, la
probabilidad de que al menos uno no pase el control de calidad es:
a) 0.183
b) 0.019
c) 0.542
d) 0.02
2. El peso perdido por un bombero durante la extinción de un incendio es una variable
aleatoria con distribución normal del media 3 kg y desviación típica 0.8 kg. La
probabilidad de que un bombero pierda menos de 3.5 kg durante la extinción de un
incendio es entonces:
a) 0.52
b) 0.87
c) 0.34
d) 0.73
3. El número de cortes de luz que se producen anualmente en una fábrica es una variable
aleatoria con distribución de Poisson de media 8.9. La probabilidad de que en un año
se produzcan exactamente 8 cortes de luz es:
a) 0.945
b) 0.822
c) 0.133
d) 0.442
183
4. El número de heridos transportados diariamente por cada ambulancia del servicio de
urgencias de un hospital es una variable de Poisson de media 3. Si el hospital cuenta
con 5 ambulancias y el número de heridos transportados por cada una es
independiente del resto, ¿cuál es la probabilidad de que entre las 5 ambulancias en un
día transporten a 12 heridos?
a) 0.563
b) 0.082
c) 0.001
d) 0.123
5. El tiempo (en años) que transcurre entre dos olas de calor extremo en cierta zona
/
continental es una variable con función de distribución 1 . La
probabilidad de que entre dos olas de calor pasen menos de 4 años es:
a) 0.852
b) 0.393
c) 0.424
d) 0.565
6. En condiciones normales, la concentración (en ppm) de cierto producto químico en el
agua de una playa sigue una distribución N(30, 5). ¿Cuál es la probabilidad de que en
dichas condiciones la concentración del producto supere las 38 ppm?
a) 0.3456
b) 0.3321
c) 0.2742
d) 0.6744
7. El tiempo que tarda en disolverse una mancha de petróleo procedente de un vertido
es una variable aleatoria con distribución exponencial cuyo valor esperado es de 8,32
días. ¿Cuál es la probabilidad de que una mancha tarde en disolverse más de 6 días y
menos de 10?
a) 0.5681
b) 0.8615
c) 0.1856
d) 0.6851
8. Una central eléctrica es capaz de producir un máximo de 5000 MWh diarios. Esta
central debe abastecer una zona industrial donde operan 60 fábricas. Asumiendo que
las fábricas operan independientemente y que el consumo diario medio de cada una
184
es de 80 MWh con una desviación típica de 25 MWh, ¿cuál es la probabilidad de que
en un día elegido al azar la central no sea capaz de satisfacer la demanda conjunta de
todas las fábricas?
a) 0.0001
b) 0.0426
c) 0.1102
d) 0.2314
9. Una mina de carbón sufre filtraciones de agua. Se calcula que diariamente deben ser
desalojados 100.000 litros de agua de la mina. Para ello se instalarán bombas de
achique. Por la configuración de la mina y el tipo de bomba, la cantidad de agua que
puede extraer cada bomba diariamente sigue una distribución normal de media 20000
litros y desviación típica 6000 litros. Asumiendo que las bombas operan
independientemente y que no fallan, ¿cuántas bombas deberían instalarse para tener
una probabilidad de al menos el 95% de que se podrá desalojar toda el agua filtrada?
a) 4
b) 5
c) 6
d) 7
10. La altura de las olas en una playa en las condiciones habituales de viento es una
/
variable aleatoria con función de distribución 1 . ¿Cuál es la
probabilidad en estas condiciones de que la altura de una ola se encuentre entre los 2
y los 4 metros?
a) 0.3496
b) 0.6321
c) 0.9816
d) 0.5
185
5. (b)
6. (c)
7. (c)
8. (b)
9. (d)
10. (a)
BIBLIOGRAFÍA
Armitage, P., & Berry, G. (1997). Estadística para la investigación biomédica.
Learning Editores.
UCA.
Levin, J., del Valle, V., & Elorza, H. (1979). Fundamentos de estadística en la
Santos.
Martín, Q. M., & de Paz Santana, Y. del R. (2007). Tratamiento estadístico de datos
186
con SPSS. Editorial Paraninfo.
Mendenhall, W., Scheaffer, R. L., Wackerly, D. D., De la Fuente Pantoja, A., &
Libros.
estadística. Edwin S.
Seaman, J., Leivesley, S., & Hogg, C. (1989). Epidemiología de desastres naturales.
Harla.
estadística. Mcgraw-hill.
187
188
ESTIMACION PUNTUAL Y POR INTERVALO
5
Unidad de Aprendizaje
189
190
PRESENTACIÓN
Dado que la muestra sólo proporciona información parcial sobre la población, los
métodos de inferencia estadística se apoyan en el cálculo de probabilidades para
cuantificar los márgenes de error probables o para evaluar el riesgo de incurrir en
decisiones incorrectas.
191
como debe interpretarse. En todos los casos se ha procurado incluir ejemplos de
aplicación que ilustran estas cuestiones y que ayudarán a su comprensión.
OBJETIVOS
Al finalizar este capítulo, el alumno deberá:
EXPOSICIÓN DE CONTENIDOS
192
susceptibles de recibir el tratamiento; pero este conjunto incluye tanto aquellos que
padecen la enfermedad actualmente, como aquellos que la padecerán en el futuro y a los
que podría aplicárseles el tratamiento.
Vemos, pues, que hay poblaciones tangibles (habitantes del planeta, bomberos de España
u hormigas de Gran Canaria), conceptuales (los estados físicos del magma o la
accidentalidad en tráfico urbano) e incluso hipotéticas (los sujetos que en el futuro
podrían contraer una enfermedad). En cualquier caso, cuando se estudia una población, el
objetivo no es, propiamente, el conjunto de sujetos, objetos u entes conceptuales que
puedan formar esa población en un instante concreto, sino determinadas características
que medimos sobre ellos, y que se traducen en variables aleatorias, toda vez que sus
valores no son conocidos a priori. En este sentido, desde un punto de vista práctico,
caracterizar una población es equivalente a conocer la distribución de probabilidad de la
variable aleatoria que se mide sobre la misma: la temperatura del magma, el número
de accidentes diarios, o la variable binaria 1 0 que indica si un paciente se cura o no.
Que la muestra sea representativa, esto es, que refleje de la mejor manera
posible las características de la población. Si una muestra no fuese representativa,
es obvio que lo que se pueda deducir de ella no podrá extenderse a la población;
en particular la estimación de parámetros en tales condiciones podría estar
fuertemente sesgada y los contrastes de hipótesis podrían conducir a decisiones
erróneas con mayor frecuencia de lo previsto.
193
de ser el tamaño de la muestra) y de la magnitud de los errores que estamos
dispuestos a cometer en nuestro proceso de inferencia.
Como hemos señalado más arriba, habitualmente nuestro interés se centra en el estudio de
alguna variable aleatoria que se mide sobre la población. El comportamiento de dicha
variable aleatoria queda caracterizado por su distribución de probabilidad. En este
contexto, definimos una muestra aleatoria de tamaño de una distribución de
probabilidad como un conjunto de variables aleatorias ,…, independientes y con
la misma distribución que . En la práctica, la obtención de una muestra aleatoria se
traduce en seleccionar al azar y de manera independiente elementos de la población y
medir el valor de en cada uno de ellos. Así, si es el número de accidentes de tráfico
que se producen diariamente en vías urbanas, ,…, serían los números de accidentes
observados en días elegidos al azar; si es la variable binaria 1 0 que representa
la curación (o no) de una enfermedad tras aplicar un tratamiento, ,…, sería el
efecto del tratamiento en un conjunto de pacientes elegidos de manera independiente
en la misma población.
194
3. Estimación puntual
Estadístico: Dada una muestra aleatoria , ,…, se llama estadístico a
cualquier función de sus valores.
1
Debemos decir que en el cálculo de la varianza muestral se utiliza como denominador el
valor 1 (el tamaño de la muestra menos 1). La razón de hacer esto así es porque de
esta forma se consigue un estimador centrado de la varianza poblacional.
196
4. Estimación por intervalos de confianza
∈ , 1
2
Debemos confesar que, en la práctica, la varianza no se conoce nunca, por lo que el
intervalo que vamos a construir carece de interés práctico; no obstante, resulta simple e
ilustrativo para entender el concepto y modo de construcción de estos intervalos.
197
de la distribución normal, si es la media aritmética de variables independientes
, entonces:
0,1
/√
/ / 1
/√
de donde:
/ / 1
√ √
/ / 1
√ √
o, de modo análogo:
∈ / , / 1
√ √
/ , /
√ √
198
Figura 1. Función de densidad de la distribución normal estándar , . La zona
sombreada encierra un área . El percentil / es el valor que deja a su derecha un
área / , esto es, / / , por lo que / /
Para ello basta tener en cuenta que como la confianza buscada es 1 0.95,
entonces 0.05 y utilizando la tabla de la 0,1 encontramos / .
199
60 60
/ , / 359.6 1.96 , 359.6 1.96
√ √ √20 √20
359.6 26.3 333.3, 385.9
Por tanto, con un 95% de confianza podemos asegurar que el tiempo medio de respuesta
está comprendido entre 333.3 y 385.9 segundos. Otra forma de expresar esta idea es
decir que nuestra estimación del tiempo medio de respuesta es de 359.6 segundos (casi 6
minutos), con um margen de error (al 95% de confianza) de 26.3 segundos.
deducido que:
∈ / , / 1
√ √
Por tanto, mientras no se haya obtenido la muestra, los extremos del intervalo son
variables aleatorias y se puede calcular la probabilidad de que dicho intervalo contenga a
. Ahora bien, una vez que se ha obtenido una muestra, los extremos del intervalo son
valores fijos, como 333.3 y 385.9 en el ejemplo anterior. En este momento, el valor de
estará comprendido entre ellos o no, pero ya no cabe hablar de la probabilidad de que ésto
ocurra.
Podemos utilizar el símil del lanzador de cuchillos circense que se dispone a lanzar un
cuchillo contra una diana con los ojos vendados. Él sabe, por su experiencia, que la
probabilidad de acertar en la diana es del 95%. Ahora bien, una vez que ha lanzado el
cuchillo habrá acertado o no, pero ya no se puede hablar de la probabilidad de que acierte.
Si el lanzador continúa con los ojos vendados tras el lanzamiento, puede confiar en que ha
acertado (incluso, tener mucha confianza en ello, ya que sabe que tiene muy buena
puntería), pero no puede estar del todo seguro.
200
de los ojos: antes de tomar la muestra sabe que la probabilidad de que el intervalo
contenga al parámetro es del 95%; por tanto, cuando tome los datos y obtenga un
intervalo concreto, puede tener mucha confianza (que puede valorar en ese mismo 95%)
en que el intervalo habrá “capturado” al parámetro, pero no puede saber con seguridad si
lo ha capturado o no, ya que el valor del parámetro sigue siendo desconocido.
∈ , 1
201
Figura 2. 100 intervalos de confianza al 95% para el parámetro de una
distribución normal de varianza conocida. En rojo los intervalos que no contienen
a .
202
probabilidad sea conocida y no dependa de .
, 1
,
,
, , 1
Para entender bien el significado de este procedimiento recordemos que para estimar la
media de una distribución normal de varianza conocida , la función pivote utilizada
fue:
,
/√
, ⇒ / ⇒ /
/√ √
, ⇒ / ⇒ /
/√ √
203
variable aleatoria con distribución normal de varianza conocida. Este intervalo en la
práctica resulta de poca utilidad, toda vez que normalmente la varianza es
desconocida. Afortunadamente, es posible demostrar que si , , …,X es una muestra
aleatoria de una distribución , entonces:
/√
∑
siendo la desviación típica de la muestra.
, / , / 1
204
, / , / 1
/√
, / , / 1
√ √
∈ , / , , / 1
√ √
, / , , /
√ √
∑ ∑ 359.6
62.8
1 19
62.8 62.8
359.6 ⋅ 2.093, 359.6 ⋅ 2.093,4.8 359.6 29.39
√20 √20
330.21, 388.99
Por tanto podemos concluir, con una confianza del 95%, que el tiempo medio de
respuesta (en segundos) se encuentra en el intervalo 330.21, 388.99 ; dicho de otro
205
modo, podemos afirmar con una confianza del 95% que el tiempo medio de respuesta es
aproximadamente de 359.6 segundos, con un margen de error de 29.39 segundos.
Nótese que ahora el margen de error es mayor que el obtenido antes cuando resolvimos el
problema dando la varianza por conocida; es lógico que esto ocurra así, ya que ahora
tenemos menos información (no conocemos la varianza, lo que incrementa nuestro nivel
de incertidumbre y por ende nuestro margen de error).
1
1
1
, / , / 1
206
Figura 4. Posición de los percentiles / y / de la distribución
(denotados, respectivamente, como , / y , / ). El área entre estos
dos percentiles es .
1 1
1
, / , /
1 1
,
, / , /
Aplicación a una muestra particular: Siguiendo con nuestro ejemplo de los tiempos de
respuesta de un servicio de emergencia, si deseamos calcular un intervalo de confianza al
95% para la varianza de esta variable, asumiendo que sigue una distribución normal, y
partiendo de la anterior muestra de 20 tiempos de respuesta, en la tabla de la
encontramos los valores , . 8.906 y , . 32.852. La varianza muestral
207
es:
∑ ∑ 359.6
3944.25
1 19
19 ⋅ 3944.25 19 ⋅ 3944.25
, 2281.16, 8414.64
32.852 8.906
19 ⋅ 3944.25 19 ⋅ 3944.25
, 47.76, 91.73
32.852 8.906
Por tanto podemos concluir, con una confianza del 95%, que la desviación típica del
tiempo de respuesta (en segundos) de nuestro servicio de emergencias se encuentra en el
intervalo 47.76, 91.73 .
/
,
/
/
, , / , , / 1
/
208
Ordenando términos en la desigualdad:
/ /
1
, , / , , /
/ /
,
, , / , , /
1
, , /
, , /
∑ ∑ 359.6
3944.25
1 19
209
∑ ∑ 405.58
1895.91
1 23
3944.25
2.08
1895.91
por lo que la variabilidad observada cuando se aplica el protocolo inicial es el doble que
cuando se aplica el nuevo protocolo. El intervalo de confianza al 95% nos ayuda a poner
este dato en perspectiva ya que nos proporciona el margen de error probable en esta
estimación:
/ / 2.08 2.08
, ,
, , / , , / , , . 1/ , , .
2.08 2.08
, 0.88,5.13
2.374 1/2.465
De esta forma vemos que, con la información que tenemos, y con un 95% de confianza, el
valor (desconocido) del cociente / podría llegar a ser tan pequeño como 0.88 o tan
grande como 5.13. Nótese que el hecho de que 0.88 sea menor que 1, significa que podría
ser que ; como el valor 1 también está incluído en el intervalo, ello significa que
podría ser / 1 y por tanto ; y como el intervalo contiene también
valores mayores que 1, ello implicaría que podría ocurrir también que .
Evidentemente las tres cosas no pueden ocurrir al mismo tiempo, y el resultado que
hemos obtenido, en definitiva, nos indica que no tenemos información suficiente para
distinguir de una manera clara entre las tres situaciones. Por tanto, aunque en las muestras
disponibles la varianza observada con el primer protocolo duplique a la varianza
observada con el segundo, no hay evidencia suficiente para generalizar este resultado,
pudiendo achacarse la diferencia observada al puro azar.
211
, /√ y , /√ . De acuerdo con la propiedad reproductiva de la
distribución normal, se tiene que
por lo que:
0,1
A partir de aquí podemos proceder de modo análogo al caso del intervalo de confianza
para la media de una población normal con varianza conocida, y el intervalo resultante es:
Señalemos que este intervalo es de escasa aplicación práctica, ya que las varianzas
poblacionales normalmente no son conocidas. El siguiente intervalo es mucho más
utilizado:
siendo:
212
1 1
1 1
, /
3944.25 1895.91
20 24 32.91 ≅ 33
1 1 3944.25 1 1895.91 1
1 1 20 19 24 23
, /
3944.25 1895.91
359.6 405.5833333 , .
20 24
79.8, 12.17
213
/
En la práctica este intervalo se suele utilizar si y son ambos mayores que 30.
En caso de que las variables cuyas medias se comparan no tengan distribución normal, y
los tamaños de muestra sean pequeños los intervalos de confianza mostrados en este
curso no son de aplicación y debe recurrirse a otras técnicas (no incluidas en este curso).
Los intervalos de confianza para las diferencias de medias vistos hasta ahora son de
aplicación cuando la comparación se realiza sobre muestras independientes. En el caso de
que se utilice un diseño de muestras emparejadas, los valores de no son
independientes de los de . La construcción del intervalo de confianza, no obstante, es
sencilla sin más que considerar que si , , , y
cov , , entonces la variable sigue una distribución ,
donde:
, ,…, , ,…,
214
, / , , /
√ √
donde:
∑ ∑
1 1
∑
1
∑ ∑ 2∑
1
, /
√
Ejemplo de aplicación: Se dispone de una muestra de los tiempos empleados por una
ambulancia en realizar 12 recorridos distintos. Cada recorrido se ha realizado dos veces,
una a primera hora de la mañana y otra a primera hora de la tarde, con los resultados que
se muestran a continuación (tiempo en segundos, cada columna corresponde a un
recorrido):
Mañana 822 745 814 817 858 816 827 740 786 859 780 803
Tarde 784 715 749 801 856 808 775 713 763 827 795 796
215
Suponiendo que ambas variables siguen sendas distribuciones normales, se desea calcular
un intervalo de confianza al 95% para la diferencia .
Diferencias 38 30 65 16 2 8 52 27 23 32 -15 7
Se tiene entonces:
∑
23.75, 22.12
, . 2.201
22.12
, / 23.75 2.201 23.75 14.05 9.7,37.8
√ √12
Dicho de otra forma, se estima que por término medio, por la mañana se tardan 23.75
segundos más en hacer el recorrido; con un 95% de confianza el verdadero valor de esta
diferencia se encuentra entre 9.7 y 37.8 segundos.
Podemos tratar este problema desde un punto de vista general considerando que en estos
casos se observa una variable aleatoria con distribución de Bernoulli de parámetro
desconocido . Recordemos que la variable aleatoria de Bernouilli se caracteriza por
tomar uno de dos posibles valores, 1 (éxito) ó 0 (fracaso), siendo la probabilidad de
éxito. En cada caso particular, el éxito corresponderá a aquel suceso cuya probabilidad
queremos estimar: que un herido tenga una lesión medular, que el causante de un
accidente sea mujer, o que un aviso de emergencia sea una falsa alarma, por ejemplo.
esto es, la proporción de éxitos en la muestra. Sabemos además que el número de éxitos
en pruebas sigue una distribución binomial , , por lo que:
1 1
Para calcular un intervalo de confianza para la proporción existen varios métodos, que
describimos a continuación.
/ /2 / √
∈ 1 / /4 1
/ /
217
Ejemplo de aplicación: Para calcular un intervalo de confianza al 95% para la
proporción de heridos con lesiones medulares entre aquellos que sufren accidente de
tráfico graves 1, calculamos 23/60 0.3833 y obtenemos / . 1.96
en la tabla de la distribución normal. Sustituyendo estos valores en la expresión anterior
obtenemos el intervalo:
1
/
Siendo:
/ /2
218
que como puede apreciarse es muy similar al obtenido por el método de Wilson (los
extremos se diferencian en menos de una milésima). De hecho, a medida que aumenta
los métodos de Agresti y Coull, y Wilson tienden a producir el mismo intervalo.
1
/
1
,
1 1
, , / , , , /
Ejemplo de aplicación: Si con los datos del ejemplo anterior calculamos el intervalo de
Clopper-Pearson, obtenemos:
219
, ⋅ , . , , . 1.71636,
, , . , , . 1.65605
y el intervalo es entonces:
23 23 1 ⋅ 1.65605
,
60 23 1 1.71636 23 60 23 23 1 ⋅ 1.65605
0.26071, 0.51789
Como puede apreciarse este intervalo es similar a los anteriores, aunque algo más amplio.
Esta mayor amplitud se debe, como hemos señalado, a que el nivel de confianza de este
intervalo es en realidad algo mayor que el 95%.
Si los tamaños muestrales son grandes, el teorema central del límite nos indica que,
aproximadamente:
1
, , 1,2
por lo que
1 1
,
220
de donde se deduce fácilmente que un intervalo de confianza aproximado a nivel 1
para sería de la forma:
1 1
/
1 1 1 1 1
/
2
1 1
ln ∈ ln /
Ejemplo de aplicación: Se eligen al azar 160 heridos en accidentes de tráfico graves, que
viajaban en los asientos traseros de los respectivos vehículos, observándose que 30
tuvieron lesiones medulares. Asimismo se seleccionaron (independientemente de los
anteriores) 125 heridos de entre los que viajaban en los asientos delanteros,
comprobándose que 28 presentaban lesiones medulares. Se desean calcular intervalos de
confianza al 95% para la diferencia y para el cociente de las proporciones de lesionados
medulares según que se viaje en los asientos traseros o delanteros.
En este caso las proporciones de lesionados medulares según posición del asiento son,
respectivamente, 0.1875 ≅ 18.75% y 0.224 ≅ 22.4% . El
221
0.1875 0.224
1 1 1
2 160 125
Así pues, se estima que entre los que viajan en el asiento trasero, el porcentaje de
lesionados medulares es un 3.65% inferior al de los que viajan en el asiento delantero, si
bien el margen de error para esta cifra es tal que con un 95% de confianza el porcentaje
podría oscilar desde un 13.85% menos a un 6.55% más.
1 0.1875 1 0.224
ln 0.8371 1.96 0.1779 0.4588
30 28
0.6367,0.2809
. .
, 0.5290,1.3244
Por tanto, con un 95% de confianza podemos decir que, con la incertidumbre que
presentan estos datos, la tasa de lesionados medulares entre ocupantes de asientos traseros
222
podría ser desde poco más de la mitad que la de los asientos delanteros, hasta una vez y un
tercio esta última.
Nótese que el intervalo para la diferencia contiene al cero, lo que indica que, con la
información que tenemos no es descartable que las tasas de lesiones medulares sean
iguales tanto ocupando posiciones delanteras como traseras. Idéntica conclusión
podemos alcanzar observando que el intervalo para el cociente contiene al 1.
2 2
,
, / , /
Ejemplo: En una instalación eléctrica, cada vez que se funde un fusible, es reemplazado
por otro de iguales características. El tiempo entre reemplazamientos se supone
exponencial. A partir de los datos de los últimos 20 fusibles que se han reemplazado, se
ha obtenido un tiempo medio entre reemplazamientos de 23 días. Se desea estimar el
valor del parámetro , así como obtener un intervalo de confianza al 95% para dicho
parámetro.
, / , / 2 ⋅ 20 ⋅ 23 2 ⋅ 20 ⋅ 23
, , 15.5, 37.6
2 2 59.342 24.433
223
Por tanto, la duración media de los fusibles es de 23 días, si bien con una confianza del
95% podemos decir que el margen de error de dicha estimación es tal que con un 95% de
confianza la duración media puede estar entre los 15.5 y los 37.6 días.
1 1
∈ , / , , / , 2 , 2 1
2 2
Ejemplo: Se realiza un estudio del número diario de accidentes de tráfico con víctimas
mortales. Para ello se han seleccionado al azar 40 días del último año y se ha
contado el número de accidentes con víctimas mortales cada día. Durante ese periodo se
observó un total de 134 de tales accidentes. Suponiendo que el número de
accidentes diarios con víctimas mortales sigue una distribución de Poisson, se desea
estimar el parámetro de dicha distribución con un intervalo de confianza del 95%.
Procediendo del mismo modo que con la exponencial es fácil observar que el estimador
puntual de parámetro de Poisson es ̄ 3.35 . Para obtener el intervalo de
confianza calculamos:
1 1
224.5465, 317.4092 2.807, 3.968
80 80
224
14. Tamaño de la muestra
Los intervalos de confianza nos permiten determinar el tamaño de muestra necesario para
estimar un parámetro con una precisión predeterminada. Para ello, el procedimiento
general consiste en fijar el error máximo que estamos dispuestos a cometer en la
estimación, y el nivel de confianza 1 de la misma. A continuación, utilizando el
intervalo de confianza más adecuado para el parámetro que se desea estimar, se iguala el
margen de error de dicho intervalo al valor de y se despeja el valor de , que será
entonces el tamaño de muestra buscado.
225
En este caso, el intervalo de confianza para es
, /
√
, /
√
y despejamos :
, /
donde el valor de (desviación típica) habrá de obtenerse por alguno de los métodos
señalados anteriormente (muestra piloto o información publicada en la literatura).
1 1
∈ ,
, / , /
1 1 1
2 , / , /
de donde:
226
1 1 2
1
, / , /
Esta ecuación no puede resolverse explícitamente, por lo que habrá que probar diversos
valores de . Del mismo modo que en el caso anterior, no se conoce antes de llevar a
cabo el muestreo, por lo que su valor habrá de sustituirse por un valor calculado sobre una
muestra piloto, o por un valor máximo razonable que pueda encontrarse en la bibliografía
referente al problema en estudio.
∓ , /
esto es:
1
∈ /
227
Entonces, si queremos estimar con un error inferior a un valor prefijado deberemos
despejar de:
1 /
/ ⇒ 1
/
2
228
ACTIVIDADES
1. El tiempo transcurrido entre las llamadas que se reciben diariamente en un
servicio de atención telefónica es una variable aleatoria con distribución
exponencial. Los tiempos transcurridos entre las últimas 10 llamadas fueron los
siguientes (en minutos): 1.72, 10.96, 2.11, 0.53, 3.10, 11.54, 3.46, 9.16, 2.58,
0.33.
a) Estima el valor del parámetro de esta distribución.
b) Calcula un intervalo de confianza al 95% para dicho parámetro.
c) Calcula un intervalo de confianza al 90% para el parámetro.
229
prueba 25 veces produciendo una concentración media de 954 col/litro con
desviación típica de 185 col/litro.
a) Calcula un intervalo de confianza al 90% para la concentración media de
coliformes conseguida con cada procedimiento.
b) Calcula un intervalo de confianza al 95% para la diferencia entre las
concentraciones medias de ambos procedimientos.
c) Calcula un intervalo de confianza al 95% para la varianza del primer
procedimiento.
d) Calcula un intervalo de confianza al 90% para el cociente de varianzas
entre ambos procedimientos.
e) ¿Muestran estos datos evidencias de que la concentración media de
coliformes difiera entre ambos procedimientos?
6. Se desea estimar el consumo medio diario de agua en los hogares de cierta ciudad.
Datos preliminares indican que la desviación típica de dicho consumo está
alrededor de los 130 litros diarios. Determinar el tamaño de la muestra si:
a) Se desea estimar el consumo medio con un error inferior a 20 litros con
una confianza del 95%
b) Se desea estimar el consumo medio con un error inferior a 30 litros con
una confianza del 90%
7. Con objeto de diseñar una campaña contra el tabaco se realiza una encuesta en dos
ciudades A y B. En la ciudad A, de 500 encuestados fumaban 238; en la ciudad B
se entrevistó a 600 personas, de las que fumaban 324.
a) Calcula intervalos de confianza al 95% para la proporción de fumadores
en cada una de las ciudades.
b) Calcula un intervalo de confianza al 95% para el cociente de ambas
proporciones.
c) Calcula un intervalo de confianza al 95% para la diferencia de ambas
proporciones
d) ¿Muestran estos intervalos evidencia de que la proporción de fumadores
difiera entre ambas ciudades?
230
Concretamente en una muestra de 60 valores de velocidad, la desviación típica ha
sido de 34 m/seg. En otra localidad, también con una muestra de 60 valores, la
desviación típica ha sido de 39 m/seg.
a) Calcula un intervalo de confianza para el cociente de ambas varianzas.
¿Sugiere el intervalo que la variabilidad de la velocidad del viento difiere
entre ambas localidades?
b) Supongamos ahora que se han registrado los mismos valores de varianza,
pero ahora sobre muestras de 150 registros de viento en cada localidad.
Vuelve a calcular el intervalo de confianza. ¿Se mantiene la conclusión
del apartado anterior?
231
c) Calcula un intervalo de confianza al 95% para la diferencia entre las
concentraciones medias medidas con cada método.
d) ¿Sugiere el intervalo de confianza que ambos métodos difieren en su
medidas de la concentración?
EJERCICIOS DE AUTOEVALUACIÓN
232
2. Para estimar el tiempo en horas que se emplea en tareas de descontaminación por
vertidos se realizan 20 pruebas sobre sendas regiones experimentales de 1 km^2
de extensión. Los tiempos (en horas) empleados en cada una de estas pruebas
fueron: 17.1, 14.6, 16.7, 18.6, 14.9, 18.4, 19.3, 17.2, 10.7, 16.0, 18.5, 17.4, 15.5,
22.5, 14.5, 21.8, 15.2, 15.2, 23.0, 20.0. El intervalo de confianza al 95% para el
tiempo medio de descontaminación es:
a) [15.94, 18.77]
b) [16.18, 18.52]
c) [15.42, 19.29]
d) [15.42, 18.52]
233
confianza al 95% para la desviación típica de la energía producida por los
aerogeneradores de esta clase es:
a) [121.6548, 211.4123]
b) [94.6204, 249.8509]
c) [135.172, 192.193]
d) [108.1376, 230.6316]
7. El número de items que deben ser desechados cada hora en una linea de
producción debido a defectos de fabricación sigue una distribución de Poisson. Se
ha realizado un muestreo aleatorio durante 60 horas, obsevándose una media de
3,78 items desechados por hora. Un intervalo de confianza al 95% para el
parámetro λ de esta distribución es:
a) [0.351 0.264]
b) [0.303 0.232]
c) [4.828 6.021]
d) [3.304 4.305]
234
c) [-0.098, 2.88]
d) [0.15, 2.64]
9. En una ciudad del interior, se toma una muestra aleatoria de 196 personas, de las
cuales 25 padecen alergias estacionales. En una ciudad costera de la misma
región, en una muestra de 208 personas se han detectado 30 con alergias
poblacionales. Un intervalo de confianza al 95% para la diferencia entre las
proporciones de afectados por alergias poblacionales en ambas ciudades es:
a) [-0.08 , 0.04]
b) [-0.07 , 0.03]
c) [-0.09 , 0.06]
d) [-0.06 , 0.02]
235
1. (a)
2. (a)
3. (b)
4. (d)
5. (c)
6. (a)
7. (d)
8. (a)
9. (c)
10. (d)
BIBLIOGRAFÍA
Armitage, P., & Berry, G. (1997). Estadística para la investigación biomédica. Harcourt
Brace Madrid.
UCA.
Levin, J., del Valle, V., & Elorza, H. (1979). Fundamentos de estadística en la
236
Santos.
Martín, Q. M., & de Paz Santana, Y. del R. (2007). Tratamiento estadístico de datos con
Mendenhall, W., Scheaffer, R. L., Wackerly, D. D., De la Fuente Pantoja, A., &
Libros.
estadística. Edwin S.
Seaman, J., Leivesley, S., & Hogg, C. (1989). Epidemiología de desastres naturales.
Harla.
estadística. Mcgraw-hill.
237
TABLA DE LA DISTRIBUCIÓN NORMAL UNITARIA, N(0;1)
Probabilidad a
t 0.45 0.4 0.3 0.2 0.1 0.05 0.025 0.01 0.005
1 0.15838 0.32492 0.72654 1.37638 3.07768 6.31375 12.7062 31.8205 63.6567
2 0.14213 0.28868 0.61721 1.06066 1.88562 2.91999 4.30265 6.96456 9.92484
3 0.1366 0.27667 0.58439 0.97847 1.63774 2.35336 3.18245 4.5407 5.84091
4 0.13383 0.27072 0.56865 0.94096 1.53321 2.13185 2.77645 3.74695 4.60409
5 0.13218 0.26718 0.55943 0.91954 1.47588 2.01505 2.57058 3.36493 4.03214
6 0.13108 0.26483 0.55338 0.9057 1.43976 1.94318 2.44691 3.14267 3.70743
7 0.13029 0.26317 0.54911 0.89603 1.41492 1.89458 2.36462 2.99795 3.49948
8 0.12971 0.26192 0.54593 0.88889 1.39682 1.85955 2.306 2.89646 3.35539
9 0.12925 0.26096 0.54348 0.8834 1.38303 1.83311 2.26216 2.82144 3.24984
10 0.12889 0.26018 0.54153 0.87906 1.37218 1.81246 2.22814 2.76377 3.16927
11 0.12859 0.25956 0.53994 0.87553 1.36343 1.79588 2.20099 2.71808 3.10581
12 0.12835 0.25903 0.53862 0.87261 1.35622 1.78229 2.17881 2.681 3.05454
13 0.12814 0.25859 0.5375 0.87015 1.35017 1.77093 2.16037 2.65031 3.01228
14 0.12796 0.25821 0.53655 0.86805 1.34503 1.76131 2.14479 2.62449 2.97684
15 0.12781 0.25789 0.53573 0.86624 1.34061 1.75305 2.13145 2.60248 2.94671
16 0.12767 0.2576 0.53501 0.86467 1.33676 1.74588 2.11991 2.58349 2.92078
17 0.12755 0.25735 0.53438 0.86328 1.33338 1.73961 2.10982 2.56693 2.89823
18 0.12745 0.25712 0.53382 0.86205 1.33039 1.73406 2.10092 2.55238 2.87844
19 0.12735 0.25692 0.53331 0.86095 1.32773 1.72913 2.09302 2.53948 2.86093
20 0.12727 0.25674 0.53286 0.85996 1.32534 1.72472 2.08596 2.52798 2.84534
21 0.12719 0.25658 0.53246 0.85907 1.32319 1.72074 2.07961 2.51765 2.83136
22 0.12712 0.25643 0.53208 0.85827 1.32124 1.71714 2.07387 2.50832 2.81876
23 0.12706 0.2563 0.53175 0.85753 1.31946 1.71387 2.06866 2.49987 2.80734
24 0.127 0.25617 0.53144 0.85686 1.31784 1.71088 2.0639 2.49216 2.79694
25 0.12694 0.25606 0.53115 0.85624 1.31635 1.70814 2.05954 2.48511 2.78744
26 0.12689 0.25595 0.53089 0.85567 1.31497 1.70562 2.05553 2.47863 2.77871
27 0.12685 0.25586 0.53065 0.85514 1.3137 1.70329 2.05183 2.47266 2.77068
28 0.12681 0.25577 0.53042 0.85465 1.31253 1.70113 2.04841 2.46714 2.76326
29 0.12677 0.25568 0.53021 0.85419 1.31143 1.69913 2.04523 2.46202 2.75639
30 0.12673 0.25561 0.53002 0.85377 1.31042 1.69726 2.04227 2.45726 2.75
31 0.1267 0.25553 0.52984 0.85337 1.30946 1.69552 2.03951 2.45282 2.74404
32 0.12666 0.25546 0.52967 0.853 1.30857 1.69389 2.03693 2.44868 2.73848
33 0.12663 0.2554 0.5295 0.85265 1.30774 1.69236 2.03452 2.44479 2.73328
34 0.1266 0.25534 0.52935 0.85232 1.30695 1.69092 2.03224 2.44115 2.72839
35 0.12658 0.25528 0.52921 0.85201 1.30621 1.68957 2.03011 2.43772 2.72381
45 0.12637 0.25485 0.52814 0.84968 1.30065 1.67943 2.0141 2.41212 2.68959
55 0.12624 0.25458 0.52745 0.84821 1.29713 1.67303 2.00404 2.39608 2.66822
65 0.12615 0.25439 0.52698 0.84719 1.29471 1.66864 1.99714 2.3851 2.6536
75 0.12609 0.25425 0.52664 0.84644 1.29294 1.66543 1.9921 2.3771 2.64298
85 0.12604 0.25414 0.52637 0.84587 1.29159 1.66298 1.98827 2.37102 2.63491
95 0.126 0.25406 0.52616 0.84542 1.29053 1.66105 1.98525 2.36624 2.62858
105 0.12597 0.25399 0.526 0.84506 1.28967 1.6595 1.98282 2.36239 2.62347
115 0.12594 0.25393 0.52586 0.84476 1.28896 1.65821 1.98081 2.35921 2.61926
125 0.12592 0.25389 0.52574 0.84451 1.28836 1.65714 1.97912 2.35655 2.61573
∞ 0.12566 0.25335 0.5244 0.84162 1.28155 1.64485 1.95996 2.32635 2.57583
TABLA DE LA DISTRIBUCIÓN CHI CUADRADO
Probabilidad a
c2 0.995 0.99 0.975 0.95 0.9 0.5 0.2 0.1 0.05 0.025 0.01 0.005
1 7.879 6.635 5.024 3.841 2.706 0.455 0.064 0.016 0.004 0.001 0.000 0.000
2 10.597 9.210 7.378 5.991 4.605 1.386 0.446 0.211 0.103 0.051 0.020 0.010
3 12.838 11.345 9.348 7.815 6.251 2.366 1.005 0.584 0.352 0.216 0.115 0.072
4 14.860 13.277 11.143 9.488 7.779 3.357 1.649 1.064 0.711 0.484 0.297 0.207
5 16.750 15.086 12.833 11.070 9.236 4.351 2.343 1.610 1.145 0.831 0.554 0.412
6 18.548 16.812 14.449 12.592 10.645 5.348 3.070 2.204 1.635 1.237 0.872 0.676
7 20.278 18.475 16.013 14.067 12.017 6.346 3.822 2.833 2.167 1.690 1.239 0.989
8 21.955 20.090 17.535 15.507 13.362 7.344 4.594 3.490 2.733 2.180 1.646 1.344
9 23.589 21.666 19.023 16.919 14.684 8.343 5.380 4.168 3.325 2.700 2.088 1.735
10 25.188 23.209 20.483 18.307 15.987 9.342 6.179 4.865 3.940 3.247 2.558 2.156
11 26.757 24.725 21.920 19.675 17.275 10.341 6.989 5.578 4.575 3.816 3.053 2.603
12 28.300 26.217 23.337 21.026 18.549 11.340 7.807 6.304 5.226 4.404 3.571 3.074
13 29.819 27.688 24.736 22.362 19.812 12.340 8.634 7.042 5.892 5.009 4.107 3.565
14 31.319 29.141 26.119 23.685 21.064 13.339 9.467 7.790 6.571 5.629 4.660 4.075
15 32.801 30.578 27.488 24.996 22.307 14.339 10.307 8.547 7.261 6.262 5.229 4.601
16 34.267 32.000 28.845 26.296 23.542 15.338 11.152 9.312 7.962 6.908 5.812 5.142
17 35.718 33.409 30.191 27.587 24.769 16.338 12.002 10.085 8.672 7.564 6.408 5.697
18 37.156 34.805 31.526 28.869 25.989 17.338 12.857 10.865 9.390 8.231 7.015 6.265
19 38.582 36.191 32.852 30.144 27.204 18.338 13.716 11.651 10.117 8.907 7.633 6.844
Grados de libertad
20 39.997 37.566 34.170 31.410 28.412 19.337 14.578 12.443 10.851 9.591 8.260 7.434
21 41.401 38.932 35.479 32.671 29.615 20.337 15.445 13.240 11.591 10.283 8.897 8.034
22 42.796 40.289 36.781 33.924 30.813 21.337 16.314 14.041 12.338 10.982 9.542 8.643
23 44.181 41.638 38.076 35.172 32.007 22.337 17.187 14.848 13.091 11.689 10.196 9.260
24 45.559 42.980 39.364 36.415 33.196 23.337 18.062 15.659 13.848 12.401 10.856 9.886
25 46.928 44.314 40.646 37.652 34.382 24.337 18.940 16.473 14.611 13.120 11.524 10.520
26 48.290 45.642 41.923 38.885 35.563 25.336 19.820 17.292 15.379 13.844 12.198 11.160
27 49.645 46.963 43.195 40.113 36.741 26.336 20.703 18.114 16.151 14.573 12.879 11.808
28 50.993 48.278 44.461 41.337 37.916 27.336 21.588 18.939 16.928 15.308 13.565 12.461
29 52.336 49.588 45.722 42.557 39.087 28.336 22.475 19.768 17.708 16.047 14.256 13.121
30 53.672 50.892 46.979 43.773 40.256 29.336 23.364 20.599 18.493 16.791 14.953 13.787
31 55.003 52.191 48.232 44.985 41.422 30.336 24.255 21.434 19.281 17.539 15.655 14.458
32 56.328 53.486 49.480 46.194 42.585 31.336 25.148 22.271 20.072 18.291 16.362 15.134
33 57.648 54.776 50.725 47.400 43.745 32.336 26.042 23.110 20.867 19.047 17.074 15.815
34 58.964 56.061 51.966 48.602 44.903 33.336 26.938 23.952 21.664 19.806 17.789 16.501
35 60.275 57.342 53.203 49.802 46.059 34.336 27.836 24.797 22.465 20.569 18.509 17.192
45 73.166 69.957 65.410 61.656 57.505 44.335 36.884 33.350 30.612 28.366 25.901 24.311
55 85.749 82.292 77.380 73.311 68.796 54.335 46.036 42.060 38.958 36.398 33.570 31.735
65 98.105 94.422 89.177 84.821 79.973 64.335 55.262 50.883 47.450 44.603 41.444 39.383
75 110.29 106.39 100.839 96.217 91.061 74.334 64.547 59.795 56.054 52.942 49.475 47.206
85 122.32 118.24 112.393 107.52 102.08 84.334 73.878 68.777 64.749 61.389 57.634 55.170
95 134.25 129.97 123.858 118.75 113.04 94.334 83.248 77.818 73.520 69.925 65.898 63.250
105 146.07 141.62 135.247 129.92 123.95 104.33 92.650 86.909 82.354 78.536 74.252 71.428
115 157.81 153.19 146.571 141.03 134.81 114.33 102.081 96.043 91.242 87.213 82.682 79.692
125 169.47 164.69 157.839 152.09 145.64 124.33 111.536 105.21 100.178 95.946 91.180 88.029
150 198.36 193.21 185.800 179.58 172.58 149.33 135.263 128.28 122.692 117.98 112.67 109.14
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.1)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 39.86 8.53 5.54 4.54 4.06 3.78 3.59 3.46 3.36 3.29 3.23 3.18 3.14 3.10 3.07 2.97 2.92 2.88 2.85 2.84 2.82 2.81 2.80 2.79 2.77 2.75 2.71
2 49.50 9.00 5.46 4.32 3.78 3.46 3.26 3.11 3.01 2.92 2.86 2.81 2.76 2.73 2.70 2.59 2.53 2.49 2.46 2.44 2.42 2.41 2.40 2.39 2.37 2.35 2.30
3 53.59 9.16 5.39 4.19 3.62 3.29 3.07 2.92 2.81 2.73 2.66 2.61 2.56 2.52 2.49 2.38 2.32 2.28 2.25 2.23 2.21 2.20 2.19 2.18 2.15 2.13 2.08
4 55.83 9.24 5.34 4.11 3.52 3.18 2.96 2.81 2.69 2.61 2.54 2.48 2.43 2.39 2.36 2.25 2.18 2.14 2.11 2.09 2.07 2.06 2.05 2.04 2.02 1.99 1.94
5 57.24 9.29 5.31 4.05 3.45 3.11 2.88 2.73 2.61 2.52 2.45 2.39 2.35 2.31 2.27 2.16 2.09 2.05 2.02 2.00 1.98 1.97 1.95 1.95 1.92 1.90 1.85
6 58.20 9.33 5.28 4.01 3.40 3.05 2.83 2.67 2.55 2.46 2.39 2.33 2.28 2.24 2.21 2.09 2.02 1.98 1.95 1.93 1.91 1.90 1.88 1.87 1.85 1.82 1.77
7 58.91 9.35 5.27 3.98 3.37 3.01 2.78 2.62 2.51 2.41 2.34 2.28 2.23 2.19 2.16 2.04 1.97 1.93 1.90 1.87 1.85 1.84 1.83 1.82 1.79 1.77 1.72
8 59.44 9.37 5.25 3.95 3.34 2.98 2.75 2.59 2.47 2.38 2.30 2.24 2.20 2.15 2.12 2.00 1.93 1.88 1.85 1.83 1.81 1.80 1.78 1.77 1.75 1.72 1.67
9 59.86 9.38 5.24 3.94 3.32 2.96 2.72 2.56 2.44 2.35 2.27 2.21 2.16 2.12 2.09 1.96 1.89 1.85 1.82 1.79 1.77 1.76 1.75 1.74 1.71 1.68 1.63
10 60.19 9.39 5.23 3.92 3.30 2.94 2.70 2.54 2.42 2.32 2.25 2.19 2.14 2.10 2.06 1.94 1.87 1.82 1.79 1.76 1.74 1.73 1.72 1.71 1.68 1.65 1.60
11 60.47 9.40 5.22 3.91 3.28 2.92 2.68 2.52 2.40 2.30 2.23 2.17 2.12 2.07 2.04 1.91 1.84 1.79 1.76 1.74 1.72 1.70 1.69 1.68 1.65 1.63 1.57
12 60.71 9.41 5.22 3.90 3.27 2.90 2.67 2.50 2.38 2.28 2.21 2.15 2.10 2.05 2.02 1.89 1.82 1.77 1.74 1.71 1.70 1.68 1.67 1.66 1.63 1.60 1.55
Grados de libertad del numerador
13 60.90 9.41 5.21 3.89 3.26 2.89 2.65 2.49 2.36 2.27 2.19 2.13 2.08 2.04 2.00 1.87 1.80 1.75 1.72 1.70 1.68 1.66 1.65 1.64 1.61 1.58 1.52
14 61.07 9.42 5.20 3.88 3.25 2.88 2.64 2.48 2.35 2.26 2.18 2.12 2.07 2.02 1.99 1.86 1.79 1.74 1.70 1.68 1.66 1.64 1.63 1.62 1.59 1.56 1.50
15 61.22 9.42 5.20 3.87 3.24 2.87 2.63 2.46 2.34 2.24 2.17 2.10 2.05 2.01 1.97 1.84 1.77 1.72 1.69 1.66 1.64 1.63 1.61 1.60 1.57 1.55 1.49
20 61.74 9.44 5.18 3.84 3.21 2.84 2.59 2.42 2.30 2.20 2.12 2.06 2.01 1.96 1.92 1.79 1.72 1.67 1.63 1.61 1.58 1.57 1.55 1.54 1.51 1.48 1.42
25 62.05 9.45 5.17 3.83 3.19 2.81 2.57 2.40 2.27 2.17 2.10 2.03 1.98 1.93 1.89 1.76 1.68 1.63 1.60 1.57 1.55 1.53 1.52 1.50 1.47 1.44 1.38
30 62.26 9.46 5.17 3.82 3.17 2.80 2.56 2.38 2.25 2.16 2.08 2.01 1.96 1.91 1.87 1.74 1.66 1.61 1.57 1.54 1.52 1.50 1.49 1.48 1.44 1.41 1.34
35 62.42 9.46 5.16 3.81 3.16 2.79 2.54 2.37 2.24 2.14 2.06 2.00 1.94 1.90 1.86 1.72 1.64 1.59 1.55 1.52 1.50 1.48 1.47 1.45 1.42 1.39 1.32
40 62.53 9.47 5.16 3.80 3.16 2.78 2.54 2.36 2.23 2.13 2.05 1.99 1.93 1.89 1.85 1.71 1.63 1.57 1.53 1.51 1.48 1.46 1.45 1.44 1.40 1.37 1.30
45 62.62 9.47 5.16 3.80 3.15 2.77 2.53 2.35 2.22 2.12 2.04 1.98 1.92 1.88 1.84 1.70 1.62 1.56 1.52 1.49 1.47 1.45 1.44 1.42 1.39 1.35 1.28
50 62.69 9.47 5.15 3.80 3.15 2.77 2.52 2.35 2.22 2.12 2.04 1.97 1.92 1.87 1.83 1.69 1.61 1.55 1.51 1.48 1.46 1.44 1.43 1.41 1.38 1.34 1.26
55 62.75 9.47 5.15 3.79 3.14 2.77 2.52 2.34 2.21 2.11 2.03 1.96 1.91 1.86 1.82 1.68 1.60 1.54 1.50 1.47 1.45 1.43 1.42 1.40 1.37 1.33 1.25
60 62.79 9.47 5.15 3.79 3.14 2.76 2.51 2.34 2.21 2.11 2.03 1.96 1.90 1.86 1.82 1.68 1.59 1.54 1.50 1.47 1.44 1.42 1.41 1.40 1.36 1.32 1.24
65 62.84 9.48 5.15 3.79 3.14 2.76 2.51 2.34 2.20 2.10 2.02 1.96 1.90 1.85 1.81 1.67 1.59 1.53 1.49 1.46 1.44 1.42 1.40 1.39 1.35 1.31 1.23
70 62.87 9.48 5.15 3.79 3.14 2.76 2.51 2.33 2.20 2.10 2.02 1.95 1.90 1.85 1.81 1.67 1.58 1.53 1.49 1.46 1.43 1.41 1.40 1.38 1.34 1.31 1.22
75 62.90 9.48 5.15 3.78 3.13 2.75 2.51 2.33 2.20 2.10 2.02 1.95 1.89 1.85 1.80 1.66 1.58 1.52 1.48 1.45 1.43 1.41 1.39 1.38 1.34 1.30 1.21
80 62.93 9.48 5.15 3.78 3.13 2.75 2.50 2.33 2.20 2.09 2.01 1.95 1.89 1.84 1.80 1.66 1.58 1.52 1.48 1.45 1.42 1.40 1.39 1.37 1.33 1.29 1.21
85 62.95 9.48 5.15 3.78 3.13 2.75 2.50 2.33 2.19 2.09 2.01 1.94 1.89 1.84 1.80 1.66 1.57 1.52 1.47 1.44 1.42 1.40 1.38 1.37 1.33 1.29 1.20
90 62.97 9.48 5.15 3.78 3.13 2.75 2.50 2.32 2.19 2.09 2.01 1.94 1.89 1.84 1.80 1.65 1.57 1.51 1.47 1.44 1.41 1.39 1.38 1.36 1.33 1.28 1.20
95 62.99 9.48 5.14 3.78 3.13 2.75 2.50 2.32 2.19 2.09 2.01 1.94 1.88 1.84 1.79 1.65 1.57 1.51 1.47 1.44 1.41 1.39 1.37 1.36 1.32 1.28 1.19
100 63.01 9.48 5.14 3.78 3.13 2.75 2.50 2.32 2.19 2.09 2.01 1.94 1.88 1.83 1.79 1.65 1.56 1.51 1.47 1.43 1.41 1.39 1.37 1.36 1.32 1.28 1.18
105 63.02 9.48 5.14 3.78 3.13 2.75 2.50 2.32 2.19 2.09 2.00 1.94 1.88 1.83 1.79 1.65 1.56 1.50 1.46 1.43 1.41 1.39 1.37 1.35 1.31 1.27 1.18
110 63.04 9.48 5.14 3.78 3.12 2.74 2.49 2.32 2.19 2.08 2.00 1.93 1.88 1.83 1.79 1.65 1.56 1.50 1.46 1.43 1.40 1.38 1.37 1.35 1.31 1.27 1.18
115 63.05 9.48 5.14 3.78 3.12 2.74 2.49 2.32 2.19 2.08 2.00 1.93 1.88 1.83 1.79 1.64 1.56 1.50 1.46 1.43 1.40 1.38 1.36 1.35 1.31 1.27 1.17
120 63.06 9.48 5.14 3.78 3.12 2.74 2.49 2.32 2.18 2.08 2.00 1.93 1.88 1.83 1.79 1.64 1.56 1.50 1.46 1.42 1.40 1.38 1.36 1.35 1.31 1.26 1.17
125 63.07 9.48 5.14 3.77 3.12 2.74 2.49 2.32 2.18 2.08 2.00 1.93 1.87 1.83 1.79 1.64 1.56 1.50 1.46 1.42 1.40 1.38 1.36 1.35 1.30 1.26 1.17
∞ 63.33 9.49 5.13 3.76 3.10 2.72 2.47 2.29 2.16 2.06 1.97 1.90 1.85 1.80 1.76 1.61 1.52 1.46 1.41 1.38 1.35 1.33 1.31 1.29 1.24 1.19 1.00
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.01)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 4052.18 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 9.65 9.33 9.07 8.86 8.68 8.10 7.77 7.56 7.42 7.31 7.23 7.17 7.12 7.08 6.96 6.85 6.63
2 4999.50 99.00 30.82 18.00 13.27 10.92 9.55 8.65 8.02 7.56 7.21 6.93 6.70 6.51 6.36 5.85 5.57 5.39 5.27 5.18 5.11 5.06 5.01 4.98 4.88 4.79 4.61
3 5403.35 99.17 29.46 16.69 12.06 9.78 8.45 7.59 6.99 6.55 6.22 5.95 5.74 5.56 5.42 4.94 4.68 4.51 4.40 4.31 4.25 4.20 4.16 4.13 4.04 3.95 3.78
4 5624.58 99.25 28.71 15.98 11.39 9.15 7.85 7.01 6.42 5.99 5.67 5.41 5.21 5.04 4.89 4.43 4.18 4.02 3.91 3.83 3.77 3.72 3.68 3.65 3.56 3.48 3.32
5 5763.65 99.30 28.24 15.52 10.97 8.75 7.46 6.63 6.06 5.64 5.32 5.06 4.86 4.69 4.56 4.10 3.85 3.70 3.59 3.51 3.45 3.41 3.37 3.34 3.26 3.17 3.02
6 5858.99 99.33 27.91 15.21 10.67 8.47 7.19 6.37 5.80 5.39 5.07 4.82 4.62 4.46 4.32 3.87 3.63 3.47 3.37 3.29 3.23 3.19 3.15 3.12 3.04 2.96 2.80
7 5928.36 99.36 27.67 14.98 10.46 8.26 6.99 6.18 5.61 5.20 4.89 4.64 4.44 4.28 4.14 3.70 3.46 3.30 3.20 3.12 3.07 3.02 2.98 2.95 2.87 2.79 2.64
8 5981.07 99.37 27.49 14.80 10.29 8.10 6.84 6.03 5.47 5.06 4.74 4.50 4.30 4.14 4.00 3.56 3.32 3.17 3.07 2.99 2.94 2.89 2.85 2.82 2.74 2.66 2.51
9 6022.47 99.39 27.35 14.66 10.16 7.98 6.72 5.91 5.35 4.94 4.63 4.39 4.19 4.03 3.89 3.46 3.22 3.07 2.96 2.89 2.83 2.78 2.75 2.72 2.64 2.56 2.41
10 6055.85 99.40 27.23 14.55 10.05 7.87 6.62 5.81 5.26 4.85 4.54 4.30 4.10 3.94 3.80 3.37 3.13 2.98 2.88 2.80 2.74 2.70 2.66 2.63 2.55 2.47 2.32
11 6083.32 99.41 27.13 14.45 9.96 7.79 6.54 5.73 5.18 4.77 4.46 4.22 4.02 3.86 3.73 3.29 3.06 2.91 2.80 2.73 2.67 2.63 2.59 2.56 2.48 2.40 2.25
12 6106.32 99.42 27.05 14.37 9.89 7.72 6.47 5.67 5.11 4.71 4.40 4.16 3.96 3.80 3.67 3.23 2.99 2.84 2.74 2.66 2.61 2.56 2.53 2.50 2.42 2.34 2.18
Grados de libertad del numerador
13 6125.86 99.42 26.98 14.31 9.82 7.66 6.41 5.61 5.05 4.65 4.34 4.10 3.91 3.75 3.61 3.18 2.94 2.79 2.69 2.61 2.55 2.51 2.47 2.44 2.36 2.28 2.13
14 6142.67 99.43 26.92 14.25 9.77 7.60 6.36 5.56 5.01 4.60 4.29 4.05 3.86 3.70 3.56 3.13 2.89 2.74 2.64 2.56 2.51 2.46 2.42 2.39 2.31 2.23 2.08
15 6157.28 99.43 26.87 14.20 9.72 7.56 6.31 5.52 4.96 4.56 4.25 4.01 3.82 3.66 3.52 3.09 2.85 2.70 2.60 2.52 2.46 2.42 2.38 2.35 2.27 2.19 2.04
20 6208.73 99.45 26.69 14.02 9.55 7.40 6.16 5.36 4.81 4.41 4.10 3.86 3.66 3.51 3.37 2.94 2.70 2.55 2.44 2.37 2.31 2.27 2.23 2.20 2.12 2.03 1.88
25 6239.83 99.46 26.58 13.91 9.45 7.30 6.06 5.26 4.71 4.31 4.01 3.76 3.57 3.41 3.28 2.84 2.60 2.45 2.35 2.27 2.21 2.17 2.13 2.10 2.01 1.93 1.77
30 6260.65 99.47 26.50 13.84 9.38 7.23 5.99 5.20 4.65 4.25 3.94 3.70 3.51 3.35 3.21 2.78 2.54 2.39 2.28 2.20 2.14 2.10 2.06 2.03 1.94 1.86 1.70
35 6275.57 99.47 26.45 13.79 9.33 7.18 5.94 5.15 4.60 4.20 3.89 3.65 3.46 3.30 3.17 2.73 2.49 2.34 2.23 2.15 2.09 2.05 2.01 1.98 1.89 1.81 1.64
40 6286.78 99.47 26.41 13.75 9.29 7.14 5.91 5.12 4.57 4.17 3.86 3.62 3.43 3.27 3.13 2.69 2.45 2.30 2.19 2.11 2.05 2.01 1.97 1.94 1.85 1.76 1.59
45 6295.52 99.48 26.38 13.71 9.26 7.11 5.88 5.09 4.54 4.14 3.83 3.59 3.40 3.24 3.10 2.67 2.42 2.27 2.16 2.08 2.02 1.97 1.94 1.90 1.82 1.73 1.55
50 6302.52 99.48 26.35 13.69 9.24 7.09 5.86 5.07 4.52 4.12 3.81 3.57 3.38 3.22 3.08 2.64 2.40 2.25 2.14 2.06 2.00 1.95 1.91 1.88 1.79 1.70 1.52
55 6308.25 99.48 26.33 13.67 9.22 7.07 5.84 5.05 4.50 4.10 3.79 3.55 3.36 3.20 3.06 2.62 2.38 2.22 2.12 2.04 1.98 1.93 1.89 1.86 1.77 1.68 1.50
60 6313.03 99.48 26.32 13.65 9.20 7.06 5.82 5.03 4.48 4.08 3.78 3.54 3.34 3.18 3.05 2.61 2.36 2.21 2.10 2.02 1.96 1.91 1.87 1.84 1.75 1.66 1.47
65 6317.08 99.48 26.30 13.64 9.19 7.04 5.81 5.02 4.47 4.07 3.76 3.52 3.33 3.17 3.03 2.59 2.35 2.19 2.08 2.00 1.94 1.89 1.85 1.82 1.73 1.64 1.45
70 6320.55 99.48 26.29 13.63 9.18 7.03 5.80 5.01 4.46 4.06 3.75 3.51 3.32 3.16 3.02 2.58 2.34 2.18 2.07 1.99 1.93 1.88 1.84 1.81 1.71 1.62 1.43
75 6323.56 99.49 26.28 13.61 9.17 7.02 5.79 5.00 4.45 4.05 3.74 3.50 3.31 3.15 3.01 2.57 2.33 2.17 2.06 1.98 1.92 1.87 1.83 1.79 1.70 1.61 1.42
80 6326.20 99.49 26.27 13.61 9.16 7.01 5.78 4.99 4.44 4.04 3.73 3.49 3.30 3.14 3.00 2.56 2.32 2.16 2.05 1.97 1.91 1.86 1.82 1.78 1.69 1.60 1.40
85 6328.52 99.49 26.26 13.60 9.15 7.01 5.77 4.98 4.43 4.03 3.73 3.49 3.29 3.13 3.00 2.55 2.31 2.15 2.04 1.96 1.90 1.85 1.81 1.77 1.68 1.59 1.39
90 6330.59 99.49 26.25 13.59 9.14 7.00 5.77 4.97 4.43 4.03 3.72 3.48 3.28 3.12 2.99 2.55 2.30 2.14 2.03 1.95 1.89 1.84 1.80 1.76 1.67 1.58 1.38
95 6332.44 99.49 26.25 13.58 9.14 6.99 5.76 4.97 4.42 4.02 3.71 3.47 3.28 3.12 2.98 2.54 2.29 2.14 2.03 1.94 1.88 1.83 1.79 1.76 1.66 1.57 1.37
100 6334.11 99.49 26.24 13.58 9.13 6.99 5.75 4.96 4.41 4.01 3.71 3.47 3.27 3.11 2.98 2.54 2.29 2.13 2.02 1.94 1.88 1.82 1.78 1.75 1.65 1.56 1.36
105 6335.62 99.49 26.23 13.57 9.12 6.98 5.75 4.96 4.41 4.01 3.70 3.46 3.27 3.11 2.97 2.53 2.28 2.13 2.01 1.93 1.87 1.82 1.78 1.74 1.65 1.55 1.35
110 6336.99 99.49 26.23 13.57 9.12 6.98 5.75 4.95 4.41 4.00 3.70 3.46 3.26 3.10 2.97 2.53 2.28 2.12 2.01 1.93 1.86 1.81 1.77 1.74 1.64 1.55 1.34
115 6338.24 99.49 26.23 13.56 9.12 6.97 5.74 4.95 4.40 4.00 3.69 3.45 3.26 3.10 2.96 2.52 2.27 2.12 2.00 1.92 1.86 1.81 1.77 1.73 1.64 1.54 1.33
120 6339.39 99.49 26.22 13.56 9.11 6.97 5.74 4.95 4.40 4.00 3.69 3.45 3.25 3.09 2.96 2.52 2.27 2.11 2.00 1.92 1.85 1.80 1.76 1.73 1.63 1.53 1.32
125 6340.45 99.49 26.22 13.55 9.11 6.97 5.73 4.94 4.39 3.99 3.69 3.45 3.25 3.09 2.96 2.51 2.27 2.11 2.00 1.91 1.85 1.80 1.76 1.72 1.63 1.53 1.32
∞ 6365.86 99.50 26.13 13.46 9.02 6.88 5.65 4.86 4.31 3.91 3.60 3.36 3.17 3.00 2.87 2.42 2.17 2.01 1.89 1.80 1.74 1.68 1.64 1.60 1.49 1.38 1.00
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.05)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 161.45 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.35 4.24 4.17 4.12 4.08 4.06 4.03 4.02 4.00 3.96 3.92 3.84
2 199.50 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.49 3.39 3.32 3.27 3.23 3.20 3.18 3.16 3.15 3.11 3.07 3.00
3 215.71 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.10 2.99 2.92 2.87 2.84 2.81 2.79 2.77 2.76 2.72 2.68 2.60
4 224.58 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 2.87 2.76 2.69 2.64 2.61 2.58 2.56 2.54 2.53 2.49 2.45 2.37
5 230.16 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.71 2.60 2.53 2.49 2.45 2.42 2.40 2.38 2.37 2.33 2.29 2.21
6 233.99 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.60 2.49 2.42 2.37 2.34 2.31 2.29 2.27 2.25 2.21 2.18 2.10
7 236.77 19.35 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.51 2.40 2.33 2.29 2.25 2.22 2.20 2.18 2.17 2.13 2.09 2.01
8 238.88 19.37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.45 2.34 2.27 2.22 2.18 2.15 2.13 2.11 2.10 2.06 2.02 1.94
9 240.54 19.38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.39 2.28 2.21 2.16 2.12 2.10 2.07 2.06 2.04 2.00 1.96 1.88
10 241.88 19.40 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.35 2.24 2.16 2.11 2.08 2.05 2.03 2.01 1.99 1.95 1.91 1.83
11 242.98 19.40 8.76 5.94 4.70 4.03 3.60 3.31 3.10 2.94 2.82 2.72 2.63 2.57 2.51 2.31 2.20 2.13 2.07 2.04 2.01 1.99 1.97 1.95 1.91 1.87 1.79
12 243.91 19.41 8.74 5.91 4.68 4.00 3.57 3.28 3.07 2.91 2.79 2.69 2.60 2.53 2.48 2.28 2.16 2.09 2.04 2.00 1.97 1.95 1.93 1.92 1.88 1.83 1.75
Grados de libertad del numerador
13 244.69 19.42 8.73 5.89 4.66 3.98 3.55 3.26 3.05 2.89 2.76 2.66 2.58 2.51 2.45 2.25 2.14 2.06 2.01 1.97 1.94 1.92 1.90 1.89 1.84 1.80 1.72
14 245.36 19.42 8.71 5.87 4.64 3.96 3.53 3.24 3.03 2.86 2.74 2.64 2.55 2.48 2.42 2.22 2.11 2.04 1.99 1.95 1.92 1.89 1.88 1.86 1.82 1.78 1.69
15 245.95 19.43 8.70 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.40 2.20 2.09 2.01 1.96 1.92 1.89 1.87 1.85 1.84 1.79 1.75 1.67
20 248.01 19.45 8.66 5.80 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.12 2.01 1.93 1.88 1.84 1.81 1.78 1.76 1.75 1.70 1.66 1.57
25 249.26 19.46 8.63 5.77 4.52 3.83 3.40 3.11 2.89 2.73 2.60 2.50 2.41 2.34 2.28 2.07 1.96 1.88 1.82 1.78 1.75 1.73 1.71 1.69 1.64 1.60 1.51
30 250.10 19.46 8.62 5.75 4.50 3.81 3.38 3.08 2.86 2.70 2.57 2.47 2.38 2.31 2.25 2.04 1.92 1.84 1.79 1.74 1.71 1.69 1.67 1.65 1.60 1.55 1.46
35 250.69 19.47 8.60 5.73 4.48 3.79 3.36 3.06 2.84 2.68 2.55 2.44 2.36 2.28 2.22 2.01 1.89 1.81 1.76 1.72 1.68 1.66 1.64 1.62 1.57 1.52 1.42
40 251.14 19.47 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.20 1.99 1.87 1.79 1.74 1.69 1.66 1.63 1.61 1.59 1.54 1.50 1.39
45 251.49 19.47 8.59 5.71 4.45 3.76 3.33 3.03 2.81 2.65 2.52 2.41 2.33 2.25 2.19 1.98 1.86 1.77 1.72 1.67 1.64 1.61 1.59 1.57 1.52 1.47 1.37
50 251.77 19.48 8.58 5.70 4.44 3.75 3.32 3.02 2.80 2.64 2.51 2.40 2.31 2.24 2.18 1.97 1.84 1.76 1.70 1.66 1.63 1.60 1.58 1.56 1.51 1.46 1.35
55 252.00 19.48 8.58 5.69 4.44 3.75 3.31 3.01 2.79 2.63 2.50 2.39 2.30 2.23 2.17 1.96 1.83 1.75 1.69 1.65 1.61 1.59 1.56 1.55 1.49 1.44 1.33
60 252.20 19.48 8.57 5.69 4.43 3.74 3.30 3.01 2.79 2.62 2.49 2.38 2.30 2.22 2.16 1.95 1.82 1.74 1.68 1.64 1.60 1.58 1.55 1.53 1.48 1.43 1.32
65 252.36 19.48 8.57 5.68 4.43 3.73 3.30 3.00 2.78 2.61 2.48 2.38 2.29 2.22 2.15 1.94 1.81 1.73 1.67 1.63 1.59 1.57 1.54 1.52 1.47 1.42 1.30
70 252.50 19.48 8.57 5.68 4.42 3.73 3.29 2.99 2.78 2.61 2.48 2.37 2.28 2.21 2.15 1.93 1.81 1.72 1.66 1.62 1.59 1.56 1.54 1.52 1.46 1.41 1.29
75 252.62 19.48 8.56 5.68 4.42 3.73 3.29 2.99 2.77 2.60 2.47 2.37 2.28 2.21 2.14 1.93 1.80 1.72 1.66 1.61 1.58 1.55 1.53 1.51 1.45 1.40 1.28
80 252.72 19.48 8.56 5.67 4.41 3.72 3.29 2.99 2.77 2.60 2.47 2.36 2.27 2.20 2.14 1.92 1.80 1.71 1.65 1.61 1.57 1.54 1.52 1.50 1.45 1.39 1.27
85 252.82 19.48 8.56 5.67 4.41 3.72 3.28 2.98 2.76 2.60 2.47 2.36 2.27 2.20 2.13 1.92 1.79 1.71 1.65 1.60 1.57 1.54 1.52 1.50 1.44 1.39 1.26
90 252.90 19.48 8.56 5.67 4.41 3.72 3.28 2.98 2.76 2.59 2.46 2.36 2.27 2.19 2.13 1.91 1.79 1.70 1.64 1.60 1.56 1.53 1.51 1.49 1.44 1.38 1.26
95 252.97 19.49 8.56 5.67 4.41 3.71 3.28 2.98 2.76 2.59 2.46 2.35 2.26 2.19 2.13 1.91 1.78 1.70 1.64 1.59 1.56 1.53 1.51 1.49 1.43 1.37 1.25
100 253.04 19.49 8.55 5.66 4.41 3.71 3.27 2.97 2.76 2.59 2.46 2.35 2.26 2.19 2.12 1.91 1.78 1.70 1.63 1.59 1.55 1.52 1.50 1.48 1.43 1.37 1.24
105 253.10 19.49 8.55 5.66 4.40 3.71 3.27 2.97 2.75 2.59 2.45 2.35 2.26 2.18 2.12 1.90 1.78 1.69 1.63 1.59 1.55 1.52 1.50 1.48 1.42 1.36 1.24
110 253.16 19.49 8.55 5.66 4.40 3.71 3.27 2.97 2.75 2.58 2.45 2.34 2.26 2.18 2.12 1.90 1.77 1.69 1.63 1.58 1.55 1.52 1.49 1.47 1.42 1.36 1.23
115 253.21 19.49 8.55 5.66 4.40 3.71 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.12 1.90 1.77 1.69 1.63 1.58 1.54 1.51 1.49 1.47 1.41 1.36 1.23
120 253.25 19.49 8.55 5.66 4.40 3.70 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.11 1.90 1.77 1.68 1.62 1.58 1.54 1.51 1.49 1.47 1.41 1.35 1.22
125 253.30 19.49 8.55 5.66 4.40 3.70 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.11 1.89 1.77 1.68 1.62 1.57 1.54 1.51 1.48 1.46 1.41 1.35 1.22
∞ 254.31 19.50 8.53 5.63 4.36 3.67 3.23 2.93 2.71 2.54 2.40 2.30 2.21 2.13 2.07 1.84 1.71 1.62 1.56 1.51 1.47 1.44 1.41 1.39 1.32 1.25 1.00
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.025)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 647.79 38.51 17.44 12.22 10.01 8.81 8.07 7.57 7.21 6.94 6.72 6.55 6.41 6.30 6.20 5.87 5.69 5.57 5.48 5.42 5.38 5.34 5.31 5.29 5.22 5.15 5.02
2 799.50 39.00 16.04 10.65 8.43 7.26 6.54 6.06 5.71 5.46 5.26 5.10 4.97 4.86 4.77 4.46 4.29 4.18 4.11 4.05 4.01 3.97 3.95 3.93 3.86 3.80 3.69
3 864.16 39.17 15.44 9.98 7.76 6.60 5.89 5.42 5.08 4.83 4.63 4.47 4.35 4.24 4.15 3.86 3.69 3.59 3.52 3.46 3.42 3.39 3.36 3.34 3.28 3.23 3.12
4 899.58 39.25 15.10 9.60 7.39 6.23 5.52 5.05 4.72 4.47 4.28 4.12 4.00 3.89 3.80 3.51 3.35 3.25 3.18 3.13 3.09 3.05 3.03 3.01 2.95 2.89 2.79
5 921.85 39.30 14.88 9.36 7.15 5.99 5.29 4.82 4.48 4.24 4.04 3.89 3.77 3.66 3.58 3.29 3.13 3.03 2.96 2.90 2.86 2.83 2.81 2.79 2.73 2.67 2.57
6 937.11 39.33 14.73 9.20 6.98 5.82 5.12 4.65 4.32 4.07 3.88 3.73 3.60 3.50 3.41 3.13 2.97 2.87 2.80 2.74 2.70 2.67 2.65 2.63 2.57 2.52 2.41
7 948.22 39.36 14.62 9.07 6.85 5.70 4.99 4.53 4.20 3.95 3.76 3.61 3.48 3.38 3.29 3.01 2.85 2.75 2.68 2.62 2.58 2.55 2.53 2.51 2.45 2.39 2.29
8 956.66 39.37 14.54 8.98 6.76 5.60 4.90 4.43 4.10 3.85 3.66 3.51 3.39 3.29 3.20 2.91 2.75 2.65 2.58 2.53 2.49 2.46 2.43 2.41 2.35 2.30 2.19
9 963.28 39.39 14.47 8.90 6.68 5.52 4.82 4.36 4.03 3.78 3.59 3.44 3.31 3.21 3.12 2.84 2.68 2.57 2.50 2.45 2.41 2.38 2.36 2.33 2.28 2.22 2.11
10 968.63 39.40 14.42 8.84 6.62 5.46 4.76 4.30 3.96 3.72 3.53 3.37 3.25 3.15 3.06 2.77 2.61 2.51 2.44 2.39 2.35 2.32 2.29 2.27 2.21 2.16 2.05
11 973.03 39.41 14.37 8.79 6.57 5.41 4.71 4.24 3.91 3.66 3.47 3.32 3.20 3.09 3.01 2.72 2.56 2.46 2.39 2.33 2.29 2.26 2.24 2.22 2.16 2.10 1.99
12 976.71 39.41 14.34 8.75 6.52 5.37 4.67 4.20 3.87 3.62 3.43 3.28 3.15 3.05 2.96 2.68 2.51 2.41 2.34 2.29 2.25 2.22 2.19 2.17 2.11 2.05 1.94
Grados de libertad del numerador
13 979.84 39.42 14.30 8.71 6.49 5.33 4.63 4.16 3.83 3.58 3.39 3.24 3.12 3.01 2.92 2.64 2.48 2.37 2.30 2.25 2.21 2.18 2.15 2.13 2.07 2.01 1.90
14 982.53 39.43 14.28 8.68 6.46 5.30 4.60 4.13 3.80 3.55 3.36 3.21 3.08 2.98 2.89 2.60 2.44 2.34 2.27 2.21 2.17 2.14 2.11 2.09 2.03 1.98 1.87
15 984.87 39.43 14.25 8.66 6.43 5.27 4.57 4.10 3.77 3.52 3.33 3.18 3.05 2.95 2.86 2.57 2.41 2.31 2.23 2.18 2.14 2.11 2.08 2.06 2.00 1.94 1.83
20 993.10 39.45 14.17 8.56 6.33 5.17 4.47 4.00 3.67 3.42 3.23 3.07 2.95 2.84 2.76 2.46 2.30 2.20 2.12 2.07 2.03 1.99 1.97 1.94 1.88 1.82 1.71
25 998.08 39.46 14.12 8.50 6.27 5.11 4.40 3.94 3.60 3.35 3.16 3.01 2.88 2.78 2.69 2.40 2.23 2.12 2.05 1.99 1.95 1.92 1.89 1.87 1.81 1.75 1.63
30 1001.41 39.46 14.08 8.46 6.23 5.07 4.36 3.89 3.56 3.31 3.12 2.96 2.84 2.73 2.64 2.35 2.18 2.07 2.00 1.94 1.90 1.87 1.84 1.82 1.75 1.69 1.57
35 1003.80 39.47 14.06 8.43 6.20 5.04 4.33 3.86 3.53 3.28 3.09 2.93 2.80 2.70 2.61 2.31 2.15 2.04 1.96 1.90 1.86 1.83 1.80 1.78 1.71 1.65 1.52
40 1005.60 39.47 14.04 8.41 6.18 5.01 4.31 3.84 3.51 3.26 3.06 2.91 2.78 2.67 2.59 2.29 2.12 2.01 1.93 1.88 1.83 1.80 1.77 1.74 1.68 1.61 1.48
45 1007.00 39.48 14.02 8.39 6.16 4.99 4.29 3.82 3.49 3.24 3.04 2.89 2.76 2.65 2.56 2.27 2.10 1.99 1.91 1.85 1.81 1.77 1.74 1.72 1.65 1.59 1.45
50 1008.12 39.48 14.01 8.38 6.14 4.98 4.28 3.81 3.47 3.22 3.03 2.87 2.74 2.64 2.55 2.25 2.08 1.97 1.89 1.83 1.79 1.75 1.72 1.70 1.63 1.56 1.43
55 1009.03 39.48 14.00 8.37 6.13 4.97 4.26 3.79 3.46 3.21 3.01 2.86 2.73 2.63 2.54 2.24 2.06 1.95 1.87 1.82 1.77 1.74 1.71 1.68 1.61 1.55 1.41
60 1009.80 39.48 13.99 8.36 6.12 4.96 4.25 3.78 3.45 3.20 3.00 2.85 2.72 2.61 2.52 2.22 2.05 1.94 1.86 1.80 1.76 1.72 1.69 1.67 1.60 1.53 1.39
65 1010.45 39.48 13.99 8.35 6.11 4.95 4.25 3.78 3.44 3.19 2.99 2.84 2.71 2.60 2.51 2.21 2.04 1.93 1.85 1.79 1.75 1.71 1.68 1.65 1.59 1.52 1.37
70 1011.00 39.48 13.98 8.35 6.11 4.94 4.24 3.77 3.43 3.18 2.99 2.83 2.70 2.60 2.51 2.20 2.03 1.92 1.84 1.78 1.74 1.70 1.67 1.64 1.57 1.50 1.36
75 1011.49 39.48 13.97 8.34 6.10 4.94 4.23 3.76 3.43 3.18 2.98 2.82 2.70 2.59 2.50 2.20 2.02 1.91 1.83 1.77 1.73 1.69 1.66 1.63 1.56 1.49 1.34
80 1011.91 39.49 13.97 8.33 6.10 4.93 4.23 3.76 3.42 3.17 2.97 2.82 2.69 2.58 2.49 2.19 2.02 1.90 1.82 1.76 1.72 1.68 1.65 1.63 1.55 1.48 1.33
85 1012.28 39.49 13.97 8.33 6.09 4.93 4.22 3.75 3.42 3.16 2.97 2.81 2.68 2.58 2.49 2.18 2.01 1.90 1.82 1.76 1.71 1.67 1.64 1.62 1.55 1.47 1.32
90 1012.61 39.49 13.96 8.33 6.09 4.92 4.22 3.75 3.41 3.16 2.96 2.81 2.68 2.57 2.48 2.18 2.01 1.89 1.81 1.75 1.70 1.67 1.64 1.61 1.54 1.47 1.31
95 1012.91 39.49 13.96 8.32 6.08 4.92 4.21 3.74 3.41 3.16 2.96 2.80 2.68 2.57 2.48 2.17 2.00 1.89 1.81 1.75 1.70 1.66 1.63 1.60 1.53 1.46 1.30
100 1013.17 39.49 13.96 8.32 6.08 4.92 4.21 3.74 3.40 3.15 2.96 2.80 2.67 2.56 2.47 2.17 2.00 1.88 1.80 1.74 1.69 1.66 1.62 1.60 1.53 1.45 1.30
105 1013.42 39.49 13.95 8.32 6.08 4.91 4.21 3.74 3.40 3.15 2.95 2.80 2.67 2.56 2.47 2.17 1.99 1.88 1.80 1.74 1.69 1.65 1.62 1.59 1.52 1.45 1.29
110 1013.64 39.49 13.95 8.31 6.07 4.91 4.20 3.73 3.40 3.15 2.95 2.79 2.66 2.56 2.47 2.16 1.99 1.87 1.79 1.73 1.68 1.65 1.62 1.59 1.52 1.44 1.28
115 1013.84 39.49 13.95 8.31 6.07 4.91 4.20 3.73 3.39 3.14 2.95 2.79 2.66 2.55 2.46 2.16 1.98 1.87 1.79 1.73 1.68 1.64 1.61 1.58 1.51 1.44 1.27
120 1014.02 39.49 13.95 8.31 6.07 4.90 4.20 3.73 3.39 3.14 2.94 2.79 2.66 2.55 2.46 2.16 1.98 1.87 1.79 1.72 1.68 1.64 1.61 1.58 1.51 1.43 1.27
125 1014.19 39.49 13.95 8.31 6.07 4.90 4.20 3.73 3.39 3.14 2.94 2.78 2.66 2.55 2.46 2.15 1.98 1.86 1.78 1.72 1.67 1.64 1.60 1.58 1.50 1.43 1.26
∞ 1018.26 39.50 13.90 8.26 6.02 4.85 4.14 3.67 3.33 3.08 2.88 2.72 2.60 2.49 2.40 2.09 1.91 1.79 1.70 1.64 1.59 1.55 1.51 1.48 1.40 1.31 1.00
TABLA DE LA DISTRIBUCIÓN F de FISHER-SNEDECOR (0.005)
Grados de libertad del denominador
F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 55 60 80 120 ∞
1 16210.72 198.50 55.55 31.33 22.78 18.63 16.24 14.69 13.61 12.83 12.23 11.75 11.37 11.06 10.80 9.94 9.48 9.18 8.98 8.83 8.71 8.63 8.55 8.49 8.33 8.18 7.88
2 19999.50 199.00 49.80 26.28 18.31 14.54 12.40 11.04 10.11 9.43 8.91 8.51 8.19 7.92 7.70 6.99 6.60 6.35 6.19 6.07 5.97 5.90 5.84 5.79 5.67 5.54 5.30
3 21614.74 199.17 47.47 24.26 16.53 12.92 10.88 9.60 8.72 8.08 7.60 7.23 6.93 6.68 6.48 5.82 5.46 5.24 5.09 4.98 4.89 4.83 4.77 4.73 4.61 4.50 4.28
4 22499.58 199.25 46.19 23.15 15.56 12.03 10.05 8.81 7.96 7.34 6.88 6.52 6.23 6.00 5.80 5.17 4.84 4.62 4.48 4.37 4.29 4.23 4.18 4.14 4.03 3.92 3.72
5 23055.80 199.30 45.39 22.46 14.94 11.46 9.52 8.30 7.47 6.87 6.42 6.07 5.79 5.56 5.37 4.76 4.43 4.23 4.09 3.99 3.91 3.85 3.80 3.76 3.65 3.55 3.35
6 23437.11 199.33 44.84 21.97 14.51 11.07 9.16 7.95 7.13 6.54 6.10 5.76 5.48 5.26 5.07 4.47 4.15 3.95 3.81 3.71 3.64 3.58 3.53 3.49 3.39 3.28 3.09
7 23714.57 199.36 44.43 21.62 14.20 10.79 8.89 7.69 6.88 6.30 5.86 5.52 5.25 5.03 4.85 4.26 3.94 3.74 3.61 3.51 3.43 3.38 3.33 3.29 3.19 3.09 2.90
8 23925.41 199.37 44.13 21.35 13.96 10.57 8.68 7.50 6.69 6.12 5.68 5.35 5.08 4.86 4.67 4.09 3.78 3.58 3.45 3.35 3.28 3.22 3.17 3.13 3.03 2.93 2.74
9 24091.00 199.39 43.88 21.14 13.77 10.39 8.51 7.34 6.54 5.97 5.54 5.20 4.94 4.72 4.54 3.96 3.64 3.45 3.32 3.22 3.15 3.09 3.05 3.01 2.91 2.81 2.62
10 24224.49 199.40 43.69 20.97 13.62 10.25 8.38 7.21 6.42 5.85 5.42 5.09 4.82 4.60 4.42 3.85 3.54 3.34 3.21 3.12 3.04 2.99 2.94 2.90 2.80 2.71 2.52
11 24334.36 199.41 43.52 20.82 13.49 10.13 8.27 7.10 6.31 5.75 5.32 4.99 4.72 4.51 4.33 3.76 3.45 3.25 3.12 3.03 2.96 2.90 2.85 2.82 2.72 2.62 2.43
12 24426.37 199.42 43.39 20.70 13.38 10.03 8.18 7.01 6.23 5.66 5.24 4.91 4.64 4.43 4.25 3.68 3.37 3.18 3.05 2.95 2.88 2.82 2.78 2.74 2.64 2.54 2.36
Grados de libertad del numerador
13 24504.54 199.42 43.27 20.60 13.29 9.95 8.10 6.94 6.15 5.59 5.16 4.84 4.57 4.36 4.18 3.61 3.30 3.11 2.98 2.89 2.82 2.76 2.71 2.68 2.58 2.48 2.29
14 24571.77 199.43 43.17 20.51 13.21 9.88 8.03 6.87 6.09 5.53 5.10 4.77 4.51 4.30 4.12 3.55 3.25 3.06 2.93 2.83 2.76 2.70 2.66 2.62 2.52 2.42 2.24
15 24630.21 199.43 43.08 20.44 13.15 9.81 7.97 6.81 6.03 5.47 5.05 4.72 4.46 4.25 4.07 3.50 3.20 3.01 2.88 2.78 2.71 2.65 2.61 2.57 2.47 2.37 2.19
20 24835.97 199.45 42.78 20.17 12.90 9.59 7.75 6.61 5.83 5.27 4.86 4.53 4.27 4.06 3.88 3.32 3.01 2.82 2.69 2.60 2.53 2.47 2.42 2.39 2.29 2.19 2.00
25 24960.34 199.46 42.59 20.00 12.76 9.45 7.62 6.48 5.71 5.15 4.74 4.41 4.15 3.94 3.77 3.20 2.90 2.71 2.58 2.48 2.41 2.35 2.31 2.27 2.17 2.07 1.88
30 25043.63 199.47 42.47 19.89 12.66 9.36 7.53 6.40 5.62 5.07 4.65 4.33 4.07 3.86 3.69 3.12 2.82 2.63 2.50 2.40 2.33 2.27 2.23 2.19 2.08 1.98 1.79
35 25103.30 199.47 42.38 19.81 12.58 9.29 7.47 6.33 5.56 5.01 4.60 4.27 4.01 3.80 3.63 3.07 2.76 2.57 2.44 2.34 2.27 2.21 2.16 2.13 2.02 1.92 1.72
40 25148.15 199.47 42.31 19.75 12.53 9.24 7.42 6.29 5.52 4.97 4.55 4.23 3.97 3.76 3.58 3.02 2.72 2.52 2.39 2.30 2.22 2.16 2.12 2.08 1.97 1.87 1.67
45 25183.10 199.48 42.26 19.70 12.49 9.20 7.38 6.25 5.48 4.93 4.52 4.19 3.94 3.73 3.55 2.99 2.68 2.49 2.36 2.26 2.19 2.13 2.08 2.04 1.94 1.83 1.63
50 25211.09 199.48 42.21 19.67 12.45 9.17 7.35 6.22 5.45 4.90 4.49 4.17 3.91 3.70 3.52 2.96 2.65 2.46 2.33 2.23 2.16 2.10 2.05 2.01 1.90 1.80 1.59
55 25234.02 199.48 42.18 19.64 12.43 9.14 7.33 6.20 5.43 4.88 4.46 4.14 3.88 3.67 3.50 2.94 2.63 2.44 2.30 2.20 2.13 2.07 2.02 1.98 1.88 1.77 1.56
60 25253.14 199.48 42.15 19.61 12.40 9.12 7.31 6.18 5.41 4.86 4.45 4.12 3.87 3.66 3.48 2.92 2.61 2.42 2.28 2.18 2.11 2.05 2.00 1.96 1.85 1.75 1.53
65 25269.33 199.48 42.12 19.59 12.38 9.10 7.29 6.16 5.39 4.84 4.43 4.11 3.85 3.64 3.46 2.90 2.59 2.40 2.26 2.17 2.09 2.03 1.98 1.94 1.83 1.73 1.51
70 25283.22 199.49 42.10 19.57 12.37 9.09 7.28 6.15 5.38 4.83 4.41 4.09 3.84 3.62 3.45 2.88 2.58 2.38 2.25 2.15 2.08 2.02 1.97 1.93 1.82 1.71 1.49
75 25295.26 199.49 42.09 19.55 12.35 9.07 7.26 6.13 5.37 4.82 4.40 4.08 3.82 3.61 3.44 2.87 2.56 2.37 2.24 2.14 2.06 2.00 1.95 1.91 1.80 1.69 1.47
80 25305.80 199.49 42.07 19.54 12.34 9.06 7.25 6.12 5.36 4.80 4.39 4.07 3.81 3.60 3.43 2.86 2.55 2.36 2.22 2.12 2.05 1.99 1.94 1.90 1.79 1.68 1.45
85 25315.10 199.49 42.06 19.53 12.33 9.05 7.24 6.11 5.35 4.80 4.38 4.06 3.80 3.59 3.42 2.85 2.54 2.35 2.21 2.11 2.04 1.98 1.93 1.89 1.78 1.67 1.44
90 25323.38 199.49 42.04 19.52 12.32 9.04 7.23 6.10 5.34 4.79 4.37 4.05 3.79 3.58 3.41 2.84 2.53 2.34 2.20 2.10 2.03 1.97 1.92 1.88 1.77 1.66 1.43
95 25330.78 199.49 42.03 19.51 12.31 9.03 7.22 6.09 5.33 4.78 4.37 4.04 3.79 3.58 3.40 2.84 2.53 2.33 2.20 2.10 2.02 1.96 1.91 1.87 1.76 1.64 1.41
100 25337.45 199.49 42.02 19.50 12.30 9.03 7.22 6.09 5.32 4.77 4.36 4.04 3.78 3.57 3.39 2.83 2.52 2.32 2.19 2.09 2.01 1.95 1.90 1.86 1.75 1.64 1.40
105 25343.48 199.49 42.01 19.49 12.29 9.02 7.21 6.08 5.32 4.77 4.35 4.03 3.77 3.56 3.39 2.82 2.51 2.32 2.18 2.08 2.00 1.94 1.89 1.85 1.74 1.63 1.39
110 25348.97 199.49 42.00 19.48 12.29 9.01 7.20 6.08 5.31 4.76 4.35 4.02 3.77 3.56 3.38 2.82 2.51 2.31 2.17 2.07 2.00 1.94 1.89 1.85 1.73 1.62 1.38
115 25353.98 199.49 42.00 19.47 12.28 9.01 7.20 6.07 5.30 4.75 4.34 4.02 3.76 3.55 3.38 2.81 2.50 2.30 2.17 2.07 1.99 1.93 1.88 1.84 1.73 1.61 1.37
120 25358.57 199.49 41.99 19.47 12.27 9.00 7.19 6.06 5.30 4.75 4.34 4.01 3.76 3.55 3.37 2.81 2.50 2.30 2.16 2.06 1.99 1.93 1.88 1.83 1.72 1.61 1.36
125 25362.80 199.49 41.98 19.46 12.27 9.00 7.19 6.06 5.30 4.75 4.33 4.01 3.75 3.54 3.37 2.80 2.49 2.30 2.16 2.06 1.98 1.92 1.87 1.83 1.71 1.60 1.36
∞ 25464.46 199.50 41.83 19.32 12.14 8.88 7.08 5.95 5.19 4.64 4.23 3.90 3.65 3.44 3.26 2.69 2.38 2.18 2.04 1.93 1.85 1.79 1.73 1.69 1.56 1.43 1.00