11 - Estadistica II - Alonso Montero - Universidad de Granada - 64 Pag PDF

1
INTRODUCCIÓN AL CÁLCULO DE PROBABILIDADES
1.- HISTORIA DE LA PROBABILIDAD
Los juegos de azar tienen una antigüedad de más de 40000 años; así por
ejemplo, los dados se utilizaron tanto en el juego como en ceremonias religiosas. Las
civilizaciones antiguas explicaban el azar mediante la voluntad divina. En el
Renacimiento el abandono progresivo de explicaciones teológicas conduce a una
reconsideración de los experimentos aleatorios.
Ya en el siglo XVI, los matemáticos italianos comenzaron a interpretar los

resultados de experimentos aleatorios simples y a finales del siglo XVI, existía un
análisis empírico de los resultados aleatorios.
El desarrollo del análisis matemático de los juegos de azar se produce

lentamente durante los siglos XVI y XVII. El cálculo de probabilidades se consolida
como disciplina independiente en el período que transcurre desde la segunda mitad del
siglo XVII hasta comienzos del siglo XVIII. La historia de la probabilidad comienza en
el siglo XVII cuando Fermat y Pascal tratan de resolver algunos problemas relacionados
con los juegos de azar. Aunque algunos marcan sus inicios cuando Cardano (jugador
donde los haya) escribió sobre 1520 El Libro de los Juegos de Azar (aunque no fue
publicado hasta más de un siglo después, sobre 1660) no es hasta dicha fecha que
comienza a elaborarse una teoría aceptable sobre los juegos.
La teoría de la probabilidad fue aplicada con buenos resultados a las mesas de

juego y con el tiempo a otros problemas socioeconómicos.
Durante el siglo XVIII el cálculo de probabilidades se extiende a problemas

físicos y actuariales (seguros marítimos). El factor principal impulsor es el conjunto de
problemas de astronomía y física que surgen ligados a la contrastación empírica de la
teoría de Newton. Estas investigaciones van a ser de importancia fundamental en el
desarrollo de la Estadística.
La industria de los seguros, que nació en el siglo XIX, requería un conocimiento

exacto del riesgo de perder pues de lo contrario no se podían calcular las pólizas.
1_Apuntes de Estadística II 2
Posteriormente, se estudia la probabilidad como un instrumento que permitiría entender
los fenómenos sociales.
La necesidad de comparar con exactitud los datos observados con la teoría

requería un tratamiento riguroso del mismo, que va a dar lugar a la teoría de errores.
Durante el siglo XVIII, debido muy particularmente a la popularidad de los juegos de
azar, se publicaron varios documentos de este tipo. Jakob Bernouilli (1654-1705) Ars
Conjectandi (publicado en 1713 aunque escrito sobre 1690) y Auguste De Moivre
(1667-1754) contribuyeron de forma importante a este desarrollo.
Jacob Bernoulli proporciona la primera solución al problema de estimar una

cantidad desconocida a partir de un conjunto de mediciones de su valor que, por el error
experimental, presentan variabilidad. Fue pionero en la aplicación del cálculo
infinitesimal al cálculo de probabilidades.
También, además de Abraham de Moivre, el reverendo Thomas Bayes y Joseph

Lagrange inventaron fórmulas y técnicas de probabilidad.
El impulso fundamental proviene de la obra de Pierre Simon, Marqués de

Laplace, publicó Théorie analytique des probabilités en el que expone un análisis
matemático sobre los juegos de azar, y fue quien indujo la primera definición explícita
de probabilidad. También desarrolló la ley normal como modelo para describir la
variabilidad de los errores de medida, formuló y estimó el primer modelo explicativo
estadístico. Por su parte, Gauss hizo su aportación en la estimación de modelos
estadísticos.
Bravais, geólogo y astrónomo, es el primero en considerar la relación entre

errores de medida dependientes entre sí; Benjamín Pierce propone el primer criterio
para rechazar observaciones heterogéneas con el resto y S. Newcomb, el más famoso
astrónomo americano del siglo XIX, introduce los primeros métodos de estimación
cuando hay errores fuertes en algunos datos (Estimación Robusta).
Desde los orígenes la principal dificultad para poder considerar la probabilidad

como una rama de la matemática fue la elaboración de una teoría suficientemente
precisa como para que fuese aceptada como una forma de matemática. A principios del
siglo XX el matemático ruso A. Kolmogorov la definió de forma axiomática y
estableció una teoría más amplia como es la teoría de la medida.
En la actualidad la teoría matemática de la probabilidad constituye el

fundamento de las aplicaciones estadísticas tanto en la investigación social como en la
toma de decisiones.
La necesidad de sortear la incertidumbre nos lleva a estudiar y aplicar la teoría

de la probabilidad. Para tener éxito en la toma de decisiones, se necesita la capacidad de
tratar sistemáticamente con la incertidumbre misma mediante cuidadosas evaluaciones y
aplicaciones de métodos estadísticos concernientes a las actividades de los negocios.
Las aplicaciones de métodos estadísticos en las diferentes áreas son numerosas.

Introducción al cálculo de probabilidades 3
2.- INTRODUCCIÓN
En la vida cotidiana aparecen muchas situaciones en las que los resultados

observados son diferentes aunque las condiciones iniciales en las que se produce la
experiencia sean las mismas. Por ejemplo, al lanzar una moneda unas veces resultará
cara y otras cruz. Estos fenómenos, denominados aleatorios, se ven afectados por la
incertidumbre.
En el lenguaje habitual, frases como "probablemente...", "es poco probable

que...", "hay muchas posibilidades de que..." hacen referencia a esta incertidumbre.
La teoría de la probabilidad pretende ser una herramienta para modelizar y

tratar con situaciones de este tipo. Por otra parte, cuando aplicamos las técnicas
estadísticas a la recogida, análisis e interpretación de los datos, la teoría de la
probabilidad proporciona una base para evaluar la fiabilidad de las conclusiones
alcanzadas y las inferencias realizadas.
El objetivo del Cálculo de Probabilidades es el estudio de métodos de análisis

del comportamiento de fenómenos aleatorios.
Aunque desde sus orígenes siempre han estado ligadas, es cierto que existe un
cierto paralelismo entre la estadística descriptiva y el cálculo de probabilidades, como
se puede apreciar en la siguiente tabla:
ESTADÍSTICA PROBABILIDAD
fi, Fi Probabilidad
Variable Unidimensional Variable aleatoria
Variable Bidimensional Vectores aleatorios
Distribución de frecuencias Distribución de Probabilidad (Función de distribución)
Medias, Momentos Esperanza, Momentos
Independencia Estadística Independencia Estocástica
Series Temporales Procesos Estocásticos
En la actividad diaria nos encontramos con ciertos tipos de fenómenos que se

pueden reproducir un gran número de veces, en condiciones similares dando lugar a un
conjunto de dos o más posibles resultados. Estos fenómenos pueden ser de dos tipos:
determinísticos y aleatorios.
2.1.- Conceptos básicos
Con ellos vamos a dar una serie de conceptos para poder desarrollar este tema y
los sucesivos.
o Fenómeno determinístico.- Cuando al repetirlo bajo idénticas condiciones

iniciales se obtienen siempre los mismos resultados.
o Fenómeno aleatorio.- Cuando al repetirlo bajo idénticas condiciones iniciales

no se obtienen siempre los mismos resultados. Ejemplo: cuando lanzamos una
moneda al aire observando la sucesión de caras y cruces que presentan.
o Experimento aleatorio.- Operación que repetimos bajo idénticas condiciones

iniciales y no se obtienen siempre los mismos resultados. Ejemplo: lanzamiento
de un dado observando la sucesión de números que se presentan {1, 2, 3, 4, 5,6}.
o Suceso elemental.- Cada uno de los resultados posibles del experimento

aleatorio; luego un suceso elemental consta de un solo elemento del espacio
muestral (E). En el ejemplo del dado: {1}.
Suceso A= (2, 3,4)

2 3
4
Suceso elemental
1 B= 1
o Espacio muestral.- Conjunto de todos los sucesos elementales del experimento

aleatorio y lo designaremos como (E). Ejemplo del dado: {1,2,3,4,5,6}
o Suceso.- Conjunto formado por uno o más sucesos elementales, es decir, un

subconjunto de resultados elementales del experimento aleatorio. Ejemplo del
dado: nos interesa saber si el resultado a sido un número impar A={1, 3,5}.
o Suceso seguro.- Coincide con el suceso elemental, ya que al realizar el

experimento aleatorio se obtendrá con seguridad uno de los posibles resultados o
sucesos elementales, y por tanto ocurrirá (E).
o Dos sucesos se dice que son iguales, cuando todo suceso elemental de uno está
en el otro, y viceversa.
o Suceso imposible.- Es el que no tiene ningún elemento del espacio muestral (E),
y por tanto no ocurrirá nunca, y se representa como ∅. Ejemplo: En el
lanzamiento del dado no puede darse el 7.
o Suceso complementario a un suceso A: Es el suceso que se verifica si, como

resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar
con el símbolo Ā.
o Sucesos incompatibles: Los sucesos A y B son incompatibles o mutuamente

excluyentes si no pueden ocurrir simultáneamente.
A = {a, b}, B = {d, e}
E A B
a
b c d e
o Si tenemos dos sucesos cualesquiera A, B: A está contenido en B, entonces B no

está contenido en A,
A⊂ B ⇒ B⊄A
o Si tenemos dos sucesos cualesquiera A, B: donde A está contenido en B y B está

contenido en A, entonces A = B.
A, B / A ⊂ B ⇒ B⊂ A ⇒ A = B
2.2.- Operaciones con sucesos

Al ser los sucesos aleatorios nada más que subconjuntos de un conjunto E
(espacio muestral), podemos aplicarles las conocidas operaciones con conjuntos, como
son la unión, intersección y diferencia:
o Suceso contenido en otro.- Un suceso A se dice que está contenido o inducido en

otro B si siempre que se verifica A se verifica B. Se representa A⊂B.
Ejemplo: Considerando el experimento aleatorio del lanzamiento de un dado, si

designamos por:
A= que aparezca el 2 ó el 4 = {2,4}

B= que aparezca un número par: {2,4,6}
El suceso A ⊂ B, pues los resultados o sucesos elementales 2 y 4 de A,

pertenecen a B. Diremos también que A implica a B y lo denotaremos A ⇒ B.
o Igualdad de sucesos.- Dados dos sucesos A y B, diremos que son iguales, si

siempre que ocurre el suceso A también ocurre el suceso B, y siempre que ocurre el
suceso B ocurre el suceso A, y lo indicaremos por A = B. Es decir, si se verifica:
A ⊂ B⎫
⎬⇔ A=B
B ⊂ A⎭
Ejemplo: Sean los sucesos:
A = obtener un número par al lanzar un dado = {2,4,6}

B = obtener un múltiplo de 2 = {2}
Aquí se verifica que:
A ⊂ B pues siempre que ocurre A ocurre B

B ⊂ A pues siempre que ocurre B ocurre A
Luego A = B.
o Diferencia de sucesos.- Dados dos sucesos aleatorios A, B ∈ E , se llama suceso

diferencia de A y B y se representa mediante A/B, o bien, A-B al suceso aleatorio
formado por todos los sucesos elementales que pertenecen a A, pero no a B.
o Unión de sucesos.- Dados dos sucesos A y B se llama unión de A y B, y se

representa por A∪B, al suceso que se realiza cuando se realiza alguno de ellos, A o
B, es decir, a todos los elementos que están en A ó están en B.
Ejemplo: Sean los sucesos:
A = obtener el lanzamiento de un dado un número impar = {1,3,5}

B = obtener un número mayor que 4 = {5,6}
El suceso unión será:
A ∪ B = {1,3,5} ∪ {5,6} = {1,3,5,6}
O sea, obtener un 1, un 3, un 5, ó un 6 en el lanzamiento del dado.
o Intersección de sucesos.- Dados dos sucesos A y B, se llama suceso intersección

de A y B, y se representa por A ∩ B, al suceso que se realiza si y sólo si se realizan
simultáneamente A y B.
Ejemplo: Utilizando el ejemplo de la unión, la intersección viene dada por:
o Sucesos Incompatibles.- Dos sucesos A y B cuya intersección es el suceso

imposible se llaman sucesos incompatibles. Obsérvese que un suceso y su contrario
son siempre incompatibles.
A∩ B =φ .
o Sucesos Complementarios.- Dado un suceso A, se llama suceso contrario o

complementario de A, y se representa por Ā, al suceso que se realiza cuando no se
realiza A y recíprocamente.
El suceso contrario de E es φ y recíprocamente.
Ā = E – A.
Ejemplo: E = {1,2,3,4,5,6}
A = {1,2} → A = {3,4,5,6}
B = {2,4,6} → B = {1,3,5}
C = {3,5} → C = {1,2,4,6}
2.3.- Propiedades de la unión e intersección de sucesos

Seguidamente se presentan una serie de propiedades que verifican tanto la unión
como la intersección de dos o más sucesos. Tales propiedades son comunes a ambas,
como se muestran en la siguiente tabla:
UNION INTERSECCION
1. Asociativa (AUB)UC=AU(BUC) (A∩B)∩C=A∩(B∩C)
2. Conmutativa AUB=BUA A∩B=B∩A
3. Idempotente AUA=A A∩A=A
4. Simplificativa AU(B∩A)=A
A∩(BUA)=A
5. Distributiva AU(B∩C)=(AUB)∩(AUC)
A∩(BUC)=(A∩B)U(A∩C)
_
Todo suceso A del espacio de sucesos tiene otro llamado contrario, A tal
que: _ _
AUA=E A∩A=φ
De estas propiedades surgen las siguientes consecuencias inmediatas:
i) AUφ=A , A∩φ=φ
ii) A∩E=A, AUE=E _____ _ _ _____ _ _
iii) Leyes de Morgan: A ∩ B = A U B, A U B = A ∩ B.
Ejemplo: Sea un experimento aleatorio de lanzar un dado y definimos:

A = {par}
B = {impar}
C = {múltiplo de 3}
Calcular:
a ) A U B = {1,2,3,4,5,6} = E
b) A U C = {1,3,4,6}
c) B U C = {1,3,5,6}
d ) A U B = {1,2,3,4,5,6} = E
e) A ∩ B = 0/
f ) A ∩ C = {6}
g ) B ∩ C = {3}
h) B − C = B ∩ C = {1,5}
i ) ( A U B ) ∩ C = {3,6}
3.- CONCEPTO DE PROBABILIDAD

Para definir la probabilidad vamos a dar varias definiciones o conceptos de
probabilidad. Con estas definiciones se pretende expresar de manera objetiva y precisa
el grado de ocurrencia de ciertos resultados de un fenómeno aleatorio.
Concepto Frecuentista.- Dado un suceso A que se repite un número de veces, si

observamos la frecuencia con que se repite ese suceso, obtendremos las probabilidades
asociadas asignando la frecuencia relativa a cada suceso.
Se llama frecuencia absoluta de un suceso A al número de veces que se verifica

A al realizar el experimento un número determinado de veces.
Se llama frecuencia relativa de un suceso A al cociente entre su frecuencia
absoluta y el número de veces que se realiza el experimento, que viene dada por:
f a (A)
f r (A) =
n
donde n el número de veces que se repite el experimento.
Definición de Laplace.- La probabilidad de cualquier suceso A es igual al

cociente entre el número de resultados favorables o resultados que integran el suceso A
y el número total de elementos o posibles resultados del espacio muestral E.
nº de casos favorables
P(A) =
nº de casos posibles
Como hemos venido observando los sucesos los consideremos como conjuntos,
siendo válido para los sucesos todo lo estudiado en la teoría de conjuntos. Para llegar a
la construcción axiomática del Cálculo de Probabilidades, necesitamos dar unas
estructuras algebraicas básicas construidas sobre los sucesos de la misma manera que
con construían sobre los conjuntos.
Todo fenómeno aleatorio lleva asociado un espacio muestral. Para medir el grado de
ocurrencia de los sucesos, definimos el Álgebra de Boole, álgebra de sucesos o sigma
álgebra, que verifica siguientes condiciones:
1.- El complementario de un suceso A que pertenece al Algebra también

pertenece al algebra:
A Є Ą →Ā Є Ą
2.- Si tenemos una serie de sucesos finitos (A1, A2,…..An) infinitos numerables,
que pertenecen al Ą, la unión de todos ellos tiene que pertenecer a Ą.
A1, A2, . . ., An Є Ą ⇒ A ∪ A2 ∪ ….. ∪ An Є Ą.
3.- El suceso imposible también pertenece al Ą,

φ Є Ą
Basándose en dicho álgebra, kolmogorov dio la definición axiomática de

probabilidad que viene dada a continuación.
Se llama probabilidad asociada al álgebra de Boole a una aplicación Ą ÆR tal

que, a cada valor de A le hace corresponder una probabilidad, que verifica los siguientes
axiomas:
Axioma 1: Siempre es positiva.
Axioma 2: Siempre estará entre 0 y 1.
P[E ] = 1.
Axioma 3: Sea A1 .... An sucesos tales que son disjuntos dos a dos (es
decir, la intersección es Ø) Ai ∩ Aj = φ , la probabilidad es la suma
de todas las probabilidades de sucesos.
P (∪ Ai ) = ∑ P ( Ai ).
Del tercer axioma se desprende que si que si A = A1 ∪ A2 ∪ ⋅ ⋅ ⋅ con

Ai ∩ A j = φ , entonces P[ A] = P[A1 ] + P[A2 ] + ⋅ ⋅ ⋅ + P[ An ] , es decir Ρ(U Α i ) = ΣΡ(Α i ).
Ejemplo: Calcula P ( A ∩ B ).
La solución es:
P( A) = {1,3,5}
P( B ) = {2,3,4,6}
P(1,3,5) + P (2,3,4,6) − P (3)
Solo cuando P ( A ∩ B ) = 0 , es decir que son disjuntos.
Ejemplo: Sea un experimento aleatorio que consiste en lanzar al aire los dados que no
están cargados, y se considera espacio muestral el resultado de la suma de los valores
obtenidos, calcular:
1.- Espacio muestral: E = {2,3,4,5,6,7,8,9,10,11,12} = 11 elementos
1
2.- La probabilidad del suceso A = {2} P ( A) =
11
6
3.- La probabilidad del suceso B = {par} P(B ) =
11
3
4.- La probabilidad del suceso C = {10,11,12} P(C ) =
11
4
5.- La probabilidad del suceso D = {4,5,6,7} P (D ) =
11
6.- P ( A U B ) = {2,4,6,8,10,12} = 6 / 11
7.- P ( A U C ) = {2,10,11,12} = 4 / 11
8.- P ( D U C ) = {2,3,8,9,10,11,12} = 7 / 11
9.- P ( B U D ) = {3,4,5,6,7,9,11} = 7 / 11
10.- P ( A ∩ B ) = P ( A U B ) = {3,4,5,6,7,8,9,10,11,12} = 10 / 11
11.- P ( B U C ) = {2,3,4,5,6,7,8,9,10,11,12} = 10 / 11
12.- P ( B ∩ D ) = {4,6} = 2 / 11 .
3.1.- Espacio Probabilístico
Llamamos espacio probabilística a la terna formada por un espacio muestral, E;

el álgebra de sucesos, Ą, y una probabilidad, P, es decir a ( E, Ą, P ).
Sus propiedades son:

1) La probabilidad del complementario de A es 1 menos la probabilidad de
A:
Prob [Ā] = 1 - Prob [A].
2) La probabilidad de la unión de A y B es igual a la probabilidad de A más

la probabilidad de B menos la probabilidad de la intersección de A y B:
Prob [A U B] = Prob [A] + Prob [B] - Prob [A ∩ B].
3) La probabilidad del suceso vacío es 0:
Prob [O] = 0
4) Si A contiene a B, entonces la probabilidad de A es menor o igual que la

probabilidad de B:
A ⊂ B → Prob [A] ≤ Prob [B]

5) La probabilidad de A es menor o igual a 1:
Prob [A] ≤ 1.
4.- PROBABILIDAD CONDICIONADA
Hasta ahora hemos visto el concepto de probabilidad partiendo de que la única

información que tenemos sobre el experimento es el espacio muestral. Sin embargo, en
ocasiones se conoce que un determinado suceso ha ocurrido. ¿Modificará esta
información adicional la probabilidad de que ocurra otro suceso?. Veremos que
generalmente sí. A partir de esta idea surge la idea de probabilidad condicionada, que se
define:
Sea un espacio probabilístico y un suceso B perteneciente al Algebra de Boole,

tal que P(B) ≠ 0, entonces se define la probabilidad de que ocurra A si antes ha ocurrido
B, como:
P( A ∩ B)
P(B/A)= si P(B) ≠ O.
P( A)
Análogamente podemos definir P(A/B) como
P ( A ∩ B)
P(A/B)= si P(A) ≠ O.
P( B)
De las definiciones anteriores se deducen claramente las relaciones siguientes:
o P(A∩B)=P(A) · P(B/A)
o P(A∩B)=P(B) · P(A/B)
o P(A/B). P(B)= P(B/A). P(A)
P( A / B) P( A)
o =
P( B / A) P( B)
o P ( A / A) = 1 .
o Si A, B son independientes P ( A ∩ B ) = 0, entonces:

P ( A / B ) = P ( B / A) = 0 .
o A esta expresión se le conoce como regla de la multiplicación, que en
general para un número k de sucesos viene dada por:
P (A1 ∩A2 ∩...∩Ak) = P (A1)P (A2/A1)....P (Ak/A1∩A2∩...∩Ak−1)
Ejemplo: De una urna que contiene 9 bolas rojas y 5 negras, se extraen sucesivamente 2
bolas. Calcular la probabilidad de los siguientes sucesos:
a) Que las dos sean negras
b) Que las dos sean rojas
c) Que la primera se roja y la segunda negra
d) Que la segunda se roja sabiendo que la primera fue negra
La solución en cada apartado es la siguiente.
a) Sea N1: Sacar la 1ª Negra

N2: Sacar la 2ª Negra
P(N1∩N2) = P(N1) · P(N2/N1) = 5/14 · 4/13
b) Sea R1: Sacar la 1ª Roja

R2: Sacar la 2ª Roja
P(R1∩R2) = P(R1) · P(R2/R1) = 9/14 · 8/13
c) Sea R1: Sacar la 1ª Roja

N2: Sacar la 2ª Negra
P(R1∩N2) = P(R1) · P(N2/R1) = 9/14 · 5/13
d) Sea N1: La 1ª es Negra

R2: La 2ª es Roja
P(R2/N1) = 9/13 (quedan 13 bolas de las cuales 9 son rojas).
Ejemplo: Sabiendo que al lanzar un dado ha salido un número par, hallar la

probabilidad que este número haya sido un dos:
1
P( A ∩ B) 1 1 3
P( A ∩ B) = = 6= P ( A) = {2} = P (B ) = {2,4,6} =
P( B) 3 3 6 6
6
5.- INDEPENDENCIA DE SUCESOS

Sean A y B dos sucesos del espacio muestral. El suceso A se dice independiente
del suceso B si el conocimiento de la ocurrencia de B no modifica la probabilidad de
aparición de A, es decir, si
P (A/B) = P (A) o P(A) = P(A/B).
Propiedad: Si dos sucesos A, B son independientes, entonces siempre se verifica:
De la definición y de esta propiedad se deduce que si los sucesos A y B son

independientes, se verifica:
o Los sucesos A y B son independientes.

o Decimos que n sucesos son independientes si se verifica:
P ( A1 ∩ A2 ∩ ... ∩ An ) = P( A1 ) ⋅ P( A2 ) ⋅ ... ⋅ P( An ) .
Ejemplo: Se consideran dos sucesos, A y B, asociados a un experimento aleatorio con

P(A)=0.7; P(B)=0.6; P( )=0.58. ¿Son independientes A y B?
Para ver si son independientes, comprobaremos si P( A B ) = P( A ) · P( B )
P( ) = P[(A B)c] = 1 - P(A B)
Por tanto, P(A B) = 1 - P( ) = 1 -0.58 = 0.42
Por otro lado, P( A ) · P( B ) = 0.7 · 0.6 = 0.42
Luego, A y B son independientes, pues P( A B ) = P( A ) · P( B ) = 0.42
Ejemplo: Sea un experimento aleatorio que consiste en lanzar un tetraedro regular cuyas
caras están numeradas del 1 al 4, y se definen los sucesos:
A = {1 ó 2}
B = {2 ó 3}
C = {2 ó 4}
Calcular:
a ) P ( A) = 2 = 1
4 2
b) P ( B ) = 2 = 1
4 2
c) P(C ) = 2 = 1
4 2
d) Probabilidad de obtener un 2
P ( 2) = P ( A ∩ B ) = P ( A ∩ C ) = P ( B ∩ C ) = 1 / 4
¿Son independientes los sucesos A, B y C?
P ( A ∩ B ) = P ( A) ∗ P ( B ) = 1 / 2 ∗ 1 / 2 = 1 / 4
P ( A ∩ C ) = P ( A) ∗ P (C ) = 1 / 2 ∗ 1 / 2 = 1 / 4
P ( B ∩ C ) = P ( B ) ∗ P (C ) = 1 / 2 ∗ 1 / 2 = 1 / 4
Significa que A es independiente de B, que A es independiente de C, que B es

independiente de C.
P ( A ∩ B ∩ C ) = P ( A) ∗ P ( B ) ∗ P (C )
P ( A ∩ B ∩ C ) = P ( 2) = 1 / 4
P( A) ∗ P( B) ∗ P(C ) = 1 / 2 ∗ 1 / 2 ∗ 1 / 2 = 1 / 8
Luego, 1 / 4 =/ 1 / 8
No se cumple la anterior condición, por lo que A, B y C no son independientes
entre sí, son independientes dos a dos.
Ejemplo: En una baraja de cartas hemos suprimido varias de ellas, entre los que quedan
se verifican las siguientes probabilidades:
- Probabilidad de obtener un rey: 0,15
- Probabilidad de obtener una carta que sea bastos: 0,30
- Probabilidad de obtener una carta que no sea ni rey ni bastos: 0,6
Calcular:
- ¿Está entre ellas el rey de bastos?, caso afirmativo indicar su probabilidad.-
- ¿Cuántas cartas hay en la baraja?
( )
P (ni Rey ni Bastos)= P Re y ∩ Bastos = 0,6 ⇒
P (Re y U Bastos ) = 1 − 0,6 = 0,4
P(Re y U Bastos) = P(Re y ) + P(Bastos ) − P(Re y I Bastos ) ⇒
0,4 = 0,15 + 0,3 − P(Re y ∩ Bastos) ⇒
P(Re y ∩ Bastos ) = 0,15 + 0,3 − 0,4 = 0,05
Por lo que al ser mayor que cero, indica que está el rey de bastos, con una
probabilidad de 0,05.-
Se pasa 0,05 en forma de fracción:
5 1
0,05 = =
100 20
Lo que indica que si la probabilidad de sacar una carta (el rey de bastos) es de 1
entre 20, quiere decir que el número total de cartas en la baraja es de 20 (por la
definición de Laplace).
6.- TEOREMA DE LA PROBABILIDAD TOTAL
En primer lugar, antes de definir el teorema, es necesario definir que es un

conjunto completo. Se dice que un conjunto de sucesos A1 , A2 ,..., An ∈ E forman un
sistema completo si verifica:
o Son incompatibles dos a dos, es decir Ai ∩ A j ≠ 0, ∀ i , j
o Que la unión de todos ellos es el espacio muestral, es decir,

A1 ∪ A2 ∪ ... ∪ An = E.
Con todo esto se define el teorema de la Probabilidad Total como:
Sea A1,A2,...,An un sistema completo de sucesos tales que la probabilidad de

cada uno de ellos es distinta de cero, y sea B un suceso para el que se conocen las
probabilidades P(B/Ai) , entonces la probabilidad del suceso B viene dada por:
n
P(B ) = ∑ P( A i ) • P(B / A i ) .
i =1
Figura: Si A1 , A2 , A3 , A4 , A5 forman un
sistema completo, podemos calcular la
probabilidad de B a partir de las cantidades
P [B ∩ Ai ] , o lo que es lo mismo,
P[B / Ai ] ⋅ P[Ai ]
La demostración del teorema es fácil de hacer como demostramos.
Si A1, A2, A3, A4 y A5 forman un sistema exhaustivo y excluyente de sucesos,

podemos calcular la probabilidad de B a partir de las probabilidades de estos sucesos, es
decir, a partir del suceso B se puede descomponer como:
B = B ∪ E = B ∩ ( A1 ∪ A2 ∪ A3 ∪ ... ∪ An ),
que aplicando las propiedades de los sucesos es fácil ver que todo esto es igual a
B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ (B ∩ A3 ) ∪ ... ∪ (B ∩ An ) .
Calcular la probabilidad de B es lo mismo que calcular la probabilidad de la

expresión anterior, es decir
P(B ) = P(B ∩ A1 ) + P(B ∩ A2 ) + ... + P(B ∩ An ) ,
ya que al ser un sistema completo, las intersecciones son vacías. Además, como
sabemos que
P( A ∩ B )
P( A / B ) = ⇒ P ( A ∩ B ) = P ( A / B ) ⋅ P (B ),
P (B )
entonces la probabilidad de se puede descomponer como
P(B ) = P(B / A1 ) ⋅ P( A1 ) + P(B / A2 ) ⋅ P( A2 ) + ... + P(B / An ) ⋅ P( An ) = ∑ P( Ai ) ⋅ P(B / Ai ).

⁬
Ejemplo 1: Se tienen dos urnas, la nº1 tiene 3 bolas blancas y 2 negras, la nº2 tiene 2
bolas blancas y 3 negras. Se elige una urna al azar y de ella se extrae una bola. Calcular
la probabilidad de que sea blanca.
Sea A1: “elegir la urna nº1”

A2: “elegir la urna nº2”
B: “extraer bola blanca”
P(B) = P(A1) · P(B/A1) + P(A2) · P(B/A2) = 1/2 · 3/5 + 1/2 · 2/5 = 1/2.
Ejercicio 2: Una compañía dedicada al transporte público explota tres líneas de una
ciudad, de forma que el 60% de los autobuses cubre el servicio de la primero línea, el
30% cubre la segunda y el 10% cubre el servicio de la tercera línea. Se sabe que la
probabilidad de que, diariamente, un autobús se averíe es del 2%, 4% y 1%,
respectivamente, para cada línea. Determina la probabilidad de que, en un día, un
autobús sufra una avería.
Solución:
Para obtener la solución definimos el suceso "sufrir una avería" (Av) puede producirse
en las tres líneas, (L1, L2, L3). Según el teorema de la probabilidad total y teniendo en
cuenta las probabilidades del diagrama de árbol adjunto, tenemos:
P(Av) = P(L1) · P(Av/L1) + P(L2) · P(Av/L2) + P(L3) · P(Av/L3) =

= 0.6 · 0.02 + 0.3 · 0.04 + 0.1 · 0.01 =
= 0.012 + 0.012 + 0.001 = 0.025
Ejercicio 3: Una empresa del ramo de la alimentación elabora sus productos en cuatro
factorías: F1, F2, F3 y F4. El porcentaje de producción total que se fabrica en cada
factoría es del 40%, 30%, 20% y 10%, respectivamente, y además el porcentaje de
envasado incorrecto en cada factoría es del 1%, 2%, 7% y 4%. Tomamos un producto
de la empresa al azar. ¿Cuál es la probabilidad de que se encuentre defectuosamente
envasado?
Solución:
Llamando M = "el producto está defectuosamente envasado", se tiene que este producto
puede proceder de cada una de las cuatro factorías y, por tanto, según el teorema de la
probabilidad total y teniendo en cuenta las probabilidades del diagrama de árbol
adjunto, tenemos:
P(M) = P(F1) · P(M/F1) + P(F2) · P(M/F2) + P(F3) · P(M/F3) + P(F4) · P(M/F4) =

= 0.4 · 0.01 + 0.3 · 0.02 + 0.2 · 0.07 + 0.1 · 0.04 =
= 0.004 + 0.006 + 0.014 + 0.004 = 0.028
Ejercicio 4: Para realizar un experimento aleatorio, disponemos de una muestra de

cinco concesionarios de coches, de los cuales dos concesionarios tienen 3 coches
blancos y 5 azules, otros dos concesionarios tienes 2 coches blancos y 3 azules, y el
último concesionario tiene 2 coches blancos y 1 azul. ¿Cuál es la probabilidad de elegir
un coche azul?
Suceso A: 3 blancos y 5 azules
Como existen 2 sucesos A, entonces P(A)=2/5

Probabilidad de escoger 1 azul en estos dos concesionarios P(azul/A)=5/8
Suceso B: 2 blancos y 3 azules
Como existen 2 sucesos B, entonces P(B)=2/5

Probabilidad de escoger 1 azul en estos dos concesionarios P(azul/B)=3/5
Suceso C: 2 blancos y 1 azul
Como existe 1 suceso C, entonces P(C)=1/5

Probabilidad de escoger 1 azul en este concesionario P(azul/C)=1/3
P(azul)=P(A)*P(azul/A)+ P(B)*P(azul/B)+ P(C)*P(azul/C)
⎛ 2 5 ⎞ ⎛ 2 3 ⎞ ⎛ 1 1 ⎞ 10 6 1
P ( azul ) = ⎜ ∗ ⎟ + ⎜ ∗ ⎟ + ⎜ ∗ ⎟ = + + = 0,25 + 0,24 + 0,06 = 0,55
⎝ 5 8 ⎠ ⎝ 5 5 ⎠ ⎝ 5 3 ⎠ 40 25 15
Si hubiésemos optado por hacerlos como 5 sucesos individuales:
P(azul) =
P(A)*P(azul/A)+P(A)*P(azul/A)+P(B)*P(azul/B)+P(B)*P(azul/B)+P(C)*P(azul/C)
⎛1 5⎞ ⎛1 5⎞ ⎛1 3⎞ ⎛1 3⎞ ⎛1 1⎞ 5 5 3 3 1
P (azul ) = ⎜ ∗ ⎟ + ⎜ ∗ ⎟ + ⎜ ∗ ⎟ + ⎜ ∗ ⎟ + ⎜ ∗ ⎟ = + + + + = 0,55
⎝ 5 8 ⎠ ⎝ 5 8 ⎠ ⎝ 5 5 ⎠ ⎝ 5 5 ⎠ ⎝ 5 3 ⎠ 40 40 25 25 15
7.- TEOREMA DE BAYES
Sea A1, A2,..., An un sistema completo de sucesos tal que la probabilidad de

cada uno de ellos es distinta de cero, y sea B un suceso cualquiera para el que se
conocen las probabilidades P(B/Ai), entonces:
P ( A i ) • P (B / A i ) P ( P ( A i ) • P (B / A i )
P( A i / B) = n
= ,i = 1,2,..., n
P( B)
∑ P ( A ) • P (B / A )
i =1
i i
Demostración :
P(Ai∩B) = P(Ai) ⋅ P(B/Ai) = P(B) ⋅ P(Ai/B) i=1,...,n
despejando P(Ai/B) nos queda:
P(A i ) • P(B / A i )
P(A i / B) = , i = 1,..., n
P( B)
y por el teorema de la probabilidad total :
P(A i ) • P(B / A i )
P(A i / B) = n , i = 1,..., n
∑ P(A ) • P(B / A )
i=1
i i
Ejemplo: Basándonos en el ejercicio anterior, supongamos que realizada la extracción

la bola extraída es blanca. Calcular la probabilidad de que sea de la urna nº1.
Para resolverlo, tan sólo aplicar la fórmula,
1
P(A 1 ) • P(B / A 1 ) • 53
2 3
P(A 1 / B) = = 1 2 = .
2 • + 2 • 5
1 3
P(A 1 ) • P(B / A 1 ) + P(A 2 ) • P(B / A 2 ) 5 5
Ejercicio: Tenemos tres urnas: A con 3 bolas rojas y 5 negras, B con 2 bolas rojas y 1
negra y C con 2 bolas rojas y 3 negras. Escogemos una urna al azar y extraemos una
bola. Si la bola ha sido roja, ¿cuál es la probabilidad de haber sido extraída de la urna
A?
Solución:
Para obtener la solución, llamamos R= "sacar bola roja" y N= "sacar bola negra". En el
diagrama de árbol adjunto pueden verse las distintas probabilidades de ocurrencia de los
sucesos R o N para cada una de las tres urnas.
La probabilidad pedida es P(A/R). Utilizando el teorema de Bayes, tenemos:
Del ejemplo 4 anterior de los concesionarios, ¿cuál es la probabilidad de que el coche

azul elegido sea del concesionario donde hay sólo 2 coches blancos y 1 azul?
Sabíamos que
10 6 1
P ( azul ) = + + = 0,25 + 0,24 + 0,06 = 0,55
40 25 15
entonces,
1 1
∗
P(C ) ∗ P(azul C ) 5 3 = 0,10
P(C azul ) = =
P( A) ∗ P(azul A) + P( B) ∗ P(azul B) + P(C ) ∗ P(azul C ) 0,55
8.- COMBINATORIA
El análisis combinatorio se ocupa de la ordenación de los objetos dentro de un

conjunto. En este sentido nos facilitará métodos que serán útiles para determinar el
número de resultados posibles de un experimento. Veamos a continuación de una forma
breve las formulas combinatorias:
Variaciones sin repetición:
Se llaman Variaciones sin repetición de n elementos tomados en grupos de m, a

cada uno de los subconjuntos de m elementos que se pueden formar con los n
elementos, teniendo en cuenta el orden. (Importa el orden y no se pueden repetir).
V mn = n (n-1) ...... (n-m+1).
Ejemplo: Sea un conjunto formado por las letras a, b, c. ¿Cuántos grupos de 2 letras se
puede obtener, sin repetir los elementos, teniendo en cuenta el orden?
V32 = 3 ∗ (3 − 2 + 1) = 3 ∗ 2 = 6
{a, b, c} → (a, b), (b, c ), (b, a ), (c, b), (c, a ), (a, c ) → 6
Variaciones con repetición:
Se llaman Variaciones con repetición de n elementos tomados en grupos de m, a

cada uno de los subconjuntos de m elementos que se pueden formar con los n
elementos, teniendo en cuenta el orden. Es la misma definición anterior pero pudiendo
repetir los elementos que intervienen en el grupo.
VR mn = n m
Siguiendo con el ejemplo anterior, ¿Cuántos grupos de 2 letras se puede obtener,

repitiendo los elementos, teniendo en cuenta el orden?
V32 = 3 2 = 9
{a, b, c} → (a, b), (b, c ), (b, a ), (c, b), (c, a ), (a, c ), (a, a ), (b, b), (c, c ) → 9
Permutaciones sin repetición:

Se llaman Permutaciones de n elementos a las variaciones sin repetición pero el
número de elementos coincide con el número de grupo. (importa el orden y no se
pueden repetir).
P n = V nn = n!
Siguiendo con el ejemplo, ¿Cuántos grupos de 3 letras se pueden obtener, sin

repetir los elementos, teniendo en cuenta el orden?
P3 = 3! = 3 ∗ 2 ∗ 1 = 6
{a, b, c} → (a, b, c ), (b, c, a ), (c, b, a ), (a, c, b ), (b, c, a ), (c, a, b ) → 6
Combinaciones sin repetición:
Se llaman Combinaciones sin repetición de n elementos tomados en grupos de

m, a cada uno de los subconjuntos de m elementos que se pueden formar con los n
elementos, sin tener en cuenta el orden. (No importa el orden ni se pueden repetir).
⎛n⎞ n!
C mn = ⎜⎜ ⎟⎟ =
⎝ m⎠ m! ( n − m)!
Siguiendo el primer ejemplo:
⎛3⎞ 3! 3 ∗ 2 ∗1 6
C = ⎜⎜ ⎟⎟ =
2
= = =3
⎝ 2 ⎠ 2!∗(3 − 2 )! 2 ∗ 1 ∗ 1 2
3
{a, b, c} → (a, b), (a, c ), (b, c ) → 3 .

Combinaciones con repetición:
Se llaman Combinaciones con repetición de n elementos tomados en grupos de

m, a cada uno de los subconjuntos de m elementos que se pueden formar con los n
elementos, sin tener en cuenta el orden. (No importa el orden pero se pueden repetir).
⎛ n + m − 1⎞ (n + m − 1)!
CR mn = ⎜⎜ ⎟⎟ =
⎝ m ⎠ m! (n − 1)!
Y por último, terminando el ejemplo
⎛ 3+ 2 −1 ⎞ (3 + 2 − 1)! 4! 4 ∗ 3 ∗ 2 ∗ 1 24
C 32 = ⎜ − ⎟ = = = = =6
⎝ 2 ⎠ 2!∗(3 − 1)! 2!∗2! 2 ∗ 1 ∗ 2 ∗ 1 4
{a, b, c} → (a, b), (a, c ), (b, c ), (a, a ), (b, b), (c, c ) → 6

2
VARIABLE ALEATORIA Y FUNCIÓN DE
DISTRIBUCIÓN
1.- INTRODUCCIÓN
En este tema se tratará de formalizar numéricamente los resultados de un

fenómeno aleatorio. Por tanto, una variable aleatoria es un valor numérico que
corresponde a un resultado de un experimento aleatorio. Algunos ejemplos son: número
de caras obtenidas al lanzar seis veces una moneda, número de llamadas que recibe un
teléfono durante una hora, tiempo de fallo de una componente eléctrica, etc.
El estudio que se hará en este tema será análogo al que se hace con las variables
estadísticas en descriptiva. Así retomaremos el concepto de distribución y las
características numéricas, como la media y varianza. El papel que allí jugaba la
frecuencia relativa lo juega ahora la probabilidad. Esto va a proporcionar aspectos y
propiedades referentes a fenómenos aleatorios que permitirán modelos muy estudiados
en la actualidad.
2.- VARIABLE ALEATORIA UNIDIMENSIONAL
Dado un experimento aleatorio y asociado al mismo, un espacio probabilístico

(E, Ą ,P), una variable aleatoria es una aplicación Χ : Ε → R , a cada valor de X, del
espacio muestral le hace corresponder un número real. Se dice que X es una variable
aleatoria si para cualquier x perteneciente a R, el conjunto de los sucesos elementales le
hace corresponder un valor que verifica:
∀Χ ∈ R X (S ) ≤ X
Ejemplo: Consideramos un experimento aleatorio de lanzar una moneda al aire tres

veces y anotamos el resultado. Se define la variable aleatoria X como número de caras
aparecidas en los tres lanzamientos.
a) Calcular el espacio muestral y comprobar que es una variable aleatoria.
b) Calcular los subespacios: {X ≤ 2,75} {0,5 ≤ X ≤ 1,75}
a) La solución es la siguiente,
E= (C,X,X),(X,C,X),(X,X,C),(C,C,X),(C,X,C),(X,C,C),(C,C,C),(X,X,X)
0/ X ≤0
(X,X,X) 0 ≤ X ≤1
X (S) ≤ X (C,C,C)(X,C,X)(X,X,C) 1≤ X ≤ 2
(C,C,X)(C,X,C)(X,C,C) 2≤ X ≤3
(C,C,C) X ≥3
b) {X ≤ 2,75} X<0, 0 ≤ X < 1 , 1 ≤ X < 2
{0,5 ≤ X ≤ 1,75} es lo mismos que decir x=1, 1 ≤ X ≤ 2 .
3.-TIPOS DE VARIABLES ALEATORIAS
Las variables aleatorias se clasifican en discretas y continuas:
o DISCRETA: La variable aleatoria X se dice que es discreta si los números

asignados a los sucesos elementales de E son puntos aislados. Sus posibles
valores constituyen un conjunto finito o infinito numerable. Por ejemplo,
supongamos el experimento consistente en lanzar tres veces una moneda no
trucada; si consideramos la variable aleatoria X=”número de caras obtenidas en
los tres lanzamientos”, los valores que puede tomar esta variable aleatoria son
finitos (0,1,2,3).
o CONTINUA: La variable aleatoria X será continua si los valores asignados
pueden ser cualesquiera, dentro de ciertos intervalos, es decir, puede tomar
cualquier valor de R. Por ejemplo, si consideramos el experimento aleatoria
consistente en medir el nivel de agua en un embalse y tomamos la variable
aleatoria X=”nivel de agua”, esta puede tomar valores entre 0 y más infinito.
4.- DISTRIBUCIÓN DE PROBABILIDAD
Es un modelo teórico que describe la forma en que varían los resultados de un

experimento aleatorio, es decir, nos da todas las probabilidades de todos los posibles
resultados que podrían obtenerse cuando se realiza un experimento aleatorio. Se
clasifican como discretas o continuas. En la distribución de probabilidad discreta está
permitido tomar sólo un número limitado de valores. En la continua, llamada función de
Variable aleatoria y función de distribución 27
densidad, la variable que se está considerando puede tomar cualquier valor dentro de un
intervalo dado.
4.1.- Distribución de probabilidad discreta
Sea un espacio probabilístico y sea X una variable aleatoria discreta que toma
como posibles valores x1,x2,.....xn, se define la distribución de probabilidad de X como
el conjunto de pares (xi, pi) que a cada valor de la variable le asocia una probabilidad,
donde pi= P(X=xi), tal que la suma de todas las probabilidades es igual a la unidad.
Del ejemplo realizado anteriormente se desprende que la distribución de

probabilidad viene dada por:
(0,1/8); (1,3/8); (2,3/8); (3,1/8).
4.2.- Distribución de probabilidad continua
Si la variable aleatoria es continua, hay infinitos valores posibles de la variable y

entra cada dos de ellos se podrían definir infinitos valores. En estas condiciones no es
posible deducir la probabilidad de un valor puntual de la variable como se puede hacer
en el caso de las variables discretas. Pero sí es posible calcular la probabilidad
acumulada hasta un cierto valor (función de distribución) y cómo cambia esa
probabilidad acumulada en cada punto (densidad de probabilidad). Por tanto, cuando la
variable aleatoria sea continua hablaremos de función de densidad.
Sea X una variable aleatoria continua, se llama función de densidad y se
representa como f(x) a una función no negativa definida sobre la recta real, tal que para
cualquier intervalo que estudiemos se verifica:
∀Α Ρ (Χ ∈ Α ) = ∫ f ( x )dx .
5.- FUNCIÓN DE DISTRIBUCIÓN
La función de distribución describe el comportamiento probabilístico de una

variable aleatoria X asociada a un experimento aleatorio y se representa como:
F(x) ó Fx
Para estudiar la función de distribución distinguiremos entre el caso discreto y el

caso continuo.
o CASO DISCRETO
Sea X una variable aleatoria discreta asociada a un espacio probabilístico, se

define la función de distribución:
F ( x ) : R → [0,1] que verifica F ( x ) = Ρ [ X ≤ X ] = ∑ Ρ

xi < x i
Ejemplo: Continuando con el ejemplo anterior, cuya distribución de probabilidad era:
(0 caras, 1/8); (1 cara, 3/8); (2 caras, 3/8); (3caras, 1/8), Calcula la probabilidad de
obtener menos dos caras?.
Para resolver el problema lo que debemos de calcular es la probabilidad de que la

variable aleatoria tome valores inferiores a dos. Esto viene dado por la expresión
F (1) = Prob [ X ≤ 1] = ∑ Pi 1= Prob [ X =0] + Prob [ X = 1] = 1/8 + 3/8= 4/8

xi<x
La función de distribución para una variable discreta siempre verifica las

siguientes propiedades:
A) F ( −∞ ) = 0; F (+ ∞ ) = 1
B) Ρ[(a , b )] = F (b) − F (a )
C) Es una función no decreciente:
x1 , x 2 x1 < x 2 ⇒ F ( x1 ) ≤ F ( x 2 ) .
o CASO CONTINUO:
Sea X una variable aleatoria continua con función de densidad f(x), se define la
función de distribución, F(x), como:
∞
( ) = Ρ[x ≤ X ] = ∫ f ( x )dx .
F x
−∞
La función de distribución para una variable continua siempre verifica las

siguientes propiedades:
A) F ( x) ≥ 0;
∞
B) ∫ f ( x)dx = 1
−∞
b
C) P[a ≤ x ≤ b] = ∫ f ( x)dx = F (b) − F (a)
a
D) f ( x) = F´(x) ⇒ la función de densidad es la derivada de la función de distribución.

Ejemplo: Sea X una variable aleatoria cuya función de densidad viene dada por f (X),
calcula su función de distribución:
X/2 0≤x≤2
f (x )=
0 en otro caso
Calculamos la función de distribución, obteniendo

+∞ x 0 x 2
x dx = x ,
F(X ) = ∫
−∞
f ( x ) dx = ∫
−∞
f ( x ) dx = ∫
−∞
0 dx + ∫0 2 4
por tanto, la función de distribución será:

⎧ 0 X <0
⎪⎪ x 2
F(X ) = ⎨ 0< X <2
⎪4
⎪⎩ 1 X > 2
6.- PARÁMETROS DE UNA VARIABLE ALEATORIA
En esta sección estudiaremos, de manera análoga a las variables estadísticas,

algunos parámetros de que van a resumir numéricamente las distribuciones de las
variables aleatorias, distinguiendo como siempre, para el caso discreto y continuo.
6.1.- Esperanza matemática para una variable aleatoria discreta

Dada una variable aleatoria X que toma valores x1,x2,x3....xn con distribución de
probabilidad Ρ( x = xi ) = Pi , se define la esperanza matemática de una variable
aleatoria como:
Ε[x] = ∑i =1 xi Ρ( X = xi ) = ∑i =1 xi Ρi .
n n

(0 caras, 1/8); (1 cara, 3/8); (2 caras, 3/8); (3caras, 1/8), calcula la esperanza
matemática.
3
1 3 3 1 12 3
El resultado será: E[ X ] = ∑ xi pi = 0· + 1· + 2· + 3· = = .
i =0 8 8 8 8 8 2
6.2.- Esperanza matemática para una variable aleatoria continua
Sea X una variable aleatoria continua con función de densidad f(x), se define la
esperanza matemática de esa variable aleatoria como:
+∞
Ε[x ] = ∫ xf ( x)dx = μ.
−∞
Tanto para el caso discreto como para el caso continuo, la esperanza matemática
presenta las siguientes propiedades:
o Si C es una constante, E(C) = C.

o ∀ a, b ∈ R, E(aX + b) = aE(X) + b
o Si g(X) es una función de X, entonces:
∞
o Si X es discreta, E[ g ( X )] = ∑ g ( xi ) pi .
i =1
+∞
o Si X es continua, E[ g ( X )] = ∫ g ( x) f ( x)dx.
−∞
n n
o Si X1, ..., Xn son variables aleatorias, entonces E[∑ X i ] = ∑ E[ X i ].
i =1 i =1
6.3.- Varianza de una variable aleatoria

A continuación vamos a definir la varianza de una variable aleatoria
diferenciando para el caso discreto y continuo. Dada una variable aleatoria X que toma
valores x1,x2,x3....xn con distribución de probabilidad, se define la varianza de X:
n n
o Discreta: V [x ] = ( x − E ( x)) 2 = ∑ ( xi − μ ) 2 =∑ xi2 Pi − μ 2
i =1 i =1
+∞ 2
o Continua: V [ x ] = ∫ ( x − μ ) f ( x )dx
−∞

(0 caras, 1/8); (1 cara, 3/8); (2 caras, 3/8); (3caras, 1/8), calcula la varianza.
El resultado será:
2
3
⎡ 1 3 3 1⎤ ⎡ 3⎤
V [ X ] = σ = ∑ x pi − μ = ⎢0 2 · + 12 · + 2 2 · + 3 2 · ⎥ − ⎢ ⎥ = 0,75.
2 2
i
2
i =0 ⎣ 8 8 8 8⎦ ⎣ 2⎦
Propiedades de la Varianza y la Esperanza matemática:
Sea X una variable aleatoria e Y otra variable aleatoria tal que Y = a X + b,

entonces siempre se verifica:
o E[Y ] = aE[X ] + b
o V [Y ]= a 2 V [ Xx ]
o Si X e Y son independientes, entonces E[XY ] = E[X ]E[Y ] .
6.4.- Covarianza
Sean X e Y dos variables aleatorias, se define la covarianza entre estas dos
variables como,
Cov = E[ XY ] − E[ X ]E[Y ] ,
donde el cálculo de las esperanzas dependerá de si las variables son discretas o
continuas. De esta definición surge el siguiente resultado. Cuando X, Y son
independientes la covarianza es igual a 0.
E[ X ·Y ] = E[ X ]E[Y ] , entonces
Cov = E[ XY ] − E[ X ]E[Y ] = E[ X ]·E[Y ] − E[ X ]·E[Y ] = 0.
6.5.- Momentos de una variable aleatoria
Dada una v.a X, se define su momento de orden k (k = 0, 1, 2,...) respecto a la

media o momento central de orden k como la esperanza de (X − μ)k :
μ k = E[( X − μ ) k ]
Del mismo modo se define su momento de orden k (k = 0, 1, 2, ...) respecto al

origen o momento no central de orden k como la esperanza de Xk :
α k = E[ X K ]
De las definiciones se deduce que:

o αo = 1
o α1 = μ
o μo = 1
o μ1 = 0
o El segundo momento central se llama también varianza, y se denota por V(X) o
σ2.
3
MODELOS DE PROBABILIDAD
1.- VARIABLES ALEATORIAS DISCRETAS
En ocasiones, algunas variables aleatorias siguen distribuciones de probabilidad

muy concretas, como por ejemplo el estudio a un colectivo numeroso de individuos que
se modelizan por la distribución “Normal”.
Estudiaremos algunas de las distribuciones o modelos de probabilidad más
importantes y que después nos resultarán muy útiles para el tema de la Estimación.
Como hemos visto, las variables pueden ser discretas o continuas; por ello, también las
distribuciones podrán ir asociadas a variables aleatorias discretas o continuas.
1.1.- Distribución uniforme discreta

Sea X una variable aleatoria discreta que toma valores x1.....xn tales la
1
probabilidad de tomar cada uno de los valores es Ρ( X = xi ) = . Cuando esto ocurre se
n
dice que X se distribuye como una variable aleatoria Uniforme discreta. Esta es la
distribución discreta más sencilla, la cual asigna la misma probabilidad a cada una de
las soluciones.
1.2.- Distribución de Bernouilli

Considerado un experimento aleatorio en el cual solo hay dos posibles resultados
incompatibles a los que se les puede denominar éxito o fracaso, entonces se dice que X
es una variable aleatoria discreta que se distribuye como parámetro “p” donde “p” es la
probabilidad de obtener éxito., y se expresa
X → B( p)
Por tanto, se puede decir que:
X=1 ---- P[éxito] = p ⇒ P[ X = 1] = p;
X=0 ---- P[fracaso] = 1-p ⇒ P[ X = 0] = 1 − p.
En esta distribución 1-p se suele denotar como q, y tanto la esperanza como la

varianza vienen dadas por las siguientes expresiones:
E[x] = 1·p + 0·q = p;
V[x] = p · p = p · (1-p) = p · q.
Ejemplo: El 10% de los trabajadores del país está desempleado, ¿Cuál es la

probabilidad de seleccionar un individuo al azar y esté desempleado?
X = 1 ⇒ Desempleado p = 0,1
X = 0 ⇒ Empleado q = 1-p = 1-0,1 = 0,9
p(x=1)=0,1
1.3.- Distribución Binomial

Es una extensión de la distribución de Bernouilli. Supongamos que se repite un
experimento “n” veces de forma idéntica e independiente. Los resultados de cada
realización del experimento se clasifican en dos categorías (como en el caso de
Bernouilli), una será la probabilidad de éxito p, y otra q=1-p, la de fracaso.
Así, por tanto, sea X una variable aleatoria discreta, se dice que se distribuye
como una distribución binomial de parámetros (n,p). Siempre se debe de verificar que
n>1 y que p tome valores entre 0 y 1.
La función de probabilidad viene dada por la expresión:
[ ⎛
ΡX = x =⎜n
i ⎜x
] ⎞ xi
⎟ p (1 − p )n − xi
⎟
x = 1,2,..., n .
⎝ i ⎠
Además, es fácil de comprobar que se verifica que E[x] = np y que
V [x] = np(1 − p) = npq .
Su función de distribución es:

0 x≤0
∑ ( )p
n
F(x)= n
xi
xi
(1 − p ) n − xi 0≤ x≤n
I =1
1 x>n
A continuación podemos ver varios ejemplos de variables que se distribuyen con

una Binomial: número de caras al lanzar 20 veces una moneda, número de aprobados si
Modelos de Probabilidad 35
se presentan 80 alumnos a un examen, número de familias con un solo hijo en una
población de 120 familias, número de reacciones negativas ante un fármaco
administrado a 40 pacientes, número de accidentes de tráfico si han circulado 1200
automóviles ó número de semillas que germinan de las 20 semillas que se han plantado
en suelos de idéntica composición.
Propiedades de la distribución Binomial:

1. La distribución Binomial se puede obtener como suma de n variables aleatorias
independientes Bernouilli con el mismo parámetro “p”.
2. Si tenemos dos variables aleatorias que se distribuyen según una Binomial con
el mismo parámetro “p”, es decir, con la misma probabilidad de éxito,
X → B (n, p ) e Y → B ( m, p ) , entonces siempre se verifica
X + Y → B ( n + m, p ) .
Si no tienen la misma probabilidad no se pueden sumar.
3. Sea X una variable aleatoria e Y otra variable aleatoria que verifican que
X → B (n, p ) e Y=X/n, entonces se verifica
Y → B (1, p / n)
y además su esperanza y varianza son
E[Y ] = p y V [Y ] =
pq
.
n
1.4.- Distribución de Poisson

Esta es una distribución discreta de gran utilidad sobre todo en procesos
biológicos, donde X suele representar el número de eventos independientes que ocurren
a velocidad constante en un intervalo de tiempo o en un espacio.
Así, por tanto, sea X una variable aleatoria discreta, se dice que se distribuye
como una distribución de Poisson,
X → P (λ ),
con λ > 0, si su función o distribución de probabilidad viene dada por:
λx
P[ X = xi ] = e
i
−λ
.
xi !
En esta distribución λ representa el número promedio de ocurrencias en un
intervalo de tiempo o en un espacio. Por lo tanto, para esta distribución se verifica que
su esperanza y su varianza son:
E[x ] = λ ,
V [x ] = λ .
y su función de distribución:
0 x<0
n
λx
∑ e −λ
i
F(x)= x>0
i =1 xi
Seguidamente se pueden ver varios ejemplos de variables que se distribuyen con

una Poisson: Número de clientes que llegan a un banco durante una hora o una mañana,
número de defectos en un trozo de material, etc. Sin embargo, de llegar muchos clientes
en una determinada franja horaria y pocos en otra, o no estar los defectos igualmente
distribuidos en el material, la distribución de Poisson no sería apropiada.
Ejemplo: Una central telefónica recibe una media de 480 llamadas por hora. Si el
número de llamadas se distribuye según una Poisson y la central tiene una capacidad
para atender a lo sumo 12 llamadas por minuto, ¿cuál es la probabilidad de que en un
minuto determinado no sea posible dar línea a todos los clientes?
Si definimos X = “Nº de llamadas por minuto” entonces X → P (8).
P (X > 12) = 1 − P (X ≤ 12) = 1 − 0,9362 = 0,0638.
2.- VARIABLES ALEATORIAS CONTINUAS
2.1.- Distribución Uniforme Continua
Es la más sencilla de las distribuciones continuas. Surge cuando consideramos

una variable aleatoria que toma valores en un intervalo finito de manera equiprobable.
Esta se define como una variable aleatoria continua, X, se dice que se distribuye como
una distribución uniforme de parámetros a, b, tales que –∞< a < b< +∞
X → U ( a, b);
siempre se verifica que su función de densidad viene dada por la expresión:
1
f(x)= a≤ x≤b
b−a
0 ________
Lo más significativo que vamos a destacar de esta distribución es que su

esperanza viene dada por la expresión:
a+b
E(x)=
2
y su varianza por
(b − a )
V(x)= .
12
La función de distribución dada una variable aleatoria uniforme es
0 x<a
x−a
F(x)= a≤ x≤b
b−a
1 x ≥b
Ejemplo: Seleccionamos al azar un número real en el intervalo [2, 6] y definimos una

variable aleatoria como X=”número seleccionado”. Calcula la probabilidad de que el
número seleccionado sea menor de 5 y el número esperado.
En este caso X → U ( 2,6); Para calcular la probabilidad lo que hacemos es
5 5 5 5
1 1 x⎤ 5 2 3
P[ X ≤ 5] = ∫ f ( x )dx = ∫ dx = ∫ dx = ⎥ = − = = 0.75.
2 2
6−2 2
4 4⎦2 4 4 4
Esto se podía haber hecho más rápido con la función de distribución de la siguiente
forma:
x−2 5−2 3
P[ X ≤ 5] = F (5) = = = = 0.75.
b−a 6−2 4
Para calcular la esperanza, aplicamos la formula y nos queda,
a+b 2+6 8
E[ X ] = = = = 4.
2 2 2
2.2.- Distribución Normal

Es una de las distribuciones más importantes. Es el modelo de distribución más
utilizado en la práctica, ya que multitud de fenómenos se comportan según una
distribución normal.
Esta distribución de caracteriza porque los valores se distribuyen formando una
campana de Gauss, en torno a un valor central que coincide con el valor medio de la
distribución:
Las ventajas teóricas de este modelo hacen que su uso se generalice en las
aplicaciones reales.
Sea X una variable aleatoria continua, se dice que se distribuye como una
normal
X → N ( μ , σ ); μ∈R σ >0
donde se verifica que − ∞ < x < +∞, μ es el valor medio de la distribución y es
precisamente donde se sitúa el centro de la curva (de la campana de Gauss), y σ es
cualquier valor entre –∞ y +∞, si su función de densidad viene dada por:
−
(x−μ )
1
f (x ) = e 2σ 2
2πσ
Cuando la media de la distribución es 0 y la varianza es 1, se denomina "normal
tipificada", y su ventaja reside en que hay tablas, o rutinas de cálculo que permiten
obtener esos mismos valores, donde se recoge la probabilidad acumulada para cada
punto de la curva de esta distribución. Es se verá con más detalle en el siguiente
apartado.
Propiedades:
• Tiene un parámetro que es la media
E[X ] = μ .
• Tiene otro parámetro que nos da la dispersión.
V [X ] = σ 2 .
• La media, la moda y la mediana coinciden.
• Es una función simétrica respecto a la media, como se puede ver en el gráfico.
• Si definimos la variable Y = a X + b, donde X se distribuye como una normal de

parámetros X → N ( μ , σ ); , entonces:
Y → N ( aμ + b, aσ );
• Sean dos variables aleatorias normales que se distribuyen X 1 → N ( μ1 , σ 1 ), y
X 2 → N ( μ 2 , σ 2 ), se define una nueva variable de la forma Y = X1 + X2,
entonces esta nueva variable se distribuye como:
Y → N ( μ1 + μ 2 , σ 12 + σ 22 ).
2.3.- Distribución Normal Tipificada o Estandarizada

Como se decía anteriormente, este es un caso particular de una variable aleatoria
continua X que se distribuye como una Normal de parámetros (0,1), por lo que su
función de densidad viene dada por:
x2
1 −
f ( x) = e 2
2π
Propiedades:
• E(x)=0.
• V(x)=1.
La importancia de la distribución normal tipificada es que tiene la ventaja,

como ya hemos indicado, de que las probabilidades para cada valor de la curva se
encuentran recogidas en una tabla.
Así, lo que se hará es transformar cualquier variable que se distribuya como una
normal en una normal tipificada. Para hacer este cambio, se crea una nueva variable Z
que será igual a la anterior X menos su media y dividida por su desviación típica (que es
la raíz cuadrada de la varianza).
Esta nueva variable se distribuye como una normal tipificada, permitiéndonos,
por tanto, conocer la probabilidad acumulada en cada valor, es decir, X → N ( μ , σ ); al
X −μ
definir la nueva variable Z = siempre se verifica que Z → N (0;1);
σ
⎡X −μ x−μ⎤ ⎡ x−μ⎤
P[X ≤ x]= ⎢ < = P ⎢Z < .
⎣ σ σ ⎥⎦ ⎣ σ ⎥⎦
2.4.- Distribución Chi-Cuadrado de Pearson

Sea X1, X2, X3....Xn variables aleatorias que se distribuyen como normales
N(0,1), y se define una nueva variable X = X 12 + X 22 + X 32 + ... + X n2 , entonces se dice
que X se distribuye como una Chi-Cuadrado o Ji-cuadrado con n grados de libertad,
donde n es el número de variables aleatorias normales independientes elevadas al
cuadrado que se han sumado. Esta se representa como
X → χ n2 ,
y su función de densidad es de la forma,
⎧ − n2 X n
⎪2 −
2 2
−1
X>0
f ( x) = ⎨ n e X
Γ( )
⎪ 2
⎩ 0 ----
Gráficamente, la variable aleatoria Chi-cuadrado se representa,
Propiedades:
• Es una función asimétrica.
• E(x)= n.
• V(x)=2n.
• Sean dos variables aleatorias chi-cuadrado que se distribuyen X 1 → χ n2 y
X 2 → χ m2 , se define una nueva variable de la forma Y = X1 + X2, entonces
esta nueva variable se distribuye como:
Y → χ n2+ m
• Cuando el número de variables aleatorias es muy grande, es decir, cuando
n → ∞ , la variable se puede aproximar por una normal.
2.5.- Distribución t- Student

Sea X una variable aleatoria que se distribuye como X → N (0,1) y sea Y otra
variable aleatoria que se distribuye como Y → χ n2 , tal que X e Y son independientes,
entonces podemos definir otra variable aleatoria
X
T= ,
Y
n
se dice que esta se distribuye como una t-Student con n grados de libertad y su función
de densidad viene dada por:
⎧ −
n +1
⎪ Γ( n2+1 ) ⎛ t2 ⎞ 2
⎜⎜1 + ⎟⎟
⎪ − ∞ < x < +∞
f ( x) = ⎨ nπ Γ( 2 ) ⎝ n ⎠
n
⎪
⎪ 0 −−−−−
⎩
Esta distribución es muy utilizada, que se construye a partir de una normal y un
chi-cuadrado. Veamos una gráfica comparativa con una distribución normal y
algunas de las propiedades que verifica.
Propiedades:
• Es simétrica, está centrada en el punto (0,0)
• Mo = Me =0
• E [T] = 0 si n>1
• V [T] = n/n-2 si n>2.
• Cuando el número de variables aleatorias es muy grande, es decir, cuando
n → ∞ , la variable se puede aproximar por una normal.
2.6.- Distribución F-Snedecor

Sea una variable aleatoria que se distribuye como X 1 → χ n2 con n grados de
libertad y, otra variable aleatoria X2 que se distribuye como X 2 → χ m2 con m grados de
libertad, tal que las dos variables son independientes, entonces se puede definir una
nueva variable aleatoria:
X1
X = n
X2
m
que se dice que se distribuye como X → Fn ,m . En este caso, su función de densidad
viene dada por:
⎧ ⎛ n + m ⎞ n2 m2
⎪ Γ⎜ ⎟n m (n −2 )
⎪ ⎝ 2 ⎠
n+m
x 2 (nx + m ) 2
−
⎪ x>0
f ( x) = ⎨ Γ⎛⎜ 1 ⎞⎟ ⋅ Γ⎛⎜ ⎞⎟
n n2
⎪ ⎝2⎠ ⎝ 2 ⎠
⎪
⎪
⎩ 0 x≤0
Veamos algunas de las propiedades que verifican las variables aleatorias que
siguen esta distribución y su representación gráfica.
Propiedades:
n
• E[ F ] = , si m > 2.
m−2
m 2 (2n + 2m − 4)
• V [F ] = , si m > 4.
n(m − 2) 2 (m − 4)
• Si m → ∞ entonces la distribución X → Fn,m ≡ χ n2 .
1
• Si X → Fn ,m entonces la distribución → Fm ,n .
X
3.- RELACIÓN ENTRE MODELOS

A continuación se van a detallar las distintas relaciones que existen entre los
distintos modelos estudiados.
3.1.- Aproximación de una Binomial por una Poisson

Sea X una variable aleatoria discreta que se distribuye como una Binomial con
parámetros (n,p) donde n tiende a infinito y, p tiende a 0. Cuando esto ocurre podemos
aproximar una distribución Binomial por medio de una distribución de Poisson, es
decir,
X → P (λ = np ).
Por convenio se realizará esto cuando se verifiquen una de estas condiciones:
1. Cuando se verifique n > 30 y p < 0´1.
2. n·p < 5.
3.2.- Aproximación de una Binomial por una Normal

Sea X una variable aleatoria discreta que se distribuye como una Binomial con
parámetros (n,p), entonces De Moivre demostró que cuando n → ∞ y, p es
aproximadamente 0´5, esa variable aleatoria se puede aproximar como una distribución
normal. El criterio que se toma es que n >50 y p ≅ 0´5.
Cuando esto ocurre se verifica que
X → B (n, p ) se dice que X → N ( μ = np;σ = npq ) .
3.3.- Aproximación de una distribución de Poisson por una Normal

Sea X una variable aleatoria discreta que se distribuye como una Poisson de
parámetro ( λ ), se demuestra que cuando λ es muy grande, se puede aproximar por
medio de una distribución normal, como ocurría anteriormente. Así, si
(
X → P (λ ) y λ → ∞ entonces X → N μ = λ ; σ = λ . )
La condición es que se verifique λ > 16 .
3.4.- Corrección por continuidad

Es evidente que en una distribución Binomial o Poisson, que son variables
discretas, cuando se aproximan por una Normal, que es una variable continua, surge un
problema en el cálculo de determinadas probabilidades. Así, la probabilidad de que X
este entre dos valores, Ρ (a ≤ X ≤ b ) , no tiene por qué ser igual a Ρ (a < X < b ) en el
caso discreto. En la distribución normal, por el contrario, estas probabilidades
coinciden. Para solucionar este problema cuando aproximamos una variable aleatoria
discreta por una continua y se desea que la aproximación de la probabilidad sea lo más
adecuada posible, tendremos que evitar este problema.
En una distribución continua, la probabilidad de que la variable tome algún valor
comprendido entre dos considerados como consecutivos es cero, de modo que toda la
región comprendida entre ellos no tiene asignada ninguna probabilidad. Si queremos
continuidad en todos los puntos, parece lógico repartir la probabilidad asignada a xi, a
toda la región más cercana a xi; la probabilidad asignada a xi+1, a toda la región más
cercana a xi+1, etc....Esto nos conduce al gráfico (histograma) siguiente:
Area=P[X=xi]
x1-1 xi x1+1
Los valores que adopta una Binomial o Poisson, son enteros positivos (0,1, 2, ...,
k..). Cualquier rectángulo centrado en un valor k, será de la forma: k-1/2, k+1/2; de
manera que determinar la probabilidad de P(X=x) en una Binomial o Poisson, será
equivalente a determinar la probabilidad en el intervalo (x-0.5; x+0.5) utilizando la
función de distribución de la normal.
Por tanto, para calcular la P(X=xi) se adopta el criterio de calcular:
Ρ( xi − 0,5 < X < xi + 0,5) .

4
INFERENCIA, ESTIMACIÓN Y CONTRASTE DE
HIPÓTESIS
1.- INTRODUCCIÓN
La Estadística descriptiva y la teoría de la Probabilidad van a ser los pilares de

un nuevo procedimiento (Estadística Inferencial) con los que se va a estudiar el
comportamiento global de un fenómeno. La probabilidad y los modelos de distribución
junto con las técnicas descriptivas, constituyen la base de una nueva forma de
interpretar la información suministrada por una parcela de la realidad que interesa
investigar.
En el siguiente esquema representa el tema a tratar y que será desarrollado a

continuación.
Puntual
Estimación
Estadística
Descriptiva Intervalos
INFERENCIA
Probabilidad y
Contraste
modelos
Los métodos básicos de la estadística inferencial son la estimación y el contraste

de hipótesis, que juegan un papel fundamental en la investigación.
Por tanto, algunos de los objetivos que se persiguen en este tema son:
Inferencia, estimación y contraste de hipótesis 46
• Calcular los parámetros de la distribución de medias o proporciones muestrales
de tamaño n, extraídas de una población de media y varianza conocidas.
• Estimar la media o la proporción de una población a partir de la media o
proporción muestral.
• Utilizar distintos tamaños muestrales para controlar la confianza y el error
admitido.
• Contrastar los resultados obtenidos a partir de muestras.
• Visualizar gráficamente, mediante las respectivas curvas normales, las
estimaciones realizadas.
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada

uno de los individuos de la población ya sea por el coste que supondría, o por la
imposibilidad de acceder a ello. Mediante la técnica inferencial obtendremos
conclusiones para una población no observada en su totalidad, a partir de estimaciones o
resúmenes numéricos efectuados sobre la base informativa extraída de una muestra de
dicha población. Por tanto, el esquema que se sigue es,
En definitiva, la idea es, a partir de una población se extrae una muestra por
algunos de los métodos existentes, con la que se generan datos numéricos que se van a
utilizar para generar estadísticos con los que realizar estimaciones o contrastes
poblacionales.
Existen dos formas de estimar parámetros: la estimación puntual y la

estimación por intervalo de confianza. En la primera se busca, con base en los datos
muestrales, un único valor estimado para el parámetro. Para la segunda, se determina un
intervalo dentro del cual se encuentra el valor del parámetro, con una probabilidad
determinada.
Si el objetivo del tratamiento estadístico inferencial, es efectuar generalizaciones

acerca de la estructura, composición o comportamiento de las poblaciones no
observadas, a partir de una parte de la población, será necesario que la parcela de
población examinada sea representativa del total. Por ello, la selección de la muestra
requiere unos requisitos que lo garanticen, debe ser representativa y aleatoria.
Apuntes de Estadística II 47
Además, la cantidad de elementos que integran la muestra (el tamaño de la

muestra) depende de múltiples factores, como el dinero y el tiempo disponibles para el
estudio, la importancia del tema analizado, la confiabilidad que se espera de los
resultados, las características propias del fenómeno analizado, etcétera. Así, a partir de
la muestra seleccionada se realizan algunos cálculos y se estima el valor de los
parámetros de la población tales como la media, la varianza, la desviación estándar, o la
forma de la distribución, etc.
El estudio muestral no es un tema que entre a formar parte de este tema, pero si
necesitaremos una serie de conceptos necesarios para el desarrollo del tema, y que se
detallan a continuación.
1.1.- Conceptos básicos
POBLACIÓN: Conjunto de elementos sobre los que se observa un carácter común. Se

representa con la letra N.
MUESTRA: Conjunto de unidades de una población. Cuanto más significativa sea,

mejor será la muestra. Se representa con la letra n.
UNIDAD DE MUESTREO: Está formada por uno o más elementos de la población.

El total de unidades de muestreo constituyen la población. Estas unidades son disjuntas
entre sí y cada elemento de la población pertenece a una unidad de muestreo.
PARÁMETRO: Es un resumen numérico de alguna variable observada de la

población. Los parámetros normales que se estudian son:
- La media poblacional: X
- Total poblacional: X
- Proporción: P
ESTIMADOR: Un estimador θ* de un parámetro θ, es un estadístico que se emplea

para conocer el parámetro θ desconocido.
ESTADÍSTICO: Es una función de los valores de la muestra. Es una variable aleatoria,

cuyos valores dependen de la muestra seleccionada. Su distribución de probabilidad, se
conoce como “Distribución muestral del estadístico”.
ESTIMACIÓN: Este término indica que a partir de lo observado en una muestra (un
resumen estadístico con las medidas que conocemos de Descriptiva) se extrapola o
generaliza dicho resultado muestral a la población total, de modo que lo estimado es el
valor generalizado a la población. Consiste en la búsqueda del valor de los parámetros
poblacionales objeto de estudio. Puede ser puntual o por intervalo de confianza:
- Puntual: cuando buscamos un valor concreto.

- Intervalo de confianza: cuando determinamos un intervalo, dentro del cual se
supone que va a estar el valor del parámetro que se busca con una cierta
probabilidad.
CONTRATE DE HIPÓTESIS: Consiste en determinar si es aceptable, partiendo de

datos muestrales, que la característica o el parámetro poblacional estudiado tome un
determinado valor o esté dentro de unos determinados valores.
NIVEL DE CONFIANZA: Indica la proporción de veces que acertaríamos al afirmar

que el parámetro θ está dentro del intervalo al seleccionar muchas muestras.
2.- EL CONCEPTO DE ESTADÍSTICO Y DISTRIBUCIÓN

MUESTRAL
El objetivo de la inferencia es efectuar una generalización de los resultados de la

muestra de la población. La tarea que nos ocupa ahora es conocer las distribuciones de
la probabilidad de ciertas funciones de la muestra, es decir, variables aleatorias
asociadas al muestreo o estadísticos muestrales. Éstos serán útiles para hacer
inferencia respecto a los parámetros desconocidos de una población. Por ello se habla de
distribuciones muestrales, ya que están basados en el comportamiento de las
muestras.
El primer objetivo es conocer el concepto de distribución muestral de un

estadístico; su comportamiento probabilístico dependerá del que tenga la variable X y
del tamaño de las muestras.
Sea x1.......xn, una muestra 1 aleatoria simple (m.a.s) de la variable aleatoria X,

con función de distribución F0 , se define el estadístico T como cualquier función de la
muestra que no contiene ninguna cantidad desconocida.
Sea una población donde se observa la variable aleatoria X. Esta variable X,

tendrá una distribución de probabilidad, que puede ser conocida o desconocida, y ciertas
características o parámetros poblacionales. El problema será encontrar una función que
proporcione el mejor estimador de θ. El estimador, T, del parámetro θ debe tener una
distribución concentrada alrededor de θ y la varianza debe ser lo menor posible.
Los estadísticos más usuales en inferencia y su distribución asociada

considerando una población P sobre la que se estudia un carácter cuantitativo son:
1 n
o Media muestral: x = Σ x
n i =1 i
1 n
o Cuasivarianza: s 2 = Σ ( xi − x ) 2
n −1 i = 1
1
Todas las variables aleatorias que forman la muestra verifican que son independientes entre sí, que
E[ X i ] = μ y que su V [ X i ] = σ 2 .
o Total: t = Σ n xi .
i =1
2.1.- Distribuciones muestrales
Consideremos todas las posibles muestras de tamaño n en una población,

entonces, como se decía anteriormente, para cada muestra podemos calcular un
estadístico (media, desviación típica, proporción,...) que variará de una a otra. Así
obtenemos una distribución de ese estadístico que se llamará distribución muestral.
Las medidas fundamentales de esta distribución son la media, la desviación

típica, también denominada error típico, y el total poblacional, y sus distribuciones
muestrales son las siguientes.
MEDIA MUESTRAL: Sea X1.....Xn, una m.a.s. con media μ o con E(x)= μ y con
σ2
varianza muestral V [ X ] = , entonces la media muestra se distribuye como una
n
normal de parámetros:
σ
X → N (μ , ).
n
VARIANZA MUESTRAL: Sea X1.....Xn, una m.a.s. independientes e idénticamente
distribuidas, definimos el estadístico muestral para la varianza como la cuasivarianza
muestral s 2 =
1
n −1
( 2
)
∑1n=1 x1 − x , entonces se verifica que:
(n − 1)s 2 → χ n2−1
σ 2
TOTAL MUESTRAL: Sea X1......Xn, una m.a.s. con E(t)= n μ y con V(t)= nσ 2 ,
entonces se distribuye como una normal:
(
t → N nμ ; nσ 2 . )
3.- ESTIMACIÓN PUNTUAL
Un estimador de un parámetro poblacional es una función de los datos

muestrales. En pocas palabras, es una fórmula que depende de los valores obtenidos de
una muestra, para realizar estimaciones. Lo que se pretende obtener es el valor exacto
de un parámetro. Por ejemplo, si se pretende estimar la talla media de un determinado
grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la
talla media de los individuos de la muestra.
La media de la muestra puede ser un estimador de la media de la población, la
cuasivarianza muestral es un buen estimador de la varianza poblacional y el total
muestral es un buen estimador del total poblacional.
Por tanto, una definición más matemática de un estimador y las propiedades que
debe de cumplir un estimador para ser bueno.
Sea X1......Xn, una m.a.s. de tamaño n, decimos que es un estimador θ* de un
parámetro θ si el estadístico que se emplea para conocer dicho parámetro desconocido
es este.
3.1.- Propiedades deseables de un estimador
Las propiedades o criterios para seleccionar un buen estimador son los

siguientes:
A) Insesgadez: Diremos que un estimador θ* de un parámetro θ es insesgado si su
esperanza coincide con el verdadero valor del parámetro.
E[θ*] = θ.
En el caso de que no coincidan, diremos que el estimador es sesgado.
B) Eficiencia: Dados dos estimadores θ1* y θ2* para un mismo parámetro θ, se dice que
θ1* es más eficiente que θ2* si:
V[θ1*] < V[θ2*].
C) Suficiencia: Se dice que un estimador de un parámetro es suficiente cuando para su

cálculo utiliza toda la información de la muestra.
D) Consistencia: Decimos que un estimador θ* de un parámetro θ es consistente si la
distribución del estimador tiende a concentrarse en un cierto punto cuando el tamaño de
la muestra tiende a infinito.
Lim n→∞ = {P[οˆ − ε ≤ οˆ ≤ οˆ + ε ]}.
3.2.- Métodos para obtener estimadores
El demostrar que un cierto estimador cumple estas propiedades puede ser

complicado en determinadas ocasiones. Existen varios métodos que nos van a permitir
obtener los estimadores puntuales. Los más importantes son:
• MÉTODO DE LOS MOMENTOS: se basa en que los momentos poblacionales y se
estiman mediante los momentos muestrales. Suelen dar estimadores consistentes.
• MÉTODO DE MÍNIMOS CUADRADOS: consiste en obtener un estimador que
hace mínima una determinada función.
• MÉTODO DE MÁXIMA VEROSIMILITUD: consiste en tomar como parámetro
poblacional el valor de la muestra que sea más probable, es decir, que tenga mayor
probabilidad. Se suelen obtener estimadores consistentes y eficientes. Es el más
utilizado.
La probabilidad de que la media muestral sea igual a la media poblacional es

cero, P[x = μ ] = 0 , es decir, que será bastante complicado obtener un estimador
puntual, por ello se utiliza más el Intervalo de Confianza y el Contraste de Hipótesis.
4.- ESTIMACIÓN POR INTERVALOS DE CONFIANZA
El intervalo de confianza está determinado por dos valores dentro de los cuales
afirmamos que está el verdadero parámetro con cierta probabilidad. Son unos límites o
margen de variabilidad que damos al valor estimado, para poder afirmar, bajo un
criterio de probabilidad, que el verdadero valor no los rebasará. Es una expresión del
tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al
parámetro estimado con una determinada certeza o nivel de confianza.
En la estimación por intervalos se usan los siguientes conceptos:
• Variabilidad del parámetro: Si no se conoce, puede obtenerse una

aproximación en los datos o en un estudio piloto. También hay métodos para
calcular el tamaño de la muestra que prescinden de este aspecto. Habitualmente
se usa como medida de esta variabilidad la desviación típica poblacional y se
denota σ.
• Error de la estimación: Es una medida de su precisión que se corresponde con
la amplitud del intervalo de confianza. Cuanta más precisión se desee en la
estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y,
por tanto, menor el error, y más sujetos deberán incluirse en la muestra
estudiada. Llamaremos a esta precisión E, según la fórmula E = θ2 - θ1.
• Nivel de confianza: Es la probabilidad de que el verdadero valor del parámetro
estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel
de confianza se denota por (1-α), aunque habitualmente suele expresarse con un
porcentaje ((1-α)·100%). Es habitual tomar como nivel de confianza un 95% o
un 99%, que se corresponden con valores α de 0,05 y 0,01, respectivamente.
• Valor α: También llamado nivel de significación. Es la probabilidad (en tanto
por uno) de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1)
y el nivel de confianza (1-α). Por ejemplo, en una estimación con un nivel de
confianza del 95%, el valor α es (100-95)/100 = 0,05.
• Valor crítico: Se representa por Zα/2. Es el valor de la abscisa en una
determinada distribución que deja a su derecha un área igual a α/2, siendo 1-α el
nivel de confianza. Normalmente los valores críticos están tabulados o pueden
calcularse en función de la distribución de la población. Por ejemplo, para una
distribución normal, de media 0 y desviación típica 1, el valor crítico para α =
0,05 se calcularía del siguiente modo: se busca en la tabla de la distribución ese
valor (o el más aproximado), bajo la columna "Área"; se observa que se
corresponde con -0,64. Entonces Zα/2 = 0,64. Si la media o desviación típica de
la distribución normal no coinciden con las de la tabla, se puede realizar el
cambio de variable t=(X-μ)/σ para su cálculo.
Con estas definiciones, si tras la extracción de una muestra se dice que "3 es una
estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%",
podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con
una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando,
respectivamente, la mitad del error, para obtener el intervalo de confianza según las
definiciones dadas.
Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza

van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del
intervalo de confianza, tenemos también una mayor probabilidad de éxito en nuestra
estimación, es decir, un mayor nivel de confianza.
Por tanto, un aspecto que debe de tenerse en cuenta es el tamaño muestral, ya

que para disminuir el error que se comente habrá que aumentar el tamaño muestral. Esto
se resolverá, para un intervalo de confianza cualquiera, despejando el tamaño de la
muestra en cualquiera de las formulas de los intervalos de confianza que veremos a
continuación, a partir del error máximo permitido.
Los intervalos de confianza pueden ser unilaterales o bilaterales:
• UNILATERAL: P[ X < z α ] = 1 − α ó P[ X > z α ] = 1 − α .
⎡ ⎤
• BILATERAL: P ⎢z α < X < z α ⎥ .
⎣⎢ 2 2 ⎥
⎦
4.1.- Intervalo de confianza para la media con varianza conocida
Sea X una variable aleatoria que se distribuye como X Æ N(μ , σ), si utilizamos
σ
la media muestral ( X ) como estimador, entonces X → N ( μ , ).
n
Tipificando, centramos el estimador, cambiando de origen y de escala

obteniendo:
x−μ
Z= → N (0;1).
σ/ n
Entonces, el intervalo de confianza o la probabilidad para el estimador “media”
con la varianza conocida viene dado por los siguientes parámetros:
⎡ x−μ ⎤ ⎡ σ σ ⎤
P ⎢− z α < < z α ⎥ = P ⎢− z α . < x − μ < zα ⎥=
⎢⎣ 2 σ / n ⎥
2 ⎦ ⎢
⎣ 2 n 2 n ⎥⎦
⎡ σ σ ⎤
P ⎢− x − z α . < −μ < − x + z α . ⎥
⎣ 2 n 2 n⎦
Cambiamos todos los signos, para conseguir la media (μ) positiva:
σ σ
P [ x + z α /2 > μ > x - z α /2 ] = (1- α).
n n
Ordenando la información:
σ σ
P [ x - z α /2 < μ < x + zα /2 ] = (1- α ).
n n
Por tanto, el intervalo es,

⎡ σ σ ⎤
⎢x − zα ; x + zα ⎥.
⎣ 2 n 2 n⎦
4.2.- Intervalo de confianza para la media con varianza desconocida

y n>30
Sabemos que para cualquier distribución, por el Teorema Central del Límite, si
tiene un tamaño de muestra grande, se puede aproximar o se distribuye como una
Normal de parámetros:
s
X → N (μ , ),
n
siendo s la cuasidesviación típica muestral. En consecuencia,
x−μ
Z= → N (0;1) ,
s/ n
y procediendo de forma análoga a la anterior llegamos a que el intervalo de confianza
que buscamos es
⎡ s s ⎤
⎢x − zα ; x + zα ⎥.
⎣ 2 n 2 n⎦
4.3.- Intervalo de confianza para la media con varianza

desconocida y n<30
Partiendo de una población Normal, en estas condiciones la variable aleatoria se

distribuye como una t-Student con n-1 grados de libertad de la forma,
x−μ
→ t n −1 .
s/ n
Construimos entonces el intervalo de confianza a un nivel (1- α)% de la forma:

⎡ x−μ ⎤ ⎡ s s ⎤
P ⎢− t α < < t α ⎥ = P ⎢− t α . < x−μ <t α ⎥ = 1 − α. ,
⎣ n −1; 2 s / n n −1;
2 ⎦ ⎣ n −1; 2 n n −1;
2 n⎦
de manera que si continuamos despejando de forma análoga a los caso anteriores se

obtiene un intervalo de confianza:
⎡ s s ⎤
I .C .⎢ x − t α ;x + t α ⎥.
⎢⎣ n −1;
2 n n −1;
2 n ⎥⎦
4.4.- Intervalo de confianza para la proporción
Basándonos en una variable aleatoria que se distribuye como una Binomial,

X → B (n; p ); y la aproximación de una distribución Binomial por una Normal cuando
el tamaño de la muestra es muy grande, se ha visto que se puede expresar como
( )
X → N n· p; npq . Según esto, la variable aleatoria definida como Y=X/n se
(
distribuye como Y → N p; pq / n . )
Al tipificar, nos queda
p−P
Z= → N (0;1) .
pq
n
Entonces, el intervalo de confianza o la probabilidad para el estimador

“proporción” viene dado por los siguientes parámetros:
⎡ pq pq ⎤
⎢ p − zα ; p + zα ; ⎥.
⎣ 2
n 2
n ⎦
4.5.- Intervalo de confianza para la varianza
En poblaciones Normales ya hemos visto que la variables aleatoria

(n − 1)s 2 → χ 2 . Para un nivel de confianza de (1- α)% viene dado por,
n −1
σ 2
⎡
P⎢χ 2 α <
(n − 1)s 2 < χ 2 ⎤ = 1 − α .
α ⎥
⎢⎣ n −1;1− 2 σ2 n −1;
2 ⎥
⎦
Si invertimos y despejamos, nos queda,
⎡ ⎤ ⎡ ⎤
⎢ 1 σ2 1 ⎥ ⎢ (n − 1)s 2 (n − 1)s 2 ⎥
P⎢ 2 > > 2 ⎥= P⎢ 2 >σ >
2
⎥ = 1 − α.
χ
⎢ n −1;1− α
(n − 1)s χ n −1;α
2
⎥
χ
⎢ n −1;1− α χ 2
n −1;
α ⎥
⎣ 2 2 ⎦ ⎣ 2 2 ⎦
Y por tanto, el intervalo de confianza para la varianza es:
⎡ ⎤
⎢ (n − 1)s 2 (n − 1)s 2 ⎥
⎢ χ2 ; 2 ⎥.
⎢ n −1; α χ α ⎥
n −1;1−
⎣ 2 2 ⎦
5.- CONTRASTE DE HIPÓTESIS
El problema central de la inferencia estadística es un problema de toma de

decisiones, del cual la estimación y el contraste de hipótesis son aspectos importantes,
diferenciados entre sí, pero complementarios.
Un contraste de hipótesis o Test de hipótesis estadístico es una prueba de

significación o una prueba estadística, que indican el proceso mediante el cual
decidimos si una proposición respecto de la población, debe ser aceptada o no. Esta
proposición es lo que se denomina hipótesis estadística.
Es una regla de decisión que nos dice cuando aceptar y rechazar las hipótesis,
con esto vemos si los datos de una muestra son compatibles o no con los de la
población.
Una hipótesis estadística, por tanto, es una proposición acerca de la función de

probabilidad o de la función de densidad de probabilidad de una variable aleatoria o de
varias variables aleatorias. Tal proposición debe referirse bien a la forma de la
distribución de probabilidad, bien al valor o valores de los parámetros que lo definan o
bien a ambos. Hipótesis estadística es, una afirmación acerca de la distribución de la
población. Puede haber hipótesis estadísticas en contextos paramétricos y no
paramétricos.
El contraste de hipótesis estadístico se basará en la información proporcionada

por la muestra. De modo, que si rechazamos la hipótesis, queremos indicar que los datos
de la muestra ofrecen cierta evidencia sobre su falsedad. Si la aceptamos simplemente
queremos significar que no se rechaza.
Un contraste de hipótesis consiste, por tanto, en estudiar dos hipótesis: H0

(hipótesis nula), H1 (hipótesis alternativa), de manera que el investigador divide los
resultados muestrales en dos zonas; una zona de rechazo y otra de aceptación, de
manera que según como obtengamos el resultado, aceptaremos o rechazaremos la
hipótesis.
Al aplicar un contraste de hipótesis, clasificamos los puntos del espacio muestral

en dos regiones excluyentes y complementarias:
• Región de Rechazo o Región Crítica: La formada por el conjunto de los

valores del estadístico de contraste que nos llevan a rechazar la hipótesis nula H0,
se llama región crítica (los puntos que delimitan la región crítica se llaman
puntos críticos).
• Región de Aceptación o Región de No Rechazo: Es la formada por el conjunto
de los valores del estadístico de contraste que nos lleva a aceptar la hipótesis
nula H0.
5.1.- Planteamiento de la hipótesis estadística
Aquella hipótesis que se desea contrastar se llama hipótesis nula (Ho), por tanto,
la que se acepta o rechaza como conclusión del contraste. La hipótesis nula suele ser
una estrategia o medio del que se sirve el investigador para probar la alternativa. Suele
ir acompañada por la hipótesis alternativa o hipótesis experimental, simbolizada por H1.
La hipótesis alternativa es la que se verifica cuando no se verifica la hipótesis

nula. El planteamiento de Ho permite elaborar un modelo Probabilístico a partir del cual
podemos llegar a la decisión final.
A su vez, al plantear una hipótesis, esta puede ser simple o compuesta. Una
hipótesis es simple si se especifica exactamente el valor del parámetro. Una hipótesis es
compuesta, si contiene dos ó más valores del parámetro. La hipótesis nula (Ho) por ser
más concreta suele ser simple y la alternativa, compuesta. Es frecuente plantearlas como
complementarias.
5.2.- Supuestos
Las suposiciones que podemos hacer dependiendo del tipo de contraste que
necesitemos son:
a) Supuestos acerca de las características ó de los datos que se van a manipular,
como puede ser la independencia de la observaciones, nivel de medida
utilizada, etc.
b) Supuestos acerca de la forma de distribución de partida: Normal, Binomial,
etc.
La violación de los supuestos podrá invalidar más o menos el modelo

probabilístico y llevarnos a decisiones erróneas. Concierne al investigador conocer las
consecuencias que se derivan de la violación de tales supuestos sobre el modelo. Por
este motivo, si se plantean los supuestos deben ser mínimos y no demasiado exigentes.
Por ejemplo, se puede plantear de partida:
• Poblaciones de partida: normales.
• Muestras independientes.
• Observaciones de las muestras: independiente.
5.3.- Estadístico de Contraste

Estadístico de Contraste es, aquel estadístico (T) que utilizamos para tomar una
decisión en un contraste de hipótesis. Este estadístico es una variable aleatoria, con una
distribución muestral determinada, que nos dará las probabilidades asociadas a un valor
o un determinado intervalo de valores del estadístico de contraste. Este deberá cumplir
todas las características que se mencionaron anteriormente cuando se habló de los
estadísticos.
5.4.- Reglas de decisión

Una regla de decisión es el criterio utilizado para decidir si aceptamos o
rechazamos la hipótesis nula, a partir del espacio muestral de valores del estadístico de
contraste y probabilidades asociadas.
Este criterio consiste en dividir tal espacio en dos zonas mutuamente excluyentes
y exhaustivas: la zona de rechazo o región crítica y la zona de aceptación. La zona de
rechazo está constituida por aquellos valores del estadístico de contraste que se alejan
mucho de Ho, por lo tanto es muy poco probable que ocurran si Ho es verdadera. Por
ejemplo, a continuación se pueden ver dos ejemplos de contrastes, uno unilateral y otro
bilateral, aunque se pueden crear muchos más.
Un contraste de hipótesis unilateral es de la forma (hay más formas):

Ho: θ = θo
H1: θ >θo
Un contraste de hipótesis bilateral es de la forma:
Ho: θ = θo
H1: θ ≠θo
Decidimos que un contraste es unilateral o direccional, si para tomar la decisión

de rechazar Ho nos servimos exclusivamente de los valores muy grandes “o”
exclusivamente de los valores muy pequeños del estadístico de contraste.
Decidimos que un contraste es bilateral o no direccional, si utilizamos los

valores muy grandes “y” muy pequeños de los posibles valores del estadístico de
contraste.
Si la distribución, bajo la H1, sólo puede estar a la derecha será más potente si
colocamos a la derecha toda la región crítica.
Si la distribución, bajo la H1, puede estar a la derecha o la izquierda sería un test

más potente el que pone parte de la región crítica a la derecha y parte a la izquierda.
El valor α se llama “nivel de significación o nivel de riesgo” y representa a la

probabilidad de que un nivel concreto del estadístico de contraste, caiga en la zona de
rechazo o crítica, es decir, es el conjunto de valores del estadístico de contraste que nos
lleva a la decisión de rechazar la hipótesis nula.
El valor (1-α) se llama “nivel de confianza”, es el conjunto de valores del

estadístico de contraste que nos lleva a la decisión de aceptar la hipótesis nula.
En los contrates unilaterales α está concentrada en uno de los dos extremos de

la distribución, en una única cola. En los contrastes bilaterales α se reparte entre los dos
extremos de la distribución, en las dos colas.
Los contrastes unilaterales suelen ser mejores que los contrates bilaterales. La
elección de uno u otro, está condicionada al planteamiento de la hipótesis alternativa.
Ejemplo:
Si Ho ≤ 0.50 ⇒ H1 > 0.50 Es unilateral.
Si Ho = 0.50 ⇒ H1 ≠ 0.50 Es bilateral.
5.5.- Cálculo del estadístico y toma de decisión

Antes de poder tomar una decisión se debe recopilar los datos con los que se van
a trabajar, es decir, se obtienen los datos de una ó varias muestras y los estimadores del
parámetro (proporción, media, etc.) correspondiente, calculamos el valor concreto del
estadístico de contraste y fijado el nivel de significación con la zona crítica, si el valor
de tal estadístico cae en la zona crítica, rechazamos las hipótesis nula y por tanto,
aceptamos la hipótesis alternativa. En este caso debemos interpretar que no hay
evidencia suficiente para decidir que es falsa. En caso contrario se aceptará la hipótesis
nula.
5.6.- Errores en los contrates de hipótesis

Cuando se realiza un contraste de hipótesis, siempre debemos tener en cuenta
que cuando aceptamos o rechazamos una hipótesis puede que estemos cometiendo un
cierto error. Cuando Rechazamos Ho, significa que Ho es falsa y cuando aceptamos Ho,
significa que Ho es verdadera. Por tanto, se pueden considerar, dos tipos de errores que
se pueden cometer cuando se realiza un contraste:
- Error tipo I (α ): Es el error que se comete en la decisión del contraste cuando

se rechaza la hipótesis nula (Ho), siendo correcta (cierta).
- Error tipo II (β): Es el error que se comete en la decisión del contraste cuando
se acepta la hipótesis nula (Ho), siendo falsa.
En la siguiente tabla se puede ver de forma más concreta:
Verdadera Falsa
(1- α) β
Acertar
Decisión correcta Error tipo II
α (1-β)
Rechazar
Error tipo I Decisión Correcta
De aquí se pueden obtener las siguientes conclusiones que deben de tenerse en

cuenta:
• El ERROR II es el más grave, al que también se le conoce como potencia del

contraste, y se representa con la letra β .
• α es el valor de significación, nos dice a partir de qué valor estamos
cometiendo un error tipo I.
Así, las probabilidades asociadas a los tipos dos tipos de Error vienen dadas por
las siguientes expresiones:
1.- Nivel de significación o tamaño del contraste (α ):
α =P(error tipo I}=P{rechazar Ho / Ho cierta}
2.- Potencia del contraste ( β ):
β= P{rechazar Ho / Ho falsa}=1-P{ Aceptar Ho / Ho falsa}= 1-P{error tipo II}
5.7.- Potencia de un contrate

Se llama potencia de un contraste a la probabilidad de rechazar Ho, cuando es
falsa. Su probabilidad es 1-β. Más estrictamente debería llamarse potencia de región
crítica. No es más que la probabilidad de que ésta detecte una Ho falsa dado un valor para
H1.
Los valores de α y β no tienen la misma importancia psicológica. Es el
investigador el que en cada caso deberá saber que error tiene más importancia para tratar
de disminuirlo. Para disminuir el valor de α es necesario aumentar el tamaño de la
muestra.
5.8.- Curvas de potencia de un contrate

Fijado un nivel de significación (α ), una hipótesis nula y una hipótesis alternativa,
tendremos una potencia para cada valor que tome la hipótesis alternativa (H1). La curva
que se obtiene al relacionar los posibles valores de H1 con los correspondientes (1-β), se
llama curva de potencia o función de potencia.
Cuanto mayor es el nivel de significación (probabilidad Error Tipo I) mayor es la

potencia.
5.9.- Efecto del tamaño de la muestra en la potencia
Se trata de poner de manifiesto cómo, manteniendo constante α , al aumentar el

tamaño de la muestra decrece el valor de β, y por tanto, se incrementa la potencia, la
capacidad del contraste para distinguir H0 y H1.
Al igual que ocurría en los intervalos de confianza, el tamaño de la muestra será

importante para determinar el error que se comete o cual es el tamaño de la muestra
necesario para mantener un determinado error mínimo.
5.10.- Nivel de significación y nivel critico
Se puede definir el “nivel de significación (α)” como la máxima probabilidad de

rechazar la Ho cuando es cierta. El nivel de significación lo elige el investigador antes de
realizar el contrate, para que no influya en su decisión. Por lo tanto el nivel de significación
representa el riesgo máximo admisible al rechazar Ho.
El nivel crítico se calcula después de obtener el valor del estadístico de contraste y

representa el riesgo mínimo con el que se rechaza Ho.
5.11.- Violación de los supuestos en los contrastes de hipótesis

A continuación, se detalla de forma esquemática en que situaciones se deben
utilizar otras distribuciones asociadas a la normal.
5.11.1.- Utilización de la distribución T-Student, en el contraste de μ
a) Independencia: m.a.s. y población pequeña

b) Normalidad: Si la muestra es grande no presenta serios problemas. Si la
muestra es pequeña los contrastes unilaterales aumentan el error. Por lo
tanto, si la muestra es grande haremos un contraste unilateral, si
utilizamos la distribución t-student y no se puede asumir que la
población es normal.
5.11.2.- Utilización de la distribución T-Student, en el contraste de μ1 - μ2
a) Independencia: Muy importante.

b) Normalidad.
c) Igualdad de varianzas.
5.11.3.- Utilización de la distribución Chi-Cuadrado ( χ 2 ), en el contraste σ2
El supuesto de normalidad lleva consigo un error, que no podemos

corregir aumentando el tamaño muestral.
5.11.4.- Utilización de la distribución F-Snedecor en el contraste de σ2 1/ σ22
No se puede usar si las poblaciones no son normales o los tamaños de las

muestras no son grandes. Tampoco debe utilizarse si la independencia no es
segura.
5.12.- Propiedades deseables en los contrastes de hipótesis

El investigador debe seleccionar aquella prueba que le sirve para contrastar su
hipótesis y procurar que se cumplan los supuestos que la sustentan, además deben de
reunir estas propiedades:
Carencia de Sesgo:
Un Contraste de Hipótesis es una prueba insesgada de Ho, si la probabilidad de

rechazar Ho cuando es falsa, es igual o mayor que la probabilidad de rechazar Ho
cuando es cierta. Es decir, si su potencia es mayor ó igual que su nivel de significación.
Consistencia:
Una secuencia de contrastes es consistente frente a todas las alternativas Hi, si su

función de potencia se aproxima a 1, a medida que n tiende al infinito. Se supone α >0 y
constante.
5.13.- El concepto de p-valor

Cuando se realiza un contraste de hipótesis sabemos que a partir del nivel de
significación delimitamos la zona de aceptación y de rechazo. En ocasiones es muy
interesante calcular el nivel de significación a partir del cual la hipótesis nula, H0, se va
a rechazar. Esta es la idea o concepto del p-valor, es decir,
[ ]
p = P Z > z exp .
El p-valor puede considerarse como el valor límite para que un contraste sea
significativo, es decir, elegido un nivel de significación α, se rechazará H0 si p ≤ α.
5.14.- Contraste de hipótesis para la media con varianza conocida
Supongamos una población Normal. Para realizar este contraste el estadístico

mejor conocido es la media muestral,
σ
X → N (μ , ).
n
Como ya se conoce su distribución, el estadístico de contraste será:
x−μ
→ N (0;1) .
σ/ n
Podemos hacer tres tipos de contraste. Se presupone que la hipótesis nula es

cierta, y se rechaza cuando:
H 0 : μ = μ0 x − μ0
A) RECHAZO H0 si > zα
H1 : μ ≠ μ0 σ/ n 2
H 0 : μ ≤ μ0 x − μ0
B) RECHAZO H0 si > zα
H1 : μ > μ0 σ/ n
H 0 : μ ≥ μ0 x − μ0
C) RECHAZO H0 si < − zα
H1 : μ < μ0 σ/ n
En caso contrario se acepta la hipótesis nula.
5.15.- Contraste de hipótesis para la media con varianza

desconocida y n>30

s
mejor conocido es la media muestral, X → N ( μ , ).
n
x−μ
→ N (0;1) .
s/ n
H 0 : μ = μ0 x − μ0
H1 : μ ≠ μ0 s/ n 2
H 0 : μ ≤ μ0 x − μ0
H1 : μ > μ0 s/ n
H 0 : μ ≥ μ0 x − μ0
H1 : μ < μ0 s/ n
5.16.- Contraste de hipótesis para la media con varianza

desconocida y n<30

mejor conocido es la media muestral, X → t .
n −1
x−μ
→t
s/ n n −1

H 0 : μ = μ0 x − μ0
A) RECHAZO H0 si >t α
H1 : μ ≠ μ0 s/ n n −1;
2
H 0 : μ ≤ μ0 x − μ0
B) RECHAZO H0 si > t n −1;α
H1 : μ > μ0 s/ n
H 0 : μ ≥ μ0 x − μ0
C) RECHAZO H0 si < −t n−1;α
H1 : μ < μ0 s/ n
5.17.- Contraste de hipótesis para la proporción

⎛ pq ⎞
mejor conocido es la proporción muestral, P → N ⎜⎜ p; ⎟.
⎝ n ⎟⎠
p − P0
→ N (0;1) .
p0 q0
n

H 0 : P = P0 p − P0
H 1 : P ≠ P0 p0 q0 2
n
H 0 : P ≤ P0 p − P0
H 1 : P > P0 p0 q0
n
H 0 : P ≥ P0 p − P0
H 1 : P < P0 p0 q0
n
5.18.- Contraste de hipótesis para la varianza

mejor conocido es la varianza muestral. Como ya se conoce su distribución, el
estadístico de contraste será:
(n − 1)s 2 → χ n2−1 .
σ 2
Como en este caso, la distribución del estadístico no es simétrica, podremos

hacer tres mismos tipos de contraste, pero en este caso habrá que tener en cuenta esa
no simetría. Se presupone que la hipótesis nula es cierta, y se rechaza cuando:
H 0 : σ 2 = σ 02 (n − 1)s 2 ∉ ⎛⎜ χ 2 ; χ 2 ⎞
A) RECHAZO H0 si ⎟
σ ⎜ α α ⎟
H 1 : σ 2 ≠ σ 02
2 1−
0 ⎝ 2 2 ⎠
H 0 : σ 2 ≤ σ 02 (n − 1)s 2
B) RECHAZO H0 si > χ α2
H1 : σ > σ
2 2
0
σ 2
0
H 0 : σ 2 ≥ σ 02 (n − 1)s 2 < χ 2
C) RECHAZO H0 si 1−α
H 1 : σ 2 < σ 02 σ02

11 - Estadistica II - Alonso Montero - Universidad de Granada - 64 Pag PDF

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

11 - Estadistica II - Alonso Montero - Universidad de Granada - 64 Pag PDF

Încărcat de

Drepturi de autor:

Formate disponibile

1

INTRODUCCIÓN AL CÁLCULO DE PROBABILIDADES

1.- HISTORIA DE LA PROBABILIDAD

Ya en el siglo XVI, los matemáticos italianos comenzaron a interpretar los

El desarrollo del análisis matemático de los juegos de azar se produce

La teoría de la probabilidad fue aplicada con buenos resultados a las mesas de

Durante el siglo XVIII el cálculo de probabilidades se extiende a problemas

La industria de los seguros, que nació en el siglo XIX, requería un conocimiento

La necesidad de comparar con exactitud los datos observados con la teoría

Jacob Bernoulli proporciona la primera solución al problema de estimar una

También, además de Abraham de Moivre, el reverendo Thomas Bayes y Joseph

El impulso fundamental proviene de la obra de Pierre Simon, Marqués de

Bravais, geólogo y astrónomo, es el primero en considerar la relación entre

Desde los orígenes la principal dificultad para poder considerar la probabilidad

En la actualidad la teoría matemática de la probabilidad constituye el

La necesidad de sortear la incertidumbre nos lleva a estudiar y aplicar la teoría

Las aplicaciones de métodos estadísticos en las diferentes áreas son numerosas.

En la vida cotidiana aparecen muchas situaciones en las que los resultados

En el lenguaje habitual, frases como "probablemente...", "es poco probable

La teoría de la probabilidad pretende ser una herramienta para modelizar y

El objetivo del Cálculo de Probabilidades es el estudio de métodos de análisis

Variable Unidimensional Variable aleatoria

Variable Bidimensional Vectores aleatorios

Distribución de frecuencias Distribución de Probabilidad (Función de distribución)

Medias, Momentos Esperanza, Momentos

Independencia Estadística Independencia Estocástica

Series Temporales Procesos Estocásticos

En la actividad diaria nos encontramos con ciertos tipos de fenómenos que se

o Fenómeno determinístico.- Cuando al repetirlo bajo idénticas condiciones

o Fenómeno aleatorio.- Cuando al repetirlo bajo idénticas condiciones iniciales

o Experimento aleatorio.- Operación que repetimos bajo idénticas condiciones

o Suceso elemental.- Cada uno de los resultados posibles del experimento

Suceso A= (2, 3,4)

o Espacio muestral.- Conjunto de todos los sucesos elementales del experimento

o Suceso.- Conjunto formado por uno o más sucesos elementales, es decir, un

o Suceso seguro.- Coincide con el suceso elemental, ya que al realizar el

o Suceso complementario a un suceso A: Es el suceso que se verifica si, como

o Sucesos incompatibles: Los sucesos A y B son incompatibles o mutuamente

A = {a, b}, B = {d, e}

o Si tenemos dos sucesos cualesquiera A, B: A está contenido en B, entonces B no

o Si tenemos dos sucesos cualesquiera A, B: donde A está contenido en B y B está

2.2.- Operaciones con sucesos

o Suceso contenido en otro.- Un suceso A se dice que está contenido o inducido en

Ejemplo: Considerando el experimento aleatorio del lanzamiento de un dado, si

A= que aparezca el 2 ó el 4 = {2,4}

El suceso A ⊂ B, pues los resultados o sucesos elementales 2 y 4 de A,

o Igualdad de sucesos.- Dados dos sucesos A y B, diremos que son iguales, si

Ejemplo: Sean los sucesos:

A = obtener un número par al lanzar un dado = {2,4,6}

Aquí se verifica que:

A ⊂ B pues siempre que ocurre A ocurre B

o Diferencia de sucesos.- Dados dos sucesos aleatorios A, B ∈ E , se llama suceso

o Unión de sucesos.- Dados dos sucesos A y B se llama unión de A y B, y se

Ejemplo: Sean los sucesos:

A = obtener el lanzamiento de un dado un número impar = {1,3,5}

El suceso unión será:

A ∪ B = {1,3,5} ∪ {5,6} = {1,3,5,6}

O sea, obtener un 1, un 3, un 5, ó un 6 en el lanzamiento del dado.

o Intersección de sucesos.- Dados dos sucesos A y B, se llama suceso intersección

Ejemplo: Utilizando el ejemplo de la unión, la intersección viene dada por:

o Sucesos Incompatibles.- Dos sucesos A y B cuya intersección es el suceso

o Sucesos Complementarios.- Dado un suceso A, se llama suceso contrario o

Axioma 1: Siempre es positiva.

Axioma 2: Siempre estará entre 0 y 1.