Documente Academic
Documente Profesional
Documente Cultură
COLECTIVO DE AUTORES:
MSc. Manuel Ernesto Acosta Aguilera
Prof. Asistente
Prof. Auxiliar
Prof. Auxiliar
mernesto@fec.uh.cu
luisp@fec.uh.cu
daysi@fec.uh.cu
NDICE
PRESENTACIN
A los estudiantes:
Este texto ha sido elaborado por un colectivo de profesores de Estadstica de la Facultad de Economa de
la Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a esta
asignatura en las carreras de perfil econmico y social, en general, particularmente en la Licenciatura en
Economa.
El objetivo del estudio de la Estadstica en cualquier carrera es dotar al alumno de algunos elementos que
le servirn para trabajar con conjuntos de datos, describir situaciones de inters, hacer inferencias sobre
la base de observaciones y evaluar hiptesis relacionadas con alguna circunstancia prctica; adems,
pueden iniciarse en el estudio de los fenmenos y experimentos aleatorios, estableciendo el vnculo entre
los conocimientos y habilidades de los contenidos de la Estadstica Descriptiva, la Teora de las
Probabilidades y la Estadstica Inferencial.
Debe sealarse que la Estadstica es eminentemente prctica, sin embargo, se necesita del conocimiento
de la teora que la sustenta para la correcta aplicacin de las frmulas de clculo y los modelos que
intentan representar la realidad existente.
En el texto se detallan los objetivos generales del curso y la distribucin del mismo en los seis temas en
que est subdividido. Tambin se incluyen los objetivos especficos de cada una de las unidades
didcticas que conforman los distintos temas. Adems, se desarrolla sucintamente el contenido de la
asignatura, el cual aparece disperso en otros textos que se refieren en la bibliografa bsica. Finalmente,
se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han aadido ejercicios para que
sirvan de autoevaluacin.
Es aspiracin de los autores que estos apuntes para el estudio de Estadstica sean de utilidad tanto para
sus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio.
Los Autores.
La Habana, 2008
INTRODUCCIN A LA ESTADSTICA
El vocablo estadstica (con minscula) se utiliza para denominar cualquier coleccin
sistemtica de datos, por ejemplo: natalidad o mortalidad en un pas o provincia, resultados
peridicos en cierto deporte, cifras de produccin de una empresa, pasajeros transportados
durante un perodo, enfermos recuperados con ciertos medicamentos
Las estadsticas son tan antiguas como las sociedades humanas, pero la Estadstica como
ciencia (con mayscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades.
La Estadstica como ciencia puede definirse como un conjunto de principios y mtodos que
se han desarrollado para analizar datos numricos, utilizando las probabilidades; sus
mtodos se clasifican en:
Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo
de definicin, o sea, toman valores determinados, predefinido. Generalmente
representan valores enteros asociados a observaciones susceptibles de conteo.
Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su
intervalo de definicin. Generalmente representan observaciones susceptibles de
medicin. Es importante tener en cuenta que la continuidad est dada por la propia
naturaleza de variable, no porque sta se exprese con valores decimales o no, pues
esto es algo que depende de las unidades de medida utilizadas, de la precisin deseada
o de costumbres al expresar una magnitud.
Se dice que los datos estn organizados, pero no agrupados, cuando en las tablas de
frecuencias se ponen, organizados, todos y cada uno de los valores que toma la variable; esto
es, se colocan los datos en columnas que recogen los distintos valores de la variable y las
frecuencias (las veces) con que han aparecido tales valores.
Por su parte, se dice que los datos estn organizados y agrupados cuando en la tabla se
presentan stos no con sus valores individuales, sino en agrupaciones parciales del recorrido
de la variable, denominadas clases o intervalos de clases.
Una clase se caracteriza por un valor que es su lmite inferior y otro que es su lmite superior. El
promedio de los dos lmites, que muchas veces se toma como el valor representativo de la
clase, es llamado marca de clase. Y a la diferencia o distancia entre los lmites de la clase se le
llama ancho de clase: aunque no es obligatorio, es usual utilizar clases del mismo ancho
siempre que es posible. (Si las clases no tienen el mismo ancho, no es la altura de las barras o
rectngulos la que debe ser proporcional a las frecuencias representadas, sino su rea.)
Ni
N1
N2
Fi
F1
F2
Lk-1 - Lk
Xk
fi
f1
f2
ni
n1
n2
Xi
X1
X2
Li-1 - Li
L0 - L1
L1 - L2
nk
fk
Nk
Fk
frecuencias
complementarias
Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas de
clase (en datos agrupados en clases)
Li-1 - Li : representan las clases (si los datos se agruparon), delimitadas por los lmites de clase,
el inferior (Li-1) y el superior (Li)
ni ( frecuencia absoluta ): nmero de veces que se repite el i-simo valor de la variable;
donde ni = n
n ( tamao de la muestra ): cantidad de observaciones efectuadas, es decir, nmero de
elementos contenidos en la muestra
k: representa el nmero de valores diferentes observados (datos no agrupados) o la cantidad
de clases creadas (datos agrupados)
Tambin pueden incorporarse a la tabla otras frecuencias, como:
fi ( frecuencia relativa ): proporcin de veces que se repite el i-simo valor de la variable (si se
multiplica por cien constituye un porciento); se cumple que:
fi = ni/n
y donde fi = 1
Ni ( frecuencia absoluta acumulada ): Es el nmero de observaciones menores o iguales al isimo valor de la variable, donde N1 = n1, N2 = n1 + n2, N3 = n1 + n2 + n3, y as sucesivamente
hasta Nk = n. As, se interpreta como el nmero de observaciones menores o iguales al i-simo
valor de la variable.
Fi ( frecuencia relativa acumulada ): es la proporcin (o porciento) de observaciones menores
Ni 0
6. Fk = 1
2. ni = n
7. N1 = n1
3. fi = 1
8. F1 = f1
4. 0 fi 1
9. n1 = N1 N2 N3 ... Nk
0 Fi 1
10. f1 = F1 F2 F3 ... Fk
5. Nk = n
14,9
19,9
24,9
Caso B
10
15,1
20,1
15
20
25
Caso C
10
15
20
15
20
25
Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un lmite de
clase, de manera que para una observacin dada sea inequvoca (nica) la pertenencia a una
clase; pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de una
clase y el inicio de la otra, es decir, entre 14,9 y 15 (caso A) y lo mismo entre 15 y 15,1 (caso
B). Por ello muchos autores e investigadores prefieren la variante C, donde el valor que cierra
una clase es el mismo que abre la siguiente, y se suele recurrir al siguiente convenio: cuando
una observacin coincide con un lmite de clase se incluye en la clase donde dicho lmite
es el lmite superior, es decir, se consideran los intervalos de clase como abiertos al inicio y
cerrados al final, as: ( Li-1 ; Li ]
Tambin existen los intervalos abiertos atendiendo al tipo de informacin que se puede
presentar:
Abierto en la
primera clase
Abierto en la
ltima clase
menos de 10
10
20
20
30
30
40
40
50
0
10
10
20
20
30
30
40
ms de 50
Abierto en la
primera y en la
ltima clase
menos de 10
10
20
20
30
30
40
ms de 50
Es til tener en cuenta adems que no siempre los intervalos podrn ser de igual amplitud, sin
embargo es recomendable que estos tengan el mismo ancho si es posible ello, para lograr
mayor facilidad en las interpretaciones, representaciones y clculos.
Entre los mtodos seguidos para crear las clases, dos son los ms utilizados:
1. Definir, a partir del uso que se har de la informacin, el ancho de clases que se emplear,
y con esto ver cuntas clases surgen.
2. Definir, a partir de la cantidad de datos disponibles, la cantidad de clases que se crearn, y
a partir de ah calcular el ancho que debern tener las mismas.
Los pasos que se deben dar para agrupar los valores observados segn el segundo mtodo
pueden resumirse como sigue:
1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor mximo
y el mnimo de la variable: R = Xmax - Xmin
2. Definir el nmero de intervalos o clases (k): La prctica indica que menos de 4 5 clases
suele ser muy poco y que en general ms de 20 clases puede ser excesivo, es decir, ni tan
pocos, que se pierda demasiada informacin, ni tantos que parezca que no se han
agrupados los datos ( 4 k 20 )
3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de los
datos entre la cantidad de clases que se decidi usar, aproximado convenientemente y
siempre por exceso: c R/k
4. Crear las clases, partiendo del valor mnimo observado (xmin) o un valor inferior, y sumando
sucesivamente el ancho de clases (c) determinado.
5. Clasificar la variable en las distintas clases, para lo cual se puede hacer un tarjado,
obteniendo las frecuencias absolutas correspondiente (ni).
6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni) y
relativas acumuladas (Fi).
7. Determinar las marcas de clases (Xi), valores que representarn a sus respectivas clases.
Polgonos de frecuencias
Son similares a los grficos de barras, y tienen la misma funcin, aunque actualmente se
utilizan menos que aquellos. Constan de tambin de dos ejes, con la diferencia de que en el
eje horizontal, si los datos estn agrupados en clases se distribuyen no sus lmites de clase
sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada
observacin o marca de clase se hace una marca a la altura de la frecuencia observada, y
posteriormente estas marcas se unen con trazos rectos, formando una lnea poligonal.
1
2
3
2
2
1
2
3
2
4
0
0
1
2
0
3
nmero de
ausencias
Xi
0
1
2
3
4
tarjado
////
///
///////
////
//
cantidad de
estudiantes
ni
4
3
7
4
2
n = 20
proporcin de
estudiantes
fi
0,20
0,15
0,35
0,20
0,10
Ni
4
7
14
18
20
Fi
0,20
0,35
0,70
0,90
1,00
10
Representacin grfica:
A partir de la tabla de frecuencias se puede construir cualquiera de los grficos siguientes:
grfico de barras
ni
polgono de frecuencias
ni
8
7
6
5
4
3
2
1
0
8
7
6
5
4
3
2
1
0
0
4 xi
4 xi
diagrama circular
4
10%
0
20%
3
20%
2
35%
1
15%
11
39
28
30
23
30
34
30
26
30
48
33
27
21
43
47
32
32
37
40
23
36
42
39
36
31
41
30
25
21
24
26
31
33
38
38
32
34
47
31
35
36
41
28
38
36
todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no
en la que va de 30 a 35.
clases
(Li-1; Li]
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
tarjado
Xi
22,5
27,5
32,5
37,5
42,5
47,5
ni
///// /
6
///// ///// ///
13
///// ///// /
11
///// ///// /
11
/////
5
////
4
n = 50
fi
0,12
0,26
0,22
0,22
0,10
0,08
1,00
Ni
6
19
30
41
46
50
Fi
0,12
0,38
0,60
0,82
0,92
1,00
n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina, o que
consumieron como promedio 27,5 litros (utilizando la marca de clases)
f3 = 0,22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina, o que
consumieron 32,5 litros como promedio.
F5 = 0,92: indica que el 92% de los taxis consumi HASTA 45 litros de gasolina, o un
mximo de 45 litros.
Representacin grfica:
histograma
ni
ni
polgono de frecuencias
14
12
10
8
6
4
2
0
14
12
10
8
6
4
2
0
20
25
30
35
40
45
50
X (clases)
22,5
27,5
32,5
37,5
42,5
47,5 i
X
EJERCICIOS DE AUTOEVALUACIN
1.- Ponga 3 ejemplos de variables discretas y 3 de variables continuas
2.- Qu quiere decir organizar los datos?
3.- Cmo se forma una tabla de frecuencias?
13
4.- A partir de los siguientes datos, que representan el nmero de habitaciones de 50 viviendas
del municipio Plaza, que se estn visitando para estudiar el grado de hacinamiento, construya
una distribucin de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3
frecuencias absolutas y relativas acumuladas.
3
4
2
3
4
2
3
3
2
4
3
2
2
2
3
4
1
1
3
3
3
1
2
4
2
5
2
2
1
2
2
5
2
1
2
1
2
3
5
1
3
3
3
2
1
2
1
4
3
2
3
7.5
5
4
8
5
3
3
7
7.5
4
7
5
4
7
5
10
10
7
7.5
7
15
3
5
8
4
5
4
4
7
7.5
7.5
5
7
7
8
12
7
10
12
5
8
5
7.5
8
# de hoteles
25
37
12
22
14
400
500
600
700
500
600
700
800
21
13
5
3
15
16
x=
xi
n
x=
1
xi
n
(definicin)
EJEMPLO:
Sea X las calificaciones de un estudiante:
X: 5 4 3 4 5 3 5 5
Su promedio es, por tanto:
34
1
1
= 4,25
x = x i = (5 + 4 + 3 + 4 + 5 + 3 + 5 + 5 ) =
8
8
n
Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) se
repite una determinada cantidad de veces (ni), y por tanto, la expresin matemtica derivada de
la definicin de la media debe modificarse, como se muestra, multiplicando cada valor por su
respectiva frecuencia.
x=
1
x in i
x = x in i x = x i f i
n
n
ni
4
3
7
4
2
fi
0,20
0,15
0,35
0,20
0,10
Ni
4
7
14
18
20
Fi
0,20
0,35
0,70
0,90
1,00
Xini
0
3
14
12
8
37
x=
1
37
= 1,85
x in i =
n
20
Xi
ni
fi
Xini
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
22,5
27,5
32,5
37,5
42,5
47,5
6
13
11
11
5
4
0,12
0,26
0,22
0,22
0,10
0,08
135,0
357,5
357,5
412,5
212,5
190,0
1665,0
x=
1
1665
= 33,3
x in i =
50
n
Nota: Para los clculos de la media en datos agrupados en clases se utilizan las marcas de
clase, y salvo eso, la expresin matemtica empleada no se diferencia del caso en que los
17
datos no estn agrupados. Algo a tener en cuenta en este sentido es que si existen intervalos
abiertos, como a veces se presenta la primera o la ltima clase, la media no se puede calcular
a menos que se modifiquen los mismos.
PROPIEDADES Y CARACTERSTICAS DE LA MEDIA:
Algunas propiedades importantes y con utilidad prctica de la media son:
1. M(k) = k (La media de una constante es igual a la propia constante.)
2. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por
la media de la variable.)
3. M(k + x) = k + M(x) (La media de una constante ms una variable es igual a la
constante ms la media de la variable.)
4. M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de
las medias de ambas variables.)
5. M(x - x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero.)
6. M(x - x )2 = mnimo. (La media del cuadrado de las desviaciones con respecto a la
media al cuadrado es un mnimo.)
Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable y
un valor fijo; cuando este valor fijo es la propia media de la variable, se le llama desviaciones
con respecto a la media.
De la quinta propiedad citada se deduce que la media es el centro de gravedad o el punto de
equilibrio de la distribucin, o sea, el valor que correspondera a una distribucin equitativa para
todas las observaciones.
Una caracterstica notable en la media es que sta se ve afectada por la ocurrencia de
valores extremos, esto quiere decir que si hay algunos valores atpicos en el conjunto, estos
arrastran consigo el valor de la media; as, valores atpicos muy grandes conducirn a una
media mayor que la real del conjunto, mientras que valores muy pequeos provocarn que la
media sea menor que la real.
MODA
La moda se define como el valor mas frecuente en un conjunto de datos, es decir, el valor
modal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribucin
(distribucin amodal), o existir ms de una (distribucin multimodal).
La moda cobra especial importancia en datos de tipo cualitativo, pues en ellos es imposible
calcular otros estadgrafos de posicin, como la media. Esto no quita que tambin para datos
cuantitativos suele ser de inters conocer el valor modal, que se utiliza en ocasiones como
medida de tendencia central.
18
Para determinar la moda a partir de datos primarios suele ser conveniente organizar primero
estos, conformando lo que se llama un arreglo ordenado.
EJEMPLO:
Sean las calificaciones de tres estudiantes:
A: 3 4 3 4 5 4 5 4 4
B: 3 4 5 4 5 4 5 5 4
C: 3 4 3 4 5 4 5 5 3
Nota: Para el estudiante C ninguna nota es ms frecuente que las dems, por eso
no tiene valor modal.
En datos tabulados es muy sencillo encontrar el valor o valores modales, pues son aquellos que
presentan la mxima frecuencia absoluta.
EJEMPLO 1 (caso de datos no agrupados, continuacin):
Determinar la moda de inasistencias para los 20 estudiantes del grupo analizado:
Xi
0
1
2
3
4
ni
4
3
7
4
2
fi
0,20
0,15
0,35
0,20
0,10
Ni
4
7
14
18
20
Fi
0,20
0,35
0,70
0,90
1,00
Nota: La frecuencia modal es 7, porque la cantidad de inasistencias que ms ocurre, que son
dos, se repite 7 veces en la muestra (o un 35% de las veces).
Cuando se trabaja con datos agrupados en clases, es sencillo determinar la clase o clases
modales existentes, y para muchos fines esto es suficiente. Pero si se quiere indicar un valor
modal dentro de la clase modal, se ha determinado, atendiendo a cuestiones geomtricas, que
el mismo puede obtenerse a partir de la expresin:
Mo ( x ) = L mod 1 + c
Siendo:
Lmod-1:
c:
nmod:
nmod-1:
(n mod
n mod n mod 1
n mod 1 ) + (n mod n mod +1 )
Xi
22,5
27,5
32,5
37,5
42,5
47,5
ni
6
13
11
11
5
4
fi
0,12
0,26
0,22
0,22
0,10
0,08
nmod = 13
clase modal: 25 - 30
Mo ( x ) = L mod 1 + c
Mo ( x ) = 25 + 5
(n mod
n mod n mod 1
13 6
= 25 + 5
(13 6 ) + (13 11)
n mod 1 ) + (n mod n mod +1 )
7
= 25 + 3,89 = 28,89
9
CARACTERSTICAS DE LA MODA:
A diferencia de la media, la moda no se afecta ante la presencia de valores extremos.
La moda, como se ha visto, no tiene necesariamente que existir, ni tiene que ser nica.
Adems, la moda puede ser definida en forma relativa, aunque es menos frecuente este uso,
llamando valor modal a aquel donde exista un mximo relativo en la distribucin de frecuencias,
esto es, donde: ni 1 < ni >ni + 1
MEDIANA
La mediana se define como el valor central de un grupo de datos ordenados, o sea, como aquel
valor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 %
de las observaciones. Se denota por Me(x).
Para calcular la mediana a partir de un conjunto de datos en su forma primaria, es necesario
antes ordenarlos; despus, se puede buscar la posicin del valor mediano en el arreglo
ordenado, atendiendo al nmero de observaciones, segn las dos siguientes reglas:
Regla 1: Si el tamao de la muestra es un nmero impar, la mediana est representada
por el valor numrico correspondiente a la posicin del centro de las observaciones
ordenadas.
20
3 4 4 5 5 5 5
Me(x) = 5
SII: 3 4 4 4 5 5 5 5
Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede proceder
de la siguiente manera:
1. Determinar la fraccin n/2, que ubica el centro de la distribucin.
2. Encontrar la denominada frecuencia mediana, que es la primera frecuencia absoluta
acumulada que iguala o supera a n/2 (representada por Nmed); y entonces:
ni
4
3
7
4
2
fi
0,20
0,15
0,35
0,20
0,10
Ni
4
7
14
18
20
Fi
0,20
0,35
0,70
0,90
1,00
n/2 = 10
Nmed = 14 ( >10 )
Me(X) = 2
Nota: La frecuencia mediana es 14, porque es la primera
frecuencia absoluta acumulada que sobrepasa a n/2 = 10.
21
En el caso de datos agrupados en clases, se determina ante todo una clase mediana, como
aquella cuya frecuencia absoluta acumulada sobrepasa a n/2; y si quiere un valor mediano,
sobre esa clase se aplica la siguiente expresin:
n N
med1
Me( x ) = L med1 + c 2
nmed
Siendo:
Lmed-1:
c:
Nmed-1:
nmed:
clases
Xi
ni
Ni
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
22,5
27,5
32,5
37,5
42,5
47,5
6
13
11
11
5
4
6
19
30
41
46
50
Nmed = 30
clase mediana: 30 - 35
n Nmed1
25 19
6
Me( x ) = Lmed1 + c 2
= 30 + 5
= 30 + 5 = 30 + 2,73 = 32,73
nmed
11
11
CARACTERSTICAS DE LA MEDIANA:
La mediana no se ve afectada por datos extremos, es por ello que cuando stos existen ella
es ms representativa que la media como medida de tendencia central.
22
Precisamente, los estadgrafos de dispersin son medidas que describen cmo se distribuyen
los datos alrededor de alguno de sus valores representativos, principalmente alrededor de su
media.
Por tanto, las medidas de posicin no dicen mucho si no estn acompaadas de medidas de
dispersin o variabilidad, porque a travs de estas ltimas es que se puede determinar si la
medida de posicin es significativa o representativa de la distribucin.
Entre las medidas de dispersin ms empleadas destacan la varianza, la desviacin tpica y el
coeficiente de variacin.
VARIANZA
La varianza de un conjunto de datos se define como la media o promedio del cuadrado de las
desviaciones de la variable respecto a su media. Por sus propiedades, es la medida de
dispersin ms usada, y base para el clculo de otras.
La varianza se representa:
en la muestra, por S2
en la poblacin, por 2 (la letra griega sigma, al cuadrado)
en definiciones y demostraciones, por V(x)
De la definicin de la varianza se desprende que sta, en una muestra, puede calcularse como:
(x i x )
n
S2 =
S2 =
1
2
(x i x )
n
(definicin)
EJEMPLO:
1
1
2
2
2
2
2
2
2
(x i x ) = (5 4 ) + (4 4 ) + (3 4 ) + (4 4 ) + (5 4 ) + (3 4 )
n
6
1
4
2
2
S 2 = 12 + 0 2 + ( 1) + 0 2 + 12 + ( 1) = = 0,67
6
6
S2 =
Al trabajar con datos tabulados debe tenerse en cuenta, al igual que en los clculos de la
media, que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y por
tanto, la expresin matemtica derivada de la definicin debe modificarse, como se muestra:
23
(x i x ) n i
S =
n
2
S2 =
1
2
2
(x i x ) n i S 2 = (x i x ) fi
n
Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado:
Xi
0
1
2
3
4
ni
4
3
7
4
2
fi
0,20
0,15
0,35
0,20
0,10
Ni
4
7
14
18
20
Fi
0,20
0,35
0,70
0,90
1,00
(x i x )2 ni
13,6900
2,1675
0,1575
1
30,55
2
2
5,2900 S = n (x i x ) n i = 20 = 1,53
9,2450
30,5500
Nota: Algunos clculos se han organizado utilizando la propia tabla de frecuencias.
EJEMPLO 2 (caso de datos agrupados, continuacin):
Xi
ni
(x i x )2 ni
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
22,5
27,5
32,5
37,5
42,5
47,5
6
13
11
11
5
4
n=50
703,7334
441,8557
7,5779
191,2779
420,4445
803,1556
2568,0450
S2 =
1
2568 ,045
2
= 128 ,4
(x i x ) n i =
n
50
24
No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado de
dispersin de los datos; se dice que es una medida de dispersin absoluta: mientras mayor es
la varianza en un conjunto de observaciones, mayor es su dispersin; por el contrario, si una
varianza nula indica que todas las observaciones coinciden en un mismo valor.
S = S2
EJEMPLO:
Sea X el precio de venta, en centavos, los distintos jabones de una marca dada:
X: 40 35 45 50 40
El precio promedio para la marca es: x =
La varianza es: S 2 =
1
40 + 35 + 45 + 50 + 40
= 42
xi =
n
5
1
130
2
= 26 2
(x i x ) =
n
5
La desviacin tpica es una magnitud no negativa, y con el misma interpretacin que la varianza
en cuanto a medida de dispersin absoluta, pero no cumple las restantes propiedades
matemticas de aquella, pues la extraccin de la raz no lo permite.
COEFICIENTE DE VARIACIN
En ocasiones resulta necesario contar con un estadgrafo que refleje la dispersin sin depender
de la magnitud de las observaciones, esto es que sea un valor relativo. Esta necesidad surge
generalmente cuando se comparan las dispersiones entre varios conjuntos expresados en
unidades diferentes, o incluso entre variables expresadas en las mismas unidades pero con
diferencias significativas en sus valores medios. Este estadstico es el denominado coeficiente
de variacin.
El coeficiente de variacin se define como el cociente de la desviacin tpica entre la media. Se
denota por CV(x), y en forma matemtica puede expresarse:
25
CV( x ) =
Sx
x
Del coeficiente de variacin se dice que es una medida de dispersin relativa, por carecer de
unidades, o una medida de la variabilidad de los datos. Muchas veces su valor se multiplica por
100, para expresar el resultado en porciento.
EJEMPLO:
Sea cuenta con datos del peso y la estatura de un grupo de 20 nios entre 8 y 10 aos,
y se desea saber cul de las dos variables tiene mayor variabilidad.
X: estatura (cm)
Y: peso (kg)
X = 155 cm
S 2X
Y = 42 kg
2
S 2Y = 20 kg2
S Y = 4,5 kg
= 110 cm
S X = 10,5 cm
En este caso no tiene sentido decir que hay mayor dispersin en trminos absolutos en
la estatura, por el hecho de que la desviacin estndar para dicha variable es 10,5
mientras que para el peso es 4,5, pues las unidades en que estn expresadas ambas
no son comparables. Aqu cobran especial importancia los coeficientes de variacin,
que quedan:
CV( X) =
10,5
= 0,068 = 6,8%
155
CV( Y ) =
4,5
= 0,107 = 10,7%
42
De ello resulta que hay mayor variabilidad en el peso (10,7%) que en la estatura de los
nios (6,8%).
EJERCICIOS DE AUTOEVALUACIN
1.- Qu indican las medidas de tendencia central?
2.- Cmo se define la media aritmtica? Cules son sus propiedades?
3.- Qu desventajas se le pudiera atribuir a la media?
4.- Cmo se define la mediana?
5.- Cul de los dos estadsticos, media y mediana, considera que es mejor para representar el
promedio? Explique su respuesta.
6.- Cmo se define la moda?
7.- En que casos considera til utilizar la moda?
26
a.- Calcule la media, la mediana y la moda. Qu medidas descriptivas parecen ser las mejores
y cuales las peores? Por que?
b.- Calcule la varianza, la desviacin tpica y el coeficiente de variacin.
c.- Utilizando la informacin anterior qu se aconsejara al fabricante si l deseara anunciar
que sus bateras duran 400 horas?
16.- Examinando los registros de cuentas mensuales de una empresa que vende
libros por correo, el auditor toma una muestra de 20 de esas cuentas no pagadas
(dadas en cientos de pesos). Los adeudos de la empresa eran:
a.- Calcule la media, la mediana y la moda.
b.- Calcule la varianza y el coeficiente de variacin e interprete los resultados.
c.- A que conclusin llegara acerca de la empresa conociendo que tiene 370
facturas pendientes de pago.
Li-1
10
15
20
25
30
Li
15
20
25
30
35
ni
4
6
7
2
1
27
N(S) = 2
S: { 1, 2, 3, 4, 5, 6 }
N(S) = 6
S: { CC ; CE ; EC ; CC }
N(S) = 4
El espacio muestral puede ser finito o infinito segn el conjunto tenga un nmero finito o infinito
de elementos (puntos muestrales).
Punto muestral: Es cada uno de los resultados posibles de un experimento o fenmeno
aleatorio.
Suceso o evento: Cualquier caracterstica observada como resultado de un experimento o
fenmeno, y es aleatorio si tiene tanto posibilidad de ocurrir o como de no ocurrir; o sea, es una
coleccin cualquiera de puntos muestrales. Se utilizan letras maysculas para representarlos,
exceptuando la S.
Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizan
los diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestral
como un rectngulo, y dentro de este, con crculos u otras formas geomtricas los diferentes
sucesos de inters, as:
S
A
A={6}
B = { 4; 5; 6 }
C = { 1; 2 }
D = { 2; 4; 6 }
E = { 1; 3; 5 }
F = { 1; 2; 3; 5 }
G = { 1; 2; 3; 4; 5; 6 } (= S )
H = (conjunto vaco)
29
Adems, en funcin del vnculo de un suceso o evento con otros existen las siguientes
denominaciones:
Subevento: A es un subevento o subsuceso de B si todos los puntos muestrales de A estn
incluidos en B, o sea, A B. (En el ejemplo anterior: A B, A D, C F, E F.)
AB
Sucesos complementarios: Un suceso es complementario de otro suceso A, si est
formado por todos los puntos del espacio muestral que no estn incluidos en A; se dice
entonces que ese suceso es el complemento de A, y se denota por A' o Ac. (En el ejemplo
anterior se tiene para A = { 6 } que el complemento es A = { 1; 2; 3; 4; 5}.)
30
Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los
sucesos complementarios son excluyentes; lo contrario no necesariamente ocurre.
Sucesos no excluyentes: Dos sucesos son no excluyentes si pueden ocurrir
simultneamente, es decir, si tienen puntos en comn. (En el ejemplo anterior son no
excluyentes A y B, C y D, B y D, C y E, etc.)
Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la
ocurrencia de ambos abarca el espacio muestral. (En el ejemplo anterior son no exhaustivos:
D y E, D y F.)
Nota: Un caso particular de sucesos exhaustivos son los complementarios. Todos los
sucesos complementarios son exhaustivos; lo contrario no necesariamente ocurre.
Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un nmero mayor que
3) y D = { 2; 4; 6 } (que salga un nmero par), la interseccin es el suceso dado por que
salga un nmero par y mayor que tres, es decir: B D BD = { 4; 6 }
B D BD
31
Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un nmero mayor que
3) y D = { 2; 4; 6 } (que salga un nmero par), la unin es el suceso dado por que salga
un nmero par o mayor que tres, es decir: B D = { 2; 4; 5; 6 }
BD
Ej.: En el lanzamiento del dado, siendo C = { 1; 2 } (que salga un nmero menor o igual
que 2), el complemento unin es el suceso dado por que salga un nmero mayor que 2,
es decir: C = { 3; 4; 5; 6 }
C Cc
P( A ) =
N( A )
N(S)
Ejemplos:
La probabilidad de obtener el nmero 6 al lanzar un dado ser:
A: Que salga el 6.
N(A) = 1
P(A) = 1/6 = 0,167
32
nA
= lim f A
n n
PROPIEDADES DE LA PROBABILIDAD:
La probabilidad, como medida de la posibilidad de ocurrencia de un suceso, cumple las
siguientes propiedades:
P(A) 0
P(S) = 1
33
EJERCICIOS DE AUTOEVALUACIN
1.- Qu es un experimento aleatorio?
2.- Puede calcularse probabilidad a partir de un experimento determinista?. Explique.
3.- Cules son los sucesos mutuamente excluyentes?
4.- Cules son los sucesos complementarios?
5.- Explique la diferencia entre unin e interseccin y proporcione un ejemplo de cada uno.
6.- Cmo se define la probabilidad clsicamente? Bajo que condiciones puede aplicarse?
7.- Cmo se define la probabilidad estadstica o frecuencialmente?
8.- Cules son las limitaciones de ambas definiciones?
9.- En una amplia red metropolitana se seleccion una muestra de 500 entrevistados para
determinar diversas informaciones relacionadas con el comportamiento del consumidor.
Entre las preguntas hechas se encontraba: disfruta ir de compras?. De 240 hombres 136
contestaron que s; de 260 mujeres 224 contestaron que s.
a.- De un ejemplo de un evento simple.
b.- Cul es el complemento de disfrutar ir de compras?
c.- Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ...
c.1
sea hombre?
c.2
disfrute ir de compras?
c.3
sea mujer?
c.4
no disfrute ir de compras?
c.5
sea mujer y disfrute ir de compras?
c.6
sea hombre y no disfrute ir de compras?
c.7
sea hombre y disfrute ir de compras?
c.8
sea mujer o disfrute ir de compras?
c.9
sea hombre o no disfrute ir de compras?
34
Teorema 2:
Teorema 3:
Teorema 4:
Teorema 5:
Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma, 105 leen Juventud
Rebelde y 45 leen ambos peridicos.
a.- Cul es la probabilidad de seleccionar aleatoriamente un habanero del grupo
y lea Granma o Juventud Rebelde.
b.- Qu probabilidad hay de que el habanero seleccionado no lea ninguno de los
peridicos?
c.- Qu probabilidad hay de que lea slo Granma?
P(G) = 0,42
P(J) = 0,105
P(GJ) = 0,045
PROBABILIDAD CONDICIONAL:
Muchas veces surge la necesidad de calcular la probabilidad de ocurrencia de un suceso
asumiendo la ocurrencia de otro, que puede ser llamado condicionante; esto quiere decir que ya
no interesa la totalidad del espacio muestral, sino slo aquella parte o subconjunto de aquel que
coincide con la realizacin del suceso condicionante. La probabilidad as calculada se le llama
probabilidad condicional.
Para representar la probabilidad condicional de un suceso A respecto a otro B (condicionante o
condicin) se utiliza la el smbolo P(A/B), que se lee probabilidad de A dado B, o probabilidad
de A si ocurre B.
Matemticamente se puede calcular la probabilidad condicional como el cociente de la
probabilidad de interseccin de los dos sucesos entre la probabilidad del suceso condicionante:
36
P( A / B) =
P( AB)
P(B)
Tambin se puede calcular la probabilidad condicional directamente a partir del tamao de los
sucesos:
N( AB)
P( A / B) =
N(B)
Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina
bien el primer ao de Ingls, y que un 59,5% termina bien los dos aos de estudio. Se
quiere determinar la probabilidad de que un estudiante termine bien el segundo ao.
P(B / A ) =
Se sabe que:
P(A)=0,70
P(AB)=0,595
P( AB) 0,595
=
= 0,85
P( A )
0,70
37
INDEPENDENCIA DE SUCESOS:
Dos sucesos A y B se llaman independientes, cuando la probabilidad de ocurrencia de uno de
ellos, no depende de la ocurrencia o no del otro.
Dos sucesos son independientes si se cumple alguna de las siguientes igualdades:
1. P(A/B) = P(A)
2. P(B/A) = P(B)
3. P(AB) = P(A) P(B)
Se debe aclarar que slo se puede comprobar independencia a travs de esta ltima frmula si
se tienen las 3 probabilidades y comprobar si la interseccin es igual al producto de la
probabilidad de ambos sucesos.
Un ejemplo de independencia es el siguiente: Si se lanza una moneda dos veces, la
probabilidad de que salga cara en el primer lanzamiento, no depende de que salga cara o no en
el segundo lanzamiento.
Ejemplo:
Si una caja contiene 100 piezas de las cules 20 son defectuosas y se extraen aleatoriamente 2
piezas una a una (con reposicin). Cul ser la probabilidad de obtener una pieza defectuosa
en la primera extraccin?:
P=20/100=0.20
Y cul ser la probabilidad, en la segunda extraccin, de obtener tambin una pieza
defectuosa?
P=20/100=0.20, es decir exactamente igual, esto es debido a que se repuso la primera pieza.
Por tanto, cuando las observaciones son con reposicin se puede considerar que son
independientes, pues lo que ocurre en la segunda extraccin es independiente de lo que
ocurre en la primera (y as con las sucesivas, si hay ms). Pero si no se repone, es decir,
se hacen las observaciones sin reposicin la probabilidad de cada observacin
depende de las anteriores.
Si de la caja de 100 piezas en la primera extraccin sale una pieza defectuosa, la probabilidad
de pieza defectuosa en la segunda extraccin, sin reponer la primera pieza tomada, ser 19/99;
pero si lo que sale en la primera extraccin es una pieza en buen estado, entonces la
probabilidad de pieza defectuosa en la segunda extraccin ser 20/99.
Generalmente para los juegos de azar, es fcil decidir si dos sucesos son independientes o no.
Para otros experimentos aleatorios, se debe tener ms cuidado.
Ejemplo. Si se tienen 3 sucesos definidos en un espacio muestral S y se conoce que:
P(A)=0.40 P(B)=0.42 P(C)=0.15 P(A/B)=0 P(A/C)=0 P(C/B)=0
38
Diga si:
a.- A y B son independiente
b.- A y C son mutuamente excluyentes
c.- B y C son independientes
d.- A y B son equiprobables
a.- P(A/B) = P(A) ya que para que A y B sean independientes se debe cumplir esta relacin.
Pero P(A/B) = 0 y P(A) = 0.40 luego son diferentes por tanto no son independiente.
b.- Para que sean mutuamente excluyentes se debe cumplir que P(AC)=0, ya que al no tener
elementos comunes(AC), la interseccin es igual al conjunto vaco.
Como P(A/C)=0 eso implica que P(AC)=0 ya que P(A/C)=P(AC)/P(C) por lo tanto los sucesos
A y C son mutuamente excluyentes.
c.- P(B/C) = P(B)
cualquiera de las dos.
d.- Para que sean equiprobables se debe cumplir que P(A) = P(B), pero:
P(A) = 0.40 P(B) = 0.42, por tanto no son equiprobables.
EJERCICIOS DE AUTOEVALUACIN
1.- Cules son los axiomas sobre los que descansa la teora axiomtica de la probabilidad?
2.- Diga al menos 3 propiedades de la definicin axiomtica de probabilidad.
3.- Cundo dos sucesos son independientes?
4.- Cundo dos sucesos son mutuamente excluyentes?
5.- Un embarque de 10 muecos contiene 3 muecos y 7 muecas.
a.- Si se seleccionan dos muecos, sin reposicin, cul es la probabilidad de que:
a1.- sean dos muecas?
a2.- haya una mueca y un mueco?
a3.- el primer mueco seleccionado sea una mueca y el segundo un mueco?.
b.- compare la respuesta a.2 y a.3 y explique porque son diferentes.
6.- Con referencia al ejercicio 9 de la autoevaluacin de la semana anterior.
a.- Supngase que el entrevistado seleccionado sea mujer. Cul es entonces la
probabilidad de que no disfrute ir de compras?
b.- Supngase que el entrevistado seleccionado disfruta ir de compras. Cul es la
probabilidad de que sea un hombre?
c.- Son estadsticamente independiente disfrutar ir de compras y el sexo de la persona?
Fundamente su respuesta.
d.- Cul es la probabilidad de que un entrevistado, seleccionado en forma aleatoria...
d.1.- Sea mujer o disfrute ir de compras?
39
40
FUNCIN DE PROBABILIDAD:
Una funcin de probabilidad es la correspondencia que se establece entre los valores, o
intervalos de valores, de una variable aleatoria y la probabilidad de ocurrencia de stos. Se
denota por f(x).
41
2.- f (x) = 1
1.- f (x) 0
2.-
f ( x)dx = 1
Xmin
4.- P (X = Xk) = 0
Esta ltima propiedad nos indica que para variables continuas la probabilidad de tomar un valor
puntual es nula, y esto conlleva que para las variables continuas se cumpla lo siguiente:
b
(Por tanto, en el caso continuo no importa si las desigualdades son estrictas o no,
pues da igual: un punto por s mismo no influye, no aporta probabilidad.)
FUNCIN DE DISTRIBUCIN:
Existe otra funcin que est ntimamente relacionada con las funciones de probabilidad, la cual
se denomina funcin de distribucin o funcin de acumulacin probabilstica, y se denota
por F(x).
La funcin de distribucin recoge la probabilidad de que la variable tome valores menores o
iguales al valor dado, es decir, acumula las probabilidades hasta un valor dado (xk). Esto,
matemticamente, quiere decir que:
F(xk) = P(X Xk)
Toda funcin de distribucin cumple las siguientes propiedades:
1. lim F( x ) = 0
X
2. lim F( x ) = 1
3. 0 F(x) 1
Xk
f(x )
i
Xmin
42
F( x k ) = f ( x) dx
Xmin
F( x )
= f(x)
x
c.- x f (x)
0 1/10
1 2/10
F(x)
1/10
3/10
43
2 3/10 6/10
3 4/10 10/10
Nota: Como se ve, si la variable es discreta F(x), se determina de la mismo que Fi, es
decir las frecuencias relativas acumuladas.
3
(3 + 2 x)dx
(3 + 2 x)dx
(3 + 2 x)dx
El valor medio de una variable aleatoria, se denomina media terica, valor esperado o
esperanza matemtica, y se denota por E(x) .
La media o valor esperado de una variable aleatoria se puede considerar como su promedio
ponderado sobre todos los resultados posibles siendo las "ponderaciones" la probabilidad
relacionada con cada uno de los resultados.
El clculo del valor esperado est en dependencia si se est trabajando con variables
aleatorias discretas o continuas. En el caso de las variables aleatorias discretas, esta medida de
resumen se puede obtener multiplicando cada posible de la variable, xi, por su probabilidad
correspondiente, P(xi) o f(xi), y despus sumando los productos resultantes, as:
= E (x) = x f(x)
En el caso de las variables aleatorias continuas, esta medida de resumen se obtiene integrando
el producto de la variable x por su funcin de probabilidad, desde el valor mnimo de la variable,
xmin, hasta su valor mximo, xmax, de la siguiente forma:
Xmax
= E( x ) =
x f ( x) dx
Xmin
E (k) = k
2.- La esperanza del producto de una constante por una variable es igual a la constante por la
esperanza de la variable:
E (kx) = k E (x)
3.- Si x1, x2 , ... , xn son variables aleatorias entonces:
E ( xi ) = E (x)
4.- La esperanza de la suma (o resta) de una constante y una variable es igual a la constante
ms la suma (o resta) de la esperanza de x:
45
E (k x) = k E (x)
V( x ) =
( x )
f ( x )dx
x min
Haciendo transformaciones matemticas se puede llegar a obtener una frmula de clculo para
la varianza que es mucho ms cmoda.
V(x) = E (x2) - [E (x)]2 en el caso de la variable discreta la:
xn
f ( x )dx
x1
Propiedades de la varianza:
V(x) 0
V(k) = 0
46
3.- La varianza del producto de una constante por una variable es igual a la constante al
cuadrado por la varianza de la variable:
V(kx) = k2 V(x)
4.- La varianza de la suma de una constante ms una variable es igual a la varianza de la
variable:
V(k+x) = V(x)
5.- Si x1 , x2 , ...xn son variables aleatorias independientes, entonces la varianza de la suma de
"n" variables es igual a la suma de las varianza de las variables:
V( xi) = V(xi)
6.- La varianza de la suma del producto de "n" variables por "n" constantes es igual a la suma
del producto de las "n" constantes al cuadrado por las varianzas de las variables:
V(C1 x1 + C2 x2 + ... + Cn xn) = C 21 V(x1) + C22 V(x2) + ... + C2n V(xn)
Ejemplo 1.- La funcin de una variable aleatoria x, esta dado por:
x:
1
2
3
4
f(x): 1/6 1/3 1/6 1/3
Calcular el valor esperado de x y su varianza.
Solucin:
Primeramente se debe definir si es una variable aleatoria discreta o continua, ya que en
dependencia del tipo de variable as ser su clculo. En este caso es discreta, se sabe, porque
la variable toma valores definidos: 1, 2, 3, y 4.
Para los clculos se necesitarn los productos x f (x) y x2 f (x), que se pueden tabular:
x:
f(x):
x f(x)
x2 f(x)
1
1/6
1/6
1/6
2
1/3
2/3
4/3
3
1/6
3/6
9/6
4
1/3
4/3
16/3
Entonces:
E (x)= = x f (x) = 1/6 + 2/3 + 3/6 + 4/6 = (1+4+3+8)/6 = 16/6 = 2,66
V(x)= E(x2) - [E(x)]2
E(x2) = x2 f (x) = 1/6 + 4/3 + 9/6 + 16/3 = (1+ 8 + 9 + 32)/6 = 50/6 = 8.33
V(x)= E(x2) - [E(x)]2 = 8.33 - 2,662 = 8.33 - 7.07 = 1.26
Ejemplo 2.- Si f (x) = x/2 para 0 < x < 2
a.- Cul ser el valor de la varianza de x?
b.- Hallar E(x+3)
c.- Hallar E(2x2)
d.- Cul ser el valor de V(2x)?
e.- Cul es el valor de la desviacin tpica de x?
47
Solucin:
Qu tipo de variable es esta? La forma de presentar el recorrido de la variable x, indica que
es una variable continua.
2
2
1 2
1 x3
18
8 4
x dx = = 0 = = = 1.33
a.- E( x ) = x f ( x )dx =
20
2 3
23
6 3
0
2
1 3
1 x4
E( x ) = x f ( x )dx =
x dx =
20
2 4
0
2
1 16
16
=
0 =
=2
8
0 2 4
EJERCICIOS DE AUTOEVALUACIN
1.- Qu entiende por variable aleatoria? A qu se denomina funcin de probabilidad? Cmo
se denomina a la funcin de probabilidad de una variable aleatoria discreta y cmo a la de una
variable continua? Cmo se define la funcin de distribucin?
2.- A partir de la definicin de funcin de distribucin como determinara las siguientes
probabilidades para una variable aleatoria discreta y para una variable aleatoria continua:
a.- P(x xk)
b.- P(x > xk)
c.- P(x1 x < x2)
d.- P(x1< x x2)
e.- P(x1 < x < x2)
f.- P(x1 x x2)
48
DISTRIBUCIN BINOMIAL
La distribucin Binomial es una de las distribuciones discretas ms utilizadas. Su nombre se
debe a la relacin que tiene la misma con el desarrollo del binomio:
(p + q)n =
Cnx p x qn x
x =0
n x n x
p q
x =0 x
n
n!
x!(n x )! p q
x n x
x =0
n
Donde el smbolos Cnx y son equivalentes y se leen combinatoria de n con x, siendo:
x
n
n!
C nx =
x x! (n x )!
La distribucin binomial est relacionada con la distribucin de Bernoulli, que es la distribucin
de una variable aleatoria que toma solamente valores cero y uno (fracaso y xito) al realizar una
nica observacin y verificar si ocurri o no un suceso de inters. Sin embargo existen con
frecuencia experimentos de carcter repetitivos en que interesa registrar la ocurrencia o no
ocurrencia de un suceso.
Distribucin Binomial: Antecedentes: Los experimentos son con reposicin, o independientes.
1.- Definicin de la variable:
n
3.- Funcin de Probabilidad: f ( x ) = p x qn x
x
f ( x) =
n!
p x qn x
x! (n x )!
49
xk
f ( x)
x min
5.- Parmetros:
= E(x) =
xf( x ) = np
x =0
La distribucin binomial queda definida por dos parmetros: "n" y "p", y cada vez que se
especifican estos parmetros se tiene un caso particular de distribucin binomial. La
notacin anterior se lee: X sigue una distribucin binomial con parmetros n y p.
7.- Forma: Una distribucin binomial puede ser simtrica o asimtrica (sesgada).
Siempre que p = 0.5, la distribucin binomial ser simtrica, sin tomar en cuenta que tan
grande o pequeo sea el valor de n. Sin embargo, cuando p es diferente de 0.5, la
distribucin ser sesgada. Cuanto ms cerca se encuentre p de 0.5 y mayor sea el
nmero de observaciones n, menos sesgada ser la distribucin, por otra parte, con
una p pequea la distribucin tendr un gran sesgo a la derecha y para una p muy
grande la distribucin tendra un gran sesgo a la izquierda.
50
Sin embargo debe tenerse en cuenta que no estn todos y cada uno de los valores de p que
se necesitan; y hay casos en que, al ser p > 0.5, sera necesario redefinir el clculo en trminos
de la variable complementaria (el fracaso), para la cual de xito es la q, y buscar entonces en
la tabla los valores equivalentes de x (esto se ver concretamente en un ejemplo).
51
Como en la tabla no est p = 0.85 > 0.5 habra que usar la funcin y sustituir los valores en ella
para calcular las probabilidades deseadas. No obstante, se puede utilizar la variable
complementaria de X y replantear los clculos en trminos de esto, con la equivalencia
adecuada entre X y X.
X: # de aviones de combate que regresan daados
n=4
px = qx = 0.15
Para buscar la equivalencia entre lo que pide el problema y como se tiene expresada la
variable se puede hacer una tabla que ayude a ver claramente lo que se va a calcular.
Aviones sin sufrir daos (x): 0 1 2 3 4
4 3 2 1 0
Aviones con daos (x):
Que regrese 1 avin sin sufrir dao es lo mismo que decir que regresen 3 daados; que
regresen 3 aviones sin sufrir daos es lo mismo que decir que regrese 1 avin daado
O sea, se busca la equivalencia entre la variable original y su complemento.
52
a.- P(2 x 4) P(x 2) = f (0) + f (1) + f (2) = 0.5220 + 0.3685 + 0.0975 = 0.9880
b.- P(x 3) P(x 1) = f (0) + f (1) = 0.5220 + 0.3685 = 0.8905
c.- P(x 2) P(x 2) = f(2) + f(3) + f(4) = 0.0975 + 0.0115 + 0.0005 = 0.1095
d.- P(x = 4) = 0.005 (Esta pregunta est realizada directamente en trminos de la variable
complementaria, de ah que no haya que buscar equivalencia.)
e.- np = 4(0,85) = 3.4 =
npq = 0.85(0.15)(4) = 0.1275(4) = 0.51 = 2
DISTRIBUCIN DE POISSON
Esta distribucin se refiere a aquellas situaciones en las cuales el suceso ocurre repetidamente,
pero al azar, es decir sin seguir una periodicidad dada, se produce aleatoriamente.
A la ocurrencia del suceso se le denomina cambio.
Estos cambios pueden ocurrir en el tiempo, o en puntos aleatorios, o en una lnea de espera; es
decir pueden formularse en funcin del tiempo, unidades de longitud, rea o volumen etc..
El inters estar centrado en: nmero de cambios que ocurren en un intervalo dado. Ejemplos:
Nmero de barcos que llegan al puerto de la Habana en una semana; nmero de negocios que
cierran, por semana, en Ciudad de la Habana.
1.- Definicin de la variable:
e x
x!
xk
f (x)
x min
53
5.- Parmetros:
=
Coinciden numricamente aunque por supuesto est expresada en
2 =
unidades lineales y 2 en unidades cuadrticas.
6.- Simblicamente se expresa como:
X P ( )
= 180/3600 = 0.05/segundos
1.- La cantidad esperada (o promedio) de llamadas recibidas en cualquier intervalo de un
segundo sera 0.05, es decir sera estable.
2.- La probabilidad de recibir ms de una llamada en cualquier intervalo de una fraccin
de segundo es cero.
3.- Recibir una llamada en un segundo dado no tiene efecto (o sea, es estadsticamente
independiente) sobre recibir otra llamada en cualquier otro intervalo de un segundo.
De la misma forma que para la distribucin binomial, la distribucin de Poisson se encuentra
tabulada, encontrndose su tabla en la Seleccin de Tablas estadsticas.
La tabla de la Poisson tiene en la primera fila los valores de , y en la primera columna los
valores de x designados en esta tabla por k. En ella aparecen grupos de valores para valores de
desde 0.1 hasta 8, estando estos grupos definidos hasta donde "x" puede tomar valores,
proporciona los valores de con aproximacin hasta la dcima.
Se debe sealar que para clculos con valores de mayores de 8 se puede acudir a la tabla de
la funcin exponencial, en la columna de exponentes negativos (e-x), que est en la pgina 20
de la Seleccin de tablas estadsticas; y sustituir luego en la frmula de la funcin de Poisson el
valor correspondiente.
54
Ejemplo 1
Una pizarra telefnica recibe 480 llamadas en una hora, pero no puede recibir ms de 12
llamadas en un minuto.
Determine:
a.- La probabilidad de que se produzcan 10 llamadas en un minuto.
b.- La probabilidad de que la pizarra quede saturada en medio minuto (30 segundos).
c.- La probabilidad de que se produzcan a lo sumo 1 llamada en un minuto dado.
d.- La probabilidad de que se produzcan ms de 2 llamadas en un minuto.
e.- El nmero de llamadas esperadas en cinco minutos.
Solucin:
x: # de llamadas que se reciben en un minuto
0 = 480 llamadas/hora (promedio histrico conocido)
Nota: Para los clculos posteriores se debe convertir el promedio conocido a las mismas
unidades de los intervalos de inters, en este caso pasar de llamadas por hora a
llamadas por minuto.
= = 40 llamadas
Ejemplo 2
Sea una distribucin de Poisson donde f (0) = 0.00674
Se pide:
a.- Hallar el valor de
b.- Calcular la probabilidad de que X = 0 , en un intervalo 1,5 veces el original.
Solucin:
e 0
0!
Pero: 0 = 1 y 0! = 1 (por propiedad del factorial).
56
EJERCICIOS DE AUTOEVALUACIN
1.- Qu expresa la variable X en una distribucin binomial, y cul es su recorrido? Cuales son
las caractersticas de la distribucin binomial? Qu parmetros la definen? Cul es su media
y cul su varianza?
2.- Qu expresa la variable X en una distribucin de Poisson, y cul es su recorrido? Cuales
son las caractersticas de una distribucin de Poisson? Qu parmetros definen la distribucin
de Poisson? Qu representa en la distribucin de Poisson? Cul es la media y la varianza
en la distribucin de Poisson?
3.- Sobre la base de la experiencia anterior, la impresora principal del centro de cmputo de
cierta universidad funciona adecuadamente el 90% del tiempo. Si se hace una muestra aleatoria
de 10 inspecciones:
a.- Cul es la probabilidad de que la impresora principal funcione en forma apropiada...
a.1.- exactamente nueve veces?
a.2.- por lo menos nueve veces?
a.3.- cuando ms 9 veces?
a.4.- ms de 9 veces?
a.5.- menos de 9 veces?
b.- Cuantas veces se puede esperar que funcione en forma apropiada la impresora
principal?
4.- El nmero promedio de automviles que se detienen por minuto para tomar gasolina en
cierta gasolinera perteneciente a CUPET de Ciudad de la Habana es 1.2. Cul es la
probabilidad de qu en determinado minuto se detengan...
a.- menos de dos automviles?
b.- ms de tres automviles?
c.- menos de dos automviles ms de tres?
d.- dos tres automviles para tomar gasolina?
e.- al menos dos automviles?
57
f ( x) =
1
2
1 x
xk
f ( x )dx
58
Por lo tanto, habr tantas curvas normales como valores o combinaciones particulares de y
haya.
Toda distribucin normal con media y desviacin tpica tiene la caracterstica de tener el
rea bajo la curva de su funcin de densidad, distribuida de la siguiente forma:
1. P( < < +) = 68.27% del rea bajo la curva normal
2. P( 2 < < +2) = 95.45% del rea bajo la curva normal
3. P( 3 < < +3) = 99.73% del rea bajo la curva normal
A estas tres expresiones se les llaman comnmente reglas de las 3 sigmas.
Como es una variable continua para calcular probabilidad se tendra que integrar la funcin de
X, en el intervalo que se quiere hallar la probabilidad.
La nica forma de hacer una tabla para evitar este clculo sera estandarizando la variable, es
decir cualquier variable aleatoria normal X, se convierte en una variable aleatoria estandarizada
"Z" que siempre tendra como media cero y desviacin tpica 1; y as se tendra la posibilidad
de tabular los resultados.
Pues bien Z N (0 ; 1) y su funcin de probabilidad es: f ( z ) =
Donde: Z =
1
2
1
Z2
2
e
59
60
a.- P(X < 23,5) = P(Z < (23,5 - 23)/5) = P(Z < 0,5/5) = P(Z < 0,1) = Fz(0,1) = 0,5398
b.- P(X > 10) = 1 - P(X < 10)= 1 - P(Z < (10-23)/5)= 1 - P(Z < -13/5)
= 1 - P(Z < -2,6) = 1 - Fz(-2.6) = 1 - 0.0047 = 0.9953
c.- P(X > 23) = 0.50 Esto no hay ni que buscarlo en la tabla porque el rea bajo la curva es 1
por tanto de la mitad al final de la distribucin ser la mitad, (0.50) pero adems, en este punto
"Z" es igual a cero, y buscando Z=0 dara tambin Fz(0) = 0.50
d.- P(8 < X < 21) = P[(8-23)/5 < Z < (21-23)/5]= P(-15/5 < Z < -2/5)=
= P(-3 < Z < -0.4)= Fz(-0.4) - Fz(-3) =
61
Al tratarse de una variable con distribucin normal, se debe estandarizar la misma en cada
clculo para hacer uso de la tabla.
a) P(X < 13) = P(Z < (13 - 15)/0,8) = P(Z < -2,5) = Fz(-2,5) = 0,0062
En este caso, al tratarse de la
probabilidad acumulada hasta un
punto (z=-2,5), el resultado es
directamente el valor que aparece
en la tabla para la z.
b) P(X > 16) = P(Z > (16 -15)/0,8) = P(Z > 1,25)= 1 - P(Z 1,25) = 1 - Fz(1,25)
= 1 0,8944 = 0,1056
(El 10,6% de las cajas tendr pesos netos mayores de 16 onzas.)
Aqu, al tratarse de la probabilidad
por encima de un punto (zk=1,25),
el resultado se debe calcular
usando la regla del complemento,
o sea, restando a la probabilidad
bajo toda la curva (que es 1) la
acumulada hasta el punto zk, que
es la que brinda la tabla.
62
c) P(15 < X < 16) = P[(15 -15)/0,8 < Z < (16 -15)/0,8] = P(0 < Z < 1,25)
= Fz(1,25) - Fz(0) = 0,8944 0,5 = 0,3944
(El 39,4% de las cajas tendrn pesos netos entre 15 y 16 onzas.)
En este caso, al tratarse de la
probabilidad en un intervalo, el
resultado se debe calcular como
la diferencia de lo acumulado
hasta el lmite superior (z=1,25)
menos lo acumulado hasta el
lmite inferior (z=0).
Debe destacarse aqu que la probabilidad acumulada hasta el extremo inferior no era
necesario calcularla, pues dicho extremo coincide con el valor de la media de la variable
(=15, z=0 para la variable estandarizada), y conociendo que la distribucin normal es
simtrica respecto a su media se deduce que hasta el punto X= (z=0) se acumula un 50%
de probabilidad.
d) Para resolver esto lo primero es ubicar las cajas menos pesadas, que son aquellas ubicadas
en la cola o extremo izquierdo de la curva. De ellas interesan las que representan el 20%
del total, y se quiere determinar el peso (Xk) que acota superiormente a ese 20% de cajas;
por tanto, puede plantearse que:
P(X < Xk) = 0,20
Entonces, de la misma manera se
tiene que:
P(Z < Zk) = 0,20
Y una forma de representar ese
valor Zk es:
Zk = Z0,20
Con esto se quiere decir que es el
valor de de una variable Z que ha
acumulado un 20% de probabilidad.
Encontrar mediante la tabla el valor de Z que acumula un 20% de probabilidad implica
buscar en el interior de la misma el nmero ms cercano a 0,20 (que es 0,2005), y de su
encabezado de fila y columna se llega a que:
Zk = Z0,20 = -0,84
x
Conocido el valor Zk se puede hallar Xk, despejando de: Z =
63
determinar el peso (Xk) que acota inferiormente a ese 10% de cajas; y puede plantearse
que:
P(X > Xk) = 0,10
As, se tiene tambin que:
P(Z > Zk) = 0,10
Pero esto no constituye un valor de
probabilidad acumulada, pues la
probabilidad acumulada es la que
est por debajo del punto, y para Zk
sera, haciendo uso de la regla del
complemento:
:
Se concluye, pues, que el peso mnimo para el 10% de las cajas ms pesadas es de 16,024
onzas.
TEOREMA CENTRAL DEL LMITE
DISTRIBUCIN CHI-CUADRADO
Esta distribucin fue introducida por Helmert en 1876.
Si Z1, Z2,..., Zv, son variables aleatorias normalmente distribuidas e independientes con media
cero y varianza 1, la suma de sus cuadrados, se representan en general por 2 (letra griega chi,
o ji, al cuadrado) y donde:
2 = Z12 + Z22 + ... + Z v2
A la distribucin probabilstica asociada a esta nueva variable se le llama distribucin jicuadrado, siendo su funcin de densidad:
64
f ( x ) = K ( 2 )/ 2 e -x/2
y (x ) = 0
Cuando x > 0
cuando x 0
En esta funcin (nu), representa los llamados grados de libertad de la distribucin, y K es una
constante que depende de .
Qu son los grados de libertad? Los grados de libertad constituyen la cantidad de valores
independientes que admite un conjunto de observaciones a partir de determinadas condiciones
que tiene que cumplir dicho conjunto. As, si se dice que una variable tiene n -1 grados de
libertad esto indica que solo n -1 de los valores de la muestra estn libre para variar. Se puede
demostrar este concepto de la forma siguiente.
Caso ilustrativo:
Suponga que se tiene una muestra de 5 elementos de la que se sabe que la media
es igual a 20. Cuantos valores diferentes se necesitaran conocer antes de poder
obtener el resto?
n
X i = 100
El hecho de que n = 5 y de que X = 20 tambin indica que:
i =1
Por lo tanto una vez que se conocen 4 valores el quinto no tendr "libertad de variar",
puesto que la suma tiene que ser 100. Digamos que 4 de los valores son: 18, 24, 19, y
16, el quinto solo puede ser 23 para que todos sumen 100.
Una variable chi cuadrado est definida para cualquier valor real positivo, o sea: 2 0. La
distribucin 2 es asimtrica, deformada a la derecha, y tiene como = y 2 =2.
Para > 2 la curva (x) de la chi-cuadrado tiene un mximo en x = ( - 2)
Cuando (nu) es grande ( > 30) la distribucin 2 se puede aproximar a la distribucin normal.
Obsrvese que la distribucin depende de un slo parmetro: los grados de libertad, .
xk
f ( x)dx
0
Esta funcin est tabulada para distintos valores de los grados de libertad.
Estructura de la tabla: Tabla limitada para algunos valores de los grados de libertad. El rea o
probabilidad acumulada se encuentra en la primera fila y en la primera columna los grados de
libertad; en el cuerpo de la tabla estn los valores de la variable chi-cuadrado.
65
b.- P(5.7 < 2(17) < 21.6) = F2(21.6) - F2(5.7) = 0.80 - 0.005 = 0.755
c.- P(217) > 10.1) = 1 - P(2(17) < 10.1) = 1 - F2(10.1)
= 1 - 0.10 = 0.90
Esto se puede deducir del grfico, pues lo que
se quiere no es la probabilidad acumulada
66
hasta 10.1, sino de ah en adelante, por lo que se puede utilizar la regla del
complemento.
d.- P(2(17) > Xk) = 0.8 ===> P(2(17) < Xk) = 0.20 por tanto Xk = 12
e.- P(7.56 < 2(17) < 16.3) = F2(16.3) - F2(7.56) = 0.50 - 0.025 = 0.475
f.- P(2 > 8.9) = 0.99 ===> P(2 < 8.9) = 0.01 por tanto = 21
Esto se obtiene recorriendo los valores de 20.01 y donde est 8.9 un valor prximo
a l, y se busca el grado de libertad que le corresponde a este valor.
g.- Puntos 21 y 22 simtricos que forman un rea central con 2(21) = 20.3 son:
21
22
17,2
15,4
13,2
11,6
10,3
8,9
8,03
23,9
26,2
29,6
32,7
35,5
38,9
31,4
Probabilidades
acumuladas
F(21)
F(22)
0,30
0,70
0,20
0,80
0,10
0,90
0,05
0,95
0,025
0,975
0,01
0,99
0,005
0,995
Probabilidad
central
0,40
0,60
0,80
0,90
0,95
0,98
0,99
DISTRIBUCIN T'STUDENT:
Es una distribucin continua de considerable importancia prctica, muy utilizada en la teora de
muestras pequeas, con la que se trabajar en el campo de la inferencia. De momento, el
estudio de la misma se circunscribe al manejo de la tabla, ya que su aplicacin se ver
posteriormente
La distribucin t'Student es la distribucin de la variable: t =
Z
2
Aqu Z representa a una variable con distribucin normal estndar y 2 otra variable con
distribucin chi cuadrado; representa los grados de libertad de la chi cuadrado, que sern los
mismos que caractericen a la variable t.
La funcin de probabilidad es:
f (t ) =
K
(1 + t / ) ( +1)/ 2
2
Una variable t est definida para cualquier valor real, o sea: - < t <
En esta distribucin = 0 y 2 = /(-2), para >2. La curva de la distribucin es simtrica, como
la normal, pero un poco ms achatada que ella.
67
Cuando los grados de libertad aumentan la variable t se aproxima cada vez ms a una
distribucin normal con = 0 y = 1, es decir, tiende a la normal estandarizada (z).
68
La razn apuntada anteriormente, de que la funcin de distribucin est tabulada slo para
valores positivos de "t", lleva a tener que hacer algunas transformaciones cuando aparece un
percentil con signo negativo, es decir si se tiene que buscar un rea que corresponde a la cola
izquierda, evidentemente el valor de "t" es negativo, en ese caso, se le cambia el sentido del
signo de la desigualdad, lo que est apoyado en la simetra de la distribucin. De la misma
forma si se trabaja con las propiedades de la funcin de distribucin y se tiene el caso de una Ft
evaluada para algn valor de "t" negativo, como en principio cambia la desigualdad, entonces
ser [1 - Ft] (con el valor correspondiente positivo).
Ejemplo:
Se tiene una Variable aleatoria "x", con distribucin t'student, resuelva las siguientes
proposiciones:
a.- Halle P(t(17) < 0.863)
b.- Represente grficamente y calcule P(t(17) > -0.392)
c.- Resuelva P(-1.07 < t(17) < 2.9)
d.- Diga el valor de P(t(17) < - 0.534)
e.- Calcule P(-1.74 < t(17) < -0.257)
f.- Halle tk las que P(t(17) < tk) = 0.75
g.- Halle entre que valores t1 y t2 se encuentra una probabilidad central del 0.70 si t(17).
Solucin:
a.- P(t(17) < 0.863) = Ft(0.863) = 0.80
(Por definicin de F(x))
Se busca en 17 grados de libertad un valor igual o prximo a 0.863, y el valor que le
corresponde en la primera fila es la probabilidad buscada.
Sin embargo, esto no es un valor que se puede obtener directamente de la tabla, pues
no es una probabilidad acumulada. Pero utilizando la simetra de la distribucin se tiene
un rea equivalente:
69
Buscando esta rea se obtiene el valor de "t" positivo en la tabla (es decir de t2) y el
valor de t1 es el mismo con signo negativo, debido a la simetra de la distribucin.
DISTRIBUCIN F DE FISHER
Otra de las distribuciones importantes asociadas a la normal es la que se define como el
cociente de dos distribuciones 2 independientes, y que es llamada distribucin de probabilidad
de Fisher.
70
(2n ) / n
(2m ) / m
F(n, m)
Una variable F de Fisher est definida para valores reales positivos (F 0), y se caracteriza por
un par de grados de libertad (n ; m), que suelen ser llamados respectivamente grados de
libertad del numerador (n) y del denominador (d). Debe destacarse que: F(n, m) F(m, n)
n + m n/2 m/2
n m
2
Lo ms comn al tabular la distribucin de Fisher es construir diferentes tablas para los valores
de probabilidad acumulada tiles en las aplicaciones de esta distribucin. Lo que sigue es un
fragmento de la tabla para una probabilidad acumulada igual a 0,99 (lo que, en muchas
aplicaciones, como se ver ms adelante, equivale a decir un = 1%).
Estructura de la tabla: En esta tabla debe entrarse con 3 valores, el nivel de probabilidad
acumulada, el nmero de grados de libertad del numerador, que en la tabla estn en la primera
fila, el nmero de grados de libertad del denominador que estn en la primera columna (a la
izquierda).
Se presentan dos tablas separadas, una para las proporciones acumulativas del 95% y otra del
99% (F0.95 , F0.99). Tambin se marcan con el 5% y el 1 %, y estos porcentajes se refieren a la
proporcin de rea encerradas por las curvas a la derecha de los valores dados en las tablas;
as, por ejemplo, lo que indica el 1%, si n = 10 y m = 12, es que el 1% del rea bajo la curva
F10.12 est a la derecha de 4,30.
71
Ejemplo:
Si se reconoce que la variable aleatoria en estudio sigue una distribucin F de Fisher, y que se
va a tratar nicamente con probabilidades acumuladas iguales a 0.95 0.99, resuelva las
siguientes proposiciones:
a) P(F(4,15) < 3.06)
b) P(F(4,15) > 4.89)
c) El valor de xk, tal que P(F(10,20) < xk) = 0.99
d) El valor de xk, tal que P(F(12,8) > xk) = 0.95
e) P(0.2123 - F(10.12) < 4.30)
Solucin:
Puesto que las probabilidades acumuladas son del 95% del 99%, se limitar la bsqueda a
estas dos tablas. Se debe tener en cuenta que los grados de libertad del numerador (el primer
nmero del par) estn en la primera fila de la tabla, y los grados de libertad del denominador (el
segundo nmero del par) estn en la primera columna.
72
Aqu lo que se quiere es el rea entre dos puntos. Si P(F(10, 12) < 4.30) = 0.99 y
P(F(10, 12) < 0.2123 ) = 0.01 entonces el rea tras 4.30, menos el rea tras 0.2130
nos dar el rea o probabilidad buscada, o sea:
P = 0.99 0.01 = 0.98.
EJERCICIOS DE AUTOEVALUACIN
1.- Cules son las caractersticas de la distribucin normal
2.- Qu parmetros la definen?
3.- Qu distribucin tiene Z, y cules son su media y varianza?
4.- A qu tipo de variable corresponden estos tres modelos: Normal, T'Student y Ji-Cuadrado?
5.- El anlisis estadstico de 1000 llamadas telefnicas de larga distancia realizadas desde las
oficinas centrales de la Corporacin CIMEX, seala que la duracin de estas llamadas est
distribuida normalmente con = 240 segundos y desviacin tpica igual a 40 segundos.
a.- Qu porcentaje de llamadas dur menos de 180 segundos?
b.- Cul es la probabilidad de que una llamada en particular durara entre 180 y 300 segundos?
c.- Cuantas llamadas duraron menos de 180 segundos ms de 300 segundos?
d.- Qu porcentaje de las llamadas dur entre 110 y 180 segundos?
e.- Cul es la duracin mnima del 1% de las llamadas ms largas?
6.- Determine el valor de Xo en cada uno de los siguientes casos:
a.- P(Xo < X < 26,2) = 0.98 conociendo que X sigue 212
b.- P(Xo < X < 2,76) = 0.98 conociendo que X sigue t (10)
7.- Calcule cada uno de los valores siguientes para una 2 con 25 grados de libertad:
a.- 20.90
g.- 20.975
f.- 20.01
8.- Calcule cada uno de los valores siguientes para una t con 25 grados de libertad:
a.- t0.90 b.- t0.10 c.-t0.95 d.-t0.05 e.-t0.975 f.-t0.025
g.- t0.99 h.- t0.01 i.-t0.995 j.-t0.005
73
74
El uso de uno u otro de los muestreos aleatorios est en dependencia de cmo se comporta la
caracterstica objeto de inters en la poblacin. Sin embargo lo ms importante para obtener
buenas estimaciones ser siempre que la muestra sea representativa de la poblacin, lo que
indica que debe usarse el mtodo de muestreo adecuado y tenerse una idea del tamao de
muestra necesario.
Dada una poblacin finita con 3 elementos cuyos valores en la variable son x = {1, 2, 3} se
quiere obtener todas las muestra aleatorias simples de tamao 2 y verificar sus propiedades.
Nota: El tomar una muestra de una poblacin de tamao 3 parece un absurdo, pues sta
es estudiable en su totalidad; y tambin parece absurdo tomar todas las muestras
posibles, pues es un trabajo mayor tomar todas las muestras posibles que hacer un
censo. Se trata aqu de un desarrollo terico...
Solucin:
Poblacin: X = 1, 2, 3 (N = 3)
Como hay un solo valor de cada elemento se puede plantear:
V(x) = E(x2) - [E(x)]2 = 14/3 - (6/3)2 = 14/3 - 36/9 =(42 -36)/9 = 6/9 = 2/3 = 0.67
75
x2
1
2
3
x1
2
2
2
x2
1
2
3
x1
1
2
3
f (x1)
3/9
3/9
3/9
x1
3
3
3
x2
1
2
3
Siendo:
x1 = valores que toma el 1er elemento de la muestra
x2 = valores que toma el 2do elemento de la muestra
N(S) = 9
Entonces:
x1 f(x1)
1/3
2/3
3/3
= 2
x 21 f (x1)
1/3
4/3
9/3
= 14/3
x2
1
2
3
f (x2)
3/9
3/9
3/9
x2 f(x2)
1/3
2/3
3/3
= 2
x22 f (x2)
1/3
4/3
9/3
= 14/3
1
1/9
1/9
1/9
1/3
2
1/9
1/9
1/9
1/3
3
1/9
1/9
1/9
1/3
f(x2)
1/3
1/3
1/3
1
f(x1) = 1/3
f (x2) = 1/3 f (x1, x2) = 1/9
f (x1 x2) = 1/9 = f (x1)f (x2) = 1/31/3
3ra propiedad:
4ta propiedad:
Notas:
Conviene resaltar que algunos autores (ver Canavos), al hablar del Muestreo Aleatorio
Simple (o MAS) incluyen dentro del mismo el caso con reposicin como aquel sin
reposicin; otros autores (ver Calero) diferencian estos casos y cuando no se hace
reposicin hablan de un muestreo irrestricto aleatorio (MIA). Aqu se preferir distinguirlos
separadamente.
En la prctica rara vez interesa efectuar un muestreo con reposicin, pero el estudio de
ste, dada la independencia que garantiza, es la base para cualquier otro muestreo donde
dada la no reposicin ya no habra independencia entre los elementos de la muestra, y
donde, por tanto, los clculos probabilsticos sern ms complicados. Por otra parte,
cuando la poblacin es muy grande y a la vez mucho ms grande que la muestra que se
obtendr, aunque se haga reposicin es muy poco probable que un elemento de la
poblacin salga repetido en la muestra, lo cual hace que el muestreo con reposicin
pueda verse como un caso lmite del muestreo sin reposicin cuando N es muy grande.
76
Una tabla de nmeros aleatorios es una tabla para ayudar a elegir n elementos de una
poblacin mediante "sorteo", hecha como si se introdujera una lista de nmeros en un bombo y
se fueran tomando luego algunos sin mirar; es decir, la tabla suministra un grupo de nmeros
equivalentes a los que se tomaran al azar. Estas tablas pueden ser aleatorias de forma
horizontal, de forma vertical, o de ambas formas.
Estructura de la tabla:
La tabla de nmeros aleatorios que est en la seleccin de tablas estadstica es aleatoria
solamente de forma horizontal, por tanto solo puede ser utilizada de esta forma. Esta tabla est
formada por 4 bloques de 1000 cifras, y estn numeradas las filas y columnas, en el caso de las
filas estn numeradas consecutivamente desde la 1 a la 25, mientras que las columnas estn
de cuatro en cuatro y se indica 1 - 4 5 - 8, etc., lo que indica las columna 1, 2, 3, 4 o las
columna 5, 6, 7, y 8, y as sucesivamente.
Uso de la tabla:
1.- Se enumeran de forma consecutiva los N elementos de la poblacin. (Para que cada
elemento est identificado con una etiqueta, que puede aparecer o no en la tabla de nmeros
aleatorios).
2.- Se elegir al azar, el bloque, fila y columna por donde se comenzar a tomar, en forma
consecutiva y horizontalmente los "n" nmeros aleatorios que ayudarn a conformar la muestra,
segn lo siguiente:
9 Cada nmero seleccionado debe tener tantas cifras, como cifras tenga N.
Ej.: Si N = 3000 se formarn nmeros de 4 cifras.
77
3.- Finalmente, se obtiene la muestra. Para ello se toman de la poblacin los elementos cuyo
etiquetado coincide con los nmeros aleatorios generados.
Nota: En el caso de que se opte por un muestreo sin reposicin (lo que Calero Vinelo denomina
un MIA), los nmeros aleatorios repetidos tambin deben eliminarse previamente y buscar
otros.
Ejemplo: (Ejercicio 423 pgina 289 del Laboratorio de Estadstica 2da. Parte)
82
93
511
712
913
84
55
76
57
48
69
810
414 715
316
817
618
419
520
Nota: Lo que semeja un exponente son las etiquetas que se le han puesto a la
poblacin, o sea, la enumeracin de sus elementos para despus elegir la muestra.
N = 20 2 cifras
78
El mayor mltiplo de 20 con 2 cifras es 80, por lo tanto el intervalo de trabajo estar
entre 01 y 80; todo valor mayor que 80 se elimina y el que est entre 20 y 80 se rectifica
restndole 20 hasta que quede un nmero del 1 al 20, que ser el que se tome como
nmero aleatorio rectificado.
nmero
aleatorio
10
03
22
11
54
nmero
elemento
aleatorio
de la
rectificado muestra
Xi
10
8
3
9
2
8
11
5
14
4
EJERCICIOS DE AUTOEVALUACIN
En lo adelante se podrn resolver preguntas como la siguiente:
Si en una poblacin se conoce que x sigue una N (10, 2) Qu podra afirmarse de la
distribucin y los parmetros de la variable aleatoria xi, que se definen en el MAS?
A esto puede responderse que cada xi sigue una distribucin normal con la misma media y la
misma varianza y que su funcin conjunta es igual al producto de las funciones de cada
variable:
f (x1, x2, ..., xn) = f (x1)f(x2) ... f(xn)
79
INSESGADEZ
x = n E( x ) = n E(x ) = n = n n =
O sea: E( x ) =
Por tanto x es un estimador insesgado, con lo cual, al contar con una muestra aleatoria,
la media muestral constituir una estimacin insesgada de la media poblacional.
Lo mismo puede decirse de la proporcin de elementos que cumplen determinada condicin en
una muestra como estimador para la correspondiente proporcin poblacional: es un estimador
insesgado, pues:
E(p ) = p
Con: p =
xn
x
y p= N
n
N
Hay que destacar, sin embargo, que S2 no es un estimador insesgado de 2, ya que, al aplicar
las propiedades del valor esperado se obtiene:
n 1 2
E (S 2 ) =
n
O sea, E(S2) tiene un sesgo, una diferencia, con el parmetro que estima, 2. Pero
observando a este resultado puede construirse un estimador insesgado para la varianza
poblacional, multiplicando por n y dividiendo entre (n -1) la varianza de la muestra, as:
n
n n 1 2
n
= 2
E
S2 =
E(S 2 ) =
n
1
n
1
n
1
n
n
1
S 2 , que puede tambin formularse como: s 2 =
n 1
n 1
(x x )
81
CONSISTENCIA
2.- lim V( ) = 0
n
Se dice que un estimador es eficiente si su error cuadrtico medio es menor que el de cualquier
otro estimador con el que se le compare. Este error cuadrtico medio (ECM) se calcula como la
suma de la varianza ms el sesgo al cuadrado del estimador:
entonces:
82
tipo de estudio
caracterstica medible
parmetro ( )
medida de tendencia
medida de dispersin
medida de proporcin
cuantitativo
cualitativo
estimador ( )
1
x=
x
n
1
s2 =
( x x)2
n 1
x
p = n
n
Ejemplo:
Estimar el promedio de televisores que llegan con roturas a los talleres a partir de la
muestra de tamao 5 tomada (ver ejemplo anterior); estimar tambin la varianza.
Solucin:
Xi
Xi2
8
64
9
81
8
64
5
25
4
16
= 34
=250
1
34
x=
= 6,8 = 34/5 = 6.8
n
5
(Aproximadamente 7 televisores llegan como promedio a los
talleres.)
= x =
2 = s 2 =
1
n 1
( x )2 =
n x2
n 1
250 5 6.8 2
= 4 .7
4
em () =
Nota: Algunos autores diferencian entre el concepto de error de estimacin y el de
muestreo, calculando uno modularmente y el otro sin emplear el mdulo; otros autores
no consideran esta diferenciacin como fundamental y utilizan ambos trminos como
sinnimos, que es lo que se har ac.
El error de muestreo, al depender de una estimacin, constituye otra variable aleatoria, pues
puede variar de estimacin a estimacin. Pero adems, es un valor que no se puede conocer,
pues habra que conocer el parmetro poblacional, y si se conociera ste, no habra necesidad
de estimarlo. Esto conduce a que se plantee la necesidad de contar con una medida del error
de muestreo, que ser una medida probabilstica.
DISTRIBUCIONES MUESTRALES:
Ya se ha visto que si de una poblacin cualquiera se toman todas las muestras posibles de
tamao n, a travs del MAS, y si sobre todas ellas se calcula por ejemplo- la media muestral
83
E( x ) =
V( x ) = 2/n
1
( )2
n
De la expresin anterior se ve que el error estndar es una especie de promedio de los
errores de estimacin o muestreo ( ) , pues se calcula como la raz del promedio de
sus cuadrados, o sea, es una medida resumen del error de estimacin para el parmetro.
( ) = V ( ) =
Hay un teorema que plantea que si X tiene una distribucin normal, con media y varianza 2, y
se selecciona una muestra aleatoria tamao n por el procedimiento del MAS, entonces la media
muestral tendr tambin una distribucin normal, en este caso con media y varianza 2/n.
O sea, si X N( ,) entonces X N ( , / n )
84
s
, o lo que es igual: t Z N (0, 1).
Si X N( , ?) y n > 30, entonces: x N ,
n
De la misma manera, utilizando tambin el teorema central del lmite se llega a que la
proporcin muestral, como estimador de la proporcin poblacional, tiende a distribuirse
normalmente cuando n > 30, o sea:
p p
pq
Si n > 30 entonces: p N p ,
N (0, 1)
, o estandarizando: z p =
n
pq / n
85
Se verifica en la prctica que esta aproximacin es realmente buena cuando el producto np > 5
y/o nq < 5.
Por otra parte, al estudiar s2 como estimador de la varianza poblacional se ve que no sigue una
distribucin normal, sino que tiene un comportamiento asimtrico. Sin embargo, hay un teorema
que plantea que para una poblacin normal se cumple que s2 tiene asociada una distribucin
chi-cuadrado con ( n -1) grados de libertad, como sigue:
(n 1)s 2
2(n -1)
2
(n 1)s 2
Debido a esto la expresin 2 =
recibe el nombre de estadgrafo chi-cuadrado.
2
Resumen de las principales distribuciones muestrales:
parmetro estimador condiciones
distribucin muestral
X N ( , )
Z=
X ? ( , )
y n > 30
Z=
x
/ n
x
/ n
N (0, 1)
N (0, 1)
t=
X N ( , ?)
X ? ( , ? )
y n > 30
2
s2
XN
n > 30
Z=
s/ n
N (0, 1)
/ n
2 =
zp =
p p
pq / n
x N ,
x N ,
t (n -1)
x N ,
n
(n 1)s 2
2(n -1)
2
N (0, 1)
pq
p N p ,
EJEMPLO 1:
4
4
=2
Calcular:
1.- P( x < 64) = P(Z < (64 - 60)/2) = P(Z < 2) = Fz (2) = 0.9772
2.- P( x < 62) = P(Z < (62 - 60)/2) = P(Z < 1) = Fz(1) = 0.8413
3.- P( x > 60) = P(Z > (60 - 60)/2) = P(Z > 0) = 1 - P(Z < 0) = 1 - Fz (0) = 1 - 0.5 = 0.5
4.- P(58 < x < 62) = P [(58 -60)/2 < Z < (62 -60)/2] = P ( -1 < Z < 1) = Fz(1) - Fz(-1)
= 0.8413 - 0.1587 = 0.6826
86
EJEMPLO 2:
n
Datos: n = 16,
X ini = 482 ,
i=1
a.- x =
1
n
b.- s 2 =
c.- s x =
(X
n
X ni = 60
i=1
X n = 482/16 = 30.12
i i
i=1
2
1 n
X i X ni = 60/15 = 4
n 1 i=1
s
n
2
16
2
= 0.5
4
Datos:
x: incremento del rendimiento p = 0.5, n = 100
Calculando previamente la desviacin tpica se tiene: =
pq
=
n
0 .5 0 . 5
= 0.0025 = 0.05
100
a.- P (0.40 < P < 0.55) = P [(0.40 - 0.50)/0.05 < Z < (0.55 - 0.50)/0.05]
= P (-0.10/0.05 < Z < 0.05/0.05) = P (-2 < Z < 1) = Fz(1) - Fz(-2)
= 0.8413 - 0.0228 = 0.8185
b.- = n p = 60 0.8185 = 49
EJEMPLO 4:
=2
a.- P(s2 > 8) = 1 P(s2 < 8) = 1 - P[ (n-1)s2/2 < 20(8)/4] = 1 - P (2(20) < 160/4)
= 1 - P (2(20) < 40) = 1 - F2(20) (40) = 1 - 0.995 = 0.005
87
b.- P(s2 < 5) = P (2(20) < 20(5)/4] = P (2(20) < 100/4) = P (2(20) < 25)
= F(2) (25) = 0.80
c.- P(4 < s2 < 8) = P [20 (4)/4 < 2(20) < 20(8)/4] = P(20 < 2(20) < 40) = F2(40) - F2(20)
= 0.995 - 0.50 = 0.495
d.- P(s2a < s2 < s2b) = 0.95 (probabilidad central)
Estos valores de probabilidad central se buscan como sigue:
Luego 2a = 2(0.025) y 2b = 2(0.975) son los valores que le corresponden a s2a y s2b,
Ahora, despejando de
(2n1)
(2n1) 2
(n 1)s 2
2
se llega a: s =
=
(n 1)
2
Entonces:
s2a = 2(0.025) (4)/20 = 9.59 (4)/20 = 1.918
s2b = 2(0.975) (4/20) =34.2(4)/20 = 6.84
Por tanto, los valores s2a y s2b determinan una probabilidad central del 95% as:
P (1.1918 < s2 < 6.84) = 0.95
EJERCICIOS DE
AUTOEVALUACIN
88
La construccin del intervalo de confianza se basa en encontrar el par de valores que delimiten
este intervalo para un nivel de confianza prefijado, lo cual se basa en la distribucin muestral del
estimador. El intervalo es, por tanto, de extremos variables, ya que sus lmites pueden cambiar
segn el resultado de la estimacin puntual sobre la muestra. El nivel de confianza lo decide el
investigador, o el estadstico; en la prctica, en estudios econmicos y sociales, los niveles de
confianza ms usados suelen ser: 0.90, 0.95, 0.98, 0.99.
Al crearse el intervalo de confianza, si 1- representa la probabilidad con que se quiere que el
mismo contenga al parmetro, representar la probabilidad de que el verdadero valor del
parmetro no est en el intervalo, y los intervalos suelen construirse de forma tal que esta
probabilidad se reparta simtricamente, como se muestra grficamente:
89
intervalo hasta cada lmite, que simboliza con la letra d, se le denomina entonces error mximo
admitido:
Los intervalos de confianza para la media y la proporcin, por tener ambos estimadores
distribuciones muestrales simtricas, se forman as:
estimador error mximo admitido
Ejemplo ilustrativo:
Sea el caso de una estimacin por intervalo para la media, siendo la varianza
poblacional () conocida, y prefijado un nivel de confianza (1 - ):
Fijar un nivel de confianza quiere decir que se exige que el error mximo permisible
cumpla con:
P( x - d ) = P (-d x - d) = 1 -
Esto equivale a decir que: P( x - > d ) =
Pero: P( x - > d ) = P( x - < -d) + P( x - > d) =
90
Y dada la simetra ambos sumandos son iguales, por lo que: P(x < d) =
, por tanto:
Ahora, si X N ( ,), se tiene que x N ,
n
d
d
Entonces:
P( x - < -d) = P z <
=
=Z
1
n 2
n
d=Z
Y despejando:
1
2
Atendiendo al ejemplo anterior, se pueden desarrollar las expresiones para los intervalos de
confianza en todos los casos de la media, y la varianza, y las proporciones. Esto se resume en
la siguiente tabla (asumiendo siempre un muestreo aleatorio simple):
parmetro estimador condiciones
X N ( , )
X ? ( , )
y n > 30
X N ( , ?)
X ? ( , ? )
y n > 30
XN
n > 30
error mximo
admisible
d=Z
1
n
2
d=Z
1
n
2
s
d = t (n1) 1
[ x d ; x + d ]
s
1
(n 1) s 2
(n 1) s 2
; 2
2
(n 1)
(n 1) / 2
1 / 2
---
d=Z
= x d
d=Z
intervalo de confianza
1
2
pq
n
p = p d
p [ p d ; p + d ]
Vale la pena anotar que en el caso de la varianza, dado que la distribucin muestral (chicuadrado) es asimtrica, no se puede hablar de un error mximo admitido, y se calculan
directamente los lmites inferior y superior del intervalo de confianza.
Adems, en los casos en que se usa la normal, que es simtrica, al hallar el lmite inferior del
intervalo es equivalente usar Z1-/2 Z/2; y lo mismo es aplicable a la tStudent.
Por otra parte, es fcil darse cuenta al examinar las expresiones para los intervalos de
confianza que:
9 Mientras ms grande es el tamao de la muestra menor es el ancho del intervalo.
9 Para niveles de confianza (1 - ) ms grandes, mayor es el ancho del intervalo.
91
Para la media
(con conocida):
n = Z 1 / 2
Para la media
(con desconocida):
n = Z 1 / 2
d
Z1 / 2 Z1 / 2
=
n = p q
2d
d
Ejemplo 1:
La media y la desviacin tpica de las cargas mximas soportadas por 60 cables, estn dadas
por 12 y 0.7 toneladas, respectivamente. Se quiere hallar un intervalo de confianza para la
carga media mxima soportada por los cables, con un 95% de confianza.
Solucin:
X: carga soportada por un cable
Informacin: n = 60, x = 12, s = 0.7, (1 - ) = 0.95 ( Se asumir que X N( , ) )
s
s
Z
Entonces: = x d y d = t (n1) 1
1
n
n
2
2
Se parte del uso de la t porque la desviacin tpica poblacional es desconocida (lo que
se tiene es una estimacin puntual de la misma); no obstante, al ser n > 30, dada la
convergencia de la t a la Z, se puede usar esta ltima, que es ms cmodo.
0.7
60
= 1.96
0.7
= 0.176
7.75
92
Ejemplo 2:
A continuacin se brindan los resultados de las entrevistas a 40 personas sobre su preferencia
(1) o no (0) respecto a un nuevo producto que se ha ofertado en el mercado.
0 0 1 1 0 1 0 1 0 1 1 1 0 1 0 1 1 1 0 1
1 0 1 0 1 1 0 1 1 0 0 1 1 0 1 1 0 1 1 0
a) Calcule la proporcin muestral de individuos que gustan de este producto. Interprete el
resultado.
b) Calcule la probabilidad de que el error mximo en la estimacin de esta proporcin no sea
mayor de 0.05.
c) Calcule para un nivel de confianza de 0.95 el error mximo en la estimacin de la
proporcin.
d) Determine cuntas personas deben seleccionarse para que la proporcin resultante tenga
un error no mayor de 0.01 con una probabilidad asociada de 0.99.
Solucin:
X: cantidad de personas que prefieren el nuevo producto.
n = 40
a) p =
X n 24
=
= 0.60
n
40
93
0.05
0.05
b) P ( p$ - P 0.05) = P (-0.05 p$ - P 0.05) = P
Z
p
p
1
2
pq
0 .6 0 .4
= Z 0.975
= 1.96 0.078 = 0.1529
n
40
2.58
Z0.995
2
=
d) n = p q 1 / 2 =
2 0.02 = 64.5 = 4160.25 4161
d
2
d
Nota: Debe destacarse que la aproximacin de n siempre es por exceso, pues el nmero
obtenido es lo mnimo necesario para satisfacer las condiciones deseadas para la estimacin.
Ejemplo 3
La experiencia adquirida indica que la resistencia a la ruptura de las varillas de alambre
producidas por cierta fbrica sigue una distribucin normal con una resistencia media de 400 kgf
(kilogramo-fuerza) y una desviacin tpica de 16 kgf. Si se toma una muestra aleatoria de 16
varillas.
a.- Calcule la probabilidad de que el error en la estimacin de no sea mayor de 8 kgf.
b.- Determine, con una probabilidad de 0.99, el error mximo que se espera cometer al estimar
a travs de la media muestral.
c.- Diga cuntas varillas debern seleccionarse para que la media resultante tenga un error no
mayor de 2 kgf con una confiabilidad del 95%.
Solucin.
X: resistencia a la ruptura (kgf)
n = 16
16
= N (400 ; 4) , por tanto:
X N (400 ; 16), entonces x N 400 ;
16
a)
b) d = Z
1
2
= Z 0.995
= 2.58 4 = 10.32
94
16
Debe significarse que con una muestra de este tamao se est garantizando que el error
en la estimacin de la resistencia media no sea mayor de 2 kgf, con una probabilidad de
certeza del 95%
Ejemplo 4
En una determinada localidad se obtuvo la siguiente muestra aleatoria, correspondiente a la
cantidad de personas por ncleos familiares en 37 viviendas:
4 2 5 6 6 5 6 6 6 7 5 5 4 4 2 8 4 6 8
5 2 2 5 5 4 3 6 7 6 5 5 5 6 5 4 6 1
Se quiere una estimacin por intervalos de la proporcin de los ncleos familiares con 4 ms
integrantes, para un nivel de confiabilidad del 90%.
Solucin:
X: Ncleos familiares con 4 ms integrantes.
Se tiene que:
p = Xn/n = 31/37 = 0.84
n = 64
p = p Z(1/2)
p = 13/64 = 0.20
Solucin:
n = 22
s2 = 121
1 - = 0.95
Como se desea un intervalo de confianza para la varianza, cuya distribucin muestral asociada
es 2, se sustituye directamente en la expresin para el intervalo de confianza:
(n 1) s 2
(n 1) s 2
2 2
; 2
(n 1)
(n 1) / 2
1 / 2
Por tanto:
35.5 10.3
( 21)
( 21) 0.025
0.975
71.57 2 246.69
Esto indica que el 95% de las veces el valor de la varianza poblacional se encontrar entre
71.57 y 246.69.
Nota: Si se quiere sacar el intervalo de confianza de la desviacin tpica poblacional slo se le
saca la raz cuadrada al intervalo de la varianza:
8.46 15.71
EJERCICIOS DE
AUTOEVALUCIN
96
admisible puede obtenerse con una confiabilidad de un 95%, para la estimacin de la media
poblacional.
8.- Se conoce que el nmero de propietarios de autos de la ciudad de la Habana es de 9000 y
se desea estimar la proporcin de ellos que se encuentran retrasados en el pago de impuesto
sobre circulacin terrestre en el mes de junio del ao 1997, con una d = 0.05, si una muestra
arroja una proporcin del 50%. Calcule el tamao de la muestra necesario para una estimacin
confiable (utilice un nivel de confianza del 95%).
9.- De una poblacin de 200 trabajadores se han muestreado 30, de los cuales 18 son
fumadores. D un estimado de la verdadera proporcin de fumadores y del total de fumadores
de dicha poblacin.
a.- En estimaciones puntuales
b.- En estimaciones por intervalo con una confianza del 99%.
97
Una prueba de hiptesis suele girar en torno al valor de uno o varios parmetros poblacionales
o al comportamiento de la distribucin de la poblacin, sobre lo cual se tiene alguna
suposicin previa basada en evidencia emprica o terica. Para verificar si la suposicin es
cierta o no se debe, entonces, tomar una muestra de la poblacin y calcular sobre ella una
estimacin del parmetro o parmetros en cuestin; a partir de esas estimaciones, y teniendo
en cuenta el comportamiento probabilstico de los estimadores usados, se puede llegar a una
conclusin sobre la suposicin o hiptesis de partida.
Al plantear el par de hiptesis nula y alternativa surge alguno de los tres casos siguientes:
98
Ho: = o ( Ho: o )
H1: > o
Ho: = o ( Ho: o )
H1: < o
Ho: = o
H1: o
La necesidad del valor crtico puede entenderse por el hecho de que el estadgrafo de prueba,
al ser el resultado de una estimacin, no se debe comparar directamente con el dato histrico,
sino que se debe dejar una especie de margen para los posibles errores de estimacin.
Regin crtica regin de rechazo (W o Wc): Es el conjunto de valores del estadstico de
prueba a partir de los cuales se rechaza la hiptesis nula.
La distribucin del estadstico de prueba se divide en dos partes la regin de rechazo y la regin
de no rechazo o aceptacin, estando separadas ambas regiones por el valor crtico.
La ubicacin de la regin crtica respecto al dato histrico depende de la hiptesis alternativa, y
puede ser unilateral (a la derecha o a la izquierda) o bilateral (a ambos lados), como se
representa en los siguientes esquemas:
Caso del posible aumento: Si > c,
se rechazara H0, adoptndose H1; pero
si c, aunque sea > 0, no hay
evidencia de un aumento significativo.
99
Regla de decisin: Es una especie de traduccin al lenguaje comn de la regin crtica; en ella
se establece lo que se debe hacer, partiendo del valor crtico determinado. Esto es:
Ho: = o ( Ho: o )
H1: > o
Ho: = o ( Ho: o )
H1: < o
Ho: = o
H1: o
100
= ( Wc / = 0)
= ( Wc / 0)
Entonces:
Luego, interesa medir las magnitudes de esos errores y tratar de que estos sean lo ms
pequeos posible, o sea, que la probabilidad de cometerlos sea lo suficientemente pequea.
Pero reducir la magnitud de ambos es imposible pues una disminucin en uno de ellos, provoca
en general un aumento del otro.
101
la hiptesis se rechaza es a favor de un cambio que supuestamente conlleva una mejora en las
ventas, y al ser errnea la decisin el productor pierde una posible ganancia extra. Por su parte,
al riesgo de aceptar una hiptesis nula falsa se le llaman riesgo de los consumidores porque
una aceptacin de la nula debera corresponderse con el hecho de que la mejor opcin era la ya
existente, y si la decisin es errnea es una prdida de posibles mejoras para el consumidor.
La decisin se toma utilizando el estadstico de prueba que nos facilit la muestra y si el mismo
cae en la regin crtica se rechaza H0 y por tanto se acepta H1; si cae en la regin de no rechazo
(de aceptacin) no existen elementos para rechazar H0.
En el caso de las pruebas para medias se debe tener en cuenta si se conoce la varianza
poblacional real () o si se contar con una estimacin de la misma (s), igual que cuando se
hacen clculos probabilsticos asociados a alguna estimacin. En funcin de esto, si se toma
como estadgrafo de prueba la propia media muestral ( x ), las regiones crticas atendiendo al
tipo de hiptesis alternativa quedan:
Para cuando es conocida:
WC = x : x > 0 + Z1
H1: > o
H1: < o
WC = x : x < 0 Z1
H1: o
WC = x : x < 0 Z1
2
n
x > 0 + Z1
102
WC = x : x > 0 + t 1 (n1)
H1: > o
H1: < o
WC = x : x < 0 t 1 (n1)
WC = x : x < 0 t 1
H1: o
2 ( n 1)
n
s
n
s
n
x > 0 + t 1
2 ( n 1)
Nota: Aqu igualmente deben tenerse en cuenta las condiciones necesarias o supuestos de
aplicacin de la distribucin probabilstica adecuada, en particular la toma de la muestra
mediante un muestreo aleatorio simple y la asuncin de normalidad poblacional de la
variable. Tambin puede sustituirse el uso de la t por Z cuando la muestra es
suficientemente grande, o sea, si n > 30.
Otra variante, que algunos llaman va interna de solucin, es utilizar como estadgrafo de
prueba la conocida estandarizacin de la media muestral, que en dependencia de si se conoce
o no la varianza poblacional recibe el nombre de estadgrafo Z o estadgrafo t respectivamente,
en correspondencia con la distribucin muestral que sigue. O sea:
Z0 =
x 0
/ n
t0 =
x 0
s/ n
Si se usan estos estadgrafos de prueba las regiones crticas quedan expresadas de una
manera ms sencilla:
Para cuando es conocida:
H1: > o
Wc = { Z0 : Z0 > Z1- }
H1: < o
Wc = { Z0 : Z0 < - Z1- }
Wc = { Z0 : | Z0 | > Z1-/2 }
H1: o
Para cuando es desconocida:
Wc = { t0 : t0 > t1- (n-1) }
H1: > o
H1: < o
Wc = { t0 : t0 < - t1- (n-1) }
Wc = { t0 : | t0 | > t1-/2 (n-1) }
H1: o
Pruebas para proporciones:
Si lo que interesa verificar es la posible variacin en algn valor porcentual o en el resultado del
conteo de alguna variable, ello puede expresarse como una prueba de hiptesis para
proporciones.
Las pruebas para proporciones se basan en las mismas condiciones o supuestos analizados
para considerar adecuada la proporcin muestral como estimador de la proporcin poblacional:
desarrollar un muestreo aleatorio simple y contar con una muestra tal que n > 30. As se tiene,
para los distintos casos de hiptesis alternativas las regiones crticas siguientes:
103
H1: p > p0
H1: p < p0
H1: p p0
p 0 q 0
WC = p : p > p 0 + Z 1
p 0 q 0
WC = p : p < p 0 Z 1
p 0 q0
WC = p : p < p 0 Z 1
2
n
p > p 0 + Z 1
p 0 q0
n
p p 0
p 0 q0
n
Wc = { Z0 : Z0 > Z1- }
Wc = { Z0 : Z0 < - Z1- }
Wc = { Z0 : | Z0 | > Z1-/2 }
Este resultado para las regiones crticas coincide con en el de las pruebas para medias cuando
la varianza poblacional es conocida, o sea, cuando se usa Z. Esto evidencia una de las
ventajas de la va interna: las regiones crticas suelen permanecer inalterables para un tipo de
alternativa dado, lo que vara es la forma en que se calcula el estadgrafo de prueba.
Pruebas para la varianza:
2 2
WC = s 2 : s 2 >
1 (n1)
n 1
WC = s 2 : s 2 <
H1: 2 < 20
2 (n1)
n 1
2 2
WC = s 2 : s 2 <
H1: 2 20
2 (n1) s 2 >
1 (n1)
2
n 1 2
n 1
2
(n 1) s
Por la va interna de solucin el estadgrafo de prueba es: 02 =
02
Y las regiones crticas son:
H1: 2 > 20
H1: 2 > 20
H1: 2 < 20
H1: 2 < 20
Wc = { 20 : 20 > 21- }
Wc = { 20 : 20 < 2 }
Wc = { 20 : 20 < 2/2
20 > 21-/2 }
104
Ejemplo 1:
En una fbrica se producen cuerdas cuya resistencia promedio es de 500 kgf (kilogramofuerza), con una desviacin tpica de 40 kgf. El jefe de produccin plantea que con otra materia
prima la resistencia promedio puede aumentarse. Para probar su planteamiento se utiliz de
forma experimental la nueva materia prima, tomndose una muestra de 64 de las cuerdas
producidas, para la cual la resistencia promedio fue de 510 kgf. Se quiere realizar la prueba de
hiptesis correspondiente para un 5% de significacin.
Solucin:
Al enfrentar un problema de este tipo, lo primero que se hace es analizar a que parmetro se le
va a hacer la prueba, y esto est en dependencia de lo que se va a investigar. En este caso se
plantea que con la nueva materia prima la resistencia promedio puede aumentarse, por lo que
evidentemente se debe efectuar una prueba de hiptesis de media ( ). Se debe determinar
entonces si se conoce la varianza poblacional ( ) o no; para ello lo segundo que se har es
sacar la informacin que brinda el problema.
Datos:
0 = 500
= 40
n = 64
x = 510
= 0,05
Dado que 2 es conocida, se tiene que x N ( ; / n ), luego las frmulas para el clculo
de la regin crtica que se deben utilizar son las de la normal.
Formulacin de las hiptesis:
H0: = 500
(Dice que con la nueva materia prima la resistencia promedio no vara.)
H1: > 500
(Dice que con la nueva materia prima la resistencia promedio aumenta.)
Nota: H0 hubiera podido ser tambin totalmente contraria a H1, o sea: 500, es decir,
que con la nueva materia prima la resistencia promedio no vara o incluso disminuye.
Regin crtica:
WC = x : x > 0 + Z1
= { x : x > 500 + Z0.95 (40 / 64 ) } = { x : x > 500 + 1.64 (5) } = { x : x > 500 + 8.2 }
Por tanto: Wc = { x : x > 508.2 }
Regla de decisin:
Se rechaza Ho si x > 508.2
Se acepta H0 si x 508.2
105
Toma de la decisin:
x = 510 > C = 508.2, o sea: x WC
o sea: Z 0 WC
Por tanto, de la misma manera, se rechaza H0, y se llega a igual conclusin: el cambio
de materia prima puede aumentar la resistencia promedio de las cuerdas.
Ejemplo 2:
La produccin promedio diaria de leche por vaca en la provincia en los meses de verano ha sido
en los aos anteriores de 10.1 litros. Este ao en una muestra simple aleatoria de 16 das de los
meses de verano se obtuvo una produccin media diaria por vaca de 9.9 litros con una
desviacin estndar de 1.1 litros. Hay razn para afirmar que ha variado la produccin medio
diaria de leche por vaca?
Solucin:
Esta es una prueba paramtrica sobre la media, ya que de lo que se trata es de verificar si ha
tenido variacin la produccin promedio diaria de leche por vaca.
Datos:
= 10.1 = ? n = 16
= 9.9
s = 1.1
Hiptesis:
Ho: = 10.1
H1: 10.1
Nivel de significacin:
= 0,05 (Cuando no se sugiere ninguno, el nivel de significacin lo decide el estadstico.)
Regin crtica:
s
WC = x : x < 0 t 1
2 ( n 1)
n
={
={
={
={
x:
x:
x:
x:
x
x
x
x
x > 0 + t 1
2 ( n 1)
> 10.1 - t0.975 (15) (1.1 / 16 ) x > 10.1 + t0.975 (15) (1.1 / 16 ) }
> 10.1 - 2.13 (0.275) x > 10.1 + 2.13 (0.275) }
> 10.1 - 0.586 x > 10.1 + 0.586 }
> 9.514 x > 10.686 }
Regla de decisin:
Rechazar Ho si x < 9.514 x > 10.686
No rechazar Ho si: 9.514 x 10.686
Decisin:
x = 9.9 > 9.514 y 9.9 < 10.686, o sea: x WC
Como: | t0 | = 0.727 < 2.13 la decisin es, otra vez, no rechazar H0.
Ejemplo 3:
Se afirma que un lote de piezas contiene menos del 30% de piezas defectuosas. Para
comprobarlo se revisan 50 piezas del lote seleccionadas al azar, entre las cuales se detectan 10
defectuosas. Hay razn para mantener la afirmacin con una significacin del 5%?
107
Solucin:
Esta prueba, evidentemente es de proporciones, ya que lo que se est investigando es sobre la
proporcin de piezas defectuosas, y se tiene como dato con el conteo de stas en la muestra
tomada. La afirmacin que se quiere verificar, referente a que menos del 30% de las piezas es
defectuosa, no es algo dado por seguro, luego, es una hiptesis: la hiptesis alternativa; y el
dato a tomar como referencia, el 30%, es el equivalente a una proporcin histrica.
Datos:
X: cantidad de piezas defectuosas
n = 50 piezas
xn = 10 piezas defectuosas
= 0.05
p0 = 0.30
Hiptesis:
H0: P 0.30
H1: p < 0.30
Regin crtica:
p 0 q0
0.30 0.70
WC = p : p < p 0 Z1
= p : p < 0.30 Z 0.95
= p : p < 0.30 1.64 0.0042
50
n
O sea, p WC
aleatoria de 30 das correspondiente al presente ao dio como resultado una desviacin tpica
de 0.5 dlares. Hay razn suficiente para creer que el precio del producto es menos estable
este ao que el pasado? Considere un = 0.05.
Solucin:
Ya que lo que se quiere investigar es la estabilidad del precio, es decir su variabilidad, y se
cuenta dato con desviaciones tpicas, queda claro se debe efectuar una prueba de varianzas.
Es bueno destacar que un precio menos estable implica mayor varianza, mientras que, por el
contrario, un precio ms estable implica menor varianza.
Datos:
0 = 0.4
s = 0.5
Hiptesis:
Ho: 2 = 0.16
H1: 2 > 0.16
n = 30
= 0.05
Nota: 0 = 0.4
02 = 0.16
Regin crtica:
0.16 2
0.16
2 2
WC = s 2 : s 2 >
0.95 ( 29 ) = s 2 : s 2 >
42.6 = s 2 : s 2 > 0.235
1 (n1) = s 2 : s 2 >
n 1
29
29
Decisin:
s2 = 0.52 = 0.25 > 0.235
O sea, s 2 WC
O sea, 02 WC
Por tanto, como era de esperar, se rechaza H0, llegndose a las mismas conclusiones.
EJERCICIOS DE AUTOEVALUACIN.
1.- Explique qu significan los trminos hiptesis nula e hiptesis alternativa.
109
11
10
110
111
5.2: Tamao del error tipo II. Funcin de potencia. Tamao de la muestra.
Tradicionalmente el estadstico controla el error tipo I estableciendo el nivel de riesgo que est
dispuesto a tolerar en trminos de rechazar una hiptesis nula verdadera, es decir, fijando el
de la prueba. Una vez especificado el valor de queda determinado el tamao de la regin
crtica o de rechazo.
Si se procede a la inversa y se establece de antemano la regin crtica a usar, se puede
calcular el a partir de su propia definicin:
= P( Rechazar H0 siendo cierta) Entonces:
= P( Wc / = 0)
Entonces:
= P( Wc / 0)
El valor de depende del escogido o del valor crtico derivado-, pero tambin depende de
algn valor especfico asociado a la hiptesis alternativa (k); por ello se suele describir a
como funcin del parmetro en prueba, o sea: = (k).
Este error se puede graficar y se obtiene la llamada curva caracterstica de operacin o
curva OC (por las iniciales en ingls: Operation Characteristic) de gran utilidad en tcnicas
estadsticas, pues permitir determinar los riesgos que se derivan de no rechazar una hiptesis
nula falsa, es decir muestra la probabilidad de no rechazar una hiptesis nula falsa para cada
posible valor verdadero del parmetro poblacional. Para lograr la curva caracterstica deben
elegirse varios valores representativos para dicho parmetro y calcular para cada uno.
En muchas aplicaciones estadsticas el segundo tipo de error (error tipo II), no est controlado,
pero aun entonces el que realiza el experimento debe estar enterado de la existencia de este
error y tener una idea de lo grande que puede ser, ya que, como se dijo, el mismo est
asociado a situaciones como las provocadas por que artculos de mala clase sean aceptados
para la venta, con prdida para el consumidor. Equivalentemente, se puede calcular lo que se
denomina potencia de la prueba.
Se le llama funcin de potencia a la expresin: (k) = 1 - (k)
En forma directa se puede plantear:
(k) = 1 - (k) = 1 - P( Wc / = k) = P( Wc / = k)
112
Los grficos anteriores permiten concluir que cuando el valor real de un parmetro sometido a
prueba se aleja mucho del valor hipottico, la potencia de la prueba, o sea, la probabilidad de
descubrir un cambio en la situacin en estudio si lo hubo-, ser alta, y muy pequeo por tanto
el tamao probabilstico del error tipo II; pero ocurre lo contrario si el verdadero valor est muy
alejado del hipottico.
En general, se dice que una prueba es potente para un valor alternativo dado si su potencia es
mayor del 80 u 85%.
La funcin de potencia cumple adems con las dos propiedades siguientes, observables en los
grficos:
1. (0) =
2. (C) = = 0.5
113
El proceso de llenado de los paquetes de cereales en una determinada fbrica est ajustado de
forma tal que el peso neto de los paquetes sigue una distribucin normal con media de 368
gramos y una desviacin tpica de 15 gramos. La oficina local de proteccin a los consumidores
hace inspecciones peridicas para conocer si el peso de los paquetes de cereal producidos por
la fbrica tienen el peso adecuado; esta vez, para hacer los anlisis pertinentes se tom una
muestra aleatoria de 25 paquetes, calculndose el peso promedio, que result igual a 367.5
gramos.
a) Haga la prueba correspondiente para un = 0.05, si se desea conocer si el peso promedio
de los paquetes ha disminuido. Diga qu error pudiera cometerse, y cul es su tamao
probabilstico. Calcule la potencia de la prueba.
b) Si el gerente plantea que l est sobre todo interesado en detectar disminuciones en el peso
medio por encima de los 10 gramos, es potente la prueba para ello?
c) Qu pasara con la prueba si el gerente decide utilizar como valor crtico C = 367 gramos?
d) Qu tamao debe tener la muestra que se utilice si se quiere una significacin del 5% y
una potencia del 98% para detectar disminuciones de al menos 5 gramos en el peso
promedio?
Solucin:
a) Datos:
X: peso neto de las cajas de cereal (gramos)
0 = 368 = 15
n = 25
x = 367.5
= 0.05
Como X N ( ; ), siendo conocida, entonces x N ( ;/ n ), es decir, se usar la
distribucin Z.
Hiptesis:
Ho: = 368
H1: < 368
Regin crtica:
15
WC = x : x < 0 Z1
= {x : x < 368 1.64 3} = {x : x < 368 4.92}
= x : x < 368 Z 0.95
n
25
O sea: x WC
114
Esto indica que, con la significacin escogida ( = 0.05) no hay elementos para asegurar que el
peso medio de los paquetes de cereales es inferior a lo debido; la diferencia observada puede
deberse a la aleatoriedad de la propia muestra.
A partir de esta decisin, de haberse cometido un error, sera de tipo II. El tamao probabilstico
del posible error puede determinarse como sigue:
= P ( x WC / = k) = P ( x > C / = k)
363.08 320
15
25
) = P ( Z > 14.36 )
= 1 - FZ (14.36) = 1 1 = 0
Y la potencia correspondiente es: (k1) = 1 - (k1) = 1 0 = 1
Este resultado indica que existe una probabilidad muy pequea (casi cero) de concluir
que el peso promedio no ha disminuido o sea, de no detectar su disminucin- si en
realidad ha disminuido mucho. En trminos de la potencia, la prueba es muy potente
(=100%) para detectar disminuciones en el peso neto medio si ste realmente ha
disminuido mucho.
b) Datos:
= -10 (disminucin de 10 gramos)
k = 0 + = 368 - 10 = 358
Lo que se quiere es determinar la potencia de la prueba para k = 358. Para ello se puede
calcular primero la correspondiente (k), o mejor, calcular directamente (k):
115
363.08 358
15
25
) = P ( Z < 1.69 )
= FZ (1.69) = 0.9545
Es decir, la prueba es altamente potente, pues existe un 95.45% de probabilidad de
detectar una disminucin en el peso neto medio de los paquetes si hay una disminucin
real de 10 gramos o ms.
c) Datos:
C = 367
Si se toma un valor crtico distinto, el nivel de significacin de la prueba o probabilidad de
cometer un error de tipo I cambia. En este caso, al ser mayor el nuevo valor crtico, estando
ms cerca de 0, el nivel de significacin debe aumentar, como se ve en la siguiente figura.
367 368
15
25
) = P ( Z < -0.33 )
= FZ (-0.33) = 0.3707
Se obtiene, pues, una probabilidad alta para el error tipo I, del 33.07%.
d) Datos:
= -5 (disminucin de 5 gramos)
k = 0 + = 368 - 5 = 363
= 0.05
(k) = 0.98
Se quiere determinar n para un nivel de significacin y una potencia prefijados, lo cual implica
que se despeje de la funcin de potencia:
k
Z 1 n k
= P Z < 0
( k ) = P( x < C / = k ) = P Z < C
n
n
116
Z =
0 Z 1
n k
n
= 0 Z 1
(Z + Z1 )
Z + Z 1
Siendo, finalmente: n =
0
k
= 0 k
Z + Z 1
+ Z 0.95
Z
2.05 + 1.64
= 0.98
15 = (0.738 15 ) 2 = 11.07 2 = 122.54
15 =
n =
5
368
363
k
0
Entonces: n = 123
Esto quiere decir que se requiere una muestra de al menos 123 paquetes para
garantizar los requerimientos planteados para la prueba.
Consideraciones finales:
Para un determinado tamao de muestra, quien deba tomar la decisin tiene que equilibrar los
dos tipos de errores, pues siempre que se disminuye aumenta , y viceversa. Los valores
para y dependen de la importancia de cada riesgo en un problema en particular.
El riesgo de un error tipo I en el problema de llenado de los paquetes de cereales implica llegar
a la conclusin de que el peso promedio ha cambiado cuando en realidad no es as.
El riesgo de un error tipo II implica llegar a la conclusin de que el peso promedio de llenado
no ha cambiado cuando en realidad s ha cambiado.
As la seleccin de los valores que deben tener y depende de los costos inherentes a
cada tipo de error. Por ejemplo si fuera muy costoso hacer cambiar la lnea de llenado,
entonces se querra estar muy seguro de que un cambio resultara beneficioso por lo que un
error tipo I pudiera ser lo ms atendible y se mantendra muy bajo. Por otra parte, si se quiere
estar seguro de detectar los cambios para una media hipottica, el riesgo de un error tipo II,
sera lo ms importante y se podra utilizar un nivel ms alto de .
No obstante, al aumentar el tamao de la muestra se pueden controlar tanto como ,
pero puede haber lmites en los recursos disponibles, de ah la necesidad de tomar en cuenta
las consecuencias de cada error. Para la determinacin del tamao de muestra necesario se
recurre al despeje de la funcin de potencia.
117
EJERCICIOS DE AUTOEVALUCIN
1.-Para probar que una moneda no est trucada, se adopta la siguiente regla de decisin:
Acepte la hiptesis si el nmero de caras en una muestra simple de 10 lanzamientos est entre
40 y 60 inclusive de lo contrario rechace la hiptesis. Cul es la probabilidad de aceptar la
hiptesis de que la moneda no est trucada cuando la probabilidad real de obtener cara es P =
0.7?
2.- Una empresa fabrica cordel cuya carga de rotura tiene una media de 300 lbs y una
desviacin estndar de 24 lbs. Se cree que mediante un nuevo proceso de fabricacin la carga
media de rotura puede ser aumentada.
a) Disee una regla de decisin para rechazar el proceso antiguo a un nivel de significacin
de 0.01 si se est de acuerdo en probar 64 cordeles
b) Bajo la regla de decisin adoptada en el inciso (a) cul es la probabilidad de aceptar el
proceso antiguo, cuando en realidad el nuevo proceso ha aumentado la carga media de
rotura a 310 lbs.? Suponga que la desviacin estndar sigue siendo 24 lbs.
3.- Si la probabilidad de cometer un error tipo I disminuye, cmo afecta esto a la probabilidad
de cometer un error tipo II?
4.- Si la probabilidad de cometer un error tipo II disminuye, afecta esto a la probabilidad de
cometer un error tipo I?
5.- Que es ms importante controlar un error tipo I o el error tipo II?
6.- Cada semana, la polica del Estado de La Florida intercepta un promedio de $56 millones en
drogas que se transportan hacia el norte por una carretera interestatal. Durante 36 semanas
elegidas al azar en 1992, la polica intercept un promedio de $60 millones en drogas por
semana, con una desviacin estndar de $20 millones. Indica esta evidencia muestral un
aumento en el movimiento de drogas a travs de La Florida? Realice una prueba con un nivel
de significacin de 0.05. Calcule la probabilidad de que ocurra un error tipo II si la media
poblacional es en realidad $59 millones.
7.- Es posible controlar las probabilidades de error tipo I y tipo II en una prueba de hiptesis
particular? Si es as, cmo se logra?
118
119
02
02
(no ne )
ne
02
> 12 (k 3 )
En caso de que se viole algn supuesto, esto se resuelve agrupando clases adyacentes hasta
que se logre el cumplimiento. En cualquier caso, es evidente que al final de los clculos debe
cumplirse que: Pi = 1.
Procedimientos para el clculo de las Pi:
Como los datos suelen estar en su forma primaria, el primer paso es organizarlos, creando
clases, pues la distribucin normal corresponde a una variable continua. Para ello se debe
determinar el recorrido de la variable, decidir cuntas clases conviene usar y calcular el ancho
de clases necesarios. Una vez hecho esto se debern estimar los dos parmetros que
caracterizan a la distribucin normal: y . Con las correspondientes estimaciones se pasar a
calcular para cada clase la probabilidad de que una variable con distribucin normal pertenezca
a la misma; en este clculo, dado el comportamiento terico normal, la primera clase se
considera como originada en menos infinito (-), y la ltima clase como extendida hasta infinito
(). Con esas probabilidades se calculan las frecuencias esperadas, verificndose que se
cumplen los supuestos requeridos. Finalmente, se obtiene el valor del estadgrafo de prueba,
que permite tomar una decisin.
Como se aprecia, el procedimiento es bastante laborioso, sobre todo el clculo de la
probabilidad correspondiente a cada clase; por eso, si se tiene una muestra relativamente
grande (n mayor que 60 100 observaciones), se puede recurrir a un mtodo alternativo que
simplifica algunos clculos, y que se basa en la regla de las tres sigmas asociada a la
distribucin normal.
Vale la pena recordar que la regla de las tres sigmas establece que para toda distribucin
normal con media y desviacin tpica el rea bajo la curva de su funcin de densidad se
distribuye de la siguiente forma:
120
A partir de la muestra siguiente, se quiere verificar, con un nivel de significacin del 5%, si la
misma procede de una poblacin normal.
10
10
16
19
20
17
21
12
11
16
20
19
16
22
13
15
20
17
19
23
22
14
10
17
18
18
24
21
15
15
18
20
17
23
22
22
26
30
29
27
27
29
28
26
28
26
27
31
33
30
28
27
26
26
32
33
30
27
26
28
26
33
32
29
29
30
29
28
33
31
121
24
24
24
23
23
24
24
20
23
23
21
21
21
21
22
35
34
31
32
37
38
31
41
36
38
39
36
39
41
40
Solucin:
1
n
X =
2 = s 2 =
1
n 1
2500
= 25
100
( X x)
5420
= 54.75
99
y: s = 54.75 = 7.4
Es decir, se partir de x = 25 como valor que cierra la tercera clase y abre la cuarta, y tomando
como ancho de clase c = s = 7.4, se crearn las clases y la tabla de frecuencias:
clases
- 10.2
10.2 17.6
17.6 25.0
25.0 32.4
32.4 39.8
39.8
noi
3
14
34
33
14
2
Pi
nei = nPi
0.0228
2.28
0.1359
13.59
0.3413
34.13
0.3413
34.13
0.1359
13.59
0.0228
2.28
Nota: Puesto que las clases se han creado atendiendo al criterio derivado de la regla de
las 3 sigmas, las probabilidades correspondientes son los valores antes listados. No
obstante, a continuacin se muestra cmo calcularlas, para el caso en que no se quiera
o no se pueda seguir este mtodo, o incluso siguindolo no se recuerden las
probabilidades:
122
Dos clases tienen frecuencias esperadas menores que 5, de un total de seis, lo que
equivale a decir que el 33% de las frecuencias esperadas (2/6 = 0.33) son menores que
5, por lo que se viola esta restriccin.
noi
17
34
33
14
2
n ei
15.87
34.13
34.13
13.59
2.28
Ahora, de cinco clases en total, una tiene la frecuencia esperada menor que 5, lo que hace
constituye el 20%, que es justo el mximo admitido para esta restriccin, que se puede dar ya
entonces por cumplida. Queda, pues, k = 5.
Hiptesis:
H0: x N
H1: x / N
Regin crtica:
WC = 02 : 02 > 12 (k 3 ) = 02 : 02 > 02.95 ( 2 ) = 02 : 02 > 5.99
} {
} {
Decisin:
El estadgrafo de prueba
es: 02
( = 0.05 )
(no ne )
ne
02 =
(17 15.87)
15.87
(34 34.13 )
34.13
13.59
2.28
= 0.1374
123
no 11 no 12
no 21 no 22
Yk
nX
no 1k
no 2k
nX1
nX2
Y2
Y1
no i j
Y
X
X1
X2
Para desarrollar la prueba las dos variables sobre las que se plantean las hiptesis se
clasificarn conjuntamente en categoras o clases, en una tabla denominada tabla de doble
entrada o tabla de contingencia, como la mostrada:
Xr
nY
no r1 no r2
nY1 nY2
no rk
nYk
nXr
n
i=1
no
ij
n Xi =
noij
j=1
Para cada par (Xi ; Yj) deben calcularse las frecuencias esperadas bajo la hiptesis de
independencia, que se denotan por ne i j y suelen ponerse entre parntesis junto a la frecuencia
observada correspondiente. Para ello se necesita tambin calcular la probabilidad (Pi j) de que
ocurra cada par de valores (Xi ; Yj) siendo las variables independientes.
Las frecuencias esperadas se calculan como: ne i j = n Pi j
Y las probabilidades correspondientes se pueden obtener partiendo de la condicin de
independencia, as:
n X n Yj n Xi n Yj
Pi j = Pi j Pi j = i
=
n
n
n2
Aqu: Pi j representa la probabilidad de pertenecer a la clase o celda (i, j)
Pi representa la probabilidad de pertenecer a la clase i de la variable X
Pj representa la probabilidad de pertenecer a la clase j de la variable Y
Nota. En funcin de lo anterior, pudiera encontrarse un equivalente para las
hiptesis planteadas; es decir:
H0: X y Y son independientes
equivale a:
H0: Pi j = Pi Pj
124
H1: Pi j = Pi Pj
equivale a:
02 =
ij
n n
oij
eij
ne
ij
En este caso los grados de libertad asociados al estadgrafo son el producto (k-1)(r-1), por lo
que la regin crtica toma la forma:
WC = 02 : 02 > 12 [(k 1)(r 1)]
Ejemplo:
Una muestra aleatoria simple de 300 estudiantes universitarios de las carreras de Economa y
Contabilidad arroj los siguientes resultados respecto a la distribucin de las evaluaciones en
Estadstica:
Evaluacin:
Carrera:
Economa
Contabilidad
Total
Total
27
24
51
85
44
129
50
40
90
18
12
30
180
120
300
Puede afirmarse con base en estos datos, que entre la poblacin de estudiantes universitarios
de las carreras de Economa y Contabilidad hay diferencias respecto a sus resultados en
Estadstica? Utilice un nivel de significacin del 5%.
Solucin:
Datos:
n = 300
Nota: Decir que los resultados en Estadstica se diferencian para las carreras de
Economa y Contabilidad equivale a decir que dichos resultados dependen de la
carrera que se estudia, por lo que puede efectuarse la verificacin mediante una
prueba chi-cuadrado para independencia.
Hiptesis:
H0: Los resultados en Estadstica son independientes de la carrera
125
nX nY
i
ij
11
nX nY
1
51 180
= 30.6
300
ne
24
nX nY
30 120
= 12
300
Total
27 (30.6)
24 (20.4)
51
85 (77.4)
44 (51.6)
129
50 (54)
40 (36)
90
18 (18)
12 (12)
30
180
120
300
Como se ve, todas las frecuencias esperadas son directamente mayores que 5,
por lo que se cumplen los supuestos o restricciones, y se mantiene la cantidad
original de filas y columnas (r = 2 y k = 4).
Regin crtica:
WC = 02 : 02 > 12 [(k 1)(r 1)] = 02 : 02 > 02.95 [(1)(3 )] = 02 : 02 > 02.95 ( 3 ) = 02 : 02 > 7.81
} {
} {
} {
Decisin:
02 =
(27 30.6) 2 (85 77.4) 2 (50 54) 2 (18 18) 2 (24 20.4) 2 ( 44 51.6) 2 ( 40 36) 2 (12 12) 2
+
+
+
+
+
+
+
30.6
77.4
54
18
20.4
51.6
36
12
Esto quiere decir que, con una significacin del 5%, no existen elementos para afirmar que los
resultados en Estadstica entre los estudiantes de Economa y Contabilidad dependen de la
carrera que estudian; en otras palabras, no hay diferencias significativas en cuanto a los
resultados en Estadstica entre ambas carreras.
EJERCICIOS DE AUTOEVALUACIN
1.- Para que se utiliza la prueba o dcima de bondad del ajuste? Cuales son las restricciones
que se tiene en cuenta para aplicar la distribucin 2 a esta prueba no paramtrica? Cmo se
plantearan las hiptesis en este tipo de prueba? Cmo se calculan las frecuencias
esperadas?
2.- Por qu es necesario al calcular las Pi que estas sumen 1?
126
3.- Una muestra aleatoria de 500 acumuladores para automviles mostr la siguiente
distribucin: de la duracin en aos de los acumuladores.
Intervalos
0 a 2
2 a 4
4 a 6
6 a 8
8 a 10
10 a 12
ni
12
94
170
188
28
8
Casa de 2 a 4 Edificio de
familias
apartamentos
39
77
36
98
75
175
Total
210
190
400
Con un = 0.01, podra considerar que hay relacin entre la contratacin de servicios
de TV por cable y el tipo de residencia?
6.- Por qu no se debe aplicar la prueba chi-cuadrado para la independencia cuando las
frecuencias esperadas en algunas celdas sean menores que 5? Qu accin se puede llevar a
cabo en estas circunstancias que permitan analizar esos datos?
127
7.- Una gran corporacin esta interesada en determinar si existe asociacin entre el tiempo que
le toma a sus empleados trasladarse al trabajo, y el nivel de problemas relacionados con el
estrs observado en los mismos, con vistas a situarles un mnibus si esto se comprueba. Un
estudio de 116 trabajadores de la lnea de montaje revel lo mostrado en la tabla que sigue.
Determine si hay relacin entre el tiempo de viaje y el estrs.
Estrs
Tiempo Viaje
Menos de 15 min
De 15 a 45 min
Ms de 45 min
Total
Alto
9
17
18
44
Moderado Bajo
5
8
6
19
18
28
7
53
Total
32
53
31
116
128
129
Es comn representar con k la cantidad de niveles o valores distintos del factor externo, a lo
que tambin se llama cantidad de poblaciones en comparacin, y cada una da lugar a una
muestra o grupo de observaciones. La notacin en uso tiende adems a indicar con un
subndice i los diferentes niveles o poblaciones a los que da origen (1 i k), y con un
subndice j las distintas observaciones correspondientes a las muestras o grupos tomados para
cada poblacin o nivel.
En el anlisis de varianza de clasificacin simple se trata entonces de decidir si un
determinado factor externo influye o no sobre una variable, juzgando mediante una prueba de
hiptesis- si la variabilidad que se observa en la variable es atribuible al azar o si realmente se
debe a la influencia de dicho factor.
Ejemplo:
Ya se ha dicho que la este mtodo se basa en expresar la variabilidad total del conjunto de
datos como una suma de trminos que se pueden atribuir a distintas fuentes o causas
especficas de variacin, y para ello se hace uso ve varios teoremas importantes en el campo
de la Estadstica.
Hay un teorema que plantea que si se unen k poblaciones, de respectivo tamao Ni, pero con
igual varianza 2, entonces la varianza total asociada a la nueva megapoblacin o poblacin
global ser:
130
N (
i
2T
i=1
= +
Hay otro teorema que plantea que si dos o ms muestras proceden de una misma poblacin, o
de diferentes poblaciones con igual varianza 2, entonces podr obtenerse un estimador de 2 a
travs de la siguiente expresin:
S D2 =
1
nk
(y
ni
ij
yi
( )
siendo: E S D2 = 2
j=1
A esta varianza se le da el nombre de varianza dentro del grupo, y dada la forma de su valor
esperado se cumple que SD2 siempre es un estimador insesgado de 2.
Conviene destacar que esta varianza, como es insesgada, proporciona una estimacin vlida
de la varianza desconocida de la poblacin sin importar si se acepta o rechaza H0.
Un teorema ms establece que, bajo la misma condicin de que todas las varianzas
poblacionales son iguales a 2, otro estimador de 2 es:
n ( y
k
S E2
i=1
k 1
siendo: E
( )=
SE2
n (
i
i=1
k 1
A este varianza de le denomina varianza entre grupos, y dada la forma matemtica de su valor
esperado se ve que SE2 es un estimador sesgado de 2, que se hace insesgado slo si
todas las medias poblacionales son iguales, o sea, si se cumple la hiptesis nula planteada
para el anlisis de varianza.
En el caso del anlisis de varianza de clasificacin simple, la variacin total en los datos se
divide en dos fuentes: variacin entre grupos y variacin dentro de grupos, y esto se expresa
mediante las llamadas sumas de cuadrados, que son los denominadores de las varianzas. As,
se tendra una suma de cuadrados total (SCT), una suma de cuadrados entre grupos (SCE) y
una suma de cuadrados dentro de grupos (SCD), quedando la identidad fundamental del
anlisis de varianza como sigue:
SCT = SCD + SCE
Donde:
SCE =
(y
ij
y)2 =
n (y
i
y)2
131
(y
SCD =
ij
y i )2 =
ij
y )2
ij
SCT =
(y
(n 1) s
i
2
i
ij
La suma de cuadrados entre grupos busca las diferencias de las medias de cada grupo
respecto a la media de la muestra conjunta; por tanto, en el caso en que la hiptesis nula del
anlisis de varianza sea cierta esta diferencia entre grupos ser mnima. La suma de cuadrados
dentro de los grupos lo que hace es comparar cada elemento de la muestra con la media de su
propio grupo.
Una representacin grfica del origen de estas variaciones es siempre til para comprender su
significado:
Es evidente que: ( y ij y ) = ( y ij y i ) + ( y i y )
Si se eleva al cuadrado ambos miembros, y se suma sobre todos los grupos (i) y todas las
observaciones correspondientes (j), tras hacer algunas transformaciones matemticas se llega
a la identidad fundamental planteada anteriormente:
k
ni
(y
ij
i=1 j=1
ni
) (y
2
y =
ij
i=1 j=1
) n (y y )
2
yi +
i=1
132
1
n
ij
1
yi =
ni
ij
(y
yi
y=
s i2 =
1
ni 1
ij
ij
No obstante, como el clculo manual de las sumas de cuadrados es bastante laborioso, sobre
todo si se tienen que estimar previamente las medias y varianzas de cada grupo, y la media
global, cuando estas estimaciones no se tienen de antemano que es lo comn- se suele
recurrir a frmulas alternativas que simplifican un poco el proceso, y estas son:
SCE =
T i2
T2
ni
n
Donde: n =
ij
T=
SCT =
y ij2
y ij2
ij
SCD =
ij
T2
n
Ti2
ni
De la misma forma resulta de gran importancia en el anlisis de varianza la relacin entre los
grados de libertad asociados a cada suma de cuadrados, y que son:
GLE = k -1 (grados de libertad entre grupos)
GLD = n - k (grados de libertad dentro de grupos)
GLT = n - 1 (grados de libertad totales)
Para los grados de libertad se cumple tambin que:
GLT = GLD + GLE
O explcitamente:
(n 1) = (n k) + (k 1)
133
Al dividir las sumas de cuadrados entre sus grados de libertad se obtienen los distintos
cuadrados medios o estimadores de 2, es decir la varianza total ST2, la varianza dentro del
grupo SD2, y la varianza entre grupo SE2; siendo los dos ltimos los de verdadero inters para la
aplicacin de la tcnica, pues del cociente de estos se obtiene el estadgrafo de prueba F0. As
se tiene:
SCD
SCE
S D2 = CMD =
y
SE2 = CME =
nk
k 1
Y el estadgrafo de prueba es: F0 =
S E2
S D2
Debido a que el clculo de varianzas entre y dentro de grupos conlleva varios pasos, se
acostumbra a resumir estos resultados en una tabla conocida como tabla de anlisis de
varianza (ANOVA). Esta tabla incluye las fuentes de variacin, las sumas de los cuadrados (es
decir las variaciones), los grados de libertad, las varianzas o cuadrados medios y el valor del
estadstico de prueba F0, obtenido del cociente SE2/SD2:
Fuentes de
Variacin
entre
grupos
Sumas de
Cuadrados
SCE
dentro de
grupos
SCD
total
SCT
Tabla ANOVA
Grados de
Varianzas o
Libertad
Cuadrados Medios
SCE
sE2 =
k-1
n 1
SC
D
s D2 =
n-k
nk
Estadgrafo
F0 =
sE2
sD2
n-1
Al estadgrafo se le llama F porque se ha probado que la razn de dos varianzas tiene asociada
una distribucin probabilstica F de Fisher, cuyos grados de libertad en este caso coinciden con
los de las sumas de cuadrados en el numerador y en el denominador, es decir: F0 F(k-1;n-k).
Con el fin de determinar si las medias de los diversos grupos son todas iguales, se pueden
examinar dos estimadores diferentes de la varianza de la poblacin. Uno de los estimadores se
basa en la suma de los cuadrados dentro de los grupos (SCD); el otro se basa en la suma de los
cuadrados entre los grupos (SCE). Si la hiptesis nula es cierta, estos estimadores deben ser
aproximadamente iguales; si es falsa el estimador basado en la suma de los cuadrados entre
grupos debe ser mayor.
El estimado de la varianza entre los grupos no solo toma en cuenta las fluctuaciones aleatorias
de una observacin a otra, sino tambin mide las diferencias de un grupo con otro. Si no hay
diferencia de un grupo a otro, cualquier diferencia en la media muestral se explicar por la
variacin aleatoria, y la varianza entre grupos, debe estar cerca de la varianza dentro de los
grupos. Sin embargo si en realidad hay una diferencia entre los grupos, la varianza entre grupos
ser significativamente mayor que la varianza dentro de los grupos.
Por todo lo anterior, la prueba estadstica se basa en la razn de las varianzas SE2/SD2. Si la
hiptesis nula es cierta, esta razn debe estar cercana a uno; si la hiptesis nula es falsa
entonces el numerador debe ser mayor que el denominador y la razn debe ser mayor que uno
134
Como se aprecia el problema se reduce a buscar un valor a partir del cul el estadstico de
prueba resulte significativamente mayor que 1, y as se rechazar la hiptesis de que no hay
diferencias entre las medias de los grupos cuando la razn entre las varianzas o cuadrados
medios sea mayor que el valor tomado crtico: SE2/SD2 = CME/CMD > F1 ( k 1;n k)
De aqu se infiere que las hiptesis nula y alternativa que se plantearn sern las siguientes:
H0: 1 = 2 = . . . = k
H1: alguna i diferente
Es bueno sealar que estas hiptesis son equivalentes a decir:
H0 :
( )
( )
E SE2
=1
E SD2
H1 :
( )>1
E(S )
E S E2
2
D
Ya que como se vio anteriormente SE2 es un estimador sesgado de la varianza total, y slo ser
insesgado si se cumple que H0 es cierta, mientras que SD2 es siempre un estimador insesgado.
Adems sta es la razn por la cul la distribucin a utilizar es la F de Fisher, pues parte de la
relacin entre dos varianzas. La regin crtica siempre es hacia la derecha ya que el problema
se reduce a buscar un valor a partir del cul el estadstico de prueba resulte significativamente
mayor que 1 para rechazar la hiptesis nula.
O sea, la regin crtica toma la forma:
S2
W C = F0 = E2 : F0 > F1 (k 1 ; n k )
SD
Para aplicar la tcnica del anlisis de varianza es necesario que se cumplan las siguientes
suposiciones sobre los datos investigados:
1. Las varianzas de las k poblaciones son iguales, o sea: 12 = 22 = = k2
2. Las caractersticas medibles se distribuyen normalmente en cada poblacin; esto es:
Yi N(i ; i), donde i = 1, 2,,k.
3. Las caractersticas medibles son estadsticamente independientes de una poblacin a
otra: Y1, Y2,..., Yk.
4. Las muestras n1, n2,...,nk de los k grupos poblacionales son seleccionadas mediante un
muestreo aleatorio simple.
De estos supuestos el ms importante es el primero citado, bajo el que se asume que las
varianzas poblacionales son iguales para todos los grupos en comparacin, el cual es conocido
como supuesto de igualdad u homogeneidad de varianzas, o ms tcnicamente como supuesto
de homocedasticidad (igual variabilidad). De incumplirse el supuesto de homocedasticidad se
invalida el resultado obtenido al aplicar la prueba del anlisis de varianza, por ello resulta til
ante la duda verificar antes (o despus si se prefiere) su cumplimiento.
Verificacin del supuesto de homocedasticidad: Prueba de Bartlett
135
M M
WC = :
> 12 ( k 1)
C C
El valor de M se calcula como:
M = (n k ) ln( s D2 )
(n 1)ln(s
i
2
i )
(n 1)lg(s
i
2
i )
1
ni 1
(y
ij
yi
C = 1+
3(k 1)
1
1
n k
i 1
Ejemplo:
Tecnologas
A B
C
7
2
7
4
4
8
6
5
7
4
6
11
9
3
7
136
Solucin:
La variable en estudio (Y) es el costo de produccin del producto, y el factor externo en este
caso son las tecnologas.
Datos iniciales:
n = 15
k=3
} {
Regla de decisin:
Rechazar H0 si F0 > 3.89
No rechazar H0 si F0 3.89
Ahora, para calcular el estadgrafo de prueba, F0, se requiere contar con la llamada tabla
ANOVA, y para llegar a sta conviene crear una tabla auxiliar a partir de los datos muestrales.
Dicha tabla auxiliar se puede preparar atendiendo a lo que se necesita a partir de las frmulas
abreviadas para las sumas de cuadrados; a continuacin se muestra la aqu usada, donde se
traspuso por comodidad el orden de los datos, quedando ahora las observaciones para los
distintos niveles o poblaciones en filas.
Tecnologa
Yi j
7 4 6 4 9
A
2 4 5 6 3
B
7 8 7 11 7
C
Totales:
ni
5
5
5
15
Ti
30
20
40
90
Ti 2
900
400
1600
Ti2/ni
180
80
320
580
Y2i j
49 16 36 16 81 / 198
4 16 25 36 9 / 90
49 64 49 121 49 / 332
620
Nota: Debe tenerse en cuenta que el subndice i representa las muestras (aqu
en distintas filas), y el j las observaciones.
Resumiendo: n = 15; T = 90; k = 3; n1 = n2 = n3 = 5
Luego:
SC T =
ni
i=1 j=1
Yij2
T2
= 620 902/15 = 620 8100/15 = 620 540 = 80
n
137
SCE =
i=1
k
SCD =
Ti2 T 2
= 580 540 = 40
ni
n
ni
y ij2
i=1 j=1
i=1
Ti2
= 620 580 = 40
ni
40
20
Dentro de grupos
40
12
3.33
Total
80
14
Decisin:
F0 = 6.06 > 3.89
F0 =
20
= 6.06
3.3
Esto indica que existen diferencias significativas entre los costos de produccin para al menos
una de las tecnologa, a un 5% de significacin
Si se quisiera saber cul tecnologa es diferente se pudiera completar el anlisis comparando
dos a dos dichas tecnologas.
b) Verificacin de la igualdad o no de varianzas entre las tres tecnologas:
Hiptesis:
H0: 12 = 22 = 32
H1: alguna i2 diferente
Nivel de significacin: = 0.05 (el mismo anterior)
Regin crtica:
M M
M M
M M
WC = :
> 12 ( k 1) = :
> 02.95 ( 2 ) = :
> 5 .99
C C
C C
C C
Regla de decisin:
Rechazar H0 si M/C > 5.99
No rechazar H0 si M/C 5.99
Para calcular el estadgrafo de Bartlett, M/C, se puede crear otra tabla auxiliar a partir de los
datos muestrales, como la siguiente:
138
A
7
4
6
4
9
B
2
4
5
6
3
C
7
8
7
11
7
ij
4,5
2,5
ni
yi =
s i2 =
1
ni 1
1
ni
(y
ij
n = ni = 15
yi
Entonces queda:
M = (n k ) ln( s D2 )
(n 1)ln(s
i
2
i )
= 1+
3(k 1) ni 1 n k
32
15 3
6
= 1+0,667/6 = 1,111
Y finalmente: M/C = 0,360/1,111 = 0,324
Decisin:
M/C = 0.324 < 5.99
Por tanto, no se rechaza H0, o sea, se acepta la propia H0.
EJERCICIOS DE AUTOEVALUACIN
La siguiente tabla contiene los resultados obtenidos al aplicar cuatro
mtodos diferentes de fabricacin de un cierto producto, siendo la
variable observada en estudio el costo de produccin, en centavos.
Se quiere:
a.- Determinar si el costo depende o no, en general, del mtodo de
fabricacin.
b.- Verificar el supuesto de homocedasticidad necesario para la
verificacin anterior, conociendo que M/C = 1.05.
A
5
5
6
7
5
5
Mtodos
B
C
6
7
5
5
6
6
6
7
7
5
6
D
7
7
8
7
8
139
BIBLIOGRAFA BSICA:
140