Documente Academic
Documente Profesional
Documente Cultură
PARTE 1
ESTIMACIN DE PARMETROS
INTRODUCCIN
El objetivo ms importante de la Estadstica es obtener una inferencia con respecto a una
poblacin basndose en la informacin contenida en una muestra. Como las poblaciones se
describen mediante medidas numricas denominadas parmetros, el objetivo de la mayora de las
investigaciones estadsticas es deducir una inferencia con respecto a uno o ms parmetros de la
poblacin.
Una vez estudiadas las nociones fundamentales de distribucin de probabilidades; se est en
condiciones, entonces, de tratar los mtodos de inferencia estadstica, los cuales comprenden los
procedimientos para estimar parmetros de poblaciones y probar (contrastar) si una afirmacin
provisional sobre un parmetro poblacional se ve apoyada o desaprobada ante la evidencia de la
muestra.
Hablando en general, hay dos tipos de inferencia: la deductiva y la inductiva. Una inferencia
deductiva es un juicio o generalizacin que se basa en un razonamiento o proceso dialctico a
priori. Por ejemplo, se supone que dos monedas estn perfectamente equilibradas y que entonces
la probabilidad de cada una de caer "cara" es = 0,5 (premisa). La media o nmero esperado de
"caras" en la jugada de las monedas deber ser 1 (conclusin). Si las premisas son ciertas, las
conclusiones no pueden ser falsas.
Una inferencia inductiva, por otra parte, es un juicio o generalizacin derivado de observaciones
empricas o experimentales; la conclusin sobre el nmero promedio de "caras" con base en los
resultados de una muestra de prueba. Si los resultados de las pruebas son diferentes, la
conclusin tambin ser diferente. No se requiere una suposicin a priori sobre la naturaleza de
las monedas. La inferencia estadstica es primordialmente de naturaleza inductiva y llega a
generalizaciones respecto de las caractersticas de una poblacin al valerse de observaciones
empricas de la muestra.
Es muy probable que un estadstico muestral sea diferente del parmetro de la poblacin y slo
por coincidencia sera el uno exactamente igual al otro. La diferencia entre el valor de un
estadstico muestral y el correspondiente parmetro de la poblacin se suele llamar error de
estimacin. Slo se sabra cul es el error si se conociera el parmetro poblacional, pero ste por
lo general se desconoce. La nica manera de tener alguna certeza al respecto es hacer todas las
observaciones posibles del total de la poblacin en la mayora de las aplicaciones prcticas, lo
cual, desde luego, es imposible o impracticable.
Y en efecto, la razn de ser de la inferencia estadstica es la falta de conocimientos acerca de las
caractersticas de la poblacin. Pero que tales caractersticas se desconozcan no impide el que se
acte.
Las inferencias estadsticas se hacen por posibilidades o probabilidades. De la media de la
muestra se hacen inferencias sobre la media de la poblacin. No se sabe exactamente cul es la
diferencia entre estas dos medias, ya que la ltima es desconocida en la mayora de los casos. No
obstante, si se sabe que es ms bien poca la probabilidad de que esta diferencia sea mayor que,
por ejemplo, tres errores estndares.
Los problemas que se tratan en la inferencia estadstica se dividen generalmente en dos clases:
los problemas de estimacin y los de prueba de hiptesis. Como al estimar un parmetro
poblacional desconocido se suele hacer una afirmacin o juicio este ltimo ofrece solamente una
estimacin. Es un valor particular obtenido de observaciones de la muestra. No hay que confundir
este concepto con el de estimador, que se refiere a la regla o mtodo de estimar un parmetro
Parmetro
Varianza
Desvo estndar
Para que una muestra sirva adecuadamente como base para obtener estimadores de parmetros
poblacionales, debe ser representativa de la poblacin. El muestreo al azar de una poblacin
producir muestras que "a la larga" son representativas de la poblacin.
Si una muestra se extrae aleatoriamente, es representativa de la poblacin en todos los aspectos,
esto es, el estadstico diferir del parmetro solo por azar. La habilidad para estimar el grado de
error debido al azar (error de muestreo), es un rasgo importante de una muestra al azar.
ESTIMACIN DE PARMETROS
La teora clsica de la Inferencia Estadstica trata de los mtodos por los cuales se selecciona una
muestra de una poblacin y, basndose en las pruebas de las muestras, se trata de:
* Estimar el valor de un parmetro desconocido, por ejemplo .
* Verificar si es o no igual a cierto valor predeterminado, por ejemplo 0.
El primero de estos dos procedimientos, de inferir de una muestra a una poblacin, se llama
estimacin de un parmetro; el segundo, prueba de una hiptesis acerca de un parmetro.
Dentro del primer procedimiento, la estimacin de un parmetro puede tener por resultado un solo
punto (estimacin puntual), o un intervalo dentro del cual exista cierta probabilidad de
encontrarlo (estimacin por intervalos).
Un estimador puntual es un nico punto o valor, el cual se considera va a estimar a un parmetro.
La expresin E( ) = sugiere que el nico valor de
es un estimador puntual insesgado o no
viciado de .
Un estimador por intervalo se construye sobre el concepto de un estimador puntual, pero adems,
proporciona algn grado de exactitud del estimador. Como el trmino lo sugiere, un estimador por
intervalo es un rango o banda dentro de la cual el parmetro se supone va a caer.
PROPIEDADES DE UN BUEN ESTIMADOR
Para poder utilizar la informacin que se tenga de la mejor manera posible, se necesita identificar
los estadsticos que sean buenos estimadores, cuyas propiedades son:
Insesgabilidad: , estimador de es una variable aleatoria y por lo tanto tiene una distribucin de
probabilidad con una cierta media y varianza. Se puede definir estimador insesgado diciendo: Si
se utiliza un estadstico muestral para estimar el parmetro de la poblacin , se dice que es
un estimador insesgado de , si la esperanza matemtica de coincide con el parmetro que
desea estimar.
En smbolos:
es insesgado
O sea que es de esperar que si se toman muchas muestras de igual tamao partiendo de la
misma distribucin y si de cada una se obtiene un valor , la media de todos los valores de ha
de ser .
Por ejemplo:
* La media muestral es un estimador insesgado de la media poblacional, o sea que E(
* La varianza muestral, es un estimador insesgado de la varianza poblacional?
)= X
Si
. Ms an,
En efecto, si
estimador insesgado de .
Eficiencia: si se utilizan dos estadsticos como estimadores del mismo parmetro, entonces aquel
cuya distribucin muestral tenga menor varianza, es un estimador ms eficiente o ms eficaz que
el otro. Es decir:
es eficiente
mnima.
, el intervalo de
Donde:
es el lmite inferior del intervalo de confianza.
es el lmite superior del intervalo de confianza.
k es una constante no negativa. Es el llamado multiplicador correspondiente a 1 - .
es la probabilidad de que el intervalo no incluya al verdadero valor del parmetro.
1 - es el nivel de confianza, es una medida de la fiabilidad de la estimacin. Por ejemplo, si se
toma = 10%, entonces 1 - = 90% y se dice que se tiene un intervalo de confianza del 90% y
que la probabilidad de que el intervalo contenga al verdadero valor del parmetro es del 90%. Es
decir, que si repetidamente se muestra y se construye tal intervalo una y otra vez, 90 de cada 100
de estos intervalos, contendr al parmetro y 10 de ellos no.
Se puede pensar que 1 significa certeza, seguridad y significa riesgo. La seguridad menos el
riesgo, es decir 1 - da, por lo tanto, el coeficiente de confianza de nuestras afirmaciones.
En el caso anterior, se tiene una confianza de que 90 de cada 100 intervalos que se extraigan
como muestra, contendrn el verdadero valor del parmetro. Pero una vez determinado el
intervalo, es decir, una vez calculados numricamente los extremos, ya no debe hablarse en
trminos de confiabilidad ni en trminos probabilsticos, pues la situacin pasa a ser
completamente determinstica. De tal manera, asociado a un intervalo de confianza ya calculado,
se tiene una probabilidad 0 1 de que contenga al parmetro a estimar y no hay otra opcin, ya
que lo contiene o no lo contiene.
Resumiendo, los extremos del intervalo son variables aleatorias, mientras que el parmetro a
determinar es constante.
En general, los pasos a seguir para estimar un parmetro por el mtodo de los intervalos de
confianza, son:
* Fijar el coeficiente de confianza que se desea en la estimacin.
* Extraer la muestra y calcular el o los estadsticos necesarios.
* Determinar la distribucin en el muestreo que tiene el estadstico empleado.
INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL
CASO 1) Con conocido:
Sea
Sea x1, x2, ... , xn una muestra aleatoria de la variable aleatoria X y sea
la media muestral.
Se sabe que
Luego, tipificando:
Se plantea:
entonces:
Observaciones:
- Si las muestras se toman sin reposicin de una poblacin finita de tamao N, debe emplearse el
factor de correccin por finitud y el intervalo ser:
n = 30
=3
Por tabla:
1 - = 0.95
Entonces:
valor
ser mayor y por lo tanto el error aumentar. Esto se puede regular aumentando el
tamao de la muestra con lo que el error disminuir.
Para el ejemplo 1,
Si se desea elevar el nivel de confianza a 99%, pero sin aumentar el error e de estimacin, el
tamao de la muestra debera ser:
O sea que debe tomarse una muestra de aproximadamente 52 pacientes en lugar de 30.
Por el contrario, si el investigador deseara un error de estimacin menor, por ejemplo 1 puls/seg,
manteniendo el nivel de confianza en 95%, el tamao de la muestra requerido ser:
pacientes.
CASO 2) Con desconocido
Para estimar se debe utilizar el desvo estndar muestral corregido.
por
resulta:
Nota: para el caso del desvo, en vez de la normal, se utiliza una distribucin llamada t de Student.
Por lo tanto:
= 1-
Ejemplo 2: Una muestra de 15 aves tomadas al azar en un establecimiento con 5000 aves, (que
elabora alimentos balanceados), permiti establecer un aumento de peso promedio de 90 g por
semana y por ave, y un desvo tpico de 10 g. Se busca estimar el incremento de peso promedio
para las 5000 aves del establecimiento con un intervalo de confianza del 90%.
Respuesta:
X = aumento de peso por ave
n = 15
= 90 g S = 10 g
ICM0,90?
Por tabla:
y el intervalo resulta:
Interpretando este resultado, se dice que el aumento de peso por ave por semana en el
establecimiento est entre 85,5 y 94,6 gramos, con un 90% de confianza.
TEST DE HIPTESIS
INTRODUCCION
Recurdese que muchas veces el objetivo de la Estadstica es hacer inferencias con respecto a
parmetros poblacionales desconocidos, basadas en la informacin obtenida mediante datos
muestrales. Estas inferencias se expresan en una de dos maneras: como estimaciones de los
parmetros respectivos o como pruebas de hiptesis referentes a sus valores. En esta parte se
estudiar el tema de la prueba (o contraste, o test) de hiptesis.
Con frecuencia, los problemas a los que se enfrenta el cientfico o el experimentador no se
refieren slo a la estimacin de un parmetro poblacional como se indic anteriormente, sino, y es
an ms frecuente en los problemas prcticos, el que se tenga que formular un procedimiento de
decisin basado en los datos que conduzcan a una conclusin acerca de algn planteamiento
cientfico. Esta es la situacin en que se encuentra, por ejemplo, un investigador que pretende
demostrar que la droga A es ms efectiva para el tratamiento de cierta enfermedad que la droga
B; cuando un psiclogo desea comprobar si cierto formato de instruccin incrementar la
eficiencia en el aprendizajes; cuando un ingeniero agrnomo desea comprobar si una nueva
distancia de siembra entre surcos, para un cultivo, produce mejores rendimientos que las
distancias que se usaban comnmente en la zona; cuando el jefe de marketing asegura que
determinado producto se aceptado por el 60% de la poblacin consumidora, etc.
En cada uno de los anteriores casos el responsable del estudio postula o conjetura algo acerca
de un sistema. Estos constituyen enunciados provisionales, puesto que al no poder integrar el
cmulo de sus conocimientos todo lo concerniente a la situacin, aparece la incertidumbre. La
funcin de la estadstica en su aspecto inferencial es la de apoyar el razonamiento para llegar a
decisiones slidas a pesar de la incertidumbre. Al respecto, es tan importante el papel que
desempea la estadstica en estas situaciones que se suele hablar de la estadstica moderna
como "el estudio de las decisiones ante la incertidumbre".
Se puede decir que se llaman decisiones estadsticas a las decisiones que deben tomarse con
respecto a las poblaciones a partir de una informacin obtenida de una muestra de las mismas.
Por ejemplo, a partir de los datos del muestreo podemos querer llegar a decidir si un suero nuevo
es realmente efectivo para la cura de una enfermedad, si un sistema educacional es mejor que
otro, si una moneda est o no cargada, etc.
En los casos que se han sealado se observa que se deben tomar decisiones en base a datos
experimentales. Y si hay que tomar decisiones es porque hay alternativas; cada una de estas
alternativas es formalizada como una hiptesis estadstica y el proceso mediante el cual se
enfrentan o confrontan las hiptesis al tomar como punto de apoyo los datos muestrales
constituye lo que se denomina prueba o contraste de hiptesis.
ELEMENTOS DE UN TEST DE HIPTESIS.
Una hiptesis es una suposicin sobre la naturaleza de una poblacin. Las hiptesis generalmente
estn expresadas en trminos de parmetros poblacionales.
Las siguientes son algunos ejemplos de hiptesis:
= 5 (la media poblacional es igual a 5)
< 67 (la media poblacional es menor que 67)
2
Un test de una hiptesis es un procedimiento estadstico usado para tomar una decisin sobre el
valor de un parmetro poblacional.
La hiptesis nula (H0) especifica el valor de un parmetro poblacional. Se conduce un experimento
para ver si el valor especificado no es razonable.
Ejemplo :Un semillero publicita que el peso promedio de una espiga de una cierta variedad es de
180 gramos con una desvo estndar de 30 gramos. Un productor de avanzada sospecha que el
peso es distinto de 180 gramos, decide por lo tanto conducir un experimento. El propsito del
mismo es ver si el peso de 180 gramos es incorrecto. Por lo tanto la hiptesis nula de inters es:
H0 : = 180 gramos
La hiptesis alternativa (H1) da una suposicin opuesta a aquella presentada en la hiptesis nula.
El experimento se lleva a cabo para conocer si la hiptesis alternativa puede ser sustentada.
En el ejemplo previo el productor sospecha que el peso medio es distinto de 180 gramos. Esta es
la hiptesis a ser sustentada y as la hiptesis alternativa es:
H1 > 180 gramos < 180 gramos
180 gramos
Se puede ver que las hiptesis son excluyentes. La hiptesis alternativa frecuentemente se llama
hiptesis de investigacin, porque este tipo de hiptesis expresa la teora que el investigador o
experimentador cree va a ser verdadera.
Un test estadstico es una cantidad calculada de la muestra y se usa cuando se va a hacer una
decisin sobre la hiptesis de inters.
Despus que el productor de este ejemplo prueba la variedad en 50 parcelas sembradas al azar,
seleccionando un conjunto de espigas por parcela, el test estadstico debe ser calculado. Por
ejemplo la media de la muestra
se podra usar como test estadstico para tomar una decisin
acerca del valor de , o si se obtiene una muestra suficientemente grande se podra utilizar un
estadstico z para comparar el valor observado de
con respecto a 180 gramos especificado en
la hiptesis nula. As un posible test estadstico cuando 2 se conoce, sera :
Para interpretar el valor del test estadstico es necesario introducir un elemento ms al test de
hiptesis: la regin de rechazo, que especifica los valores del test estadstico para los cuales la
hiptesis nula es rechazada (y para los cuales la hiptesis alternativa no es rechazada).
La regin de rechazo identifica los valores del test estadstico que sostienen o sustentan la
alternativa y seran improbables, (raros) si la hiptesis nula fuera verdadera.
Ya que no se espera observar sucesos raros (valores improbables del test estadstico) la hiptesis
nula se rechazar cuando la muestra produzca un valor tal.
Para el ejemplo si la media fuera menor que 180 gr o mayor que 180 gr esta sustentara la
hiptesis alternativa
( 180) y un valor de
ms de 2, (1,96) errores estndares por debajo o por encima de 180
sera raro o poco probable.
El propsito de cualquier test de hiptesis es decidir cual hiptesis - la nula o la alternativa - sera
rechazada. Ya que cualquier decisin estar basada sobre informacin parcial de una poblacin,
contenida en una muestra, habr siempre una posibilidad de una decisin incorrecta. La siguiente
tabla resume cuatro posibles situaciones que pueden surgir en un test de hiptesis.
Decisin posible
Se rechazo H0
No se rechaza H0
180 gramos
Suponiendo que los resultados del experimento produjeron una media muestral de 187 gramos, el
test estadstico se construira como:
= 187)
= 180)
=30)
como el valor de z calculado= 1,65 es menor que 1,96, o sea cae en la regin de aceptacin, no
hay evidencias suficientes como para rechazar la hiptesis de que la media de la poblacin es
igual a 180.
Conclusin: la publicidad que hace el semillero de que el peso promedio de las espigas de una
cierta variedad es de 180 gramos, es correcta, aunque podra existir una probabilidad de error tipo
II, si de hecho la media de tal variedad no fuera 180 gramos
HIPTESIS UNILATERALES
Si en el mismo ejemplo, el productor, basndose en algn conocimiento de la variedad en
cuestin sospechara que el peso promedio de las espigas es menor que 180, las hiptesis se
plantearan como:
H0: = 180 gramos o H0 : > 180 gramos
H1: < 180 gramos
= 0,05
En este caso la desigualdad de la hiptesis alternativa indica cul sera la zona de rechazo, el
valor de ya no se particiona sino que se acumula todo hacia un solo lado, el izquierdo en este
ejemplo y el valor tabulado de z se busca en la tabla con un valor de probabilidad del 95% siendo
z= -1,64
Si por otra parte, el productor sospechara que el peso promedio es mayor que 180 gramos, la
hiptesis y la zona de rechazo se plantearan como:
H0: = 180 gramos H0: < 180 gramos
H1: > 180 gramos
= 0,05
cuando
Este valor difiere del anterior en que, en lugar de aparecer la desviacin estndar de la poblacin,
nos encontramos con su estimador muestral insesgado S, que se distribuye segn la distribucin t
de Student.
POTENCIA DEL CONTRASTE
Partiendo del planteo de las siguientes hiptesis:
H0 : = 0
H1 :
probabilidad del error tipo II ( ) ya no es una cantidad determinada para cada nivel de
significacin, sino que depende del valor de .
).
Por supuesto se puede calcular la probabilidad de error tipo II para cualquier valor de . Cuanto
menor sea esta probabilidad mejor ser el contraste para distinguir entre hiptesis ciertas y falsas,
o sea, cuanto menor sea la probabilidad de no rechazar H0 cuando esta sea falsa, ms "potente"
es el contraste. La potencia de un contraste se mide por la probabilidad de rechazar H0 cuando
sea falsa. Al ser
la probabilidad de no rechazar H0 cuando esta es falsa, la potencia del
contraste es igual a: 1 .
ESQUEMA PARA CONTRASTAR HIPTESIS
Cuando se tiene que contrastar una hiptesis estadstica es conveniente seguir un esquema, el
cual debe incluir las siguientes etapas:
1) Enunciado de la hiptesis nula y alternativa
2) Eleccin del nivel de significacin (
3) Seleccin del estadstico de prueba.
4) Determinacin de la regin crtica.
5) Clculo del estadstico.
6) Exposicin de las conclusiones.
Trabajo Prctico
1j
1)
s
.
e egfspopU/pmv{ |degfdmfegf|XUvy ft|dmjk+U
j s
.e egfspopU/putspegpU/ype.pmv{ |degfdmf
j s
.e egfenhegudut{xui|m1{egospoUpudsegUype.pmjv{ |enfdmjf
3)
j s
.e egfenhegudut{xui|m1{
eno(spopU/putspegpU/ype.pmv{ |degfdmf
4)
j s
.e egfhjUudegwvmCx{ oLkgug |dmjk+Ueno(soU/udspenU/yelmjv{ |degftmjf
5)
j s
.e egfenhopmveghype.fdmwxopmk+UvokgmUeno(soU/udspenU/yelmjv{ |degftmjf
6)
j s
e fde(ego^|megopype1{xu|UvUo {yehUudenwxmCv{ oknu+ |dmjkgUenospoUpudspenU)ype
7)
2)
mjv{ |degftmjf
8) Analizar las siguientes afirmaciones y decidir el valor de verdad de cada una (verdadera/falsa),
justificando las respuestas.
a) Un nivel de significacin del 5% significa que, en promedio 5 de cada 100 veces que
rechacemos la hiptesis nula estaremos equivocados (verdadero /falso).
b) Un nivel de significacin del 5% significa que, en promedio, 5 de cada 100 veces que
la hiptesis nula es cierta la rechazaremos (verdadero / falso).
9) Se considera que el tiempo medio que est desocupado un profesional de un determinado sector
es de 13,5 meses. Para contrastar esta hiptesis frente a la alternativa (que no sea cierta dicha
consideracin), se tom una muestra de 45 profesionales que estuvieron desocupados en ese
sector y se obtuvo una media de 17,2 meses y un cuasi-desvo tpico de 15,3 meses. Si se
considera un nivel de significacin del 5%, se debe rechazar o aceptar la hiptesis?
10) El control de calidad una fbrica de pilas y bateras sospecha que hubo defectos en la produccin
de un modelo de batera para telfonos mviles, bajando su tiempo de duracin. Hasta ahora el
tiempo de duracin en conversacin segua una distribucin normal con media 300 minutos y
desviacin tpica 30 minutos. Sin embargo, en la inspeccin del ltimo lote producido, antes de
enviarlo al mercado, se obtuvo que de una muestra de 60 bateras el tiempo medio de duracin en
conversacin fue de 290 minutos. Suponiendo que ese tiempo sigue siendo Normal con la misma
desviacin tpica: Se puede concluir que las sospechas del control de calidad son ciertas a un
nivel de significacin del 2%?