Sunteți pe pagina 1din 19

CONCEPTOS BÁSICOS DE INFERENCIA ESTADISTICA

1. INTRODUCCIÓN

Todas las herramientas estadísticas con las que se cuenta hasta ahora, tales
como tablas, gráficos y cálculo de medidas descriptivas se podrían englobar en el
término Estadística Descriptiva, puesto que ellas esencialmente permiten describir,
presentar y resumir información que ha sido recolectada de alguna forma.

Sin embargo las técnicas de la Estadística Descriptiva no permiten responder


interrogantes que pueden surgir cuando no se dispone de la información sobre
todas las unidades de la población de interés sino sólo de una parte de ella, es
decir, que los datos provienen de una muestra de unidades de la población bajo
estudio. Ejemplos de esta situación son:

 Si se conoce que la ganancia promedio de ventas de una muestra de 50


automóviles nuevos, que es de 935.000 pesos, ¿qué se puede decir sobre
la ganancia media de todas las ventas de automóviles nuevos?

 Si se encontró que un curso de capacitación ayuda a encontrar trabajo a


16 de 20 jóvenes de una ciudad, ¿qué porcentaje de todos los jóvenes que
buscan trabajo se puede esperar que encuentren trabajo después de
tomar el curso?

Para responder este tipo de preguntas la Estadística dispone de una gran


cantidad de métodos que se engloban dentro de la llamada Estadística Inferencial,
los cuales se usan esencialmente para determinar la probabilidad de que una
conclusión sacada a partir de los datos de una muestra sea cierta en la población
muestreada.

Las poblaciones pueden estar conformadas por: operaciones por ventas,


personal de una empresa, consumidores de un producto, etc.

El proceso conocido como inferencia estadística, requiere consideraciones


de cómo fue seleccionada la muestra y cuánto varían las observaciones de una
muestra a otra. De esta manera, los métodos de selección de las unidades que se
usarán en la investigación son de considerable importancia para la obtención de
resultados y conclusiones válidas.

El requisito fundamental de una buena muestra es que sea representativa de


la población que trata de describir (Población Objetivo – Figura 5.1). Hay, por
supuesto muchas formas de obtener una muestra no representativa. Una obvia
falta de representatividad ocurre cuando la muestra se toma de la población
equivocada. Por ejemplo, se quiere conocer la proporción de personas que
consumen un determinado producto y la muestra se obtiene de los clientes de un
sólo supermercado.

Aún cuando se esté seguro que la muestra se obtiene de la apropiada


población, otra fuente potencial de error en el muestreo, especialmente en las
encuestas de opinión son las respuestas sesgadas. Cuestionarios mal redactados o
técnicas de entrevistas inadecuadas pueden dar lugar a respuestas que no reflejan
la realidad que se quiere evaluar.

Por otra parte, en muchas ocasiones no es posible obtener la muestra a partir de


todos los individuos que definen la población objetivo, sino sólo a partir de una
subpoblación que es accesible al investigador en el momento de hacer la selección de los
individuos de la muestra y ella recibe el nombre de población muestreada (Figura 5.1).

Población objetivo

Se requiere sentido común para


hacer inferencias del muestreo a
la población objetivo

Población muestreada

Para hacer inferencias estadísticas


de la muestra a la población
muestreada se requiere que la
muestra sea aleatoria
Muestra

Figura 5.1: Alcances de las inferencias realizadas de una muestra


(Estadística Biomédica, Dawson-Sauders y Trapp).

2
Consideremos, por ejemplo, un sondeo telefónico que realizó la cadena de
televisión ABC inmediatamente antes de las elecciones de 1980 entre Carter y
Reagan. La ABC invitó a sus televidentes a llamar (por larga distancia) para dar a
conocer sus preferencias presidenciales. En vez de lograr una muestra del sentir
real de los electores, la ABC obtuvo una muestra de las preferencias de los votantes
que estaban suficientemente interesados en desviar el resultado del sondeo como
para invertir en las llamadas telefónicas de larga distancia. Es claro que la ABC no
realizó un muestreo aleatorio de la población de posibles votantes. Más demócratas
hicieron las llamadas de larga distancia, y la ABC pronosticó así una victoria
electoral de Carter. Antes de extender cualquier conclusión, es necesario evaluar
qué factores selectivos y sesgos distinguen a la población realmente muestreada
(todos los votantes que hicieron las llamadas de larga distancia) de la población
objetivo (todos los posibles votantes).

Los métodos de la Inferencia Estadística permiten generalizar los resultados de la


muestra sólo a los individuos que componen la población muestreada y la generalización
hacia la población objetivo está fuera del alcance de la Estadística. Sin embargo, si
es posible suponer que la población muestreada es similar a la población objetivo
no se cometería un error grande en generalizar los resultados hacia la población
objetivo.

Aún cuando se esté seguro que la muestra se obtiene de la población


apropiada, es igualmente importante que la muestra se saque de una manera
objetiva e insesgada.

Muestras casuales o muestras seleccionadas sobre la base de que es fácil de


recolectar, son raramente representativas de la población. Hay varios métodos
adecuados para seleccionar una muestra que permiten evitar los sesgos, y la
mayoría tiene como base el concepto de muestra aleatoria o probabilística, en la
cual cada individuo en la población de interés es seleccionado (o no) a través del
uso de mecanismos aleatorios descriptos claramente. Por ejemplo, el caso más
simple, es el denominado esquema de muestreo aleatorio simple en el cual cada
posible muestra es igualmente probable, lo que implica que cada individuo tiene
igual probabilidad de ser seleccionado para pertenecer a la muestra.

3
En cualquier estudio, los investigadores deben escribir de manera
completamente explícita la manera en la cual las muestras han sido elegidas y
cuando se escribe o se lee cualquier trabajo de investigación uno debería hacerse
las siguientes preguntas:

 ¿El autor define claramente la población muestreada?

 ¿El autor discute similitudes y posibles diferencias entre la población muestreada


y la población objetivo?

 ¿El autor describe claramente el mecanismo de muestreo que usó?

 ¿El mecanismo de muestreo es aleatorio? (Si no lo es, porque?).

 ¿Los métodos de análisis de datos son adecuados para el esquema de selección


usado?

¿Qué ocurre si el investigador no ha usado un muestreo aleatorio para


seleccionar los individuos de la muestra? Supongamos por ejemplo que él
simplemente usó los datos de los clientes de un supermercado para evaluar las
preferencias de los consumidores respecto a distintas marcas de un producto.
Muchos, sino la mayoría, de los estudios son de este tipo. Los datos son analizados
luego, como si ellos hubieran surgido a partir de una muestra aleatoria de
consumidores. El problema aquí es que estamos perdiendo la vital vinculación
entre un esquema de muestreo aleatorio y el apropiado método de inferencia
estadística, el cual supone siempre que hubo una selección aleatoria de la muestra.
En estas circunstancias, ¿se debería entonces abandonar la inferencia estadística?
Probablemente no, pero deberíamos siempre estar muy preocupados de tomar
estos resultados muy seriamente. Las bases de la inferencia, en este caso, han sido
severamente debilitadas (“destruida”, dirían algunos). En rigor de verdad,
deberíamos decir: “si pretendemos tener una muestra aleatoria, entonces …”. La palabra
pretender ha sido usada deliberadamente, ya que no es una suposición, puesto
que nosotros sabemos que la muestra no es aleatoria. Al final, nosotros deberíamos
aceptar que estamos usando la inferencia estadística sólo como una guía y no como
un método científico.

4
Previamente se han estudiado las reglas básicas de probabilidad y distintas
distribuciones de probabilidad como la Binomial, Poisson, Normal, Exponencial
entre otras. En esta unidad se usarán estas reglas de probabilidad junto con el
conocimiento de las distribuciones de probabilidad para analizar, cómo ciertas
medidas (media, proporción) pueden usarse para hacer inferencias respecto a los
parámetros poblacionales. Pero para ello, es fundamental disponer de la definición
de muestra aleatoria.

Definición estadística de una muestra aleatoria:

Es el conjunto de variables aleatorias ( x1 , x 2 , x3 ,........x n ) que cumplen con


las siguientes condiciones:

- Cada una de ellas se distribuye de la misma manera como lo hace la


población f (x ) .

- Ellas son independientes entre sí.

Así, la distribución conjunta es:

g ( x1 , x 2 ,.............x n )  f ( x1 ) f ( x 2 )........... f ( x n ) .

La inferencia estadística involucra dos áreas principales: Estimación de


Parámetro Poblacional y Prueba de Hipótesis, pero antes de tratar a estos
importantes temas, es necesario manejar el concepto de Distribución en el
Muestreo o Distribución Muestral que es la base para comprender los métodos y
herramientas de la inferencia estadística.

2. DISTRIBUCIÓN MUESTRAL

Un objetivo que se presenta frecuentemente en las investigaciones de


diferentes áreas es conocer el promedio de alguna característica cuantitativa o la
proporción de unidades que poseen determinada característica cualitativa. Por
ejemplo, la edad media de los “residentes de una región dada que usan determinado
servicio” (Población Objetivo); o la proporción de “egresados universitarios de un país”
(Población Objetivo) que hacen una carrera de postgrado. En general, las
características de interés en un estudio se denominan parámetros poblacionales.

5
En los ejemplos dados, los parámetros poblacionales son la media y la proporción;
generalmente se denotan con a lamedia y con Pa la proporción.

Para determinar los parámetros poblacionales se requiere conocer los


valores de la variable para todas las unidades de la población, por ejemplo para
determinar la edad media se requiere conocer la edad de todas las personas
residentes en la región que usan el servicio. Sin embargo, no siempre es posible
obtener la información de todos los individuos que componen la población por
razones de costo en tiempo y dinero, y cuando eso ocurre se hace necesario recurrir
a una muestra de la población. Luego, a partir de los datos de la muestra se busca
una manera de combinar la información de la muestra para obtener la característica
de interés.

En el ejemplo donde el parámetro de interés es la edad media, se toma una


muestra de n (tamaño de la muestra) personas de la población y se calcula el
promedio de las edades en la muestra. Surge entonces el interrogante a cerca de
cual medida de promedio se usará (media aritmética o mediana). Cualquiera sea la
medida que se use, cada una de ellas recibe el nombre de estimador o estadístico.
Si se conviene en usar la media aritmética, denominada la media muestral x , ella
es en este caso, el estimador puntual de la media poblacional 

Se debe observar que para obtener el valor de x se debe combinar los


valores observados en la muestra (suma de los datos divida en el número de
observaciones) y esto ocurre con cualquier estadístico o estimador de una
parámetro, de manera que formalmente se puede dar la siguiente definición:

Definición 1: Un estadístico o estimador es una función de los valores


observados de las unidades que componen la muestra aleatoria. Luego, es un
variable aleatoria.

La Tabla 5.1 muestra los símbolos de los parámetros y sus respectivos


estimadores de uso más frecuentemente:

6
Tabla 5.1: Símbolos usuales para parámetros y estimadores
Características Símbolo del Símbolo del
parámetro Estimadores
Media
 x
Desvío
 s
estándar
Varianza  s2
 r
Correlación
P P̂
Proporción

El valor que toma el estimador para una particular muestra se denomina


una estimación puntual del parámetro poblacional. Por ejemplo, si en una muestra
de 100 residentes se calcula el valor de la media aritmética ( media muestral) de las
edades y se obtiene x = 25.5 años, entonces 25.5 representa un particular valor de
x , es decir es una estimación puntual del estimador. Los datos observados que se
obtengan en diferentes muestras pueden originar valores distintos de la media
muestral.
De esta manera, las estimaciones dependen de la particular de la muestra
con que estemos trabajando.

En resumen, Si se está interesado en conocer algún parámetro de una población de


interés (media, proporción, coeficiente de correlación, etc.), y no es posible
observar o medir a todos los individuos de la población para obtener el valor de
dicho parámetro, entonces, una posibilidad es obtener una muestra de tamaño n y
conseguir una estimación de parámetro usando un estimador del parámetro.

Por otra parte, si se pudiera extraer todas las posibles muestras del mismo
tamaño (n) de la población de interés y con cada una de ellas se calcula el valor del
estimador o estadístico correspondiente, se obtendría todas las estimaciones
posibles del parámetro. Luego a partir de ellos se podría construir la distribución
de probabilidad del estimador o estadístico tal distribución de probabilidad que
recibe el nombre de distribución muestral del estimador ( o estadístico) de interés.

Cabe preguntarse por qué es tan importante el concepto de distribución


muestral, la respuesta es simple, cuando se quiere estimar un parámetro
poblacional (característica de la población) a partir de una muestra surgen otros
interrogantes como:

 ¿Qué tan buena es la estimación obtenida?

7
 ¿Se puede llegar a la conclusión de que el parámetro de la población es
idéntico al estadístico de la muestra o es probable que exista algún error?.

 Si es así, ¿qué tan grande es dicho error?

Para responder a estas preguntas se debe comparar los resultados obtenidos a


partir de las muestras con los resultados “esperados”. Los resultados esperados
surgen justamente a partir de la distribución muestral del estadístico y de allí la
importancia de ella.

Surge ahora otro problema, es más costoso (y a veces imposible) obtener


todas las muestras aleatorias de tamaño n para construir la distribución muestral
del estadístico o estimador, que observar a todos los individuos de la población. De
manera que se plantean ahora nuevos interrogantes: ¿cómo obtener la distribución
muestral si se tiene sólo una muestra de la población? Para responder esta pregunta
se debe tener en cuenta que la distribución muestral del estadístico depende de:

 La distribución de la población, es decir, de la distribución de probabilidad de la


variable de interés (por ejemplo edad de las mujeres que usan un servicio)

 Del parámetro de interés (media, variabilidad)

 Del estadístico que se elija para estimar el parámetro (media aritmética o mediana,
desvío estándar muestral o rango intercuartos)

 De la forma de selección aleatoria de la muestra.

 Del tamaño de la muestra.


La relación existente entre la distribución de probabilidad de la población y
distribución muestral del estimador) es la que nos permite hacer afirmaciones
sobre el parámetro poblacional y cuantificar el error de dichas afirmaciones.
En efecto, la teoría estadística inferencial provee de herramientas que
permiten conocer, aunque sea aproximadamente, la distribución muestral del
estadístico, y luego, como ya se dijo, a partir de ella conocer el valor esperado del
estadístico. De esta manera, es posible evaluar la precisión de la estimación
obtenida con la muestra y cuantificar el error de las afirmaciones que se hagan
sobre el parámetro poblacional.

8
Para clarificar estos conceptos, se considera el caso en que el parámetro
poblacional es la media  y el estadístico para estimarla es la media aritmética x ,
obtenida a partir de una muestra de tamaño n de la población.
Como ya se dijo, si se quiere obtener la distribución muestral de x ,
extrayendo todas las muestras de tamaño n, esto consumiría más tiempo que el
requerido para tomar la información de toda la población y, en consecuencia, sería
poco práctico. En su lugar, es posible usar la teoría estadística para determinar la
distribución muestral de la media aritmética en cualquier situación particular,
siempre que se cumplan algunas condiciones para la distribución de probabilidad
de la variable que se está estudiando (Ver Figura 2).

Ejemplo 1: En una planta embotelladora de bebida se encuentra que la máquina


embotelladora está presentando una notable variabilidad en el llenado. Para analizar este
problema se lleva a cabo un estudio donde se define que la variable de interés X será la
cantidad de bebida que contienen las botellas. Supongamos que la distribución de
probabilidad de X es tal que la media poblacional es  = 1,2 litros de bebida, con un desvío
estándar  = 0,2 litros. Supongamos ahora, que se desconoce esta información y se quiere
estimar la media poblacional  tomando una muestra aleatoria de tamaño n=100 de la
población de botellas. La media aritmética calculada a partir de la muestra dio un valor x
=1,22 litros.

Para hacer afirmaciones sobre la precisión de la estimación que dé algún


grado de confianza en el valor encontrado a través de la muestra, se necesita
conocer la distribución muestral de x .
Las propiedades de la distribución muestral de x son la base para uno de
los teoremas más importantes de la teoría estadística, llamado Teorema del Límite
Central, que se enuncia a continuación sin mucha formalidad.
Dada una población con media  x y desviación estándar  x (finita), la
distribución muestral de la media basada en muestras aleatorias repetidas de
tamaño n (grande) tiene las siguientes propiedades:

9
1. La media de la distribución muestral de x , es decir, el valor esperado x
= E( x ) de la distribución de probabilidad de x , es igual a la media x de la
distribución de probabilidad de la variable X.

2. El desvío estándar en la distribución muestral de x es igual a . Esta
n
cantidad es denominada error estándar de la media (SEM).
3. Con muestras de tamaño grande, la distribución muestral de x sigue un
modelo teórico denominado modelo de distribución normal, sin importar la
forma de la distribución de la población original, siempre que se cumplan las
condiciones mencionadas.

Otra manera de expresar este resultado y que resulta útil para expresar los
resultados de los métodos de inferencia es la siguiente:

Teorema del límite central:

Independiente de la distribución que tenga la variable aleatoria X, siempre que tenga media
 y varianza 2 finitas, al hacerse lo bastante grande el tamaño de muestra n, entonces la
distribución del estadístico


X 
Z (1)
/ n
es Normal con media 0 y varianza 1, es decir, N(0, 1).

Figura 5.2: Distribución muestral de la media muestral (estadístico).

10
DISTRIBUCIÓN MUESTRAL DE LA MEDIA ARITMÉTICA (X)

DISTRIBUCIÓN DE LA POBLACIÓN DE X
DISTRIBUCIÓN DE LA POBLACIÓN DE X CON

MEDIA  NORMAL CON

MEDIA 
DESVÍO
ESTÁNDAR  
DESVÍO ERROR ESTÁNDAR
ESTÁNDAR n

x1
M1
x2
/ n
M2
x3

M3
x4

M4 ...
/ n
.
X
Mm xm

POBLACIÓN DE X
POBLACIÓN DE X

MUESTRAS DE TAMAÑO n

El resultado enunciado da la base para toda la inferencia estadística sobre la media.

Observación:

Aunque siempre hay excepciones, tamaños de muestras de n = 30, o más, en la gran


mayoría de los casos aseguran la validez del teorema del límite central, es decir, la
distribución muestral para x tendrá aproximadamente una distribución normal para n 
30 si  es conocido.

En el ejemplo, y de acuerdo a lo enunciado, la distribución muestral de x

será aproximadamente normal con media  x = 1,20 litros y con un error estándar
dado por

 0.2
SE( x ) = SEM = = = 0.2/10 = 0.02.
n 100

La importancia del SEM (error estándar de la media) y del resultado


enunciado radica en que a partir de él se puede hacer la siguiente afirmación: si el
tamaño de muestra es grande aproximadamente el 95% de las muestras darían
valores de x en un intervalo que va desde  -2SEM a  +2SEM, es decir, existe una
probabilidad del 95% de que el valor calculado de x se encuentre dentro de ese
intervalo.

11
Obviamente, en la práctica siempre se desconoce el valor de  y casi
siempre el valor de , de manera que esto es sólo el respaldo teórico de toda la
inferencia estadística, como se verá en las secciones subsiguientes.

Ejemplo 2: En el ejemplo anterior si  y  son conocidos, entonces se puede afirmar que


aproximadamente el 95% de las muestran de tamaño n = 100 darían valores de x entre
1,2 - 0.04 y 1,2 + 0.04, es decir entre 1,16 litros y 1,24 litros, o bien que existe una
probabilidad del 95% que el valor encontrado para x se encuentre dentro de ese intervalo.

Como ya se dijo, la distribución muestral del estimador depende del


estadístico elegido para estimar el parámetro poblacional, por ejemplo, si el
estimador elegido para estimar la media poblacional no es x sino la mediana,
entonces el cálculo de su error estándar y su distribución muestral no sigue
exactamente lo enunciado para el caso de x . La teoría que permite establecer la
distribución muestral de la mediana está fuera del alcance de este curso, de manera
que no será tratada aquí.

Del mismo modo que la media poblacional , por lo general, es desconocida,


es probable que la desviación estándar de la población , tampoco sea conocida.

En el caso en que  sea desconocido, él debe ser estimado usando los datos
de la muestra. Un estimador razonable para , como ya se vio en las unidades
previas, es la desviación estándar de la muestra

2
n
 
 n

  xi  x  x 2
i  nx 2
(2)
s  i 1    i 1

n 1 n 1

Reemplazar  por s en (1) resulta razonable ya que se puede demostrar que


s2 es un estimador insesgado de  2, es decir, E[s2] = 2. Sin embargo, la distribución
muestral del estadístico que resulta de esa sustitución, es decir,

t X  (3)
s/ n

12
ya no es N(0,1) debido a que se usa una estimación para  y en consecuencia se
introduce en la expresión (3) una variabilidad adicional. En efecto, el estadístico t
definido en (3) posee una distribución denominada t de Student, la cual tiene una
apariencia similar a la distribución normal, simétricas y en forma de campana, pero
la distribución t es más dispersa. El único parámetro de la distribución t de Student
es el denominado grados de libertad y que en este caso se encuentra relacionado al
tamaño de muestra n, y ello se expresa diciendo que el estadístico

el estadístico t dado en la expresión (3) tiene distribución t de Student con


(n – 1) grados de libertad.

3. ESTIMACIÓN

En esta Sección se dará algunas propiedades que debería cumplir un


estimador para conseguir estimaciones confiables del parámetro de interés. Se
considerará diferentes formas de estimación y se estudiará una manera de medir la
precisión en la estimación.

3.1. ESTIMACIÓN PUNTUAL

El valor obtenido del estadístico o estimador a partir de una muestra, recibe


también el nombre de Estimación Puntual.

En el ejemplo de la embotelladora es claro que el interés no es conocer la


cantidad de bebida promedio en el grupo particular de botellas que pertenecen a la
muestra, sino en toda la población. Por otra parte, la media calculada a partir de los
datos de la muestra es sólo “una estimación” de la cantidad de bebida media en la
población de botellas. Cabe preguntarse ahora cuáles son las propiedades de que
debería tener un estimador (media, mediana) para que sea considerado como
bueno y que nos facilite la elección entre un estadístico y otro.

Es claro que al obtener una estimación puntual su valor dependerá de la


muestra que se haya seleccionado y que el valor encontrado puede cambiar de
muestra en muestra. De esta manera, las propiedades deseables serían que cada
estimación no se encuentre muy alejada del verdadero valor del parámetro, y por

13
otra parte, que no haya demasiada variabilidad entre los valores del estadístico,
obtenidos de muestra en muestra. Esto se puede formalizar definiendo algunas
propiedades a tener en cuenta de los estadísticos, a saber:

1. Insesgado: Informalmente esto significa ausencia de error sistemático. De una manera


más formal, un estadístico cualquiera ˆ se dice insesgado si la media de su
correspondiente distribución muestral es igual al parámetro de interés  , es decir,

E ˆ   .

2. Eficiente: Significa que las estimaciones obtenidas para distintas muestras varían poco
entre ellas. De una manera más formal, el estimador más eficiente dentro de un
conjunto de estimadores insesgado será aquel que tiene la menor varianza.

3. Consistente: Informalmente, un estadístico ˆ se dice consistente si su variabilidad


disminuye cuando aumenta el tamaño de la muestra.

Se puede demostrar que la media muestral es un estimador insesgado y


eficiente de la media poblacional.

Si la variabilidad de las estimaciones se mide a través de la desviación


estándar, esta recibe el nombre de error estándar del estimador (SE).

Observaciones:

1. No debe confundirse “desviación estándar” de la distribución de la población


(variabilidad entre las unidades) con “error estándar” del estimador que es la desviación
estándar de la distribución muestral (variabilidad entre las estimaciones de las
muestras).

2. Es muy probable que el estadístico insesgado más eficiente no estime el parámetro


poblacional con “exactitud”, esto se debe a que en realidad cuando realizamos la
estimación sólo tomamos una muestra, y obtenemos uno de los posibles valores del
estadístico que en general no tiene porque coincidir con el valor del parámetro que se
quiere estimar.

3.2. ESTIMACIÓN POR INTERVALOS

14
Si bien la precisión se incrementa en la medida que el tamaño de la muestra
aleatoria crece, no hay razón para esperar que la estimación puntual de una
muestra dada deba ser exactamente igual al parámetro poblacional que se supone
estima. Entonces, existen muchas situaciones en las cuales es preferible determinar
un intervalo dentro del cual se esperaría encontrar el valor del parámetro, tal
metodología se conoce como estimación por intervalos y el intervalo se denomina
Intervalo de Confianza

Los Intervalos del Confianza son intervalos aleatorios obtenidos a partir de


los datos y en los cuales hay un grado de confianza prefijado (o probabilidad) de
que dicho intervalo contenga al verdadero valor del parámetro que se quiere
estimar.

El grado de confianza se denomina nivel de confianza y se lo denota como


100(1-)%, donde  se considera a menudo como la probabilidad de cometer un
error, ya que indica la proporción de veces en que uno se equivoca o comete un
error al suponer que el intervalo contiene al parámetro poblacional. De esta
manera, 1- será la proporción de veces que los distintos intervalos de confianza
contienen al parámetro. Usualmente el valor 100 (1- )% se lo fija en el 95%, lo que
llevaría a establecer que en promedio sólo en el 5% de los casos se cometería error
al suponer que el intervalo contiene al verdadero valor del parámetro.

Para encontrar estos intervalos debemos conocer la distribución muestral de


cada estimador, que como ya se vio esto depende del parámetro de interés y del
estadístico que se elija para estimar dicho parámetro. Sin embargo es posible dar la
forma general que adopta un intervalo de confianza en cualquier caso.

En general, si que se quiere estimar un parámetro  de la población a través


del estadístico ˆ , y si el error estándar de la distribución de ˆ , que se lo denotará
con SE(ˆ ), entonces un intervalo de confianza para  con una confianza del 95%
(IC95%) viene dado por la expresión:

IC95% = [ˆ – k1SE(ˆ ) , ˆ + k2SE(ˆ )] (4)

15
donde k1 y k2 dependen de la forma de la distribución muestral de ˆ .

Ejemplo 3: En el ejemplo de la embotelladora un intervalo de confianza para el parámetro


poblacional  = , con una confianza del 95%, correspondiente a una estimación de

ˆ = x = 1.22 litros,

que se calcula a partir de la muestra de tamaño n = 100, y suponiendo que se conoce la


desvío estándar de la población, es decir,  = 0.2 litros, está dado por:

IC95% = [ x – k1SE( x ) , x + k2SE( x )]


donde SE( x ) = SEM = = 0.02 y k1 = k2 = 1.96 se obtienen a partir de la distribución
n


muestral de X  , que como se vio en la sección anterior ella se distribuye N(0, 1).
/ n
Por lo tanto,

IC95% = [1.22 – 1.96x0.02 ; 1.22 + 1.96x0.02] = [1.1808 ; 1.2592]

Interpretación

Con un nivel de confianza del 95%, la cantidad promedio por botella de la


producción total, estaría contenida dentro del intervalo que va de 1.1808 a 1.2592
litros.

Otra manera alternativa de expresar los IC para la media poblacional cuando se usa a
la media aritmética como estimador es la siguiente:

z 2 
x (5)
n
o bien

z 2  z 2 
x   x  (6)
n n
donde

16
 z 2 = valor de z tal que el área debajo de la curva de la función de
densidad de una distribución normal correspondiente al intervalo
[ z  2 , ) es igual /2 si n es grande (este valor es 1.96).

 n = tamaño de la muestra

  = desviación estándar de al población muestreada

Ejemplo 4: Una corporación quiere emitir algunos pagarés a corto plazo y espera que los
intereses que tendrá que pagar no sean mayores a 11,5%. Para obtener cierta información
acerca de la tasa media de interés que habría que pagar, la corporación pone a la venta 40
pagarés, uno a través de cada una de 40 firmas de corretaje. Los valores del interés se
suponen que tienen una distribución normal con media  y varianza 2 conocida, tal que 
= 0,31%. A partir de la muestra de tamaño n = 40, se obtiene una estimación de , dada
por x = 10,3%. Luego, usando la expresión (2) el IC del 100(1- )% para la media
poblacional de una distribución normal es:

1.96 x0.31 1.96 x0.31 1.96 x0.31


10.31  , o bien, 10.31     10.31 
40 40 40

Haciendo los cálculos se obtiene que:

10.21    10.41

Interpretación

Con un nivel de confianza del 95%, la tasa promedio de interés por pagaré
de la población está contenida dentro del intervalo que va de 10.21% a 10.41%.

De mismo modo que la media de la población es desconocida, por lo general


también se desconoce el valor real del desvío estándar y, por lo tanto, se necesita estimar
dicho parámetro a partir de los datos de la muestra utilizando el estadístico S. En este caso
la primera expresión de (6) adopta la forma

17
t ( n 1), / 2 s
x (7)
n

donde se reemplaza  por s y z(/2) por t(n-1), /2 que es el valor crítico de la distribución t
con n-1 grado de libertad.

Ejemplo 5: Si en el estudio de tasa principal de bancos  es desconocido y se tiene una


muestra de tamaño 50 y el valor obtenido de x = 9,1% y como estimador de  se usa

n  50 2
 

  xi  x  , dando en este caso el valor s = 0,24, entonces, reemplazando este
i 1  
s
n 1
valor en la expresión (7), donde además se reemplaza z(/2) por t(n-1),  /2. Luego, el valor
estimado del error estándar será,

SE x  s

0.24
 0.034
n 50

y el valor de t(n-1),/2 = 2.01. Luego, el intervalo de confianza para la media poblacional con
una confianza del 95% está dado por:

IC95% = [9.1 – 2.01x0.034; 9.1 + 2.01x0.034] = [8.96; 9.10]

Observaciones:

1. El valor de kiSE( ˆ ) del intervalo de confianza para la estimación del parámetro  se


lo puede entender como cota para el error de estimación. En el último ejemplo se tiene
entonces, que esta cota es 1.96x0.034=0,07. Esto se interpreta como que la probabilidad
de que el error sea menor a 0,07 es 0,95. Así, la cota para el error de estimación, 7%,

18
proporciona una medida de la exactitud para la estimación efectuada por la empresa de
investigaron de mercado.

Actividad 5.2:

1. Se relaciona muchas veces un incremento en la proporción de ahorros de los


consumidores a una falta de la confianza en la economía, y se dice que ello es un
indicador de una tendencia de recesión económica. Una muestra aleatoria de n=200
cuentas de ahorro en una comunidad local, mostró un incremento medio en los valores
de las cuentas de 7,2% en los últimos 12 meses y una desviación estándar de 5,6%.

a) Estime el intervalo de confianza para el aumento porcentual promedio en las


cuentas de ahorro en lo últimos 12 meses, para ahorradores de la comunidad.

b) Obtenga una cota para su error de estimación.

19

S-ar putea să vă placă și