Sunteți pe pagina 1din 9

Notas de clase Estadstica R. Urbn R.

Inferencia estadstica

Sabemos que una poblacin puede ser caracterizada por los valores de algunos parmetros
poblacionales, por ello es lgico que en muchos problemas estadsticos se centre la atencin sobre
esos parmetros poblacionales. En muchos casos no ser posible determinar el valor de un
parmetro poblacional analizando todos los valores poblacionales, pues el proceso a seguir para
determinar el valor del parmetro puede ser destructivo, por ejemplo para medir la duracin de
un foco, o nos puede costar mucho tiempo o mucho dinero el analizar cada unidad poblacional. En
estas situaciones la nica salida que tenemos es utilizar, la inferencia estadstica para obtener
informacin sobre los valores de los parmetros poblacionales, basndonos en la informacin
contenida en una muestra aleatoria.

El objetivo de la inferencia estadstica es hacer inferencias o sacar conclusiones sobre la poblacin


a partir de la informacin contenida en una muestra. Puesto que las poblaciones se caracterizan
por medidas descriptivas numricas llamadas parmetros, la inferencia estadstica consiste en el
proceso de seleccin y utilizacin de un estadstico muestral, mediante el cual, utilizando la
informacin que nos proporciona una muestra aleatoria, nos permite sacar conclusiones sobre
caractersticas poblacionales.

Parmetros poblacionales importantes son la media, la desviacin estndar, el rea bajo la


distribucin de probabilidad a partir de un valor de la variable aleatoria, o el rea entre dos valores

Quiz la contribucin ms importante de las contribuciones a la preparacin para el estudio de la


inferencia estadstica ha sido el teorema del lmite central. Este teorema justifica la normalidad
aproximada de la distribucin de probabilidad de la media muestral cuando el tamao de la
muestra es grande 1.

Cualquier inferencia o conclusin obtenida de la poblacin, necesariamente, estar basada en un


estadstico muestral, es decir, en la informacin proporcionada por la muestra. La eleccin del
estadstico apropiado depender de cul sea el parmetro poblacional que nos interese. El valor
verdadero del parmetro ser desconocido y un objetivo sera estimar su valor, por lo que tal
estadstico se denomina estimador.

Las inferencias sobre el valor de un parmetro poblacional O se pueden obtener bsicamente de


dos maneras: a partir de estimacin o bien a partir de la contrastacin de hiptesis.

En la estimacin, basta seleccionar un estadstico muestral cuyo valor se utilizar como estimador
del valor del parmetro poblacional.

En la contrastacin de hiptesis, se hace una hiptesis sobre el valor del parmetro y se utiliza la
informacin proporcionada por la muestra para decidir si la hiptesis se acepta o no. Por ejemplo,
supongamos que estamos interesados en el parmetro proporcin poblacional, es decir la
proporcin de personas que no piensan votar en las prximas Elecciones Generales. Hacemos una

1
Los estadsticos utilizan la distribucin normal como una aproximacin a la distribucin de muestreo
siempre que el tamao de la muestra sea al menos de 30

Notas preliminares
1
Notas de clase Estadstica R. Urbn R.

hiptesis previa que podra ser: que el valor de la proporcin poblacional p ser 0,40 o mayor, p >
0,40. Se toma una muestra aleatoria de votantes de la poblacin total, y la proporcin muestral de
aquellos electores que no piensan votar se utilizan para decidir si la hiptesis formulada era
razonable o no.

Ambos mtodos de inferencia estadstica utilizan las mismas relaciones tericas entre resultados
muestrales y valores poblacionales. As pues, una muestra es sacada de la poblacin y un
estadstico muestral es utilizado para hacer inferencias sobre el parmetro poblacional. En
estimacin, la informacin muestral es utilizada para estimar el valor del parmetro. En el
contraste de hiptesis, primero se formula la hiptesis sobre el valor del parmetro y la
informacin muestral se utiliza para decidir si la hiptesis formulada debera ser o no rechazada.

No sera adecuado hablar de los objetivos y de los tipos de inferencia estadstica sin establecer una
medida de su bondad. Para ello ser necesario contar con una medida para poder comparar la
bondad de un estimador con la de otro. En el contraste de hiptesis la bondad de la inferencia se
mide por la probabilidad de que la decisin de rechazar o no rechazar el valor dado en la hiptesis
sobre parmetro poblacional sean correctos.

Cul de los mtodos de inferencia debe usarse, es decir, se requiere estimar el parmetro? O
debe probarse una hiptesis acerca de su valor? La respuesta esta determinada por la situacin
prctica a considerar y en ocasiones es cuestin de preferencia personal.

Tipos de estimadores.

Los procedimientos de estimacin estadstica se dividen en dos grandes grupos: la estimacin


puntual y la estimacin por intervalos.

La estimacin puntual consiste en obtener un nico nmero, calculado a partir de las


observaciones muestrales, y que es utilizado como estimacin del valor del parmetro. Se le llama
estimacin puntual porque a ese nmero, que se utiliza como estimacin del parmetro, se le
puede asignar un punto sobre la recta real.

El procedimiento de estimacin puntual utiliza la informacin en una muestra y la sintetiza en un


nmero, generalmente se expresa por medio de una formula; por ejemplo, la media muestral

=1
=

Es un estimador de la media de la poblacin .

En la estimacin por intervalo (o intervalo de confianza), se obtienen dos puntos (un extremo
inferior y un extremo superior) que definen un intervalo, el cual contendr con cierta seguridad el
valor del parmetro. El nmero superior del intervalo se denomina lmite superior de confianza
(LSC), y el menor se denomina Lmite inferior de confianza (LIC).

Ambos tipos de estimadores se utilizan en el anlisis de encuestas; sin embargo, es ms comn


utilizar los estimadores de punto. Por otro lado, en la experimentacin industrial se utiliza
frecuentemente la estimacin por intervalo.

Notas preliminares
2
Notas de clase Estadstica R. Urbn R.

Por ejemplo, si el parmetro poblacional es la vida til de un foco, basndonos en la informacin


de una muestra podramos obtener una estimacin puntual de la media de duracin , por
ejemplo de =600 horas, sin embargo, el intervalo de estimacin para el parmetro se
presentara como 600 30, es decir, de 570 a 630 horas, con un cierto margen de seguridad.

Estimador y estimacin.

Utilizaremos el trmino estimador cuando nos referimos a la funcin de las variables aleatorias
muestrales , , , , y los valores que toma la funcin estimador para las diferentes
realizaciones o muestras concretas sern las estimaciones. El estimador es un estadstico y, por
tanto, una variable aleatoria y el valor de esta variable aleatoria para una muestra concreta
( , , , . . . , ) ser la estimacin puntual.

Para clarificar la diferencia entre estimador y estimacin consideremos el siguiente ejemplo:


supongamos que pretendemos estimar la renta media de todas las familias de una ciudad, para
ello parece lgico utilizar como estimador de la media poblacional la media muestral siendo
necesario seleccionar una muestra aleatoria que supondremos de tamao n = 80, a partir de la
cual obtendramos la renta media de la muestra, por ejemplo, = 3,200 pesos. Entonces el
estimador de la media poblacional ser = ; es decir, el estadstico media muestral y la
estimacin puntual ser = = 3200 pesos. Observemos que designamos por la variable
aleatoria media muestral de las variables aleatorias muestrales 1 , 2 , 3 , , y por designamos
una realizacin para una muestra especfica (1 , 2 , . . . , ), que nos da la correspondiente
estimacin puntual del parmetro es decir, = .

Bondad de un estimador.

Supongamos que nos interesa medir el comportamiento del consumidor en una determinada
comunidad, interrogamos a una muestra de personas y obtenemos que el 20% de los
entrevistados adquieran un cierto producto preferentemente. Estara usted satisfecho con esta
afirmacin. En otras palabras, qu tanta fe tendra usted en esta estimacin? Cul es la precisin
de este estimador de la media ?

Desafortunadamente la respuesta es no. No podemos evaluar un procedimiento de estimacin


con base en una sola estimacin. Deben observarse los resultados de usar el procedimiento de
estimacin repetidas veces al estimar el mismo parmetro de la poblacin. Como los estimadores
son nmeros, se construir la distribucin de frecuencias de las estimaciones obtenidas al tomar
repetidamente muestras y calcular el valor del estimador.

Supongamos que tomamos una muestra de los gastos diarios de 4 estudiantes que son $100,
$200, $300 y $400. El gasto promedio es de = $250. Para fines prcticos suponemos una
poblacin pequea de 4 estudiantes, bien podramos suponer un nmero mayor y entonces se
complicaran los clculos. Con fines ilustrativos vamos a suponer que calcular la media de 4
observaciones es complicado. Para esto vamos a seleccionar muestras de 2 observaciones para

Notas preliminares
3
Notas de clase Estadstica R. Urbn R.

estimar y comparar la media de los gastos. Se podran entonces seleccionar aleatoriamente


C24 = 62. Estas seis muestras distintas se muestran en la tabla.

Muestra Elementos Media muestral x


muestrales xi
1 100, 200 150
2 100, 300 200
3 100, 400 250
4 200, 300 250
5 200, 400 300
6 300, 400 350

Cuatro de las seis muestras resultarn con algn error en el proceso de seleccin.

Podemos enumerar cada media muestral posible junto con su respectiva probabilidad. A la
distribucin de probabilidad de un estimador se le denomina distribucin muestral del estimador.

Media muestral x Muestras con el mismo Probabilidad de


promedio P(x) xi
150 1 16
200 1 16
250 2 26
300 1 16
350 1 16

Las propiedades de un estimador puntual se encuentran en su distribucin de probabilidad y


cuales son las propiedades ms deseables.

2
Ntese que si tenemos una poblacin de 500 estudiantes y tomamos muestras por ejemplo de 20
500 500!
tendramos 20 = = 2.66721035 muestras diferentes.
480!20!

Notas preliminares
4
Notas de clase Estadstica R. Urbn R.

1) Que la distribucin de las estimaciones se centre alrededor del parmetro de inters. En


nuestro ejemplo, estamos interesados en la estimacin de la media , se deseara que la
distribucin muestral del estimador estuviera centrada en . En nuestro ejercicio las
muestras 3 y 4 son iguales a la media del parmetro. Llamamos estimador insesgado
cuando la media muestral es igual al parmetro, en caso contrario se dice que el
estimador es sesgado.
2) La desviacin estndar de la distribucin muestral sea pequea. Para la mayora de los
estimadores la desviacin estndar de la distribucin muestral es controlable, es posible
hacerla tan pequea como se desee al aumentar el tamao de la muestra.

Cuatro de las seis muestras son diferentes al parmetro, es decir, resultan con algn error en el
proceso de estimacin. Este error de estimacin es la diferencia entre el parmetro poblacional y
el estadstico la muestra utilizado para estimar el parmetro. En nuestro ejercicio es la diferencia
entre y la media muestral que se utiliza para estimarlo (x ).

De hecho el error de estimacin debe ser menor que dos desviaciones estndar de la distribucin
muestral, con una probabilidad del 75%, por el teorema de Tchebysheff, y en una gran cantidad de
casos por la regla emprica, probabilidad de .95.

Estimacin puntual de la media de una poblacin.

Algunos problemas de decisin requieren estimar la media de la poblacin. Se disponen de varios


estimadores para estimar este parmetro.

a) La mediana muestral.
b) Promedio entre la mxima y la mnima observacin en la muestra y,
c) La media muestral.

Cada uno tiene asociada una distribucin muestral generada por muestreo repetitivo. En
particular la mediana muestral y el promedio de las observaciones extremas son fciles de
calcular; sin embargo, la media muestral es mejor debido a que para algunas poblaciones la
desviacin estndar de su distribucin muestral es mnima y siempre es insesgada
independientemente de la poblacin.

Para el ejercicio anterior la media de las medias se calcula de la manera usual.

150 + 200 + 250 + 250 + 300 + 350


y = = 250
6
Debemos notar que esta media muestral es igual al parmetro = 250.

De la misma manera, la varianza de la distribucin de las medias muestrales es,

(X y )2 (X )2
2y = =
k k
Donde K es el nmero de medias muestrales. Para las seis medias muestrales anteriores,
(150 250)2 + (200 250)2 + (250 250)2 + (250 250)2 + (300 250)2 + (350 250)2
2y = = 4,167
6

Notas preliminares
5
Notas de clase Estadstica R. Urbn R.

La desviacin estndar de la distribucin muestral es, y = 2y = 4167 = 64.55 que es


pequea.

En el caso de que no podamos encontrar la desviacin estndar de esta forma, podremos utilizar
una aproximacin cercana,

2
2y = y y =
n n
Esto es posible si la varianza poblacional 2 es conocida. Esta forma de clculo es apropiada si el
muestreo se realiza con remplazo, o si la muestra se toma de una poblacin muy grande. Si el
muestreo se realiza sin remplazo y el tamao de la muestra es ms del 5% de la poblacin debe
aplicarse el factor de correccin para poblaciones finitas y la formula para el error estndar es
entonces,


Nn
y =
n N 1

Si n es pequeo, menor al 5%, respecto a N, el fpc se aproxima a 1 y por tanto es innecesario su


clculo.

Finalmente la cota de error para dos desviaciones estndar, como se explico anteriormente.
2
cota de error =
n
Supongamos, en nuestro ejercicio, que deseamos obtener el gasto promedio diario de los
estudiantes; si durante 30 das se obtiene una media de y = 117.5 pesos y una desviacin
estndar de s = 21 pesos.
2
La cota del error de estimacin es y = = , el valor de puede ser aproximado por s, el
n 30
estimador de . La cota del error de estimacin es entonces.

2s 2(21) 42
= = = 7.67
n 30 5.477

Se puede confiar en que la estimacin de 117.5 pesos se encuentra a menos de 7.67 pesos del
verdadero gasto promedio diario

Estimador por intervalo

Este tipo de estimador especifica el rango dentro del cual est el parmetro desconocido. La
probabilidad de que un intervalo contenga el parmetro que se estima se denomina coeficiente
de confianza.

Notas preliminares
6
Notas de clase Estadstica R. Urbn R.

Un intervalo de confianza tiene un lmite inferior de confianza (LIC) y un lmite superior de


confianza (LSC). Estos lmites se obtienen al calcular primero la media muestral y y despus se
suma 2y para obtener el LSC, y la misma cantidad para obtener el LIC.

Ya mencionamos antes la razn de utilizar 2y. La regla emprica nos dice que el 95.5% de todas
las medias muestrales caen a 2 desviaciones estndar de la media poblacional. Entonces la media
poblacional esta a lo mas a dos desviaciones estndar del 95.5% de todas las medias muestrales.

El intervalo de confianza establecido anteriormente es llamado intervalo de confianza de


muestras grandes, puesto que se requiere que el tamao de muestra sea suficientemente grande,
n 30, por el teorema del lmite central ya que nos garantiza la distribucin aproximadamente
normal de y. Como que comnmente se desconoce el valor de la desviacin estndar , es
necesario utilizar la desviacin estndar de la muestra s para estimar .

Si se desea construir un intervalo diferente al 95.5%, por ejemplo para el 95%, se debe dividir este
valor entre 2 como se muestra en la grfica siguiente.

Los valores de z al 95% dividido entre 2 para repartir el porcentaje alrededor de la media es de
0.4750. Si buscamos en tablas este valor obtenemos una = 1.96. As, para establecer un
intervalo de confianza del 95%, simplemente se especifica un intervalo de 1.96 errores estndar
por encima y por debajo de la media.

En resumen, el coeficiente de confianza de .95 corresponde a 2y, o mas preciso a 1.96y .


Ahora, si se recuerda que .90 de las observaciones en una distribucin normal se encuentran
dentro de z=1.654 desviaciones estndar de la media, el intervalo de confianza al 90% ser,


LIC = y 1.645y = y 1.645
n

LSC = y + 1.645y = y + 1.645
n

Notas preliminares
7
Notas de clase Estadstica R. Urbn R.

En general, para construir intervalos de confianza para cualquier coeficiente (1 ) utilizamos la


siguiente formula,

Intervalo de confianza del (1 )100% para


y z2
basado en una muestra grande n

Los lmites de confianza que se utilizan ms frecuentemente son los siguientes,

Lmites de confianza para


(1 ) z2 LIC LSC

.90 .10 1.645 y 1.645 y + 1.645
n n

.95 .05 1.96 y 1.96 + 1.96
n

.99 .01 2.58 y 2.58 y + 2.58
n n

Para encontrar los valores en tablas de z2 procedemos como sigue. Por ejemplo para el 90% del
rea indica que en las colas tendremos el 10%, es decir 5% en cada cola (0.05), restamos uno y
buscamos el resultado en tablas 1 0.05 = 0.95. Este valor en tablas nos da 1.645 para cada lado
de la grfica.

Continuando con nuestro ejercicio anterior, recordemos que el gasto promedio diario de los
estudiantes por 30 das con una media de y = 117.5 pesos y una desviacin estndar de
s = 21 pesos. Un intervalo de confianza al 90% para la media de la poblacin. Utilizaremos para
estimar
21
y 1.645 = 117.5 (1.645) = 117.5 3.83
n 30
El gasto promedio diario cae en el intervalo de 113.67 a 121.33. el 90% de confianza implica que
en muestreo sucesivo si se determinan los intervalos de confianza para cada muestra, 90% de los
intervalos contendrn a .

Ejemplo.

Para determinar el rendimiento anual de ciertos valores, un grupo de inversionistas tom una
muestra de n = 50 de esta clase de valores. La media y desviacin estndar resultaron y = 8.71%
y s = 2.1%. Estime el verdadero rendimiento anual promedio para esta clase de valores usando
un intervalo de confianza del 90%.
2.1
y 1.645 = 8.71 (1.645) = 8.71 0.4885
n 50
El rendimiento promedio anual se encuentra en el intervalo de 8.2214 a 9.1985.

Notas preliminares
8
Notas de clase Estadstica R. Urbn R.

Bibliografa

Mendenhall William, Reinmuth James. ESTADISTICA PARA ADMINISTRACIN Y ECONOMIA. Grupo


editoria Iberoamerica 1978. Mxico

Webster Allen L. ESTADISTICA APLICADA A LOS NEGOCIOS Y LA ECONOMIA, tercera edicin


McGraw-Hill 2000. Mxico

Notas preliminares
9

S-ar putea să vă placă și