Sunteți pe pagina 1din 68

1.2. DISTRIBUCIONES EN EL MUESTREO ASOCIADAS A POBLACIONES NORMALES.

DISTRIBUCIONES DE LA MEDIA, VARIANZA Y DIFERENCIA DE MEDIAS

ESQUEMA DE TRABAJO
CUESTIONES PREVIAS: 1. Importancia de la distribucin normal o por qu un epgrafe aparte para las distribuciones en el muestreo asociadas a poblaciones normales . 2. La reproduccin del modelo normal en las combinaciones lineales de variables normales o propiedad aditiva de la distribucin normal.

CASO DE UNA POBLACIN: 1. Distribucin de la media muestral aleatoria con varianza poblacional conocida 2. Lema de Fisher-Cochran: Independencia de la media y varianza muestrales aleatorias 3. Distribucin de la varianza muestral 4. Distribucin de la media muestral aleatoria con varianza desconocida

CASO DE DOS POBLACIONES: 5. Distribucin de la diferencia de medias muestrales aleatorias (con varianzas poblacionales conocidas) 6. Generalizacin del Lema de Fisher-Cochran 7. Distribucin de la diferencia de medias muestrales aleatorias (con varianzas poblacionales desconocidas) 8. Distribucin del cociente de varianzas muestrales aleatorias

EJERCICIOS COMPLEMENTARIOS

CUESTIONES PREVIAS

PUNTO 1 Importancia de la distribucin normal


Por qu merecen un captulo a parte la distribucin de la media, la varianza , la diferencia de medias y, en su caso, el cociente de varianzas cuando la poblacin de la que se extrae la muestra sigue una ley normal?

Por qu distribuciones en el muestreo asociadas a poblaciones normales?

Para dar respuesta a esta pregunta, reproduciremos un par de prrafos del texto de Canavos (1990) Probabilidad y Estadstica, pp. 131 y 132:

La distribucin normal o Gaussiana es indudablemente la ms importante y la de mayor uso de las distribuciones de probabilidad. Es la piedra angular de la inferencia estadstica en el anlisis de datos, puesto que las distribuciones de muchas estadsticas muestrales tienden hacia la distribucin normal conforme crece el tamao de la muestra...

Un gran nmero de estudios muestran que la distribucin normal proporciona una adecuada representacin, por lo menos en una primera aproximacin, de las distribuciones de una gran cantidad de variables fsicas. Algunos ejemplos especficos incluyen datos meteorolgicos como la temperatura y la precipitacin pluvial, mediciones efectuadas en organismos vivos, calificaciones en pruebas de actitud, mediciones fsicas de partes manufacturadas, errores de instrumentacin y otras desviaciones de las normas establecidas, etc.

PUNTO 2

Reproduccin del modelo normal en combinaciones lineales de variables normales

1) Sabemos que la funcin caracterstica de una suma de variables aleatorias independientes coincide con el producto de las funciones caractersticas de dichas variables aleatorias. 2) Sabemos que 3) En consecuencia para independientes X1, X2, ...., Xn n variables muestrales

4) En el caso en que la muestra (m.a.s.) proceda de una poblacin N (; )

ya que todas las variables muestrales, adems de ser independientes, se distribuyen igual que la poblacin de la cual proceden y, por tanto, todas ellas tiene media y desviacin tpica .

Como puede observarse, la funcin caracterstica de una combinacin lineal de variables muestrales (m.a.s.) procedentes de una poblacin normal obedece a la funcin caracterstica de una normal con media la media poblacional ponderada por la suma de los coeficientes ai y con varianza la varianza poblacional ponderada por la suma de los cuadrados de dichos coeficientes.

Y AQU QUERAMOS LLEGAR Por tanto, si la muestra procede de unapoblacin normal, los estadsticos que se formen como combinaciones lineales de lasvariables muestrales tendrn: 1. Distribucin Normal. 2. Con esperanza la esperanza poblacional multiplicada por la suma de los coeficientes de la combinacin lineal. 3. Con varianza la varianza poblacional multiplicada por la suma de los cuadrados de los coeficientes de la combinacin lineal.

CASO DE UNA POBLACIN N(, )

1. DISTRIBUCIN DE LA MEDIA MUESTRAL ALEATORIA CON VARIANZA POBLACIONAL CONOCIDA


Sabemos que : sea cual sea la distribucin de probabilidad de la poblacin. En nuestro caso la poblacin es normal y el estadstico media muestral es una combinacin lineal de variables normales por

llegndose a la siguiente expresin pivotal:

expresin que, al relacionar las medias muestral y poblacional mediante una distribucin de probabilidad conocida, nos permitir llevar a cabo inferencias sobre un parmetro tan importante como la media poblacional en base a la media muestral si la varianza de la poblacin es conocida.

No menos importante que la media poblacional es la varianza poblacional [1], por lo que se hace necesario el conocimiento de la distribucin de probabilidad de la varianza muestral para formular inferencias sobre ella. La media de la poblacin puede ser conocida o desconocida; sin embargo, como es sumamente raro el primero de los casos adoptaremos el supuesto de desconocimiento de la misma. Bajo esta suposicin, el conocimiento de la distribucin en el muestreo de la varianza muestral aleatoria exige previamente el conocimiento del lema de FisherCochran.

[1] El orden esperado en el desarrollo de este epgrafe, cuando de una poblacin se trata, sera el siguiente: 1. Distribucin de la media muestral aleatoria con varianza poblacional conocida. 2. Distribucin de la media muestral aleatoria con varianza poblacional desconocida. 3. Distribucin de la varianza muestral aleatoria (con media poblacional desconocida, caso general, o conocida, caso inusual). Sin embargo, 1) La determinacin de la distribucin de la varianza muestral aleatoria (con media poblacional desconocida) exige la utilizacin del lema de Fisher-Cochran. 2) La determinacin de la distribucin de la media muestral aleatoria con varianza poblacional desconocida exige tanto la utilizacin del lema de Fisher-Cochran como el conocimiento de la distribucin de la varianza muestral aleatoria (con media poblacional desconocida, lgicamente). De lo expuesto se deduce el orden adoptado en el desarrollo de estas cuestiones en el caso de una poblacin.

2. LEMA DE FISHER-COCHRAN: FISHERINDEPENDENCIA DE LA MEDIA Y LA VARIANZA MUESTRALES2


Teorema: Para una m.a.s de tamao n procedente de una N(; ) el estadstico X y el vector X 1  X X 2  X X n  X . se distribuyen independientemente. Corolario: Si se extrae una m.a.s. de una poblacin N(; ), los estadsticos X y S2x se distribuyen independientemente
[2] Otra demostracin puede verse en Arnaiz, G. (1986): Introduccin a la Estadstica Teorica, (4 ed.) Lex Nova, pgs 465 a 469.

Demostracin del Teorema: Sea caracterstica conjunta de Entonces la funcin


X X 1  X X 2  X X n  X ...

Donde son los coeficientes de una combinacin lineal de variables muestrales normales tal que
aj !

t  (s j  s ) n

En consecuencia

donde el segundo factor, no es sino la funcin caracterstica conjunta de X 1  X X 2  X X n  X ... ya que: 1. Si la funcin caracterstica conjunta de dos variables se factoriza en el producto de una funcin de t y otra de s, entonces ambas variables son independientes. 2. Adems, si uno de estos factores es una funcin caracterstica el otro tambin lo es. (Lindgren B.W. (1993): Statistical Theory, 4 ed., Chapman & Hall, p. 131).

En virtud de este teorema la media muestral aleatoria y el vector de diferencias se distribuyen independientemente y, dado que

1W 2 2 it Q  t 2 n

es la funcin caracterstica de la media muestral aleatoria cuando la m.a.s. se toma de una poblacin normal, n

1  W 2

i !1

( si  s ) 2

es la funcin caracterstica n-dimensional del vector de diferencias. En consecuencia la media muestral aleatoria y la varianza muestral aleatoria se distribuyen independientemente.

Inciso: ... Funcin caracterstica conjunta de X  X X  X X n  X

y como

entonces

Y como las variables muestrales son independientes

3. DISTRIBUCIN DE LA VARIANZA MUESTRAL (no se conoce la media poblacional)


Sabemos que: 1)

2) Si la poblacin de la que se extrae la m.a.s. es N(; ) entonces

3) Por el Lema de Fisher-Cochran, distribuyen independientemente. Del punto 1) se deduce que

y S2x se

y como X y S2x son independientes

y por tanto

Con lo que

que no es sino la funcin caracterstica de una ji-cuadrado con n-1 grados de libertad, por lo que, dada la unicidad de las funciones caractersticas se puede concluir que

Ya disponemos por tanto de una expresin (expresin pivotal) que liga la varianza poblacional con la varianza muestral a travs de una distribucin conocida y tabulada. Esta expresin ser de indudable importancia a la hora de realizar inferencias acerca de la varianza de una poblacin normal con media desconocida sobre la base de la varianza de una m.a.s3

[3] Si fuese conocida podramos realizar inferencias sobre


n

en base a

la expresin Y como
n

i !1

( X i  Q )2 n
n

i !1

( X i  Q )2 2 ! Gn W2

entonces

i !1

( X i  Q )2 W 2 2 ! Gn n n

Corolario: Como la esperanza de una chi-cuadrado son sus grados de libertad y la varianza el doble de sus grados de libertad, entonces la esperanza y la varianza de la varianza muestral aleatoria son, para m.a.s. procedentes de una poblacin normal

Por otra parte, sabamos que, fuese cual fuese la distribucin de probabilidad de la poblacin

Pero en el caso normal, como 4 = 3

4 se

tiene que

4. DISTRIBUCIN DE LA MEDIA MUESTRAL ALEATORIA (con varianza desconocida)


Pasamos a continuacin a desarrollar la distribucin de la media muestral cuando la m.a.s. procede de una poblacin normal con varianza desconocida. Dicha distribucin ser de utilidad para realizar inferencias sobre la media poblacional (lgicamente tambin desconocida), en base a la media muestral, en una tesitura en la que se desconoce la varianza de la poblacin.

Sabemos que

Sin embargo, esta expresin pivotal no resulta de utilidad para realizar inferencias sobre en caso de que la varianza poblacional sea desconocida (caso, por otra parte, muy frecuente). En consecuencia, tendremos que arbitrar algn procedimiento que la elimine, de tal forma que tras dicha eliminacin se conozca la distribucin de probabilidad de la expresin resultante.

La eliminacin de se lleva a cabo dividiendo la expresin anterior por

Donde, como es sabido

Entonces se tiene que, dado que la media y la varianza muestrales se distribuyen independientemente (lema de Fisher-Cochran),

expresin pivotal que relaciona la media muestral y la media poblacional sin necesidad de conocer la varianza de la poblacin y que permitir inferencias sobre en base a X sin conocer 2

CASO DE DOS POBLACIONES N(1, 1) y N(2, 2)

5. DISTRIBUCIN DE LA DIFERENCIA DE MEDIAS MUESTRALES ALEATORIAS (con varianzas poblacionales conocidas)


Si se tiene inters en la diferencia de dos medias poblacionales un enfoque viable es formular la inferencia en base a la diferencia entre las medias procedentes de dos m.a.s. (una de cada poblacin). Sean dos poblaciones en las cuales nos interesamos por una variable aleatoria, denominada 1 en la primera poblacin y 2 en la segunda, tal que

De la primera se extrae una m.a.s. de tamao n (X1; X2; ...; Xn) y de la segunda otra de tamao m (Y1; Y2; ; Ym), muestras independientes. Entonces se tiene que

y, como las combinaciones lineales de las variables muestrales presentan distribucin normal,

Teniendo la siguiente expresin pivotal:

de utilidad para establecer inferencias sobre la diferencia entre las medias de dos poblaciones normales en base a la diferencia entre las medias de las muestras tomadas de ellas, siempre y cuando se conozcan las varianzas poblacionales.

En el caso particular de que las dos poblaciones tengan la misma varianza, la expresin anterior se particulariza en:

6. GENERALIZACIN DEL LEMA DE FISHERFISHER-COCHRAN


Sabemos que

y como las muestras se toman de forma independiente, las varianzas muestrales se distribuyen independientemente y, por tanto,

puesto que el modelo chi-cuadrado es reproductivo respecto de los grados de libertad.

Adems,

Es independiente de X y de Y y, por consiguiente, de la diferencia de ambas (

Y ) .

7. DISTRIBUCIN DE LA DIFERENCIA DE MEDIAS MUESTRALES ALEATORIAS (con varianzas poblacionales desconocidas, pero iguales)

La tesitura en la que se conoce el valor de las varianzas de las dos poblaciones es ciertamente rara, siendo lo normal que stas sean desconocidas.

En el caso en que las varianzas poblacionales sean desconocidas la expresin pivotal

no resulta de utilidad para la realizacin de inferencias acerca de la diferencia entre las medias poblacionales, siendo necesaria una expresin con distribucin de probabilidad conocida que no dependa de las varianzas poblacionales.

CMO ELIMINAR LAS VARIANZAS POBLACIONALES?

ELLO SLO ES POSIBLE SI AMBAS SON IGUALES

En este caso se tiene que: A)

B)

C) Por la generalizacin del teorema de Fisher-Cochran nS2x +mS2y se distribuye independientemente de ( X  Y )

D) En consecuencia;

Simplificando:

expresin pivotal que relaciona la diferencia de medias muestrales con la diferencia de medias poblacionales sin necesitar del conocimiento de la varianza poblacional (recurdese que es la misma en ambas poblaciones).

La expresin anterior tambin se suele escribir como:

donde S2p recibe el nombre de estimador combinado 2. Ntese que el (pooled) de la varianza comn estimador combinado es el promedio ponderado de las dos cuasivarianzas muestrales, siendo los ponderadores los grados de libertad.

Llegados a este punto la pregunta natural es la siguiente: Cul es la distribucin de la diferencia de medias muestrales si las varianzas poblacionales son desconocidas y distintas?. La situacin descrita se conoce como el problema de Behrens-Fisher que sobrepasa nuestro mbito. No obstante, se han propuesto algunas aproximaciones4.
[4] Hoel, P.G. (1976): Introduccin a la Estadstica Matemtica (2 ed.), Ariel, p. 280, propone estimar las varianzas poblacionales a travs de las cuasivarianzas muestrales.

A)Si los tamaos de cada muestra son grandes (digamos que mayores que 30) entonces las cuasivarianzas muestrales son muy buenos estimadores de las varianzas poblacionales, por lo que

B) Si las muestras son pequeas, la expresin anterior se aproximar por una t de Student con v grados de libertad,

Tomando por valor de v el entero ms prximo (aproximacin de Welch, la ms popular)

8. DISTRIBUCIN DEL COCIENTE DE VARIANZAS MUESTRALES ALEATORIAS


Sabemos que

Por lo cual

Ambos independientes.

Por tanto,

o bien

En caso de conocerse las medias poblacionales 1 y 2 podramos haber utilizado

Y como

y adems se distribuyen independientemente, entonces

Es decir, imaginando una banda de amplitud , arbitrariamente estrecha, alrededor de la distribucin terica F(x), el Teorema de Glivenko-Cantelli garantiza que hay probabilidad 1 (convergencia casi segura) de que la distribucin muestral Fn*(x) llegue a estar contenida dentro de esa banda si se hace crecer suficientemente el tamao muestral.

F*(x k) - F(xk)

F*(x 3) - F(x 3)

x3

xk

EJERCICIOS

Ejercicio: Sea una muestra aleatoria simple de tamao 10 de una poblacin N(;2). Determine: a) Probabilidad de que la media muestral y la poblacional difieran en ms de 0,5. b) El tamao muestral necesario para que, con una probabilidad de 0,9, las medias muestral y poblacional difieran en menos de 0,1. Solucin: a)

b)

y como dicha probabilidad tiene que ser 0,9 se tiene que

Ejercicio: Sea una muestra aleatoria simple tomada de una N(; ) con conocida y desconocida. Compare las distribuciones en el muestreo, esperanza y varianza de los estadsticos.

Solucin: Se sabe que

Por otro lado:

En consecuencia:

En consecuencia, el valor esperado de ambos estimadores es el mismo, pero la variabilidad del segundo en torno a la varianza poblacional es menor que la del primero (sobre todo para muestras de escaso tamao).

Ejercicio: Sea X una variable aleatoria con distribucin N(1; 1) siendo 1 conocida y 1 desconocida. Sea Y otra variable aleatoria, independiente de X, con distribucin N(2; 2) siendo desconocidos sus dos parmetros. Determine un estadstico razonable para obtener informacin acerca del cociente de varianzas poblacionales en base a dos muestras de tamaos n1 y n2 tomadas de X e Y, respectivamente, as como su distribucin en el muestreo. Solucin: Sabemos que

Por tanto, como ambos estadsticos se distribuyen independientemente,

es decir,

con lo que se tiene el estadstico y su distribucin de probabilidad en el muestreo.

Nota: Tngase en cuenta que la esperanza y varianza de una F de Snedecor con v1 grados de libertad en el numerador y v2 en el denominador es:

E Fv ;v
1 2

v2 v2  2 v2 (2v2  2v1  4) v1 (v2 2) (v2 4)


2 2

v2 > 2

V Fv ;v
1 2

v2 > 4

con lo que si en la poblacin X hubisemos utilizado la media muestral en vez de la poblacional, aunque la esperanza del estimador hubiese sido la misma, la varianza hubiese sido mayor.

S-ar putea să vă placă și