Gujaratio Revision de Conceptos Estadisticos

APNDICE A. Revisin de algunos conceptos estadsticos.
Gujarati, Damodar N.
Econometra. Cuarta edicin.

Ed. McGraw-Hill. Mxico 2004. pp. 841 - 883.
APNDICE
REVISiN DE ALGUNOS CONCEPTOS ESTADSTICOS
En este apndice se introducen, en forma muy general, algunos de los conceptos estadsticos que aparecen en este texto. El anlisis no es riguroso y no se dan pruebas debido a que existen diversos libros de estadstica excelentes que hacen muy bien ese trabajo. Algunos de esos libros se listan al final del apndice.
A.1 OPERADORES DE SUMATO.RIA y DE PRODUCTO
La letra mayscula griega
(sigma) se utiliza para indicar la sumatoria.

~ ~ x.1 = x 1 + x 2 +... + x n
i=l
As,
Algunas de las propiedades
ms importantes
del operador
de sumatoria
son
1.
L;~k
k = nk donde k es una constante. As, L~t 3 = 4.3 = 12.

y donde se hace uso
2. L7=1 xdonde k es una constante. kXi = kL7=1 3. L7=1 (a + bx) = na + b L7=!xi' donde a y b son constantes de las propiedades 1 y 2 anteriores.
4. L:Jx + y) = L;=l xi + L;=1y.

El operador de sumatoria tambin puede ampliarse a sumas mltiples. As, II, el operador de doble sumatoria, es definido como
if,xj
i=1 j=l
= i(Xil
i=1
+xiz +"'+xm)
+. .. + XnZ) = (Xl! + XZ1+.. . + Xnl) + (XIZ + XZZ
) + X2m+ .. . + Xnl1l + .. . + (X1m
841
842
APNDICE A:
.
.
de son
Algunas de las propiedades
1. ~=l ;: Xii = ;':l ~=I Xii;es decir, el orden en el cual se realice la doble su-
matoria es intercambiable. ~l X y . = m X ':l . 2. ~ l l 1= J= L 1 J= 1 J= Y1

i
3.
~.. ) x.. + "- "~ .. "~ "~ I( X 1} + YlJ = '~ 1- l 1tI 1- I J- l YI} 1- l J2 I
l X2 x I ] = L.,,= ~~ . xx. "'" I X21 + 2 '" LJt= ~l=l+ l 1 = "'" ~,= I I + 2'" ~1<J . xx. I J I '" El operador de producto 1tes definido como
4. ["," ..,=
x=x.x I 1 IT ;=1
"
",x
Por tanto,
. . Xi = XI X2 X3 IT i=l
3
A.2
ESPACIO MUESTRAL, PUNTOS MUESTRALES y EVENTOS El conjunto de todos los resultados posibles d un experimento aleatorio, o del
azar, se denomina la poblacin o espacio muestral y cada miembro de este espacio muestral se denomina un punto muestral. Por tanto, en el experimento de lanzar dos monedas, el espacio muestral consta de estos cuatro resultados posibles: ee, es, se y ss, donde ee significa una cara en el primer lanzamiento y nuevamente una cara en el segundo lanzamiento, es significa una cara en el primer lanzamiento y un sello en el segundo lanzamiento, y as sucesivamente. Cada uno de los eventos anteriores constituye un punto muestral. Un evento es un subconjunto del espacio muestral. As, si A denota la ocurrencia de una cara y de un sello, entonces, de los posibles resultados anteriores, solamente dos pertenecen a A, a saber es y se. En este caso, A constituye un evento. En forma similar, la ocurrencia de dos caras en el lanzamiento de dos monedas es un evento. Se dice que los eventos son mutuamente excluyentes si la ocurrencia de uno impide la ocurrencia de otro. Si en el ejemplo anterior ocurre ee, la ocurrencia del evento es al mismo tiempo no es posible. Se dice que los eventos son exhaustivos (colectivamente) si todos los resultados posibles de un experimento se agotan. As, en el ejemplo, los eventos (a) dos caras, (b) dos sellos y (c) un sello y una cara, agotan todos los resultados posibles; por tanto, son eventos exhaustivos (colectivamente). A.3 PROBABILIDAD Y VARIABLES ALEATORIAS Probabilidad Sea A un evento en un espacio muestral. Sea peA) la probabilidad del evento A, es decir, la proporcin de veces que el evento A ocurrir en ensayos repetidos de un experimento. En forma alterna, en un total de n posibles resultados igualmente
11
11
.
APNDICE A: REVISiN DE ALGUNOS CONCEPTOS ESTADSTICOS
.
843
probables
de un experimento, si m de ellos son favorables a la ocurrencia del evento A, se define la razn m/n como la frecuencia relativa de A. Para valores grandes de n, esta frecuencia relativa constituir una muy buena aproximacin de la probabilidad de A. Propiedades de la probabilidad estas propiedades: P(A) es una funcin de valor real! y tiene
1. O~ P(A) ~ 1 para todo A. 2. Si A, B, C,oo.constituye un conjunto de eventos exhaustivo, entonces P(A + B + C + oo.)=1, donde A + B + e significa A o B o C y as sucesivamente. 3. Si A, B, C,oo.son eventos mutuamente excluyentes, entonces
P(A + B + C + oo.)= P(A) + P(B) + P(C) +
oo.
EJEMPLO
Considrese el experimento de lanzar un dado numerado del 1 al 6. El espacio muestral consta de los resultados 1, 2, 3, 4, 5 Y6. Por consiguiente, estos seis eventos agotan la totalidad del espacio
muestra!. La probabilidad de obtener cualquiera de estos nmeros es 1/6 puesto que son seis resultados igualmente probables y cada uno de ellos tiene igual probabilidad de aparecer. Puesto que 1, 2,3,4,5 Y 6 forman un conjunto exhaustivo de eventos, P(1 + 2 + 3 + 4 + 5 + 6) = 1 donde 1,2,3,... significa la probabilidad del nmero 1 o del nmero 2 o del nmero 3, etc. Dado que 1, 2,..., 6 son eventos mutuamente excluyentes en donde dos nmeros no pueden obtenerse simultneamente, P(1 + 2 + 3 + 4 + 5 + 6) = P(1) + P(2) + ... + P(6) = 1.
\
Variables aleatorias
Una variable cuyo valor est determinado por el resultado de un experimento de azar se denomina variable aleatoria (va). Las variables aleatorias se denotan usualmente por las letras maysculas X, Y, Z y as sucesivamente, y los valores que ellas toman estn denotadas por letras minsculas, x, y, Z, etc. Una variable aleatoria puede ser discreta o continua. Una va discreta adquiere solamente un nmero finito (o infinito contable) de valores.2 Por ejemplo, al lanzar dos dados, cada uno numerado del 1 al 6, si se define la variable aleatoria X como la suma de los nmeros que aparecen en los dados, entonces X tomar uno de los siguientes valores: 2, 3,4, 5, 6, 7, 8, 9, 10, 11 o 12. Por tanto, sta se trata de una variable aleatoria discreta. Una va continua, por su parte, es una variable que puede tomar cualquier valor dentro de un intervalo de valores. As, la estatura de un individuo es una variable continua -por ejemplo, en el inter-
Una funcin cuyo dominio y rango son subconjuntos de nmeros reales se conoce generalmente como una funcin de valor real. Para mayores detalles, vase Alpha C. Chiang, Fundamental Methods of Mathematical Economics, 3a. ed., McGraw-Hill, 1984, captulo 2. 2Para un anlisis sencillo de la nocin de conjuntos infinitos contables, vase R. G. D. Allen, Basic Mathematics, Macmillan, Londres, 1964, p. 104.
.
844
APNDICE A: REVISiN
.
DE ALGUNOS CONCEPTOS ESTADSTICOS
.
sta puede adquirir
de la medicin.
(FDP)
.---
valo,
entre 152.4 y 165.1 centmetrosde la precisin
diendo
A.4
FUNCiN
DE DENSIDAD
DE PROBABILIDAD
Funcin de densi~ad de probabilidad de una variable aleatoria discreta Sea X una va discreta cin que toma valores diferentes XI' X2,'" xn'
f(x) = P(X = x) para i = 1, 2,...,n,...
=0
para
X::f- Xi
se denomina la funcin de densidad de probabilidad discreta donde P(X = xJ significa la probabilidad de que la va discreta X
de Xi'
EJEMPLO
En un lanzamiento de dos dados, la variable aleatoria X, o sea la suma de los nmeros en dos dados, puede tomar uno de los 11 valores mostrados. La FDP de esta variable como sigue (vase tambin la figura A.1):
X=
10
11
12
f(x) = (3~)(
326)( 336)( 3~)( 356)( 366)( 356)( 3~)( 336)( 326)( 3~)
Estas probabilidades pueden verificarse fcilmente. En total, hay 36 resultados uno es favorable al nmero 2, dos son favorables al nmero 3 (puesto que la suma de 3 sentarse bien sea como 1 en el primer dado y 2 en el segundo dado, o 2 en el primer segundo dado) y as sucesivamente.
f(x)
FIGURA A.1 Funcin de densidad de la variable aleatoria discreta del ejemplo 2.
6 36 5 36 4 36 3 36 2 36 ] 36 2 3 4 5 6 7
11
11
11
.
845
Funcin de densidad
de probabilidad
de una variable aleatoria continua
Sea X una va continua. Entonces, se dice que [(x) es la FDP de X si se satisfacen las siguientes condiciones:
[(x) 2. O [[(x)dx s: [(x)dx
=1 = Pea
~ x ~ b)
donde [(x )dx es conocido como el elemento probabilstico (la probabilidad asociada con un pequeo intervalo de una variable continua) y donde Pea ~ x ~ b) significa la probabilidad de que X se encuentre en el intervalo a a b. Geomtricamente, se tiene la figura A.2. Para una va continua, en contraste con una va discreta, la probabilidad de que X tome un valor especfico es cero;3 la probabilidad para tal variable puede medirse solamente sobre un rango o intervalo dado, tal como (a, b) que aparece en la figura A.2.
,,-
EJEMPLO 3
Considrese:la siguiente funcin de densidad:
f(x)
= -x2 9
Osxs3
Puede verificarse
con facilidad que
f(x)
La integral es (b x318) = 1. Si se desea evaluar la FDP anterior entre O y 1, se obtiene n
(b
x3
16)
= b; es decir la probabilidad
O para toda x en el intervalo O a 3 y que J5~x2 dx = 1. (Nota: x2 dx = -hde que x se encuentre entre O y 1 es 1/27.
;::::
o
FIGURA A.2
Funcin de densidad de una variable aleatoria continua.
Nota: f: f(x)dx
= O.
11
11
conjunta:
11
846
APNDICE A:
Funciones
de densidad
de probabilidad
FDP conjunta
discreta
Sean X y Y dos variables aleatorias discretas. Entonces

' f(x, y) = P(X = x y Y = y)
la funcin
cuando X "* x y Y "* Y se conoce como la funcin de densidad de probabilidad conjunta

= O
da la probabilidad
(conjunta)
discreta y de que X tome el valor de x y Y tome el valor de y.
EJEMPLO 4
La siguiente tabla presenta la FDP conjunta de las variables discretas Xy Y.
X -2 3 Y 6 O 0.04
\
O 0.08
2 0.16 0.10
3 O 0.35
0.27
Esta tabla muestra que la probabilidad de que X tome el valor de -2 mientras simultneamente Y toma el valor de 3 es 0.27, y que la probabilidad de que Xtome el valor de 3 mientras Ytoma el valor de 6 es 0.35 y as sucesivamente. "
Funcin de densidad de probabilidad marginal En relacin con f(x, y), f(x) y f(y) se denominan funciones de densidad de probabilidad individuales o marginales. Estas FDP marginales se obtienen de la siguiente manera: f(x) = If(x,
y
y) y)
FD P marginal de X FD P marginal de Y
f(y) = If(x,
x
donde, por ejemplo, Iy significa la suma sobre todos los valores de Yy Ix significa la suma sobre todos los valores de X.
EJEMPLO 5
Considrese manera: la informacin dada en el ejemplo 4. La FDP marginal de X se obtiene de la siguiente
f(x = -2) = I, f(x, y) = 0.27 + 0= 0.27 y

f(x = O) = I,f(x,y) y = 0.08+0.04 = 0.12 ( contina)
l' I
11
EJEMPLO 5 (continuacin) f(x = 2)= Lf(x,y) y

f(x = 3) = Lf(x,y)
y
.
.
847
= 0.16+0.10 = 0.26
= 0+0.35 = 0.35
Asimismo,
la FDP marginal de Y se obtiene as: f(y = 3) = Lf(x,y)

x
= 0.27 +0.08 = 0.16+ 0= 0.51 = 0+0.04 = 0.10+0.35 = 0.49
f(y = 6) = Lf(x,y)
x
Como lo muestra este ejemplo, para obtener la FDP marginal de X, se suma la columna de nmeros, y para obtener la FDP marginal de Y se suma la fila de nmeros. Obsrvese que x f(x) sobre todos los valores de X es 1, como lo es y f(y) sobre todos los valores de Y (por qu?).
FDP condicional Como se mencion en el captulo 2, en el anlisis de regresin, el inters se centra, con frecuencia, en estudiar el comportamiento de una variable condicional respecto a los valores de otra u otras variables. Esto puede hacerse considerando la FDP condicional. La funcin f(x I y) = P(X = x I y = y) se conoce como la FDP condicional de X; sta da la probabilidad de que X tome el valor de x dado que Y ha asumido el valor y. En forma similar, f(y I x) = P(Y = y IX = x) lo cual da la FDP condicional de Y. Las FDP condicionales pueden obtenerse de la siguiente manera:
f(x,y) f(x Iy) = f(y)

f(ylx)= f(x,y) f(x)
FDP condicional
de X
FDP condicional
de Y
Como lo muestran las expresiones anteriores, la FDP condicional de una variable puede expresarse como la razn de la FDP conjunta con respecto a la FDP marginal de otra variable (condicionante).
EJEMPLO 6
Continuando con los ejemplos 4 y 5, se calculan las siguientes probabilidades condicionales, as:
f(X = -21 Y = 3) =
f(X = -2, Y = 3) = 0.27/0.51 = 0.53 f(Y =3)
( contina)
.
848
APNDICE A: REVISiN
.
.
(continuacin)
f(X = 21 Y = 6) = f(X = 2, Y = 6) = 0.10/0.49 = 0.20 f(Y =6)
EJEMPLO 6
Obsrvese que la probabilidad incondicional f(X = -2) es 0.27, pero si Y ha asumido el valor de 3, la probabilidad de que X tome el valor de -2 es 0.53.
Obsrvese de nuevo que la probabilidad incondicional de que Xtome diferente de 0.20, que es su valor si Yasume el valor de 6.
el valor de 2 es 0.26, la cual es
Independencia
estadstica Dos variables
aleatorias X y Y son estadsticamente f(x, y) = f(x) f(y)
independientes
si y slo si
es decir, si la FDP conjunta puede expresarse como el producto ginales.

EJEMPLO 7
de las FDP mar-
Una bolsa contiene tres bolas numeradas 1, 2 Y 3. Se seleccronan de la bolsa dos bolas al azar, con reemplazamiento (es decir, la primera bola sacada se reemplaza antes de sacar la segunda). Sea X el nmero de la primera bola sacada y Yel nmero de la s~gunda. La siguiente tabla dala FDP conjunta de Xy Y. X 2 1 9 1 9 1 9 1 9 1 9 1 9 3 1 9 1 9 1 9
2 3
Ahora f(X = 1, Y = 1) = t, f(X =1) = t (obtenido mediante la suma de los elementos de la primera columna), y f( y = 1) = (obtenido mediante la suma de los elementos de la primera fila). Puesto que f(X, Y) = f(X)f( Y), en este ejemplo, se puede decir que las dos variables son estadsticamente independientes. Puede verificarse que para cualquier otra combinacin de los valores X y Y dados en la tabla anterior, las FDP conjuntas se factorizan en FDP individuales. Se observa que las variables Xy Ydadas en el ejemplo 4 no son estadsticamente independientes puesto que el producto de las dos FDP marginales no es igual a la FDP conjunta. (Nota: f(X, Y) = f(X)f( Y) debe cumplirse para todas las combinaciones de X y Y si las dos variables han de ser esta-
dsticamente
independientes.)
FDP conjunta continua

tal que
La FDP f(x, y) de dos variables continuas X y Yes f(x, y) O
[[f(x,y)dx f(x,y)dx r J:
dy = 1 dy = P(a ~ x ~ b,c ~ y ~ d)
11
APNDICE A: EJEMPLO Considrese 8 la siguiente FDP:
.
8
849
f(x,y)
Es obvio que ~x, y) ~ O. Adems4
=2-x-
O~x~1;O~y~1
y) dx dy = 1 f; f; (2 - x La FDP marginal de X y de Y puede obtenerse como
f(x) = [f(x,y)dy f(y) = [f(x,y)dX
FDP marginal de X FDP marginal de Y
EJEMPLO
9 de la FDP conjunta dada en el ejemplo 8 son las siguientes:
Las dos FDP marginales
f(x) f; f(x, y)dy = f; (2 - x - y)dy
2y - xy - ~2 J 1:
f(y)
- x
O~ x ~ 1
= f;(2 - x - y)dx - y O~ Y ~ 1
2x - xy - ~2 J 1:
Para ver si las dos variables del ejemplo 8 son estadsticamente independientes, se debe determinar si ~x, y) = ~x)~y). Puesto que (2 - x- y)"* (% - x) (% - y), se puede decir que las dos variables no son estadsticamente independientes.
:[:(2-x
Y)dx] dy
:[ [2X - x; - xy J I}y
f~
(% -
dy
~[%y-y;J[
Nota: obtener
~]
La expresin (tY -y2/2)l significa que la expresin entre parntesis debe ser evaluada. para el va1 y para el valor del lmite inferior O; el ltimo valor es restado del pnmero
As, en el ejemplo anterior, los lmites son el valor de la integral.
lor del lmite superior
y = , dando igual a 1 el valor de la integral.
(t - }) en y '" 1 Y en
para
11
850
A.5 CARACTERSTICASDE LAS DISTRIBUCIONESDE PROBABILIDAD Una distribucin de probabilidad a menudo puede resumirse en trminos de algunas de sus caractersticas, conocidas como los momentos de la distribucin.
Dos de los momentos ms ampliamente utilizados son la media, o valor espe.

rado y la varianza.
Valor esperado
El valor esperado de una va discreta X, denotado por E(X), se define de la siguiente manera: E(X)
= LX{(x)
x
donde Lx significa la suma sobre todos los valores de X y donde {(x) es la FDP (discreta) de X.
EJEMPLO 10 Considrese la distribucin de probabilidad de la suma de dos nmeros en el lanzamiento de dos dados analizada en el ejemplo 2 (vase la figura A.1). Multiplipando los diversos valores de X dados all por sus correspondientes probabilidades y sumando sobre todas las observaciones, se obtiene: E(X)
= 2(i6) + 3(:6) +4(fi)+...

=7 observada
+ 12(3~)
que es el valor promedio
de la suma de los nmeros
en un lanzamiento
de dos dados.
EJEMPLO Estmese
11 E(X) Y E( Y) para la informacin x f(x) -2 0.27 dada en el ejemplo O 0.12 4. Se ha visto que 2 0.26 3 0.35
Por consiguiente, E(X)
= L,xf(x)
x
= (-2)(0.27)
+ (0)(0.12) + (2)(0.26) + (3)(0.35)
= 1.03
En forma similar,
y f(y)
E(Y)
3 0.51
6 0.49
yf(y) =L, y
= (3)(0.51)
= 4.47
+ (60)(0.49)
( contina)
11
APNDICE A:
_~_~m__~~~.._~._-~~
8
DE ALGUNOS
~..,~-,"...",-"-,~=",,,,',"CC3""-~""",',,''''',,',,
~""""""m",,
11,."
,~~
REVISiN
CONCEPTOS
ESTADSTICOS
851
EJEMPLO 11 (continuacin)
El valor esperado de una va continua est definido como
E(X) =
xf(x)dx
La nica diferencia entre este caso y el valor esperado de una va discreta es que el smbolo de sumatoria se reemplaza por el smbolo de integral.
EJEMPLO 12 Para determinar el valor esperado de la FOP continua dada en el ejemplo 3, se procede como sigue:
E(X)
= fax
x2
"9
dx J
i
9 4
[( :4
=2.25
Propiedades
, 1
del valor esperado
I I
1
1. El valor esperado de una constante es la constante constante, E(b) = b. 2. Si a y b son constantes,
misma. As, si b es una
l' I I
I
11
E(aX + b) = aE(X) + b Esto se puede generalizar. Si Xl, X2,..., XN son N variables aleatorias y al, a21'" aN y b son constantes, entonces
E(aX + a2X2 +... + aNXN + b) 3. Si X Y Y son variables
= aE(X)
+ a2E(XJ +... + aNE(X1,J + b

entonces
l'
11 11
aleatorias
independientes,
11
E(XY) = E(X)E(Y) Es decir, la esperanza del producto XY es el producto de las esperanzas individuales de X y Y. 4. Si X es una variable aleatoria con FDP f(x) y si g(X) es cualquier funcin de X, entonces
!I
11
11 1,
'1
11
11
,
11
1
1,
E[g(X)] = Lg(X)f(x)
x
si X es discreta
= [g(X)f(x)dx
si X es continua
11
11
11
CONCEPTOS ESTADSTICOS
.
si X es discreta si X es continua
852
APNDICE A:
REVISiN
DE ALGUNOS
Por tanto,
i i
I1
si g(X) = X2,
E(X2)
= x2f(X) = [x2f(X)dx
11
" 11
'1
11
EJEMPLO 13
11 11
Considrese
la siguiente FDP:
11 1,
x f(x)
Entonces,
-2
8
5
2
8
1
I1
~
8
11
" I1
I1 11
E(X) = -2 (%)+1(i)+2(t)
--8
5
11
11
I!
Ij "
11
!I
11
E(X2) = 4(%) + 1(i) -h4(

-8
29
t)
I
11
11
I1
I1
l'
11 11
Varianza
il I1 l' :1
Sea X una variable aleatoria y sea E(X) = p. La distribucin o dispersin de los valores de X alrededor del valor esperado puede ser medida por la varianza, la cual se define corno var(X) = a~ = E(X
- f.1)2
I
I1
11
11
11
11 11
:1
La raz cuadrada positiva de o-i, o-x, est definida corno la desviacin estndar de X. La varianza o la desviacin estndar da una indicacin de qu tan cercanos o dispersos estn los valores individuales de X con respecto al valor de su media. La varianza definida anteriormente se calcula de la siguiente forma:
var(X) =
(x x
f.1)2f(x)
si X es una va discreta si X es una va continua
= [(X
- f.1)2 f(x)dx
Por conveniencia de clculo, la frmula de la varianza dada anteriormente ser expresada tambin como
var(X) = a~ = E(X - f.1)2 = E(X2) - f.12 = E(X2) - [E(X)f
puede
.
EJEMPLO 14
.
. 29 en e l eJemp 1O 13 es -8
.
.
853
Aplicando esta frmula, puede verse que la varianza de la variable aleatoria dada
(-- 5 )2 = - 207 = 3.23.

8 64
Para determinar
la varianza de la variable aleatoria dada en el ejemplo 3, se procede as:
var(X) = E(X2) - [E(X)]2 Ahora,

Xg2 )dX
E(X2)
= S: X2(
3X4
r - dx = 10 9 = ~[~5
= 243/45 = 27/5
Puesto que E(X) = t(vase ejemplo 12), se tiene finalmente
,,'
var(X) = 243/45 - (*)2 = 243/720 = 0.34
Propiedades
de la varianza
1. E(X - PY = E(X2) - p2, como se mencion anteriormente. 2. La varianza de una constante es cero. 3. Si a y b son constantes, entonces
var (aX + b) = a2 var (X)
4. Si X Y Y son variables aleatorias independientes, var (X + Y) = var (X) + var (Y)
entonces
var (X - Y) = var (X) + var (Y)

Esto puede generalizarse a ms de dos variables. 5. Si X Y Y son va independientes ya y b son constantes, entonces
var (aX + bY) = a2 var (X) + b2var (Y)

Covarianza
Sean X Y Y dos va con medias Px y Py' respectivamente. entre las dos variables se define como
Entonces, la covarianza
11
cov(X,Y) = E{(X
- .uJ(Y - .uy)} = E(XY) - .ux.uy
.
de dicha variable
854
Puede verse que la varianza de una variable es la covarianza con ella misma. La covarianza se calcula de la siguiente manera:
cov(X,Y) = I,I,(X
y
x
- .uJ(Y - .uy)f(x,y)
- .ux.uy
= I,I,XYf(x,y)
y x
si X Y Y son variables aleatorias discretas y cov(X,Y)

=
[[
(X
.uJ(Y - .uy)f(x,y)dx dy -.ux .uy
dy
= [[
si X Y Y son variables aleatorias
Propiedades de la covarianza
XYf(x,y)dx
continuas.
1. Si X Y Y son independientes,
su covarianza es cero, puesto que

flxfly
cov(X, Y) = E(XY) =
flxfly
- flxfly
dado que E(XY)
= E(X)E(Y)
= flxfly
=0
cuando X Y Y son independientes
2.
cov(a + bX, e + dY) = bd cov(X, Y) donde a, b, e y d son constantes.
EJEMPLO 15
Para determinar la covarianza entre las variables aleatorias discretas Xy y cuyas FOP conjuntas son iguales a las del ejemplo 4, se procede as: del ejemplo 11, ya se sabe que J1x= E(X) 1.03 Y que J1y= E( Y) = 4.47. E(XY) = 2, 2, XYf(x, y)
y x
= (-2)(3)(0.27) +(-2)(6)(0) = 6.84 Por consiguiente,
+ (0)(3)(0.08) + (0)(6)(0.04)
+ (2)(3)(0.16) + (2)(6)(0.10)
+ (3)(3)(0) + (3)(6)(0.35)
cov(X,Y) = E(XY) -
J1xJ1y
= 6.84 - (1.03)(4.47) =2.24
.
Coeficiente de correlacin
.
El coeficiente de correlacin (poblacional)
cov(X, Y)
11
855
p (rho) est definido
como
p--
~(var(X) var(Y)}
cov(X, Y)
axay
negativa y + 1
As definido, p es una medida de la asociacin lineal entre dos variables y se encuentra entre -1 y + 1, donde -1 indica una perfecta asociacin indica una perfecta asociacin positiva. De la frmula anterior, puede verse que cov(X, Y) = pa.py
EJEMPLO 16
Estmese el coeficiente de correlacin para la informacin del ejemplo 4. aplicando la frmula anterior, se estima p
De las FDP dadas en el ejemplo 11, se puede ver con claridad que ax = 2.05 Y ay = 1.50. Se ha demostrado ya que la cov(X, Y) = 2.24. Por consiguiente. como 2.24/(2.05)(1.50) = 0.73.
Varianzas de variables correlacionadas
Sean X y Y dos va. Entonces,
var(X + Y) = var(X) + var(Y) + 2cov (X, Y) = var(X) + var(Y) + 2pO"P:y var(X - Y) = var(X) + var(Y)
-
2cov (X, Y)
2pO"xO"y
= var(X) + var(Y) -
Sin embargo, si X y Y son independientes, la cov(X,Y)es cero, en cuyo caso la var(X + Y) y la var(X - Y) son ambas iguales a var(X) + var(Y), como se mencion anteriormente. Los resultados anteriores pueden generalizarse de la siguiente manera: sea
I:
Xi
= X
+ X2 +
...
+ Xn, entonces la varianza
de la combinacin cov(Xi, Xi)
lineal
Xi es
var(
Xi)
= ~ var Xi
n
l
+2
~<f.
paa = '" ",.var X + 2 '" ~ '" ~ PlJ 1 i=l i<j donde Pi es el coeficiente de correlacin desviaciones estndar de Xi y Xi'
entre Xi y X y donde
O"iy O"son las
Por tanto,
var(X + X2 + X3) = varX + varX2 + varX3 + 2 COy (X, X2) + 2 cov(X, X3) + 2 COy (X2, X3)
11
.
.
= var
X + varX2 + varX3 + 2p2(}(}2 + 2P13(}(}3 + 2P23(}2(}3
856
donde
(), (}2'
Y (}3son las desviaciones
y donde P12 es el coeficiente entre X2 y X3.
estndar de Xl, X2 y X3, respectivamente de correlacin entre X y X2, P13 entre X y X3, y
P2~
Esperanza condicional y varianza condicional Sea f(x,y) la FDP conjunta de las variables aleatorias X y Y. La esperanza condicional de X, dada Y = y, se define como E(X
I
y = y) = Lxf(x
x
I y = y)
si X es discreta
= [xf(x
f
IY = y)dx
si X es continua
donde E(X y = y) significa la esperanza condicional de X dada Y = y, Ydonde f(x y = y) es la FDP condicional de X. La esperanza condicional de Y, E(Y X = x), est definida en forma similar.
I I
Esperanza condicional Obsrvese que E(X IY) es una variable aleatoria porque es una funcin de la variable condicionante Y. Sin embargo, E(XfY = y), donde y, un valor especfico de Y, es una con~tante. Varianza condicional nida como var(X
I
La varianza condicional Y = y)]2 Y = y)

I
de X dada Y = Y est defi-
Y = y) = E([X - E(X
= L[X = [[X
- E(X - E(X
Y = y)rf(x
Y = y)
si X es discreta si X es continua
Y = y)]2f(x IY = y)dx
Ir
11
EJEMPLO 17
11
i
!
Calclese
I
11
E( Y I X = 2) Y var( y I X = 2) para la informacin

I I
dada en el ejemplo 4.
E(Y I X = 2) = 2,yf(Y = y I X = 2) y
= 3f(Y = 31X = 2) + 6f(Y = 61 X = 2) = 3(0.16/0.26)+6(0.10/0.26) =4.15
I I
I
Nota: f( y = 3 I X = 2) = f( y = 3, X = 2)/f(X = 2) = 0.16/0.26, Y f( Y = 6 I X 2) f( y 6, X = 2)/ = = = f(X = 2) = 0.10/0.26, adems var(Y I X = 2) = 2)Y - E(Y I X = 2)ff(Y I X = 2) y = (3 - 4.15)2(0.16/0.26) + (6 - 4.15)2(0.10/0.26) = 2.13
Propiedades de la esperanza
y la varianza condicionales
.
.
857
1. Si f(X) es una funcin de X, entonces E(f(X) IX) = f(X); es decir, la funcin de X se comporta como una constante en el clculo de la esperanza condicional sobre X. Por tanto [E(X3 X)] = E(X3); esto se debe a que si se conoce X, entonces X3 tambin se conoce. 2. Si f(X) y g(X) son funciones de X, entonces E[f(X)Y + g(X) IX] = f(X)E(Y IX) + g(X)
Por ejemplo, E[XY + cX21X] = XE(Y IX) + cX2, donde e es una constante. 3. SiXy Yson independientes, E(YI X) = E(Y); es decir, siXy Y son variables aleatorias independientes, entonces la esperanza,condicional de Y, dada X, es la misma que la esperanza incondicional de Y. 4. Ley de las esperanzas iteradas. Resulta interesante observar la siguiente relacin entre la esperanza incondicional de una variable aleatoria Y, E(Y), Ysu esperanza condicional basada en otra variable aleatoria X, E(Y IX):
E(Y) = EAE(Y IX)]
Lo anterior se conoce como la ley de las esperanzas iteradas, que para el presente contexto establece que la esperanza marginal, o incondicional, de Yes igual a la
esperanza de su esperanza condicional; el smbolo Ex denota que la esperanza

se calcula sobre los valores de X. En forma sencilla, esta ley enuncia que si primero se obtiene E(Y IX) como una funcin de X y toma su valor esperado sobre la distribucin de los valores X, se obtiene E(Y), la esperanza incondicional de y. El lector puede verificar esto utilizando los datos dados en el ejemplo 4.
5. Si X Y Y son independientes, entonces var(Y IX) = var(Y). 6. var(Y) = E[ var(Y IX)] + var[E(Y IX)]; es decir, la varianza (incondicional)
de Yes igual a la esperanza de la varianza condicional la esperanza condicional de Y.

Momentos superiores de las distribuciones de probabilidad
de Y ms la varianza de
Aunque la media, la varianza y la covarianza son las medidas resumen ms frecuentemente utilizadas de las FDP univariadas y multivariadas, en ocasiones se requiere considerar momentos de orden mayor de las FDP, tales como los momentos tercero y cuarto. Los momentos tercero y cuarto de una FDP univariada f(x) alrededor del valor de su media (..L) se definen como Tercer momento: Cuarto momento: E(X - p)3 E(X - p)4
En general, el momento r-simo alrededor de la media se define como r-simo momento: E(X - PY
El tercero y cuarto momentos de una distribucin se utilizan a menudo para estudiar la "forma" de una distribucin de probabilidad, en particular, su asimetra, A (es decir, falta de simetra) y su apuntamiento o curtosis e (es
11
.
.
Asimetra derecha -
858
a)
0.5 0.4 0.3 0.2 0.1 0.0 -4 -3 -2 -1 O 2 3 4
b)
0.5 0.4 0.3 0.2 0.1 0.0 -4 -3 -2 -1

o curtosis.
FIGURA A.3
a) Asimetra;
b) Apuntamiento
decir, qu tan alta o qu tan plana es la distribucin), gura A.3. Una medida de asimetra se define como S=E(X-fl)3
0'3
como se aprecia en la fi-
tercer momento alrededor de la media desviacin estndar elevada al cubo utilizada est dada por
Una medida de curtosis comnmente E(X - fl)4 [E(X - fl)2r
K =
cuarto momento alrededor de la media segundo momento elevado al cuadrado Las FDP con valores de e menores de 3 se denominan platicrtica (anchas o de colas cortas) y aqullas con valores mayores de 3 se denominan leptocrticas
11
11
.
859
(delgadas o de colas largas). Vase la figura A.3. Una FDP con un valor de apuntamiento de 3 se conoce como mesocrtica, siendo el ejemplo principal de ste, la distribucin normal. (Vase el anlisis de la distribucin normal en la seccin A.6.) Ms adelante, se demostrar la forma como las medidas de asimetra y apuntamiento pueden combinarse para determinar si una variable aleatoria sigue una distribucin normal. Recurdese que el procedimiento de prueba de hiptesis, seguido en las pruebas t y F, est basado en el supuesto (por lo menos en muestras pequeas o finitas) de que la distribucin implcita de la variable (o estadstico muestra!) es normal. Por consiguiente, es muy importante averiguar si este supuesto se cumple en aplicaciones concretas.
A.6 ALGUNAS DISTRIBUCIONES DE PROBABILIDAD TERICAS IMPORTANTES
En el texto se hace uso extenso de las siguientes distribuciones Distribucin normal
de probabilidad.
La ms conocida de todas las distribuciones de probabilidad tericas es la distribucin normal, cuya forma de campana es familiar a cualquiera que tenga un mnimo conocimiento estadstico. Se dice que una variable X aleatoria (continua) est normalmente distribuida si su FDP tien la siguiente forma: f( x ) 1 1 (X-J1)2 2 r;:- exp - ( 2 a ] a\j 2n
-oo<x<oo
donde J1y el conocidos como los parmetros de la distribucin, son la media y la varianza de la distribucin respectivamente. Las propiedades de esta distribucin son las siguientes: 1. Es simtrica alrededor de su valor medio. 2. Aproximadamente 68 por ciento del rea bajo la curva normal se encuentra entre los valores de J1:t a, alrededor de 95 por ciento del rea se encuentra entre J1:t 2a, y alrededor del 99.7 por ciento del rea se encuentra entre J1:t 3a, como se muestra en la figura AA. 3. La distribucin normal depende de dos parmetros, J1 y el. Por tanto, una vez que stos han sido especificados, se puede contrar la probabilidad de que X est dentro de cierto intervalo utilizando la FDP de la distribucin normal. Pero esta labor puede ser aligerada considerablemente refirindose a la tabla D.! del apndice D. Para utilizar esta tabla, se convierte la variable X normalmente distribuida dada con media J1y el en una variable Z normal estandarizada mediante la siguiente transformacin:
z=- X-J1 (J
Una propiedad importante de cualquier variable estandarizada es que su valor medio es cero y su varianza es la unidad. As, Z tiene media cero y varianza unitaria. Sustituyendo Z en la FDP dada anteriormente, se obtiene
860
APNDICE A: REVISiN
11
-3a
-2 C
-a
J1
2a
3a
. 68%(aprox).j
l.
l.
FIGURA A.4
reas bajo la curva normal.
95% (aprox.) --1

99.7% (aprox.)
.1 .1
f(Z)~ ,A;expHz')
que es la FDP de la variable normal estandarizada. Las probabilidades dadas en el apndice D, tabla D.1, estn basados en esta variable normal estandarizada. Por convencin, se denota una variable distribuida normalmente como
x - N(f.1,
(52)
donde - significa "distribuido como", N significa la distribucin normal y las cantidades en los parntesis son los dos parmetros de la distribucin normal, a saber, la media y la varianza. Siguiendo esta convencin,
- N(O, 1)
significa que X es una variable normalmente distribuida con media cero y varianza unitaria. En otras palabras, es una variable Z normal estandarizada.
EJEMPLO 18 Supngase que X N(8, 4). Cul es la probabilidad de que Xtome un valor entre Xj = 4 Y X2 = 12? Para calcular la probabilidad requerida, se obtienen los valores Z as:
Xj - J1 Zj=-=-=-2 a X2-1 Z2=-=-=+2
(J
4- 8 2 12-8
Ahora, de la tabla D.1, se observa que Pr(O

Pr(-2 :<::: Z :<::: O) = 0.4772. Por consiguiente,
(Vase la figura A.4.)
Z:<:::2) = 0.4772. Entonces, por simetra, se tiene la probabilidad requerida es 0.4772 + 0.4772 = 0.9544.
:<:::
.
EJEMPLO 19
.
861
Cul es la probabilidad de que en el ejemplo anterior, X exceda 127 Esta probabilidad es la misma de que Z exceda 2. De la tabla D.1 , es obvio que esta probabilidad es (0.5 - 0.4772) o 0.0228.
4. Sea Xl
- N(PI, uD y Xl - N(ll,
y
uD y supngase que son independientes.
Considrese ahora la combinacin lineal

= aX + bX2
donde a y b son constantes. Entonces, puede mostrarse que y -N[(ap Este resultado, +bJ12)'
(a2a~ + b2a:)]
normalmente distribuidas es normalmente distibuida, puede generalizarse fcilmente a una combinacin lineal de ms de dos variables normalmente distribuidas. 5. Teorema central del lmite. Sean Xl, Xl,,,,, Xn, n variables aleatorias
independientes, Sea las cuales tienen
~
que establece que una combinacin
lineal de variables
la misma
FDP
con
media
= P y varianza
d.
IX/n
(o sea, la media
muestra!).
00).
Entonces,
a medida
que n aumenta
indefinidame.pte
(es decir, n
n->~
x -N
P,~
n J
Es decir, X se acerca a la distribucin normal con media m y varianza slln. Obsrvese que este resultado se cumple sin importar la forma de la FDP. Como resultado, se cumple que
z=
Xal{;;
{;;(X = a
- u)
- N(O, 1)
normal alrededor del
Es decir, Z es una variable normal estandarizada. 6. Los momentos tercero y cuarto de la distribucin valor de la media son los siguientes: Tercer momento: Cuarto momento: E(X - p)3 = O
E(X - p)4 = 3U4

impares alrededor del valor de
Nota: Todos los momentos
elevados
a potencias
la media de una variable normalmente distribuida son cero. 7. Como resultado, y siguiendo las medidas de asimetra y apuntamiento o curtosis analizadas anteriormente, para una FDP normal se tiene una asimetra = O Y un apuntamiento = 3; es decir, una distribucin normal es simtrica y
mesocrtica. si los valores Por consiguiente, una prueba simple de normalidad es determinar calculados de asimetra y apuntamiento parten de las normas de O
862
APNDICE A:
y 3. sta es, en realidad, la lgica implcita en la prueba de normalid.ad de Jarque-Bera (JB) estudiada en el texto:
JB=n -+ [ 6
S~ (K -3Y
24
]
(5.12.1)
donde A significa asimetra y e apuntamiento o curtosis. Bajo la hiptesis nula de normalidad, JB est distribuida como un estadstico ji-cuadrada con 2 g de 1. 8. La media y la varianza de una variable aleatoria normalmente distribuida son independientes, en el sentido que la primera no es una funcin de la segunda.
Distribucin X2(ji-cuadrada) Sean Z1, Z2,"" Zk variables normales estandarizadas independientes (es decir, variables normales con media cero y varianza unitaria), se dice que la cantidad
=L
i=l
Z2
sigue la distribucin X2con k grados de libertad (g de 1), donde el trmino g de 1 significa el nmero de cantidades independientes en la suma anterior. Una variable distribuida ji-cuadrada se denota por xL donde el sub ndice k indica los g de 1. Geomtricamente, la distribucin ji-cuadrada aparece en la figura A.S. Las propiedades de la distribucin X2son.,las siguientes: 1. Como lo indica la figura A.S, la distribucin X2es una distribucin asimtrica; el grado del asimetra depende de los g de 1.Cuando los g de 1son comparativamente pocos, la distribucin est altamente sesgada hacia la derecha; pero, a medida que el nmero de g de 1 aumenta, la distribucin se hace cada vez ms simtrica. De hecho, para g de 1por encima de 100, la variable
((x2)
'"d cd '"d .;
.:: Il)
o
FIGURA A.S
x2
Funcin de densidad de la variable x2,
863
~2X2 - ~(2k -1) puede ser tratada como una variable normal estandarizada, donde k son los g de 1. 2. La media de la distribucin ji-cuadrada es k y su varianza es 2k, donde k son los g de 1. 3. Si 2 Y22 son dos variables ji-cuadrada independientes con k y k2 g de 1, entonces la suma 21 + Z2es tambin una variable ji-cuadrada con g de 1 = k + k2.
EJEMPLO 20
Cul es la probabilidad de obtener un valor x2 de 40 o superior, dado que los g de I son 20? Como lo muestra la tabla DA, la probabilidad de obtener un valor x2 de 39.9968 o mayor (20 g de 1)es 0.005. Por consiguiente, la probabilidad de obtener un valor l de 40 es menor que 0.005, probabilidad que es relativamente baja.
Distribucin
t de Student
Si 2 es una variable normal estandarizada [es decir, Z
- N(O, 1)], y otra
variable
22 sigue la distribucin ji-cuadrada con k g de 1y est distribuida temente de 2, entonces la variable definida como
"
independien-
t=
~(2/k)
- 2Ik ~22
sigue la distribucin t de Student con k g de 1. Una variable distribuida t se designa con frecuencia como tb donde el subndice k denota los g de 1. Geomtricamente, la distribucin t se muestra en la figura A.6. Las propiedades de la distribucin t de Student son las siguientes: 1. Como lo indica la figura A.6, la distribucin t, lo mismo que la distribucin normal, es simtrica, pero es ms plana que la normal. Sin embargo, a medida que aumentan los g de 1,la distribucin t se aproxima a la distribucin normal. 2. La media de la distribucin t es cero y su varianza es k/(k - 2). La distribucin t est tabulada en la tabla D.2.
EJEMPLO
21
Dado g de I =: 13, cul es la probabilidad de tener un valor t (a) de 3 o ms, (b) de alrededor de -3 o ms pequeo y (e) de Itl de alrededor de 3 o superior, donde Itl significa el valor absoluto (es decir, ignorando el signo) de t? De la tabla D.2, las respuestas son (a) alrededor de 0.005, (b) alrededor metra de la distribucin t, y (e) alrededor de 0.01 =: 2(0.005). de 0.005 debido a la si-
864
APNDICE
A:
REVISiN
DE ALGUNOS
CONCEPTOS
ESTADSTICOS
k = 120 (normal) k = 20
.,.,:" -,'",'" -""'",," "..'
.;..;
..
/k=5
:::"''''''''.......
""".."""'----"""'.. "-""-
o
FIGURA A.6
Distribucin t de Student para grados de libertad seleccionados,
Distribucin
Si Z y Z2 son variables ji-cuadrada distribuidas y k2 g de 1, respectivamente, la variable
en forma
independiente
con k
F=
Z/k Z)kz
sigue la distribucin F (de Fisher) con k y k2 g de 1. Una variable que sigue una distribucin F se denota por Fkl,k2' donde los sub ndices indican los g de 1asociados con las dos variables Z, llamando k los g de 1del numerador y k210s g de 1del denominador. En la figura A.7 se muestra geomtricamente la distribucin F. La distribucin F tiene las siguientes propiedades: 1. Al igual que la distribucin ji-cuadrada, la distribucin F est sesgada hacia la derecha. Pero puede mostrarse que a medida que k y k2 aumentan, la distribucin F se acerca a la distribucin normal.
f(F)
'<::i ro '<::i 'Vi :: llJ ~
o
FIGURAA.7 Distribucin F para diversos grados de libertad,
865
2. El valor de la media de una variable con distribucin cual est definido para k2 > 2 Y su varianza es 2k;(k + k2
-
F es kzl(k2 - 2), el
2)
k(k2 -2)2(k2 -4) definida para k2 > 4. 3. El cuadrado de una variable aleatoria con distribucin una distribucin F con 1 y k g de 1. Simblicamente,
t con k g de 1sigue
t: = F;,k
EJEMPLO 22
Dado kj = 10 Y k2 = 8, cul es la probabilidad de obtener un valor F a) de 3A o mayor y b) de 5,8 o mayor? b) Como lo muestra la tabla 0,3, estas probabilidades son a) aproximadamente 0.05 Y aproximadamente 0,01,
4. Si el nmero de g de 1 del denominador, k2 a es relativamente cumple la siguiente relacin entre las distribuciones F y ji-cuadrada:
kF
alto, se
- X~
Es decir, para un nmero de g de 1del denominador relativamente grande, los g de 1 del numerador multiplicados por el valor F equivalen aproximadamente a un valor ji-cuadrada con los g de 1del numerador.
EJEMPLO 23
Sea kj = 20 Y k2 = 120, El valor F crtico al 5% para estos g de I es 1 A8, Por consiguiente, k1F = (20)(1 A8) = 29,6, De la distribucin ji-cuadrada para 20 g de \, el valor crtico ji-cuadrada al 5% es alrededor de 31 A 1,
A propsito, obsrvese que puesto que para un nmero grande de g de 1,las distribuciones t, ji-cuadrada y F se aproximan a la distribucin normal, stas tres se conocen como las distribuciones relacionadas con la distribucin normal.
La distribucin binomial de Bernoulli Una variable aleatoria X se dice que sigue una distribucin de Bemoulli (nombrada en honor del matemtico suizo) si su funcin de densidad de probabilidad (FDP), o de masa, es:
866
P(X = O) = 1- P P(X = 1) = p
donde p, O ~p ~ 1, es la probabilidad
por ejemplo la probabilidad Para tal variable,
de que algn evento sea un "xito", Como de que caiga cara en un lanzamiento de moneda.
E(X) = [1 x p(X = 1)+ Ox p(X = O)] = P var(X) = pq donde q = (1

-
p), es decir, la probabilidad
de un "fallo".
Distribucin binomial Esta distribucin es la generalizacin de la distribucin de Bernoulli. Sea n el nmero de intentos independientes, cuyo resultado de cada uno de ellos es un "xito" con una probabilidadp y un "fracaso" con una probabilidad q = (1- p). Si X representa el nmero de xitos en n intentos, entonces se dice que X sigue una distribucin binomial cuya FDP es:
f(X)
(1[: )P"
p)'"
donde x representa el nmero de xitos en n intentos y donde n n! x!(n - x)!
[x)
donde n! se lee como n factorial, lo cual significa n(n -1 )(n - 2) ... 1. La distribucin binomial es de dos parmetros, n y p. Para dicha distribucin, E(X) = np var(X) = np(l-
p) = npq
Por ejemplo, si se lanza una moneda 100 veces y se desea saber la probabilidad de obtener 60 caras, se tiene que p = 0.5, n = 100 Y x = 60 en la frmula anterior. Existen rutinas de clculo para evaluar tales probabilidades. Se puede observar cmo la distribucin binomial es una generalizacin de la distribucin de Bernoulli.
Distribucin de Poisson Una variable aleatoria X se dice que tiene distribucin
e-AAX r(X) =
de Poisson
si su FDP es:
para x = O, 1, 2,..., A > O

x!
867
La distribucin de Poisson depende de un solo parmetro, A. Una caracterstica distintiva de la distribucin de Poisson es que su varianza es igual a su valor esperado, que es A. Es decir, E(X) = var(X) = A El modelo de Poisson, como se vio en el captulo referente a los modelos de regresin no lineal, se utiliza para construir el modelo de fenmenos raros o poco frecuentes, como por ejemplo el nmero de llamadas recibidas en un lapso de, digamos, 5 minutos, o el nmero de llamadas recibidas en el transcurso de una hora, o el nmero de patentes registradas por una compaa a lo largo de un ao, por ejemplo.
A.7 INFERENCIA ESTADSTICA: ESTIMACiN
En la seccin A.6 se consideraron diversas distribuciones de probabilidad tericas. A menudo se conoce o se est dispuesto a suponer que una variable aleatoria X sigue una distribucin de probabilidad particular pero no se conoce el valor del (los) parmetro(s) de la distribucin. Por ejemplo, siX sigue una distribucin normal, quiz se desee conocer el valor de sus dos parmetros, a saber, la media y la varianza. Para estimar las incgnitas, el procedimiento usual es suponer que se tiene una muestra aleatoria de tamao n de la distribucin de probabilidad conocida y utilizar la informacin muestral para estimar los parmetros desconocidos. 5 Esto se conoce como el problema de estimacin. En esta seccin se considera'este problema con mayor detalle. El problema de estimacin puede dividirse en dos categoras: estimacin puntual y estimacin de intervalos. Estimacin puntual Para establecer las ideas, sea X una variable aleatoria con FDP {(x; 8), donde 8 es el parmetro de la distribucin (para simplificar el anlisis, se supone que slo hay un parmetro desconocido; el anlisis puede generalizarse fcilmente). Supngase que se conoce la forma funcional-es decir, se conoce la FDP terica, tal como la distribucin t- pero no se conoce el valor de 8. Por consiguiente, se obtiene una muestra aleatoria de tamao n para esta FDP conocida y luego se desarrolla una funcin de valores muestrales, tal que = {(x]! x2,...,xJ proporciona una estimacin del verdadero 8. se conoce como un estadstico o estimador y un valor numrico particular que tome el estimador se conoce como una estimacin. Obsrvese que {)puede ser tratada como una variable
aleatoria porque es una funcin de la informacin muestral.
proporciona
8. As, sea
una
regla o frmula que indica la forma de estimar el verdadero
Sean XI. XZ,oo., n variables X"
aleatorias
con FDP conjunta
!\X. Xz , x,,). Si se puede escribir

oo'
f(x,
xz,oo.,
x,J = f(xJ) f(xJ
f(xlI)
una muestra ale a-
donde f(x) es la FDP comn de cada X, entonces se dice quex, Xz,..., XIIconstituyen toria de tamao n de una poblacin con FDP f(xlI)'
868
APNDICE
A:
REVISiN
DE ALGUNOS
CONCEPTOS
ESTADSTICOS
()
1
= -
( X 1 + X 2 +... + X f1 ) = X
donde X es la media muestral, entonces X es un estimador del verdadero valor de la media, es decir, )1. Si en un caso especfico X = 50, esto proporciona una estimacin de )1. El estimador e obtenido anteriormente se conoce como estimador puntual porque proporciona slo una estimacin (puntual) de ().
Estimacin de intervalos
En lugar de obtener solamente una estimacin puntual de (), supngase que se obtienen dos estimaciones de () construyendo dos estimadores l (x, X2"'" xn) y ix, X2'.." X'1) Y se dice con alguna confianza (es decir, probabilidad) que el intervalo entre y2 incluye al verdadero (). Por tanto, en la estimacin de intervalos, en contraste con la estimacin puntual, se proporciona un intervalo de
posibles valores dentro de los cuales puede encontrarse el verdadero (). El concepto clave implcito en la estimacin de intervalos es la nocin de muestreo, o de distribucin de probabilidad, de un estimador. Por ejemplo, puede mostrarse que si una variable X est normalmente distribuida, entonces
la media muestral verdadera media)
X tambin y varianza
est normalmente distribuida con media = )1 (la = crin, donde n s el tamao de la muestra. En
otras palabras, la distribucin muestra!, o de probabilidad, de un estimador X es X - N()1, crin). Como resultado, si se construye el intervalo
X-:tZ
y se dice que hay una probabilidad de aproximadamente 0.95, o 95%, de que intervalos como ste incluyan la verdadera)1, se est construyendo un estimador de intervalos para)1. Obsrvese que el intervalo antes dado es aleatorio puesto que est basado en X, la cual variar de muestra en muestra. Ms generalmente, en la estimacin de intervalos se construyen dos estimadores l y 2, ambos funciones de los valores muestrales de X, de tal forma
que
Pr( el ~ () ~ 2) = 1Es decir, se puede plantear
ex
O<a<1
que la probabilidad
(). Este intervalo
es 1 - a de que el intervalo de l
se conoce como un intervalo de
a 2 contenga
el verdadero
confianza de tamao 1 - a para (),siendo 1 - a el coeficiente de confianza. Si a = 0.05, entonces 1 - a = 0.95, lo cual significa que si se construye un intervalo de confianza con un coeficiente de confianza de 0.95, entonces, en construcciones
repetidas como sta, resultantes de un muestreo repetido, se acertar en 95 de

cada 100 casos si se sostiene que el intervalo contiene el verdadero (). Cuando el coeficiente de confianza es 0.95, se dice con frecuencia que se tiene un intervalo de confianza al 95%. En general, si el coeficiente de confianza es 1 - a, se dice que se tiene un intervalo de confianza al 100(1- a)%. Obsrvese que a se conoce como el nivel de significancia, o la probabilidad de cometer un error tipo 1.
Este tema se analiza en la seccin A.8.
869
EJEMPLO 24
Supngase que la distribucin de las estaturas de los hombres en una poblacin est normalmente distribuida con media = 11 centmetros y O'= 6.35 centmetros. Una muestra de 100 hombres obtenida aleatoriamente de esta poblacin tuvo una esta. tura promedio de 170.18 centmetros. Establzcase un intervalo de confianza al 95% para la estatura media (= 11) para la poblacin como un todo. N(I-l, -In) en este caso se conComo se mencion, X
~
95% para 11. Remplazando

obtiene el siguiente intervalo
los valores dados de X,

de confianza J1 $ 67.49 al 95%
O'
Y n, se
66.51 $
En repetidas mediciones como sta, los intervalos as establecidos incluirn la verdadera 11 con una confianza de 95%. Aqu se puede mencionar un punto tcnico: aunque es posible decir que la probabilidad de que el intervalo aleatorio [X:t 1.96
vierte en X N(I1,2.52/100). De la tabla D. 1, se puede ver que

~
(o.-Jn)] incluya
11
es de 95%, no se puede decir que hay
X -1.96
O'
( -Jn
$ 11 $ X J
+ 1.96 O' -Jn
cubre el 95% del rea bajo la curva normal. Por consiguiente, el intervalo anterior proporciona un intervalo de confianza al
una probabilidad de 95% de que el intervalo particular (66.51, 67.49) incluya 11.Una vez fijado este intervalo, la probabilidad de que incluya 11es de O o de 1. Lo que se puede decir es que si se construyen 100 intervalos como ste, 95 de los 100 intervalos incluirn la verdadera 11;no se puede garantizar que un intervalo particular necesariamente incluya a 11.
Mtodos de estimacin
En trminos generales, existen tres mtodos de estimacin de parmetros: 1) mnimos cuadrados (MC); 2) mxima verosimilitud y 3) mtodo de los momentos (ME.~A), y su extensin el mtodo generalizado de los momentos (MGM). Se ha dedicado mucho tiempo a ilustrar el mtodo MV. En el captulo 4 se present el mtodo MV dentro del contexto de la regresin. Pero el mtodo tiene un nmero> mucho mayor de aplicaciones. La idea central detrs de la MVes la funcin de verosimilitud. Para ilustrar lo anterior, supngase que la variable aleatoria X tiene una FDP {(X, e) que depende de un slo parmetro e. Se ,conoce la FDP (por ejemplo, la de Bernoulli o la binomial), pero se desconoce el valor del parmetro. Supngase que se obtiene una muestra aleatoria de nX valores. La FDP conjunta para estos n valores es:
g(XI' X2,...,X,,; e)
Ya que es una muestra aleatoria, se puede escribir la anterior como el producto de la FDP individual de la siguiente forma:
g(XI' X2' ...,
X/1;
FDP conjunta
e) = {(XI;e){(x2; e) .. . f(x,,; e)
La FDP conjunta tiene una doble interpretacin. Si se conoce e, se interpreta como la probabilidad conjunta de observar los valores dados de las muestras. Por otra parte, se puede considerar como una funcin de e para los valores dados de Xl' X2, ..., Xn' En esta ltima interpretacin, se conoce a la FDP como la funcin de verosimilitud (FV) y se expresa como: L(e; XI'X2'...,x,,) = {(XI; e){(x2; e)... {(x,,; e) Obsrvese el papel inverso que desempea e en la funcin de densidad de probabilidad conjunta y en la funcin de verosimilitud. El estimador MV de e es aquel valor de e que maximiza la funcin de verosimilitud (muestra), L. Por conveniencia matemtica, se suele tomar ellog de la
870
APNDICE A:
verosimilitud, al cual se conoce como la funcin logartmica de verosimilitud (log L). Siguiendo las reglas de clculo para la maximizacin, se diferencia la funcin logartmica de similitud con respecto a la variable desconocida y la derivada as obtenida se iguala a cero. El valor resultante del estimador se llarna estimador de mxima verosimilitud. Se puede aplicar la condicin de segundo orden de maximizacin, con el objeto de asegurar que el valor obtenido sea de hecho el valor mximo. En caso de que haya ms de un parmetro desconocido, se diferencia la funcin logartmica de verosimilitud con respecto a cada parmetro desconocido, se igualan los resultados a cero y se resuelven de manera simultnea a fin de obtener los valores de los parmetros desconocidos. Ya se ha hecho algo similar a lo anterior para el modelo de regresin mltiple (vase el apndice al captulo 4).
EJEMPLO 25 Supngase que la variable aleatoria X sigue la distribucin de Poisson y tiene una media igual a A. Supngase que x,. x2, ..., Xn son variables aleatorias independientes con distribucin de Poisson y cuya media es A. Supngase que se quiere calcular el estimador MV de A. La funcin de verosimilitud aqu es:
e-A ..:tX, e-A ..:tX2
La anterior es ms bien una expresin difcil de manejar, pero si se toma su logaritmo, se convierte en:
log(x"X2""'xn;..:t) = -n..:t + Ix; log..:t-Iog e
dond~ log e L(x"x2,...,Xn;..:t) = --. ,,e-A ..:tXn
=TIXi!' Al (Jiferenciar
la expresin
anterior
respecto
x,!
X2!
Xn!
e-nA..:tLX, X,!X2!"'Xn!
a A,se obtiene (-n + C2:.X)/A). Si se iguala esta ltima expresin a cero, se tiene Aml,l'L,x/)/n=X, la cual es el estimador MVdel parmetro desconocido A.
El mtodo de momentos Hemos dado un vistazo al MEM en el ejercicio 3.4; con el llamado principio de analoga en el cual los momentos muestrales intentan duplicar las propiedades de sus contrapartes poblacionales. El GMM, que es una generalizacin del MEM, se est popularizando cada vez ms; pero no a nivel bsico. Por lo tanto, no lo estudiaremos aqu. Las propiedades estadsticas deseables se encuentran en dos categoras: propiedades de muestra pequea o muestra finita y propiedades de muestra grande o asintticas. En estos dos conjuntos de propiedades est implcita la nocin de que un estimador tiene una distribucin muestral o de probabilidad.
Propiedades de muestra pequea
Insesgamiento Se dice que un estimador es un estimador () si el valor esperado de es igual al verdadero (); es decir,
E() o E({))-()=
insesgado
= ()
Si esta igualdad no se mantiene, se dice que el estimador es sesgado y el sesgo calcula como
871
......
,,
,,
',f(e2)
/ / ,/ ,/ ,/ /
,,
"
...... ...... ...... ......
--FIGURA A.a Estimadores sesgados
--
,./
"
--
E(e)=e
E(e2)"# e
e insesgados.
sesgo(8)
= E(8) - e
Por supuesto, si E( e) = e -es decir, e es un estimador insesgadoel sesgo es cero. La situacin se ilustra geomtricamente en la figura A.8. A propsito, obsrvese que el insesgamiento es una propiedad del muestreo repetido, no de una muestra dada: manteniendo fijo el tamao de la muestra, se obtienen diversas muestras y se consigue cada vez una estimacin del parmetro desconocido. Se espera que el valor promedio de estas estimaciones sea igual al verdadero valor si el estimadgr es insesgado.
Mnima varianza
si la variania de
Se dice que
menor
e1
es un estimador de mnima varianza de e

de e2, que es cualquier otro
el es
o igual que la varianza
estimador de e. La figura A.9 muestra geomtricamente tres estimadores de e, a saber: el, e2 y e3 y sus distribuciones de probabilidad. Como se muestra, la varianza de e3 es menor que aquella de el o de e2. Por tanto, suponiendo slo estos tres estimadores posibles, en este caso e3 es un estimador de mnima varianza. Pero obsrvese que e3 es un estimador sesgado (por qu?). o eficiente Siel y e2 son dos estimadores insesgados de e y la varianza de el es menor o igual que la varianza de e2, entonces
f( 83)
Mejor estimador
insesgado
e
FIGURA A.9 Distribucin de tres estimadores de e.
E(83)
872
APNDICE
A:
REVISiN
DE ALGUNOS
CONCEPTOS
ESTADSTICOS
l es un estimador insesgado de mnima varianza, o mejor insesgado o efi. ciente. As, en la figura A.9, de los dos estimadores insesgados , y 2, , , el primero es el mejor insesgado o eficiente. Linealidad Se dice que un estimador es un estimador lineal de e si es una funcin lineal de las observaciones muestrales. As, la media muestral definida como
X es un estimador
l l = -LXi = -(Xl
n n
+X2 +...+xJ
lineal porque
es una funcin
lineal de los valores de X.
Mejor estimador lineal e insesgado (MELI) Si es lineal, es insesgado y tiene mnima varianza en la clase de todos los estimadores lineales e insesgados de e, entonces ste se denomina el mejor estimador lineal e insesgado, o MELI . para abreviar. Estimador del mnimo error medio cuadrtico estimador se define como
EMC() = E( - 8)2
(EMC)
El EMC de un
Esto hace contraste con la varianza de , la cudl est definida como var()
= E[ - E()r
La diferencia entre los dos es que la var() mide la dispersin de la distribucin de alrededor de su media o valor esperado, mientras que EMC() mide la dispersin alrededor del verdadero valor del parmetro. La relacin entre los dos es la siguiente: EMC() = E( - e)2
= E[
- E()
+ E()
- e]2
= E[
- E()]2 + E[E() E()]2 + E[E()
- e]2 + 2E[ - E()][E() - e]2 puesto que el ltimo
- e] trmino es cer06
= E[ -
= var () + sesgo ()2
= varianza de ms el sesgo al cuadrado.

Por supuesto, si el sesgo es cero, EMC() = var(). El criterio de mnimo EMC consiste en seleccionar un estimador cuyo EMC sea el menor en un conjunto de estimadores comparables. Pero obsrvese que aun si se encontrara tal estimador, hay un costo involucrado, es decir, para obtener varianza mnima quiz sea necesario aceptar algn sesgo. En forma geomtrica, la situacin es como se indica en la figura A.IO. En ella, 2 est
6 El ltimo trmino puede escribirse como 2([ECO)]2 - [ECO)]2 - 8ECO) + 8ECO)} = O.Obsrvese tambin que E[ECB) - 8]2 = [ECO)- 8]2puesto que el valor esperado de una constante simplemente es la constante misma.
873
'"d
~ en
ro
:: Il)
'"d Il) '"d '"d ro
] :B ro
..o o
:
Estimadores E(e)
A
de
,/
e E(8z)
entre sesgo y varianza.
FIGURA
A.10
Costo implcito
en el intercambio
ligeramente sesgado, pero su varianza es menor que aqulla del estimador insesgado e \. En la prctica, sin embargo, el criterio de mnimo EMC se utiliza cuando el criterio de mejor insesgado es incapaz de producir estimadores con varianzas ms pequeas.
.'
Propiedades de muestra grande
Con frecuencda sucede que un estimador no satisface una o ms de las propiedades estadsticas deseables en muestras pequeas. Pero, a medida que el tamao de la muestra aumenta indefinidamente, el estimador posee diversas propiedades estadsticas deseables. Estas propiedades se conocen como propiedades de muestra grande, o propiedades asintticas. Insesgamiento asinttico Se dice que un estimador lmE(8,) 1 l1~oo e \ es un estimador
asintticamente insesgado de e si
=e
donde en significa que el estimador est basado en un tamao n de muestra, y donde lm quiere decir lmite y n ~ c>o significa que n aumenta de manera indefinida. En palabras, es un estimador asintticamente insesgado de e si su valor esperado, o media se aproxima al verdadero valor a medida que el tamao de la muestra se hace cada vez ms grande. Como ejemplo, considrese la siguiente medida de varianza muestral de una variable aleatoria X:
52
I,(X -xy
n
Puede mostrarse
que
E(S')=a'(-
~)
874
donde
el es la verdadera varianza. Es obvio que en una muestra pequea, 52 est sesgado pero, a medida que n aumenta indefinidamente, E(S2) se aproxima a la verdadera el; por tanto, ste es asintticamente insesgado. Consistencia Se dice que {j es un estimador consistente si se aproxima al verdadero valor de e a medida que el tamao de la muestra se hace ms grande. La figura A.11 ilustra esta propiedad. En esta figura se tiene la distribucin de {j basada en tamaos muestrales de 25, 50, 80 Y 100. Como lo muestra la figura, {j basada en n = 25 est sesgada puesto que su distribucin muestral no est centrada en verdadera e. Pero a medida que n aumenta, la distribucin de {j no slo tiende a estar ms centrada en e (es decir, (j se hace menos sesgada), sino que su varianza tambin se hace menor. Si en el lmite (es decir, cuando n aumenta indefinidamente), la {j tiene cero {j distribucin de se reduce al punto e, es decir, si la distribucin de dispersin o varianza, se dice que {j es un estimador consistente de e. Ms formalmente, se dice que un estimador {j es un estimador consistente {j y e sea de e si la probabilidad de que el valor absoluto de la diferencia entre menor que 8 (una pequea cantidad positiva arbitraria) y se aproxima a la unidad. Simblicamente,
lmP[1 e - e 1< 8} = 1 11-78 8>0
donde P .>ignifica probabilidad.
Esto se expresa frecuentemente plme

11-700
como
=e'.
donde plm significa probabilidad en el lmite. Obsrvese que las propiedades de insesgamiento y consistencia son ceptualmente muy diferentes. La propiedad de insesgamiento puede para cualquier tamao de muestra, mientras que la de consistencia es mente una propiedad de muestra grande.
(1j '"O
'"O 'i/J
>=i Il) '"O Il) '"O (1j '"O
] :E
(1j
..D o ...
~
e
FIGURA A.11
que aumenta el tamao de la muestra,
Distribucin de
ea medida
875
Una condicin suficiente para la consistencia es que el sesgo y la varianza tiendan a cero a medida que el tamao de la muestra aumenta indefinidamente.7 En forma alterna, una condicin suficiente para la consistencia es que EMC() tienda a cero a medida que n aumenta de manera indefinida. (Para EMC(), vase el anlisis anterior.)
EJEMPLO 26
Sea X1, X2,..., Xn una muestra aleatoria de una distribucin
que la media muestral
con media /-l y varianza if. Demustrese
X es
un estimador
consistente
de /-l.
De la estadstica elemental, se sabe que E(X) = /-l Y var(X) = if/n. Puesto que E(X) = /-l sin importar el tamao de la muestra, sta es insesgada. Adems, a medida que n aumenta indefinidamente, var(X) tiende a cero. Por tanto, X es un estimador consistente de p.
Las siguientes anotar.
reglas sobre probabilidad
en el lmite son importantes consistente de
de
1. Invarianza (propiedad de Slutsky). Si es un estimador si h() es cualquier funcin continua de , entonces

..
ey
plmh(e) = h(e)
11-'.100
Esto significa que si es un estimador consistente de e, entonces li es tambin un estimador consistente de lIey que log() es tambin un estimador consistente de log(e). Obsrvese que esta propiedad no se cumple para el operador esperanza E; es decir, si es un estimador insesgadode e [es decir, E() = e], no es cierto que li sea un estimador insesgado de lIe; o sea, E(1/) -:. lIE() -:. lIe. 2. Si b es una constante, entonces
plmb = b
Es decir, la probabilidad en el lmite de una constante es la constante 3. Si l y z son estimadores consistentes, entonces plm
"-->~
misma.
(eJ
eJ= plme
= plme
plme,
~
+ plmez plme
plm(eJeJ
,
eJ p1 1m --;;-
( ez )
plmez
En general, las ltimas dos propiedades no se cumplen para el operador esperanza E. Por tanto, E(Jz) -:. E( )/E(z)' En forma similar, E(, z) -:. E( )E(ez)'
Ms tcnicamente, lm,,-->~ E(e,,) = ()y lm,,~ var(8n) = O.
876
APNDICE A:
Sin embargo, si 81 y 82 estn distribuidos en forma E(8)E(82), como se mencion anteriormente.
independiente,
E( 8182)
Eficiencia asinttica
Sea
bucin asinttica de 8 se denomina varianza asinttica de 8 . Si 8 es consistente y su varianza asinttica es menor que la varianza asinttica de todos los dems estimadores consistentes de e, 8 es llamado asintticamente eficiente.
8 un estimador de e. La varianza de la distri-
Normalidad asinttica Se dice que un estimador 8 est normalmente distribuido asintticamente si su distribucin muestral tiende a aproximarse a la distribucin normal a medida que el tamao n de la muestra aumenta de manera indefinida. Por ejemplo, la teora estadstica muestra que si Xl, X2,..., Xn son variables independientes normalmente distribuidas con la misma media Jl y la misma varianza d, la media muestral X est tambin normalmente distribuida con media .1 y varianza d/n en muestras pequeas y en muestras grandes. Pero si las Xi son independientes con media .1y varianza d, pero no necesariamente provienen de la distribucin normal, entonces la media muestral
est normalmente distribuida de forma asinttica con media .1y varianza d/n; es decir, a medida que el tamao de la muestra n aumenta indefinidamente, la media muestral tiende a estar normalmente distribuida con media .1 y varianza d/n. se es, en realidad, el teorema del lmite \central analizado antes.
~<\o
A.a
INFERENCIA ESTADSTICA: PRUEBA DE HIPTESIS
La estimacin y la prueba de hiptesis constituyen ramas gemelas de la inferencia estadstica clsica. Habiendo examinado el problema de la estimacin, se considera brevemente el problema de prueba de hiptesis estadstica. El problema de prueba de hiptesis puede plantearse de la siguiente manera: supngase que se tiene una va X con una FDP conocida {(x; e), donde e es el parmetro de la distribucin. Despus de obtener una muestra aleatoria de tamao n, se obtiene el estimador puntual 8. Puesto que el verdadero e raramente
se conoce, se plantea la pregunta: el estimador
8 es
"compatible"
con algn
valor de e bajo hiptesis, por ejemplo, e = e*, donde e* es un valor numrico especfico de e? En otras palabras, puede nuestra muestra haber provenido de FDP {(x; e) = e*? En el lenguaje de pruebas de hiptesis, e = e" se denomina la hiptesis nula (sostenida) y generalmente se denota por Ha. La hiptesis nula
se prueba contra una hiptesis alterna, denotada por HI, la cual, por ejemplo, puede plantear que e"* W'. (Nota: En algunos libros de texto Ha Y H se designan por H y H2, respectivamente).
La hiptesis nula y la hiptesis alterna pueden ser simples o compuestas.

Una hiptesis
se denomina simple si especifica el (los) valor(es) del (los)

de la distribucin; de otra forma, se denomina N(.1, d) se plantea que
Ho:J1
parmetro(s)
una hiptesis
compuesta. As, si X -
= 15 = 15
Y 0"=2
es una hiptesis simple, mientras que

Ho:11
O" >
es una hiptesis compuesta porque aqu el valor de O" no est especificado.
APNDICE A: REVISIN DE ALGUNOS CONCEPTOS ESTADSTICOS
877
Para probarla hiptesis nula (es decir, para probar su validez), se utiliza la informacin muestral con el fin de obtener lo que se conoce como el estadstico de prueba. Con mucha frecuencia, este estadstico de prueba resulta ser el estimador puntual del parmetro desconocido. Entonces, se trata de averiguar la distribucin muestral o probabilstica del estadstico de prueba y utilizar el mtodo de intervalos de confianza o de prueba de significancia para probar la hiptesis nula. La mecnica se ilustra ms adelante. Para fijar las ideas, considrese de nuevo el ejemplo 23, relacionado con la estatura (X) de los hombres en una poblacin. Se dice que XI - N(f.l,(J2) = N(f.l,2.52) X = 67 n = 100 Supngase que
Ho:f.l=f.l* =69 H1:f.l 69
La pregunta es: puede la muestra con X = 67, el estadstico de prueba, haber provenido de la poblacin con el valor de la media de 69? Por intuicin, no puede rechazarse la hiptesis nula siX est "suficientemente cerca" a 1-/; de lo contrario, sta se puede rechazar en favor de una hiptesis alterna. Pero, cmo se decide queX est "suficientemente cercana" a f.l*?Se pueden adoptar dos mtodos: 1) intervalo de confianza y 2) prueba de significancia, ambos conducentes a conclusiones idnticas en cualquier aplicacin especfica.
Mtodo del intervalo de confianza
Puesto
que Xi
- N(p, d),
se sabe que el estadstico de prueba x - N(f.l, (J2In)
X est
distribuido
como
Si se conoce la distribucin de probabilidad de X, por qu no establecer, por ejemplo, un intervalo de confianza de 1OO(1 - a) para p basada en X y ver si este intervalo incluye p = p *? Si es as, no puede rechazarse la hiptesis nula; si no lo es, sta se puede rechazar. As, si a = 0.05, se tendr un intervalo de confianza al 95%, y si este intervalo de confianza incluye p*, no se puede rechazar la hiptesis nula -es probable que 95 de 100 intervalos as construidos incluyan a p*.
El procedimiento es el siguiente: puesto que X
- N(p,
dln),
se cumple
que
X-f.l =-r-N(O, (JI'\jn
1)
de la tabla de distribucin
es decir, una variable normal estndar. Entonces, normal, se sabe que

Pr(-1.96
s Z s 1.96) = 0.95
o sea,
878
APNDICE A:
Pr -1.96 ~
X-Il
al;;;
~ 1.96 J
[
lo cual, al reordenar trminos, da
Pr X -1.96 [
= 0.95
;;; ~ 11~ X + 1.96;;;
a
]
= 0.95
ste es un intervalo de confianza al 95% parap. Una vez construido este intervalo, la prueba de la hiptesis nula es simple. Todo lo que se debe hacer es ver si p = p* se encuentra en este intervalo. Si se encuentra, no se puede rechazar la hiptesis nula; si no se encuentra, se puede rechazar. Retornando al ejemplo, se ha establecido ya un intervalo de confianza al 95% para p, que es
66.51 ~ 11~ 67.49
Como es obvio, este intervalo no incluye p = 69. Por consiguiente, se puede rechazar la hiptesis nula de que el verdadero p es 69 con un coeficiente de confianza del 95%. La situacin se ilustra geomtricamente en la figura A.12. En el lenguaje de prueba de hiptesis, el intervalo de confianza que se ha construido se denomina la regin de aceptacin y el (las) rea(s) por fuera de la regin de aceptacin se denomina (n) regin(es) crtica(s), o regin(es) de rechazo de la hiptesis nula. Los lmites inferior y superior de la regin de aceptacin (que la delimitan con las regiones de rechazo) se denominan valores crticos. En este lenguaje de prueba de hiptesis, si el valor bajo la hiptesis se encuentra dentro de la regin de aceptacin, no se puede rechazar la hiptesis nula; de lo contrario, se puede rechazar. Es importante anotar que en la decisin de rechazar o no Ho, es probable que se cometan dos tipos de errores: 1) se puede rechazar Ho cuando sta es, en realidad, cierta; ste se denomina un error tipo 1 (as, en el ejemplo anterior, X = 67 podra haber venido de la poblacin con un valor medio de 69), o 2) se puede no rechazar Ho cuando, en realidad, es falsa; este error se llama error tipo 11. Por consiguiente, una prueba de hiptesis no establece el valor de la ver-
J..t =69 se encuentra en esta regin
/ROgin crtica
/
x- 1.96 (2.5 10 )
66.51 FIGURA A.12 Intervalo de confianza al 95% para /l.
X + 1.96 (~'g)
67.49
879
dadera)1; simplemente
como si )1 = )1*.
proporciona
un medio para decidir si se puede actuar
ERRORES TIPO J Y TIPO 11 Esquemticamente,
se tiene
Estado de la naturaleza Decisin Ha es verdadera
Haes falsa
No hay error
Error tipo 11
Rechazar No rechazar
Error tipo I No hay error
Sera deseable minimizar los errores tipo 1 y tipo n. Pero, desafortunadamente, para cualquier tamao de muestra dado, no es posible minimizar ambos errores de manera simultnea. El enfoque clsico a este problema, comprendido en el trabajo de Neyman y Pearson, es de suponer que es probable que un error tipo 1 sea ms grave en la prctica que un error tipo n. Por consiguiente, se debe tratar de mantener la probabilidad de cometer un error tipo 1 a un nivel relativamente bajo, tal como 0.01 o 0.05, y luego tratar de minimizar al mximo la probabilidad de incurrir en un error tipo n. En la literatura, la probabilidad de un error tipo 1 est representada por a y se denomina el nivel de significancia y la probabilidad de un error tipo n est representada por /3.La probabilidad de no cometer un error tipo n, se denomina la potencia <Lela prueba. Expresndolo de manera distinta, la potencia de una prueba es su capacidad para rechazar una hiptesis falsa nula. El mtodo clsico de la prueba.: de hiptesis es fijar a a niveles tales como 0.01 (1%) o 0.05 (5%) Y luego tratar 'de maximizar la potencia de la prueba; es decir, minimizar /3. Es importante que el lector comprenda el concepto de potencia de una prueba, lo cual se puede explicar mejor con un ejemplo.8 Sea X - N()1, 100); es decir X est normalmente distribuida con una media )1
y una varianza 100. Supngase que a = 0.05 Y que se tiene una muestra de 25
observaciones, la cual da una media muestral de X. Su pngase adems que se tiene la hiptesis de que Ha: f1 = 50. Puesto que X est normalmente distribuida, se sabe que la media muestral est tambin normalmente distribuida como: X - N(p, 100/25). Por tanto, bajo la hiptesis nula establecida de que f1 = 50, el intervalo de confianza del 95% para X es (p :!: 1.96 (~100125)= )1:!:3.92), es decir (de 46.08 a 53.92). En consecuencia, la regin crtica consiste en todos los valores de X menores que 46.08 o mayores que 53.92. Es decir, se rechazar la hiptesis nula de que la verdadera media es 50, si algn valor de la media de la muestra est por debajo de 46.08 o por arriba de 53.92.
Pero, cul es la probabilidad de que X est en la(s) anterior(es) regin(es)
crtica(s), si la verdadera f1 tiene un valor distinto de 50? Supngase que existen tres hiptesis diferentes: f1 = 48, f1 = 52 y f1 = 56. Si cualquiera de ellas es verdadera, ser la verdadera media de la distribucin de X. El error estndar es invariante para las tres alternativas, puesto que el todava toma el valor de 100. Las reas sombreadas de la figura A.13 muestran las probabilidades de que X se encuentre en la regin crtica, si cada una de las hiptesis alternativas es
SEl siguiente anlisis y las cifras se basan en la obra de Helen M, Walker y Joseph Lev, Statistical
Inference, Holt, Rinehart yWinston, Nueva York, 1953, pp, 161-162.
880
APNDICE A:
.u =
48
44
46 I
48
50
52
54
I
56
58
60
62
H: .u = 50
44
,j0t,
46 48
50
52
54
56
58
60
62
I I I I .u= 52 44 46
I
I I
48
50 52
54
I
56
58
60
62
I I I I
.u =
56
44
46
48
50
52
54
56
58
60
62
FIGURA A.13
Distribucin de X cuando N = 25, O'= 1 Y.u= 48,50,52 o 56. Bajo la hiptesis H:.u = 50, la regin crtica con X < 46.1 Y X> 53.9. El rea sombreada indica la probq.bilidad de que X se encuentre en la regin -'. crtica. Esta probabilidad es:
a = 0.05 es
0.17 si,u = 48 0.05 si J1 = 50
0.17 si.,u = 52 0.85 sr,u = 56
verdadera.
Como se puede verificar, dichas probabilidades
son 0.17 (para
J1 = 48), 0.05 (para J1 = 50), 0.17 (para J1 = 52) Y 0.85 (para f1 = 56). Como se puede observar a partir de esta figura, siempre que el verdadero valor de J1difiera sustancialmente respecto a la hiptesis bajo consideracin (que aqu es J1= 50), la probabilidad de rechazar la hiptesis es alta, pero cuando el verdadero valor no es muy distinto del valor dado bajo la hiptesis nula, la probabilidad de rechazo es pequea. En forma intuitiva esto debera tener sentido si las hiptesis nula y alternativa estn muy prximas entre s. Esto puede resultar ms claro si se tiene en cuenta la figura A.14, conocida como la grfica de la funcin potencia; asimismo, la curva que ah se ilustra se conoce como la curva potencia. El lector ya se habr dado cuenta de que el coeficiente de confianza (1 - a) analizado anteriormente es tan slo uno menos la probabilidad de cometer un error tipo 1. Por tanto, un coeficiente de confianza de 95% significa que se est preparado para aceptar, como mximo, una probabilidad de 5% de cometer un error tipo 1 -no se desea rechazar la hiptesis verdadera ms de 5 veces de cada 100-. Valor p, o nivel exacto de significancia En lugar de preseleccionar a a niveles arbitrarios, tales como 1, 5 o 10%, se puede obtener el valor p (probabilidad), o nivel exacto de significancia de un estadstico de prueba. El valor p est definido como el ms bajo nivel de significancia al cual puede rechazarse una hiptesis nula. Supngase que en una aplicacin que considera 20 g de 1, se obtiene un valor t de 3.552. Ahora, el valor p, o la probabilidad exacta, de obtener un valor t
881
Probabilidad
de que se rechace H
40
42
44
46
48 H 52 Escala de ti
54
56
58
60
FIGURA A.14
ti
Funcin potencia de la prueba de hiptesis = 50, cuando N = 25, = 10 Y a = 0.05.

(j
de 3.552 o mayor puede verse en la tabla D.2 como 0.001 (a una cola) o 0.002 (a dos colas). Se puede decir que el valor t observado de 3.552 es estadsticamente significativo al nivel de 0.001 o 0.002, dependiendo de si se est utilizando una prueba de una o de dos colas. Diversos paquetes estadsticos imprimen el valor p de los estadsticos de prueba estimados. Por consiguiente, se aconseja al lector dar el valor p siempre que sea posiole.
\.
Mtodo de la prueba de significancia Recurdese que

Z
= X-J.l r - N(O, 1) j, n
(j
En cualquier aplicacin dada,Xy n se conocen (o pueden ser estimados), pero los verdaderos 11y (J'no se conocen. Sin embargo, si (J'es especificado y se supone (bajo Ho) que 11= 11*, un valor numrico especfico, entonces Z puede ser directamente calculado y se puede consultar la tabla de la distribucin normal para encontrar la probabilidad de obtener el valor Z calculado. Si esta probabilidad es baja, por ejemplo, menor que el 5% o que el1 %, se puede rechazar la hiptesis nula -si la hiptesis fuera cierta, la posibilidad de obtener el valor Z particular debe ser muy alta-o sta es la idea general en la cual se basa el mtodo de pruebas de significancia para probar hiptesis. La idea clave es el estadstico de prueba (aqu el estadstico Z) y su distribucin de probabilidad bajo el valor supuesto 11= 11*. Apropiadamente, en el presente caso, la prueba se conoce como la prueba Z, puesto que se utiliza el valor (normal estandarizado) de Z. en
* = 69, el estadstico Z se convierte Considerando de nuevo el ejemplo, si 11= 11
Z=
x - J.l' (j /f;z
882
APNDICE A:
67 - 69 2.51~100
= -2/0.25 = -8
Si se mira la tabla de la distribucin normal D.1, se ve que la probabilidad de obtener ese valor de Z es extremadamente baja. (Nota: La probabilidad de que Z exceda 3 o --3 es alrededor de 0.001. Por consiguiente, la probabilidad de que Z exceda 8 es an menor.) Por tanto, se puede rechazar la hiptesis nula de que /-l =' 69; dado este valor, la probabilidad de obtener una X de 67 es extremadamente baja. As, se duda de que la muestra hubiera venido de una poblacin con un valor medio de 69. La situacin se ilustra en forma diagramtica en la figura A.15. En el lenguaje de prueba de significancia, cuando se dice que un (estadstico) de prueba es significativo, generalmente quiere decirse que se puede rechazar la hiptesis nula. Y el estadstico de prueba se considera como significativo si la probabilidad de obtenerlo es igualo menor que a, o sea la probabilidad de cometer un error tipo 1. As, si a = 0.05, se sabe que la probabilidad de obtener un valor Z de -1.96 o 1.96 es 5% (o 2.5% en cada cola de la distribucin normal estandarizada). En el ejemplo ilustrativo, Z era -&. Por tanto, la probabilidad de obtener ese valor de Z es muy inferior al 2.5%, muy por debajo de nuestra probabilidad preespecificada de cometer un error tipo 1. Es por esto que el valor calculado de Z = -8 es estadsticamente significativo; es decir, se rechaza la hiptesis nula de que la verdadera 1./ es 69. Por supuesto, se lleg a la misma conclusin utilizando el mtodo de intervalos de confianza para prueba de hiptesis. Se resumen ahora los pasos comprendidos en las pruebas de hiptesis estadsticas: Paso 1. Postular la hiptesis nula Ha y la hiptesis alterna H (por ejemplo,
Ha: /-l = 69 Y H: /-l i:- 69).
Paso 2. Seleccionar el estadstico de prueba (por Paso 3. Determinar la distribucin de probabilidad (por ejemplo, X N(/-l, crIn). Paso 4. Seleccionar el nivel de significancia (es cometer un error tipo I) a. Paso 5. Utilizando la distribucin de probabilidad
~
ejemplo,X). del estadstico de prueba decir, la probabilidad de
del estadstico de prueba,
construir un intervalo de confianza al1 OO( 1 - a)%. Si el valor del parmetro ba-
Z = -8 se encuentra en esta regin
-1.96 FIGURA A.15
1.96
La distribucin del estadstico Z.
883
jo la hiptesis nula (por ejemplo, f.1= f.1"= 69) se encuentra en esta regin de confianza (la regin de aceptacin), no debe rechazarse la hiptesis nula. Pero si sta se encuentra por fuera de este intervalo (es decir, se encuentra en la regin de rechazo), se debe rechazar la hiptesis nula. Tenga en mente que al no rechazar o al rechazar la hiptesis nula, se corre el riesgo de estar equivocado a por ciento de las veces.
REFERENCIAS
Para los detalles del material cubierto en este apndice, el lector puede consultar las siguientes referencias:
Hoel, Paul G.: lntroduction to Mathematical Statistics, 4a. ed., John Wiley & Sons, Nueva York, 1974. Este libro proporciona una introduccin relativamente sencilla a diversos aspectos de la estadstica matemtica. Freund, John E. y Ronald E. Walpole: Mathematical Statistics,3a. ed., Prentice Hall; Englewood Cliffs, N.J., 1980. Otro libro de texto intro41uctorio en esta' dstica matemtica. Mood, Alexander M., Franklin A. Graybill y Duane C. Boes: lntroduction to the Theory ofStatistics, 3a. ed. McGraw-Hill, Nueva York, 1974. sta es una introduccin completa a la teora estadstica pero es algo ms difcil que los dos li. bros de texto anteriores. Newbold, Paul: Statistics for Business and Economics, Prentice Hall, Englewood Cliffs, N.}:, 1984. Una introduccin no matemtica completa a la estadstica con muchos problemas resueltos.

Gujaratio Revision de Conceptos Estadisticos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Gujaratio Revision de Conceptos Estadisticos

Încărcat de

Drepturi de autor:

Formate disponibile

APNDICE A. Revisin de algunos conceptos estadsticos.

Econometra. Cuarta edicin.

REVISiN DE ALGUNOS CONCEPTOS ESTADSTICOS

La letra mayscula griega

(sigma) se utiliza para indicar la sumatoria.

Algunas de las propiedades

k = nk donde k es una constante. As, L~t 3 = 4.3 = 12.

4. L:Jx + y) = L;=l xi + L;=1y.

+. .. + XnZ) = (Xl! + XZ1+.. . + Xnl) + (XIZ + XZZ

) + X2m+ .. . + Xnl1l + .. . + (X1m

Algunas de las propiedades

matoria es intercambiable. ~l X y . = m X ':l . 2. ~ l l 1= J= L 1 J= 1 J= Y1

entre 152.4 y 165.1 centmetrosde la precisin

f(x) = P(X = x) para i = 1, 2,...,n,...

FIGURA A.1 Funcin de densidad de la variable aleatoria discreta del ejemplo 2.

APNDICE A: REVISiN DE ALGUNOS CONCEPTOS ESTADSTICOS

de una variable aleatoria continua

con facilidad que

La integral es (b x318) = 1. Si se desea evaluar la FDP anterior entre O y 1, se obtiene n

Funcin de densidad de una variable aleatoria continua.

REVISiN DE ALGUNOS CONCEPTOS ESTADSTICOS

Sean X y Y dos variables aleatorias discretas. Entonces

cuando X "* x y Y "* Y se conoce como la funcin de densidad de probabilidad conjunta

discreta y de que X tome el valor de x y Y tome el valor de y.

f(x = -2) = I, f(x, y) = 0.27 + 0= 0.27 y

EJEMPLO 5 (continuacin) f(x = 2)= Lf(x,y) y

la FDP marginal de Y se obtiene as: f(y = 3) = Lf(x,y)

= 0.27 +0.08 = 0.16+ 0= 0.51 = 0+0.04 = 0.10+0.35 = 0.49

f(x,y) f(x Iy) = f(y)

f(X = -2, Y = 3) = 0.27/0.51 = 0.53 f(Y =3)

el valor de 2 es 0.26, la cual es

estadstica Dos variables

aleatorias X y Y son estadsticamente f(x, y) = f(x) f(y)

es decir, si la FDP conjunta puede expresarse como el producto ginales.

de las FDP mar-

FDP conjunta continua

La FDP f(x, y) de dos variables continuas X y Yes f(x, y) O

APNDICE A: EJEMPLO Considrese 8 la siguiente FDP:

y) dx dy = 1 f; f; (2 - x La FDP marginal de X y de Y puede obtenerse como

f(x) = [f(x,y)dy f(y) = [f(x,y)dX

FDP marginal de X FDP marginal de Y

9 de la FDP conjunta dada en el ejemplo 8 son las siguientes:

Las dos FDP marginales

f(x) f; f(x, y)dy = f; (2 - x - y)dy

lor del lmite superior

y = , dando igual a 1 el valor de la integral.

APNDICE A: REVISiN DE ALGUNOS CONCEPTOS ESTADSTICOS

Dos de los momentos ms ampliamente utilizados son la media, o valor espe.

= 2(i6) + 3(:6) +4(fi)+...

que es el valor promedio

de la suma de los nmeros

Por consiguiente, E(X)

+ (0)(0.12) + (2)(0.26) + (3)(0.35)

del valor esperado

1. El valor esperado de una constante es la constante constante, E(b) = b. 2. Si a y b son constantes,

misma. As, si b es una

+ a2E(XJ +... + aNE(X1,J + b

E(X2) = 4(%) + 1(i) -h4(

si X es una va discreta si X es una va continua

(-- 5 )2 = - 207 = 3.23.

la varianza de la variable aleatoria dada en el ejemplo 3, se procede as:

var(X) = E(X2) - [E(X)]2 Ahora,

Puesto que E(X) = t(vase ejemplo 12), se tiene finalmente

var(X) = 243/45 - (*)2 = 243/720 = 0.34