Estatistica CCM NA RevisaoParte1

Revisão – Parte 1/2
Estatı́stica
Curso Cecı́lia Menon
(Notas de Aula 1 a 5)
1 Números Índices
1.1 Números Índices Simples
1.1.1 Números Índices Simples (relativos de base fixa)
O número ı́ndice simples (ou relativo de base fixa) do preço de um bem no perı́odo corrente t
com relação ao perı́odo base 0 é denotado por p0,t e definido por:
pt pt
p0,t = ou p0,t = 100 ×
p0 p0
Observe que o relativo do perı́odo base com relação ao perı́odo base p0,0 é, por definição, igual
a 1 (ou 100).
Podemos encontrar facilmente o percentual (ou taxa) da mudança do preço de um bem no

perı́odo t, relativo ao preço no perı́odo base 0 (denotado pro ∆p0,t ), uma vez que sabemos o
relativo p0,t referente a esse perı́odo:
p0,t
∆p0,t = p0,t − 1 ou ∆p0,t = −1
100
Se o valor de ∆p0,t for positivo, temos um aumento de preço. Se ele for negativo, temos uma
queda no preço.
Observando o relativo do preço, também podemos tirar a mesma conclusão: se p0,t for maior
do que 1 (ou 100), o preço em t será maior do que no perı́odo base.
Já se p0,t for menor do que 1 (ou 100), o preço em t será menor do que no perı́odo base.
1.1.2 Número Índice Simples (relativos) de Quantidade

Apesar de termos calculado o número ı́ndice simples para preços, também podemos fazê-lo
para quantidades e para valores, de modo inteiramente análogo:
qt qt
q0,t = ou q0,t = 100 × ,
q0 q0
onde qt é a quantidade do produto considerado no perı́odo corrente t, q0 a quantidade no
perı́odo base 0 e q0,t o número ı́ndice simples (ou relativo de quantidade de base fixa) que
descreve quanto a quantidade do perı́odo corrente t representa do perı́odo base 0.
1
1.1.3 Número Índice Simples (relativos) de Valor
O relativo de valor de base fixa é dado por:
vt vt
v0,t = ou v0,t = 100 × ,
v0 v0
onde vt é o valor do produto no perı́odo corrente t, v0 o valor no perı́odo base 0 e v0,t o relativo
de valor (de base fixa) que descreve o quanto o valor do perı́odo corrente t corresponde ao valor
do perı́odo base 0.
Como vt = pt × qt , temos que:

vt pt × qt
v0,t = = = p0,t × q0,t ,
v0 p0 × q0
ou seja, o relativo de valor é igual ao produto dos relativos de preço e de quantidade (propriedade
de decomposição das causas).
1.1.4 Números Índices de Ligação

O número ı́ndice de ligação (ou relativo de base móvel ou elo de relativo) para uma determinada
série de T + 1 de preços (ou quantidade ou valores) é definido como a série
p0,1 , p1,2 , p2,3 , . . . , pT −1,T ,
em que:
pt+1 pt+1
pt,t+1 = ou pt,t+1 = 100 × , para t = 0, . . . , T − 1 .
pt pt
onde pt,t+1 é o número ı́ndice de ligação (ou relativo de base móvel ou elo de relativo) entre t
e t + 1.
1.2 Números Índices Compostos

1.2.1 Números Índices Agregados
Antes a variável considerada era unidimensional: o preço (ou a a quantidade ou o gasto) de um
único bem. Neste caso fazemos isso de modo quase natural: vemos como esse preço se alterou
com relação a um perı́odo de referência (o perı́odo base).
Com uma variável multidimensional (um vetor de preços, neste caso), não temos mais uma
forma natural de fazer esse cálculo. Índices desse tipo, que levam em consideração mais de
uma variável, são chamados agregados (ou agregativos ou compostos).
Vamos denotar vetores em negrito e mudar um pouco a notação: no caso de vetores, denota-
remos o perı́odo por superescritos e, por subescritos, a coordenada do vetor.
Portanto, p0 é o vetor n-dimensional de preços no perı́odo base e pt é o vetor de preços no

perı́odo corrente. Além disso, w · p denota a multiplicação vetorial coordenada por coordenada
dos dois vetores (o produto interno dos vetores w e p).
2
1.2.2 Índices de Preços Compostos Ponderados
Considere o sistema de pesos w = (w1 , w2 , . . . , wn ). O número ı́ndice composto p0,t , ponderado
pelo sistema de pesos w, é definido por:
w · pt w1 pt1 + w2 pt2 + · · · + wn ptn

p0,t = = ,
w · p0 w1 p01 + w2 p02 + · · · + wn p0n
sendo que o ı́ndice pode ser apresentado na base 100 (ou seja, multiplicado por 100).
A questão que surge então é qual sistema de pesos usar. Não há uma resposta clara: diferentes
sistemas de pesos geram diferentes ı́ndices.
1.2.3 Cobrado pela ANPEC

O ı́ndices que analisaremos são:
1. Laspeyres (e Laspeyres modificado),
2. Paasche, e
3. Fischer,
que são os cobrados no exame da ANPEC (apenas em 1991 foi cobrado um ı́ndice diferente
desses, o de Marshall-Edgeworth).
1.2.4 Índice de Laspeyres

Os ı́ndices de Laspeyres utilizam como peso o perı́odo base 0.
Se o ı́ndice for de preço, a quantidade no perı́odo base constitui o sistema de ponderação:
pt · q0 pt · q0
LtP = 0 0 ou LtP = 100 × 0 0
p ·q p ·q
Já se o ı́ndice for de quantidade, o preço no perı́odo base constitui o sistema de ponderação:
p0 · qt p0 · qt
LtQ = ou LtP = 100 ×
p0 · q0 p0 · q0
1.2.5 Índice de Paasche

Os ı́ndices de Paasche utilizam o perı́odo corrente t como peso.
Se o ı́ndice for de preço, a quantidade no perı́odo corrente constitui o sistema de ponderação:
pt · qt pt · qt
PPt = ou PPt = 100 ×
p0 · qt p0 · qt
Já se o ı́ndice for de quantidade, o preço no perı́odo corrente constitui o sistema de ponderação:
pt · qt pt · qt
PQt = ou PQt = 100 ×
pt · q0 pt · q0
3
1.2.6 Base Fixa e Base Móvel
Observe que o ı́ndice de Laspeyres é considerado um ı́ndice com ponderação fixa (ou base fixa),
já que a ponderação é sempre a mesma (o perı́odo base), qualquer que seja o perı́odo corrente.
Observe que o ı́ndice de Paasche é considerado um ı́ndice com ponderação variável (ou base
móvel), já que variando o perı́odo corrente, a ponderação irá variar com ele.
1.2.7 Índices de Laspeyres e Paasche

é possı́vel mostrar também que o ı́ndice de preços de Laspeyres é igual à média aritmética
ponderada dos relativos considerados, com os pesos definidos no perı́odo base 0.
Já o ı́ndice de preços de Paasche é igual à média harmônica ponderada dos relativos conside-
rados, com os pesos definidos no perı́odo corrente t.
1.2.8 Índice de Fisher

O economista Irving Fisher propôs o seguinte ı́ndice, que é uma média geométrica entre os
ı́ndices de Laspeyres e Paasche:
s
p pt · q0 pt · qt
F P = L P × PP = × ,
p0 · q0 p0 · qt
sendo que o ı́ndice pode ser apresentado na base 100 (ou seja, multiplicado por 100) e também
pode ser calculado como ı́ndice de quantidade de modo similar.
1.3 Propriedades
1.3.1 Propriedades
1. Identidade: It,t = 1, para todo t.
2. Reversibilidade no tempo: It,0 × I0,t = 1, para todo t.
3. Encadeamento: I0,1 × I1,2 × · · · × It−1,t = I0,t .
4. Decomposição das causas: IP × IQ = IV .
5. Homogeneidade: mudanças de unidade não afetam o ı́ndice.
6. Proporcionalidade: Se todos os componentes do ı́ndice variarem na mesma proporção,

então o ı́ndice irá variar nessa mesma proporção.
1.3.2 Propriedades Satisfeitas pelos Índice Agregados Compostos

Propriedades Satisfeitas pelos Índices Agregados Ponderados
Índice Id RT Enc DC Hom Prop
Laspeyres Sim Não Não Não Sim Sim
Paasche Sim Não Não Não Sim Sim
Fisher Sim Sim Não Sim Sim Sim
4
2 Probabilidade
2.1 Probabilidade
2.1.1 Espaço Amostral e Eventos
O espaço amostral de um experimento aleatório é o conjunto de todas as ocorrências possı́veis
associadas a esse experimento.
Definição: Espaço Amostral. O espaço amostral Ω contém todos os resultados de um
experimento.
Definição: Eventos. Um evento é qualquer subconjunto do espaço amostral Ω.
Em particular, o evento ∅ é chamado evento impossı́vel, Ω é chamado evento certo, e {ω} ⊆ Ω
é chamado evento simples (ou ponto amostral ou estado da natureza).
2.1.2 Eventos Mutualmente Excludentes

Quando dois eventos A e B forem disjuntos (A ∩ B = ∅) então eles não podem ocorrer conjun-
tamente.
Neste caso, é comum dizer que os eventos A e B são mutualmente excludentes (ou incom-
patı́veis).
Uma probabilidade vincula números aos elementos do espaço amostral. Tais números expressam
as frequências relativas de cada evento, ou seja, a proporção de vezes que se espera que tais
eventos ocorram se o experimento for repetido um grande número de vezes.
2.1.3 Função de Probabilidade

Definição: Função de Probabilidade. Seja (Ω, A) um espaço mensurável, dizemos que
p : A → [0, 1] é uma função de probabilidade(ou uma medida de probabilidade ou simplesmente
uma probabilidade) se satisfaz:
1. p(A) ≥ 0, para todo A ∈ A,
2. p(Ω) = 1,
3. Se os conjuntos A1 , A2 , . . . em A são dois-a-dois disjuntos, então:
∞
! ∞
[ X
p Ai = p(Ai )
i=1 i=1
2.1.4 Propriedades
As três propriedades acima (chamados axiomas de uma probabilidade σ-aditiva) têm como
consequência todas as outras propriedades comuns a uma probabilidade, tais como:
1. p(∅) = 0;
2. p(Ac ) = 1 − p(A) (ou p(A) + p(Ac ) = 1);
3. 0 ≤ p(A) ≤ 1;
4. Se A ⊆ B, então p(A) ≤ p(B);
5. p ( ∞
S P∞
i=1 Ai ) ≤ i=1 p(Ai );
6. p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
5
2.1.5 Probabilidade Condicional
Vamos definir por p(A | B) a probabilidade de o evento A ocorrer, dado que o evento B ocorreu.
Chamamos p(A | B) a probabilidade de A condicional em B.
Definição: Probabilidade Condicional. Seja (Ω, A, p) um espaço de probabilidade. Se

B ∈ A e p(B) > 0, então a probabilidade condicional de A dado B, p(A | B), é definida como:
p(A ∩ B)
p(A | B) = ∀ A ∈ A.
p(B)
2.1.6 Regra de Probabilidade Composta

Observe que da definição de probabilidade condicional, temos que:
p(A ∩ B) = p(A | B) p(B) = p(B | A) p(A) ,
onde estamos supondo que p(A) e p(B) são positivos. Esse resultado pode ser generalizado na
seguinte regra.
Regra de Probabilidade Composta. Temos que:
p(A1 ∩ A2 ∩ · · · ∩ An ) = p(A1 ) p(A2 | A1 ) p(A3 | A1 ∩ A2 ) . . . p(An | A1 ∩ · · · ∩ An−1 ) ,
onde A1 , . . . , An são eventos aleatórios e n ≥ 2.
2.1.7 Teorema da Probabilidade Total

Teorema da Probabilidade Total. Suponha que A1 , A2 , . . . formam uma partição de Ω
(i.e., os eventos aleatórios A1 , A2 , . . . são dois a dois disjuntos, a união de todos eles é igual a
Ω, e que p(Ai ) > 0, para todo i). Então:
X
p(B) = p(Ai ) p(B | Ai ),
i
para todo evento aleatório B.
2.1.8 Fórmula de Bayes

O Teorema da Probabilidade Total implica a fórmula de Bayes:
p(Ai ) p(B | Ai )
p(Ai | B) = P ,
k p(Ak ) p(B | Ak )
onde estamos supondo que todos os elementos Ai da Ppartição possuem probabilidade positiva
de ocorrerem (p(Ai ) > 0, ∀ i, Ai ∩ Aj = ∅, ∀ i 6= j, i p(Ai ) = 1).
2.1.9 Independência
Dizemos que dois eventos são independentes quando a ocorrência de um deles não afeta a
probabilidade de ocorrência do outro.
Ou seja, saber que um deles ocorreu não fornece qualquer informação adicional sobre a ocorrência
do outro.
6
Definição: Independência. Seja (Ω, A, p) um espaço de probabilidade. Dizemos que os
eventos aleatórios A e B são independentes se:
p(A ∩ B) = p(A) p(B) .
Observe que se os eventos A e B são independentes, então p(A | B) = p(A) e p(B | A) = p(B).
Isso captura a ideia de que se A e B forem independentes, conhecer A não informa nada
adicional sobre a probabilidade de ocorrência de B (p(B | A) = p(B)) e conhecer B não
informa nada adicional sobre a probabilidade de ocorrência de A (p(A | B) = p(A)).
Se os conjuntos A e B são independentes, então A e B c (e Ac e B; e Ac e B c ) são independentes.
2.1.10 Dois Modos de Generalizar Independência

Dizemos que os eventos aleatórios A1 , A2 , . . . , An são:
• independentes dois a dois se:
p(Ai ∩ Ak ) = p(Ai ) p(Ak ), para todo i, k = 1, . . . , n, i 6= k .
• estocasticamente (ou mutualmente) independentes se:
p(Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = p(Ai1 )p(Ai2 ) . . . p(Aim ) ,
para todo 1 ≤ i1 ≤ i2 ≤ · · · ≤ im ≤ n, para todo m = 2, 3, . . . , n.
2.2 Variável Aleatória

2.2.1 Definição
Uma variável aleatória (v.a.) é um valor determinado por um experimento aleatório. Logo,
não podemos definir qual o exato valor que uma variável aleatória vai assumir, podemos apenas
listar todos os valores possı́veis.
Definição: Variável Aleatória. Dizemos que a função X : Ω → R é uma variável aleatória

(v.a.) se o conjunto {ω ∈ Ω | X(ω) ≤ x} pertence a A, para todo x ∈ R.
Considere uma v.a. X e um conjunto T ⊂ R quaisquer. Vamos denotar por X ∈ T como o

conjunto X ∈ T = {ω ∈ Ω | X(ω) ∈ T }.
2.2.2 Distribuição de uma v.a.

Definição. Seja X uma variável aleatória definida no espaço de probabilidade (Ω, A, p). A
função pX , definida sobre os subconjuntos de R, por:
pX (T ) = p(X ∈ T ) = p({ω ∈ Ω | X(ω) ∈ T }),
é chamada distribuição de X (mais rigorosamente, não podemos definir pX sobre todos os

subconjuntos de R, mas apenas sobre uma σ-álgebra de R chamada σ-álgebra de Borel).
7
2.2.3 V.A. Discreta
Dizemos que X é uma variável aleatória discreta se assume apenas um número contável de
valores, ou seja, se assume um valor finito de valores ou um valor infinito enumerável de valores.
No primeiro caso, X(ω) ∈ {x1 , . . . , xn }, para algum conjunto {x1 , . . . , xn } ⊆ R. Nesse caso,
dizemos que pX (xi ) = p({ω ∈ Ω | X(ω) = xi }) é a função de probabilidade gerada por X, que
satisfaz:
a) 0 ≤ pX (xi ) ≤ 1, para todo i,
P
b) i pX (xi ) = 1.
2.2.4 Função de Distribuição Acumulada

Definição. Se X é uma variável aleatória, definimos a função de distribuição acumulada (fda)
F : R → [0, 1] de X como:
F (x) = p(X ≤ x) .
Observe que a uma fda pode ser definida para v.a.s discretas e não-discretas. Se a v.a. X é
discreta, então: X
F (x) = p(X ≤ x) = pX (xi ) .
xi ≤x
2.2.5 V.A Absolutamente Contı́nua

Dizemos que a v.a. X é absolutamente contı́nua se existir uma função f : R → R+ , chamada
função densidade de probabilidade de X (fdp), tal que:
Z x
F (x) = f (t) dt .
−∞
2.2.6 Propriedades de uma FDP

Logo, para toda v.a. contı́nua com função de densidade f , temos que:
(a) f (x) ≥ 0, para todo x,
R +∞
(b) −∞ f (x) dx = 1, e
Rb
(c) p(a ≤ X ≤ b) = a f (x) dx, para todo a < b.
Poderı́amos ter definido uma v.a contı́nua dizendo que ela é contı́nua se existir uma função real
f tal que satisfaça as propriedades (a), (b) e (c) acima.
2.2.7 Variável Aleatória Multidimensional

Definição. Dizemos que o vetor aleatório n-dimensional (ou variável aleatória n-dimensional)
(X1 , X2 , . . . , Xn ) é composto pelas variáveis aleatórias Xi : Ω → R, i = 1, 2, . . . , n.
Vamos analisar apenas o caso bidimensional (X, Y ), o mais comum de ser questionado no
exame da ANPEC, em que X e Y formam um vetor aleatório bidimensional e X : Ω → R e
Y : Ω → R são variáveis aleatórias.
Todas as definições a seguir podem ser facilmente generalizadas para o caso de n variáveis
aleatórias.
8
2.2.8 Função de Distribuição Conjunta
Definição. Seja (X, Y ) um vetor aleatório bidimensional. A função de distribuição acumulada
FX,Y de (X, Y ) é definida por:
FX,Y (x, y) = p(X ≤ x, Y ≤ y) ,
onde
p(X ≤ x, Y ≤ y) = p({X ≤ x} ∩ {Y ≤ y})
FX,Y (x, y) é também chamada função de distribuição conjunta das v.a.s X e Y .
2.2.9 Vetor Aleatório Discreto

Definição. Dizemos que (X, Y ) é um vetor aleatório discreto se assumir apenas um número
contável de valores, ou seja, se (X, Y ) assumir apenas um valor finito de valores ou um valor
infinito enumerável de valores.
2.2.10 Vetor Aleatório Contı́nuo

Definição. Dizemos que (X, Y ) é um vetor aleatório (absolutamente) contı́nuo se existir uma
função fX,Y (x, y) ≥ 0 tal que:
Z y Z x
FX,Y (x, y) = fX,Y (s, t) ds dt , ∀ (x, y) ∈ R2
−∞ −∞
A função f é chamada densidade do vetor aleatório (X, Y ) ou densidade conjunta das variáveis
aleatórias X e Y .
2.2.11 Calculando a Distribuição Conjunta

Considere A ∈ R2 qualquer. Temos que:
1. Se o vetor aleatório (X, Y ) é discreto, então:
X
pX,Y (A) = p ((X, Y ) = (x, y))
(x,y)∈A
2. Se o vetor aleatório (X, Y ) é contı́nuo, então:

Z Z
pX,Y (A) = fX,Y (x, y) dx dy
A
2.2.12 Independência entre V.A.s

Definição. As variáveis aleatórias X e Y são (coletivamente) independentes se:
p(X ∈ A, Y ∈ B) = p(X ∈ A) × p(Y ∈ B) ,
onde A, B ∈ R.
• Se X, Y são independentes, então:

FX,Y (x, y) = FX (x) × FY (y) , ∀ (x, y) ∈ R2
• Se X, Y são independentes e possuem densidades fX e fY , então:

f (x, y) = fX (x) × fY (y) , ∀ (x, y) ∈ R2 ,
é a densidade conjunta de X e Y (ou seja, f = fX,Y ).
9
2.2.13 Densidade Marginal
Se fX,Y (x, y) é a densidade conjunta de X e Y , então a função de densidade de X é:
Z +∞
fX (x) = fX,Y (x, y) dy ,
−∞
onde fX obtida desse modo é chamada função de densidade marginal de X.
2.2.14 Os Dois Casos

O cálculo de probabilidades associadas a distribuições conjuntas (X, Y ) depende de as v.a.s
serem discretas ou contı́nuas:
• Caso discreto: ∞
X
p(X = xi ) = p(xi , yj )
j=1
• Caso contı́nuo:
Z b Z +∞ Z b
p(a ≤ X ≤ b) = f (x, y) dy dx = fX (x)dx
a −∞ a
2.2.15 Distribuição Condicional

Definição. Sejam X uma v.a. e A um evento com p(A) > 0. A distribuição condicional de X
dado o evento A é definido por:
p({X ∈ B} ∩ A)
p(X ∈ B | A) =
p(A)
para (quase...) todo conjunto B ∈ R.
A função de distribuição condicional de X dado A é definida por:

p({X ≤ x} ∩ A)
FX (x | A) = p(X ≤ x | A) = , ∀ x ∈ R.
p(A)
2.2.16 Distribuição Condicional entre V.A.s

Podemos definir a probabilidade condicionada em termos da v.a. Y . Suponha que (X, Y ) é
um vetor aleatório discreto. Então:
p(X = xi , Y = yj )
p(X = xi | Y = yj ) =
p(Y = yj )
Suponha agora que (X, Y ) é um vetor aleatório contı́nuo com fdp conjunta fX,Y e denote por
fX e fY as distribuições marginais de X e Y , respectivamente. Então:
• A fdp de X condicionada a um dado Y = y é definida por:
fX,Y (x, y)
fX|Y (x | y) = , onde fY (y) > 0
fY (y)
• A fdp de Y condicionada a um dado X = x é definida por:

fX,Y (x, y)
fY |X (y | x) = , onde fX (x) > 0
fX (x)
10
2.2.17 Resultados
• Seja (X, Y ) um vetor aleatório discreto. Então X e Y são independentes se, e somente
se, pX (xi | yj ) = pX (xi ), para todo i e j (ou, de modo análogo, se pY (yj | xi ) = pY (yj ),
para todo i e j).
• Seja (X, Y ) um vetor aleatório contı́nuo. Então X e Y são independentes se, e somente
se, fX|Y (x | y) = fX (x), para todo (x, y) (ou, de modo análogo, se fY |X (y | x) = fY (y),
para todo (x, y)).
2.3 Esperança e Outros Momentos

2.3.1 Esperança
Se X for uma v.a. discreta, então a esperança (ou valor esperado) de X pode ser calculada
como:
+∞
X
EX = xi pX (xi ) .
i=1
Já se X for uma v.a. absolutamente contı́nua, então a esperança de X pode ser calculada
como: Z ∞
EX = xf (x)dx ,
−∞
2.3.2 Propriedades do Valor Esperado

• Se X é uma v.a. constante, X = α sempre, então EX = α.
• Se X ≤ Y , então EX ≤ EY .
• Linearidade: E(aX + b) = aEX + b e E(aX + bY ) = aEX + bEY .
• Desigualdade de Jensen: Seja g : R → R uma função convexa (i.e., g(λx + (1 − λ)y) ≤

λg(x) + (1 − λ)g(y), para todo x, y ∈ R e λ ∈ [0, 1]). Então:
Eg(X) ≥ g(EX)
Se g for côncava, então vale a desigualdade inversa.
2.3.3 Variância e Covariância

2
Definição. A variância da v.a. X, denotada ou por V ar(X) ou por σX , é definida por:
V ar(X) = E(X − EX)2 = EX 2 − (EX)2
A raiz quadrada da variância de uma v.a. é chamada desvio-padrão.
Definição. A covariância das v.a.s X e Y , denotada por Cov(X, Y ) ou σXY , é definida como:
Cov(X, Y ) = E[(X − EX)(Y − EY )] = E(XY ) − EXEY
11
2.3.4 V.A.s Independentes
Se a covariância de X e Y é zero, então dizemos que X e Y são não-correlacionadas.
Se X e Y são independentes, então E(XY ) = EXEY e, portanto, X e Y são não-correlacionadas.
Porém não vale o contrário: se X e Y são não-correlacionadas então não necessariamente X e

Y são independentes.
Existe uma importante exceção a essa regra, muito cobrada pelo exame da ANPEC: se X e Y
são duas variáveis com distribuição normal bivariada, então se X e Y forem não correlacionadas,
elas serão independentes.
2.3.5 Propriedades da Variância e da Covariância

• Se X = α sempre, então V ar(X) = 0.
• V ar(aX + b) = a2 V ar(X), para todo a, b ∈ R.
• V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y ).
• V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ), se X e Y forem independentes.
• Cov(X, X) = V ar(X).
• Cov(aX + b, cY + d) = acCov(X, Y ), para a, b, c, d ∈ R.
2.3.6 Correlação
Definição. A correlação entre as v.a.s X e Y , denotada por Corr(X, Y ) ou ρXY , é definida
como:
Cov(X, Y ) σXY
Corr(X, Y ) = p p =
V ar(X) V ar(Y ) σX σY
2.3.7 Propriedades da Correlação

• −1 ≤ Corr(X, Y ) ≤ 1, para quaisquer v.a.s X e Y .
• Corr(X, Y ) = 1 se, e somente se, p(Y = aX + b) = 1 para algum a > 0, b ∈ R,
• Corr(X, Y ) = −1 se, e somente se, p(Y = aX + b) = 1 para algum a < 0, b ∈ R,
• Corr(aX + b, cY + d) = (ac/|ac|)Corr(X, Y ), para a, b, c, d ∈ R.
2.3.8 Esperança Condicional

(a) Se (X, Y ) for um vetor aleatório contı́nuo, então o valor esperado condicionado de X,
para um dado Y = y, é definido por:
Z +∞
E(X | Y = y) = x fX|Y (x | y)dx ,
−∞
onde fX|Y (x | y) é a distribuição de X condicionada em Y .
12
(b) Se (X, Y ) for um vetor aleatório discreto, então o valor esperado condicionado de X, para
um dado Y = y, é definido por:
+∞
X
E(X | Y = y) = xi pX|Y (xi | y) ,
i=1
onde pX|Y (x | y) é a distribuição de X condicionada em Y .
2.3.9 Regra das Expectativas Iteradas

Podemos definir E(Y | X) de modo equivalente. Temos que E(X | Y ) é uma v.a., em função
de y (toma valores E(X | Y = y).
Resultado: Regra das Expectativas Iteradas. Vale que:
E [E(X | Y )] = E(X) ,
E [E(Y | X)] = E(Y ) .
2.3.10 Propriedades da Esperança Condicional

• Se X e Y forem independentes, então E(X | Y ) = EX e E(Y | X) = EY .
• E[aY + bZ | X] = aE[Y | X] + bE[Z | X], onde a e b são números reais;
• E[h(X) | X] = h(X), onde h : R → R é uma função qualquer (logo, E[X | X] = X);
• E[h(X)Y + g(X)Z | X] = h(X)E[Y | X] + g(X)E[Z | X], onde h, g : R → R são funções
arbitrárias;
• Lei das Expectativas Iteradas generalizada:
E[E[Y | X1 , X2 , . . . , Xn ] | X1 , X2 , . . . , Xn−1 ] = E[Y | X1 , X2 , . . . , Xn−1 ]
2.3.11 Variância Condicional

Definição. Podemos definir a variância condicional V ar(X | Y ) por:
V ar(X | Y ) = E (X − E(X | Y ))2 | Y = E(X 2 | Y ) − (E(X | Y ))2

Se X e Y forem independentes, então:

V ar(X | Y ) = V ar(X)
De modo análogo, V ar(Y | X) = V ar(Y ), se Y e X forem independentes.
2.4 Distribuições de Probabilidade Discretas

2.4.1 Ensaio de Bernoulli
Um ensaio de Bernoulli é um experimento que possui apenas dois resultados, chamados “su-
cesso” e “fracasso” (Ω = {“sucesso”,“fracasso”}).
Exemplo: Lançar uma moeda. Se cara, temos sucesso, se coroa temos fracasso.
O resultado de um ensaio de Bernoulli pode ser descrito por uma variável aleatória que assume
o valor 0 no caso de fracasso e o valor 1 no caso de sucesso:

0, no caso de fracasso;
X=
1, no caso de sucesso.
13
2.4.2 Distribuição de Bernoulli
A probabilidade de sucesso, denotada por p, é, por hipótese, a mesma em cada ensaio de
Bernoulli.
Logo, dizemos que X tem distribuição de Bernoulli, cuja função de probabilidade pode ser
representada por:
p(X = x) = px (1 − p)1−x , para x = 0, 1 ,
e p(X = x) = 0 para outros valores de x.
A esperança e a variância de X são:
E(X) = p ,
V ar(X) = p(1 − p) .
2.4.3 Distribuição Binomial

O modelo probabilı́stico binomial consiste de n ensaios de Bernoulli independentes, onde cada
ensaio tem apenas dois resultados possı́veis. A variável aleatória de interesse em um modelo
binomial, denotada por X, é a quantidade de “sucessos” obtidos.
Logo, para descrevermos completamente um modelo binomial, precisamos conhecer dois valores,
a probabilidade p de sucesso em um ensaio e o número n de ensaios.
Além disso, se X1 , . . . , Xn são v.a.s independentes com distribuição de Bernoulli de parâmetro

p, então X = X1 + · · · + Xn possui distribuição binomial de parâmetros p e n.
A probabilidade da váriavel aleatória X assumir o valor k, ou seja, a probabilidade de obter k

sucessos em n ensaios, é dada por:

n k
p(X = k) = p (1 − p)n−k ,
k
onde:
n n!
= ,
k (n − k)! k!
é o coeficiente binomial de n e k e n! = n × (n − 1) × · · · × 2 × 1 é o fatorial de n (por definição,
0! = 1).
Uma amostragem com reposição pode ser vista como um processo de Bernoulli, onde tiramos
um elemento da população, coletamos dados, o recolocamos na população para daı́ retirar outra
observação.
Porém, muitas amostragens são feitas sem reposição, logo, a propriedade de independência
entre ensaios não é válida (neste caso usamos a distribuição hipergeométrica).
Proposição. A distribuição binomial de parâmetros p e n tem valor esperado e variância

iguais a:
E(X) = np e V ar(X) = np(1 − p)
14
2.4.4 Distribuição Mutinomial
A distribuição multinomial generaliza a binomial, ao permitir que um experimento possa ter
k resultados possı́veis. Logo, cada ensaio do experimento resulta em k valores possı́veis, com
probabilidades pi , i = 1, 2, . . . , k.
Denotando por Xi a v.a. que informa o número de vezes que o resultado i foi observado nos
n ensaios independentes feitos, o vetor aleatório X = (X1 , . . . , Xk ) segue uma distribuição
multinomial com parâmetros n e p onde p = (p1 , . . . , pk ).
A distribuição de probabilidade de X é:

n!
P(X1 = n1 , . . . , Xk = nk ) = × pn1 1 × pn2 2 × . . . × pnk k .
n1 ! × . . . × nk !
2.4.5 Distribuição de Poisson

Dizemos que a v.a. discreta X que toma os valores 0, 1, 2, . . . possui uma distribuição de
Poisson com parâmetro λ > 0 se sua distribuição de probabilidade for:
λk e−λ
p(X = k) = , para k = 0, 1, 2, . . .
k!
Proposição: Se X tem distribuição de Poisson com parâmetro λ > 0, então EX = V ar(X) =

λ.
Teorema. Seja X uma v.a. com distibuição binomial de parâmetros n e p, ou seja,

n k
p(X = k) = p (1 − p)n−k
k
Suponha que quando n tende a infinito, p tende a zero de modo que np → λ > 0. Então a
distribuição de X tende para uma Poisson de parâmetro λ = np.
Proposição. Sejam X1 , . . . , Xn v.a.s independentes, Xi com distribuição de Poisson de parâmetro

λi > 0 para i = 1, . . . , n. Então a v.a. X = X1 + · · · + Xn possui distribuição de Poisson com
parâmetro λ = λ1 + · · · + λn .
2.4.6 Distribuição Geométrica

A distribuição geométrica, assim como a binomial, é uma distribuição de probabilidade discreta,
obtida por meio de um processo de Bernoulli.
O modelo probabilı́stico geométrico consiste então em repetir os ensaios, até que o evento
sucesso ocorra pela primeira vez.
Como X = k se, e somente se, as primeiras k − 1 repetições do experimento resultaram em

fracasso, temos que:
p(X = k) = (1 − p)k−1 p , k = 1, 2, . . . .
Proposição. O valor esperado e a variância de X distribuição geométrica de parâmetro p são:

1 1−p
E(X) = e V ar(X) =
p p2
15
Logo, quanto menor a probabilidade de sucesso p, maior o valor esperado EX, o que é intui-
tivamente claro: pequenos valores de sucesso exigem muitas repetições do experimento, “na
média”, para obter sucesso pela primeira vez.
O resultado abaixo mostra que a distribuição geométrica não possui memória, no sentido de que
se sucesso não ocorreu durante as primeiras k repetições do experimento, então a probabilidade
de que ele não ocorra durante as próximas n repetições do experimento é igual a probabilidade
de que ele não tivesse ocorrido durante as primeiras n repetições do experimento.
Teorema. Suponha que X tem distribuição geométrica com parâmetro p. Então para todo n
e k inteiros positivos, temos que:
p(X ≥ n + k | X > k) = p(X ≥ n) .
2.4.7 Distribuição Hipergeométrica

Suponha que temos N observações, em que N −r são sucesso e r fracasso. Selecionamos n ≤ N
observações desse total, sem reposição.
Seja X o número de observações de fracasso das n selecionadas.
Temos que X = k se, e somente se, k fracassos foram obtidos (e, portanto, n − k sucessos) da
amostra de n observações selecionada.
Neste caso, dizemos que X tem distribuição hipergeométrica com parâmetros N , r e n e que
sua distribuição de probabilidade é:
r N −r

k n−k
p(X = k) = N
, k = 0, 1, 2, . . . ,
n
a

onde usamos a convenção de que b
= 0 se b > a.
Se o número N aumenta, a distribuição hipergeométrica pode ser aproximada pela distribuição

binomial, que é sem reposição.
Logo, temos que para X distribuição hipergeométrica de parâmetros N , r e n, vale que:

n k
p(X = k) ≈ p (1 − p)n−k ,
k
se N for grande.
2.5 Distribuições de Probabilidade Contı́nuas

2.5.1 Distribuição Uniforme
Uma v.a. com distribuição uniforme X com valores no intervalo [a, b] possui função de densi-
dade dada por:
1
f (x) = , para todo x ∈ [a, b] ,
b−a
e f (x) = 0 caso contrário. Neste caso denotamos X ∼ U ([a, b]).
O valor esperado e a variância de X ∼ U ([a, b]) são dados por:

a+b (b − a)2
E(X) = e V ar(X) =
2 12
16
2.5.2 Distribuição Normal
A distribuição normal é completamente caracterizada por dois valores apenas, a sua média,
denotada por µ, e a sua variância, denotada por σ 2 . Ela é simétrica em torno da sua média.
A função de densidade no caso da curva normal é dada por:

( 2 )
1 1 x−µ
f (x) = √ exp − , ∀x ∈ R,
2πσ 2 2 σ
com −∞ < µ < +∞ e σ > 0. Neste caso denotamos X ∼ N (µ, σ 2 ). Se Z ∼ N (0, 1), dizemos
que Z possui distribuição normal padrão (ou reduzida).
2.5.3 Resultados
O teorema abaixo mostra que qualquer distribuição normal X com média µ e desvio-padrão σ
pode ser padronizada, bastando para isso fazer Z = (X − µ)/σ.
Teorema. Seja X v.a. com distribuição normal N (µ, σ 2 ). Então Y = aX + b tem distribuição
normal N (aµ + b, a2 σ 2 ).
Corolário. Seja X v.a. com distribuição normal N (µ, σ 2 ). Então Z = (X − µ)/σ tem
distribuição normal padrão N (0, 1).
Teorema. Sejam X1 , X2 , . . . , Xn n v.a.s independentes, tais que Xi ∼ N (µi , σi2 ), para todo
i = 1, . . . , n. Então a variável aleatória Z definida como a combinação linear de X1 , . . . , Xn ,
Z = a1 X1 + a2 X2 + · · · + an Xn , possui distribuição N (µ, σ 2 ), em que:
µ = a1 µ 1 + a2 µ 2 + · · · + an µ n ,
σ 2 = a21 σ12 + a22 σ22 + · · · + a2n σn2 .
Pelo corolário acima, se X tem distribuição N (µ, σ 2 ), então Z = (X − µ)/σ tem distribuição
N (0, 1). Logo,

a−µ b−µ b−µ a−µ
p(a ≤ X ≤ b) = p ≤Z≤ =Φ −Φ
σ σ σ σ
Isso implica que se X ∼ N (µ, σ 2 ), então para todo k > 0, vale que:

X −µ
p(µ − kσ ≤ X ≤ µ + kσ) = p −k ≤ ≤k
σ
= Φ(k) − Φ(−k) = 2Φ(k) − 1 .
2.5.4 Distribuição Log-normal

A v.a. X tem distribuição log-normal se o seu logaritmo tem distribuição normal, ou seja, se
ln(X) tem distribuição normal com valor esperado µ e variância σ 2 .
O valor esperado e a variância de X com distribuição log-normal de parâmetros µ e σ 2 (ou

seja, ln(X) tem distribuição normal com valor esperado µ e variância σ 2 ) são:
2 /2 2 2
E(X) = eµ+σ e V ar(X) = e2(µ+σ ) − e2µ+σ
17
2.5.5 Distribuição Exponencial
A v.a. X tem distribuição exponencial com parâmetro α > 0 se sua função de densidade de
probabilidade é dada por:
f (x) = α exp−αx para todo x ≥ 0 ,
e f (x) = 0, se x < 0. Então a fda de X é F (x) = p(X ≤ x) = 1 − e−αx , para todo x ≥ 0, e

F (x) = 0 se x < 0.
O valor esperado e a variância de X com distribuição exponencial de parâmetro α > 0 são

dados por:
1 1
E(X) = e V ar(X) = 2
α α
O resultado abaixo mostra que, assim como a distribuição geométrica, a distribuição exponen-
cial não possui memória.
Teorema. Suponha que X tem distribuição exponencial com parâmetro α > 0. Então para
todo s e t positivos, temos que:
p(X ≥ s + t | X > s) = p(X > t) .
A recı́proca do teorema também é válida: a única v.a. contı́nua X que toma valores não
negativos e que satisfaz a propriedade p(X ≥ s + t | X > s) = p(X > t), para todo s, t > 0 é a
exponencial.
2.5.6 Distribuição Qui-quadrada

A distribuição qui-quadrada é um caso particular da distribuição gama, e é caracterizada por
um único parâmetro n, denominado graus de liberdade (usamos a notação X ∼ χ2n ).
O valor esperado e a variância de X ∼ χ2n são:
E(X) = n e V ar(X) = 2n .
Uma distribuição qui-quadrada com n graus de liberdade pode também ser obtida como a soma
de n v.a.s independentes elevadas ao quadrado, cada uma com distribuição normal padrão:
X12 + X22 + · · · + Xn2 ∼ χ2n ,
em que cada Xi ∼ N (0, 1), e X1 , X2 , . . . , Xn são independentes.
Teorema. Sejam X1 , X2 , . . . , Xk k v.a.s independentes, tais que Xi ∼ χ2ni , para i = 1, 2, . . . , k.

Então a v.a. Z = X1 + X2 + · · · + Xk possui distribuição χ2n , em que n = n1 + n2 + · · · + nk .
√
Teorema. Seja X ∼ χ2n . Então,
√ para n suficientemente grande, √ a v.a. √2X possui distribuição
normal com valor esperado 2n − 1 e variância unitária ( 2X ∼ N 2n − 1, 1 ).
18
2.5.7 Distribuição t de Student
Considere as v.a.s X ∼ N (0, 1) e Y ∼ χ2k independentes. A v.a. t de Student com k graus de
liberdade é definida como:
X
t= p
Y /k
A distribuição t de student é simétrica, em forma de sino, mas possui caudas mais grossas do
que a normal. O valor esperado e a variância de X com distribuição t de student com n graus
de liberdade são:
n
E(X) = 0 e V ar(X) = , n > 2.
n−2
Proposição. Se o número de graus de liberdade de uma v.a. t com distribuição t de stu-

dent aumenta, então a distribuição de t se aproxima da normal padronizada N (0, 1) (mais
D
precisamente, t → N (0, 1) quando n → +∞).
2.5.8 Distribuição F de Snedecor

Sejam X ∼ χ2n1 e Y ∼ χ2n2 v.a.s independentes.
Defina a v.a. F de Snedecor com (n1 , n2 ) graus de liberdade por:
F = (X/n1 )/(Y /n2 ) = n2 X/n1 Y .
Se a v.a X tem distribuição F com (n1 , n2 ) graus de liberdade, escrevemos X ∼ F (n1 , n2 ).
2.5.9 Relação entre t de student e F

Considere
p t uma v.a. com distribuição t 2de student com n graus de liberdade. Como vimos,
t = X/ Y /n, onde X ∼ N (0, 1) e Y ∼ χn , com X e Y independentes.
Logo,
X2 X 2 /1
t2 = =
Y /n Y /n
Como X 2 ∼ χ21 e X 2 e Y são independente (já que X e Y são independentes), então t2 ∼ F (1, n)
(ou seja, a v.a. t2 possui distribuição F com 1 e n graus de liberdade).
2.6 Tchebycheff, LGN e TCL

2.6.1 Ideia
Suponha que repetimos um experimento qualquer com uma v.a. X associada n vezes de
maneira que cada realização é independente uma da outra. Para cada ensaio, observamos o
resultado da v.a. X.
A Lei dos Grandes Números (LGN) diz que a média aritmética dos n valores observados
converge em certo sentido para o valor esperado EX, quando n tende a infinito, se determinadas
condições forem satisfeitas.
p
Já o Teorema Central do Limite (TCL) diz que (Sn − ESn )/ V ar(Sn ), onde Sn = X1 + X2 +
· · · + Xn , converge em certo sentido para a distribuição normal padronizada, se determinadas
condições forem satisfeitas.
19
2.6.2 Tipos de Convergência
Os dois tipos de convergência a que se referem a LGN e o TCL são diferentes.
A LGN se refere usualmente à convergência em probabilidade (Lei Fraca; em alguns casos a

convergência pode ser quase-certa: Lei Forte). O TCL se refere à convergência em distribuição.
Dizemos que a sequência de v.a.s {Xi }∞

i=1 é identicamente distribuı́da se a fda de cada Xi for
a mesma.
Além disso, dizemos que a sequência de v.a.s {Xi }∞

i=1 é independente e identicamente distribuı́da
(iid ) se essas v.a. além de identicamente distribuı́das forem independentes.
2.6.3 Convergência em Probabilidade e em Distribuição

Convergência em Probabilidade. Dizemos que a sequência de v.a.s. {Xn }∞n=1 converge em
P
probabilidade para X (denotado por Xn −→ X) se para todo número ε > 0, tivermos que:
p (|Xn − X| ≥ ε) → 0 quando n → ∞ .
Convergência em Distribuição. Dizemos que a sequência de v.a.s. {Xn }∞

n=1 converge em
D
distribuição para X (denotado por Xn −→ X) se Fn (x) → F (x) quando n → +∞ para todo
ponto x de continuidade de F .
2.6.4 Relações
Proposição: Convergência em Probabilidade implica Convergência em Distribuição.
P D
Se Xn −→ X então Xn −→ X.
D P
Proposição. Se Xn −→ c, c constante, então Xn −→ c.
Proposição. Sejam X1 , X2 , . . . e X v.a.s e g : R → R uma função real contı́nua. Então:

P P
1. Se Xn −→ X, então g(Xn ) −→ X.
D D
2. Se Xn −→ X, então g(Xn ) −→ X.
2.6.5 A Desigualdade de Tchebycheff

A desigualdade de Tchebycheff estabele limites superiores para expressões p(|X − c| ≥ ε) (ou
limites inferiores para expressões p(|X − c| < ε)), qualquer que seja a variável aleatória X,
desde que satisfaça certas condições bastante gerais.
Desigualdade de Tchebycheff. Seja X uma variável aleatória qualquer, com EX = µ e seja

c um número real qualquer. Então se E(X − c)2 for finito, temos que:
E(X − c)2
p (|X − c| ≥ ε) ≤ ,
ε2
para todo ε > 0.
Formas Alternativas da Desigualdade de Tchebycheff:
20
• Considerando o evento complementar:
E(X − c)2
p (|X − c| < ε) ≥ 1 − ,
ε2
para todo ε > 0.
• Fazendo c = µ:
V ar(X)
p (|X − µ| ≥ ε) ≤ ,
ε2
para todo ε > 0.
• Fazendo c = µ e ε = kσX , onde σX denota o desvio padrão de X:
1
p (|X − µ| ≥ kσX ) ≤ 2 ,
k
para todo k > 0.
2.6.6 Lei dos Grandes Números

A Lei dos Grandes Números (LGN) formaliza a intuição de frequência relativa e valor esperado.
Considere, por exemplo, o lançamento de uma moeda. É normal supor que a probabilidade de
sair cara é 0, 5 (e, por conseguinte, a probabilidade de sair coroa é 0, 5).
Suponha que repetimos esse experimento n vezes: lançamos uma moeda n vezes e verificamos
o número de vezes que caras que saiu, denotado por ncara . Intuitivamente, é plausı́vel supor
que ncara converge para 0, 5 quando o número de lançamentos n aumenta. A Lei dos Grandes
Números formaliza e mostra que essa intuição é correta.
Lei Fraca de Khintchin dos Grandes Números. Se X1 , X2 , . . . são variáveis aleatórias
independentes e identicamente distribuı́das (iid) com valor esperado µ finito, então:
Sn
→ µ em probabilidade.
n
Considere a sequência de v.a.s {Xn }+∞n=1 = {X1 , X2 , . . . } independentes definidas no mesmo

espaço amostral (Ω, A, p) e seja {Sn }+∞
n=1 = S1 , S2 , . . . a sequência de somas parciais de Xn .
A Lei dos Grandes Números trata da convergência de n1 (Sn − ESn ) para zero quando n tende
a infinito, supondo que as v.a.s Xi possuam valor esperado finito.
Logo, quando a sequência {Xn }+∞

n=1 de v.a.s iid satisfaz a LGN, a média amostral Sn /n tende
a concentrar-se em torno do valor esperado µ = E(Xn ).
2.6.7 Somas Parciais Normalizadas

Considere agora a distribuição das somas parciais normalizadas
S − ESn
pn
V ar(Sn )
com variâncias finitas e positivas.
Queremos saber sob que condições vale que:
S − ESn D
pn −→ N (0, 1) .
V ar(Sn )
Esse resultado de convergência é chamado Teorema Central do Limite (TCL).
21
2.6.8 Teorema Central do Limite
Teorema Central do Limite. Se X1 , X2 , . . . são v.a.s iid com EXn = µ e V ar(Xn ) = σ 2 ,
onde 0 < σ 2 < +∞, então:
Sn − nµ D
√ −→ N (0, 1) quando n → +∞ .
σ n
√
Note que para o TCL acima, se dividirmos o numerador e o denominador de (Sn − nµ)/(σ n)
por n, obtemos:
X̄ − µ D
√ −→ N (0, 1) quando n → +∞ ,
σ/ n
onde X̄ = (1/n) ni=1 Xi .
P
3 Inferência Estatı́stica
3.1 Estimação Pontual
3.1.1 Amostra Aleatória
Definição. Seja X uma variável aleatória com distribuição de probabilidade qualquer. Sejam
n v.a.s X1 , . . . , Xn independentes e com a mesma distribuição de X. Nesse caso dizemos que
(X1 , . . . , Xn ) é uma amostra aleatória de tamanho n da v.a. X.
Uma amostra aleatória de tamanho n da v.a. X consiste de n mensurações repetidas de X,

feitas sob condições inalteradas (ou pelo menos que quaisquer alterações não influenciem o
resultado do experimento).
3.1.2 Estatı́stica
Uma vez obtida uma amostra aleatória de X, queremos utilizar os valores amostrais para
realizar inferências sobre alguma ou algumas caracterı́sticas da população representada pela
amostra. Para isso, vamos definir o seguinte conceito.
Definição: Estatı́stica. Seja X1 , . . . , Xn uma amostra aleatória da v.a. X e sejam x1 , . . . , xn

os valores assumidos pela amostra. Seja H uma função definida para (x1 , . . . , xn ). Dizemos
que a v.a. Y = H(X1 , . . . , Xn ) é uma estatı́stica, que toma o valor y = H(x1 , . . . , xn ) quando
X1 , . . . , Xn toma os valores (x1 , . . . , xn ).
Uma estatı́stica nada mais é do que uma função de valores reais da amostra e, portanto, é
também uma variável aleatória.
É comum se referir à distribuição de probabilidade de Y por distribuição amostral, já que a

estatı́stica Y é uma função de amostras aleatórias.
Mais ainda, apesar de comum, não é correto dizer “a estatı́stica y = H(x1 , . . . , xn )”.
Temos que y é o valor que a estatı́stica Y = H(X1 , . . . , Xn ) assume quando a amostra

X1 , . . . , Xn toma os valores (x1 , . . . , xn ).
22
3.1.3 Duas Estatı́sticas Importantes
(a) X̄ = (1/n) ni=1 Xi é a média amostral.
P
Pn
(b) S 2 = [1/(n − 1)] i=1 (Xi − X̄)2 é a variância amostral.
3.1.4 Resultado sobre Médias Amostrais

Teorema. Seja X uma variável aleatória com valor esperado EX = µ e variância σ 2 . Seja X̄
a média amostral de uma amostra aleatória de tamanho n. Então:
i) E(X̄) = µ;
ii) V ar(X̄) = σ 2 /n;

√
iii) Para n grande, (X̄ − µ)/(σ/ n) terá aproximadamente a distribuição N (0, 1).
O teorema acima mostra que, quanto maior o tamanho n da amostra, a média amostral varia
cada vez menos (V ar(X̄) → 0 quando n → ∞).
Além disso, se n for suficientemente grande, podemos aproximar a distribuição de X̄ pela

2
distribuição normal de valor esperado
√ µ e variância σ /n (o Teorema Central do Limite garante
que a distribuição de (X̄ − µ)/(σ/ n) pode ser aproximada pela distribuição normal padrão,
para n suficientemente grande).
Se n não for grande, essa aproximação pode não ser boa e podemos então tentar calcular a
distribuição exata de X̄.
3.1.5 Definição: Estimador

Sejam X uma v.a cuja função de distribuição dependa de um parâmetro θ desconhecido e
H(X1 , . . . , Xn ) uma estatı́stica da amostra que será usada para a estimação de θ. Dizemos que
H é um estimador pontual de θ.
O valor que H assume em (x1 , . . . , xn ) é uma estimativa de θ, que será denotada por θ̂ =
H(x1 , . . . , xn ). Não é esperado que a estimativa θ̂ de θ seja igual a θ. Mais ainda, θ̂ é uma
variável aleatória, que depende da amostra considerada.
Logo, duas questões surgem:
1) Quais as caracterı́sticas que um “bom” estimador deve apresentar?
2) Como decidir que um estimador é melhor do que outro?
3.1.6 Definição: Estimador Linear

Dizemos que θ̂ é um estimador linear de θ se:
θ̂ = a1 X1 + a2 X2 + · · · + an Xn ,
onde a1 , . . . , an são números reais.
23
3.1.7 Abuso de Terminologia
Há um abuso de notação muito comum em livros de estatı́stica, que algumas vezes é replicado
nos exames da ANPEC.
A notação θ̂ é usada também para denotar o estimador de θ, apesar de que na definição acima
θ̂ é uma estimativa de θ, enquanto o estimador é H(X1 , . . . , Xn ).
Adotaremos essa terminologia, apesar de não ser inteiramente correta.
3.1.8 Definição: Estimador Não Viesado

Seja θ̂ um estimador do parâmetro desconhecido θ associado à v.a. X.
Dizemos que θ̂ é um estimador não viesado (ou não tendencioso ou não viciado) de θ se E θ̂ = θ.
Logo, um estimador não viesado de um parâmetro qualquer é tal que o seu valor esperado é
igual ao parâmetro que se deseja estimar.
3.1.9 Definição: Estimador Consistente

Seja θ̂ um estimador do parâmetro desconhecido θ associado à v.a. X.
P
Dizemos que θ̂ é um estimador consistente (ou coerente) de θ se θ̂ −→ θ (ou seja, θ̂ converge
em probabilidade para θ).
Portanto, o estimador θ̂ do parâmetro θ é consistente se para todo ε > 0, tivermos que:

lim p |θ̂ − θ| ≥ ε = 0 ;
n→∞
ou, de modo similar, se:

lim p |θ̂ − θ| < ε = 1 .
n→∞
3.1.10 Verificando Consistência

Verificar se um estimador é consistente é relativamente complicado. O teorema a seguir, con-
sequência da desigualdade de Tchebycheff, ajuda essa tarefa.
Teorema. Seja θ̂ uma estimativa de θ baseada em uma amostra de tamanho n. Se:
lim E(θ̂) = θ e lim V ar(θ̂) = 0 ,

n→∞ n→∞
então θ̂ é uma estimativa consistente de θ.
Se a estimativa θ̂ for não tendenciosa, então E(θ̂) = θ e basta verificar se V ar(θ̂) → 0 quando
n → ∞ para concluirmos que θ̂ é consistente.
3.1.11 Variância Mı́nima

Definição: Variância Mı́nima. Seja θ̂ um estimador não-tendencioso do parâmetro θ.
Dizemos que θ̂ é um estimador não-tendencioso de variância mı́nima de θ se:
V ar(θ̂) ≤ V ar(θ̃) ,
para todas as estimativas θ̃ não-tendenciosas de θ.
24
3.1.12 Estimador BLUE
Definição: Estimador BLUE. Dizemos que θ̂ é o melhor estimador linear não-tendencioso
(no inglês, Best Linear Unbiased Estimate – BLUE ) do parâmetro θ se:
i) θ̂ é linear;
ii) θ̂ é não-tendencioso (E(θ̂) = θ);
iii) θ̂ possui a menor variância entre todos os estimadores lineares não-tendenciosos de θ (ou
seja, V ar(θ̂) ≤ V ar(θ̃), para todo θ̃ linear e não-tendencioso).
3.1.13 Eficiência
Se estivermos comparando um grupo de estimadores θ̂i , i = 1, . . . , k, de θ, todos não ten-
denciosos, dizemos que um estimador é o mais eficiente do grupo se tiver a menor variância.
Porém, essa comparação perde sentido quando alguns estimadores são tendenciosos.
3.1.14 Eficiência para Estimadores Tendenciosos

Uma possibilidade neste caso é calcular o erro quadrado médio (MSE – Mean Squared Error )
de cada estimador, definido como:
M SE(θ̂) = E[(θ̂ − θ)2 ] = V ar(θ̂) + [V IES(θ̂, θ)]2 ,
onde V IES(θ̂, θ) = E(θ̂)−θ (e, portanto, V IES(θ̂, θ) = 0 se o estimador θ̂ for não-tendencioso).

O estimador com menor MSE é dito o mais eficiente do grupo.
Observe que se o estimador for não tendencioso, então o MSE será igual à variância do esti-
mador. Logo, o MSE estende o conceito de eficiência para estimadores tendenciosos.
3.1.15 Resultado: Média Amostral

Teorema. Seja X uma variável aleatória com esperança finita µ e variância σ 2 . A média
amostral X̄ calculada a partir de uma amostra aleatória de tamanho n é uma estimativa não-
tendenciosa e consistente de µ.
Note então que a média amostral X̄ = (1/n) ni=1 Xi é uma estimativa linear e não-tendenciosa
P
do valor esperado µ. Além disso, X̄ tem a menor variância entre todos os estimadores lineares
não-tendenciosos de µ (logo, X̄ é BLUE).
3.1.16 Resultado: Variância Amostral

Teorema. Sejam X uma variável aleatória com esperança µ e variância σ 2 e X
P1 , . . . , Xn uma
amostra aleatória de tamanho n de X. Denote por X̄ a média amostral (1/n) ni=1 Xi . Então
n
2 1 X
S = (Xi − X̄)2 ,
n − 1 i=1
é tal que:
i) E(S 2 ) = σ 2 ; e
ii) Se X ∼ N (µ, σ 2 ), então (n − 1)S 2 /σ 2 ∼ χ2n−1 .
25
3.1.17 Estimador Tendencioso da Variância
Logo, S 2 definido no teorema acima é uma estimativa não-tendenciosa da variância σ 2 .
O estimador σ̂ 2 = (1/n) ni=1 (Xi − X̄)2 é viesado, pois:

P

n
E(σ̂) = σ2
n−1
Note que σ̂ 2 é assintoticamente não-tendencioso, no sentido de que:

2 n
lim E(σ̂ ) = lim σ2 = σ2 ,
n→∞ n→∞ n−1
Além disso, o viés se torna cada vez menor com o aumento do tamanho da amostra.
3.2 Estimação de Máxima Verossimilhança

3.2.1 Notação
Vamos denotar a fdp de X por f (x; θ), onde θ denota um vetor de parâmetros que define a
distribuição de X e sejam X1 , . . . , Xn uma amostra aleatória da v.a. X e x1 , . . . , xn os valores
amostrais observados.
A função de verossimilhança (FV) L(X1 , . . . , Xn ; θ) é definida como:

n
Y
L(X1 , . . . , Xn ; θ) = f (Xi ; θ)
i=1
= f (X1 ; θ) × f (X2 , θ) × · · · × f (Xn , θ) .
É comum log-linearizar a FV, que neste caso será denotada por L(X1 , . . . , Xn ; θ).
3.2.2 Estimador de Máxima Verossimilhança

Considere a v.a X e a amostra aleatória X1 , . . . , Xn de tamanho n de X e seja θ um vetor de
parâmetros que ajuda a definir a função de densidade de X.
A estimação de máxima verossimilhança consiste em, dada uma amostra aleatória qualquer,
encontrar o estimador que maximiza a função de verossimilhança. A definição abaixo conceitua
esse estimador.
Definição: Estimador de Máxima Verossimilhança. O estimador de máxima verossimi-

lhança (EMV) θ̂M V de θ é o valor que maximiza a função de verossimilhança L(X1 , . . . , Xn ; θ).
3.2.3 Equações de Máxima Verossimilhança

Os estimadores de máxima verossimilhança são usualmente determinados resolvendo as condições
de primeira ordem (CPO) do problema de maximização da FV:
∂L(x; θ)
=0
∂θ
Essas CPOs são denominadas equações de máxima verossimilhança.
As CPOs não são suficientes (nem necessárias, caso de solução de canto, a não ser que algumas
condições sejam satisfeitas) para uma solução.
26
3.2.4 Problemas Técnicos
A determinação de estimadores de máxima verossimilhança pode ser complicada e envolver
uma série de aspectos técnicos.
Além disso, em muitos problemas pode não ser possı́vel encontrar uma solução analı́tica fechada
para o estimador de MV.
Neste caso, determina-se o estimador de MV por meio de métodos computacionais.
3.2.5 Propriedades do Estimador de MV

a) podem ser tendenciosos. Muitas vezes o viés do estimador pode ser eliminado multipli-
cando o estimador por uma constante.
b) são assintoticamente não-tendenciosos. Ou seja, o valor esperado do estimador de MV

de θ tende a θ quando o tamanho da amostra aumenta.
c) são consistentes.
d) possuem distribuição assintótica normal. Logo, a distribuição do estimador de MV tende

a uma distribuição normal quando o tamanho da amostra aumenta.
e) são assintoticamente eficientes.
f) satisfazem a seguinte propriedade de invariância: Seja θ̂M V o estimador de MV de θ. O

estimador de MV de g(θ), onde g é uma função monótona contı́nua, é g(θ̂M V ).
3.2.6 Exemplo: Estimar µ e σ 2 de X ∼ N (µ, σ 2 )

Suponha que X ∼ N (µ, σ 2 ) e seja X1 , . . . , Xn uma amostra aleatória de X. Queremos encontrar
os estimadores de MV para µ e σ 2 .
É possı́vel mostrar que o estimador de MV para

Pno valor esperado µ é a média amostral X̄ e o
2 2
estimador de MV para a variância σ é (1/n) i=1 (Xi − X̄) .
O primeiro é não tendencioso. Porém, o estimador de MV de σ 2 é tendencioso.
3.3 Intervalos de Confiança e Teste de Hipóteses

3.3.1 Questões ANPEC
As questões da ANPEC sobre intervalo de confiança (IC) dividem-se em dois tipos:
1. Estimar o intervalo de confiança com variância conhecida;
2. Estimar o intervalo de confiança com variância desconhecida.
3.3.2 Variância Conhecida

Suponha que X ∼ N (µ, σ 2 ), com σ 2 conhecido e µ desconhecido. Sejam X1 , . . . , Xn uma
amostra aleatória de X e X̄ a média amostral.
√
Então X̄ ∼ N (µ, σ 2 /n). Logo, Z = (X̄ − µ)/σ n possui distribuição normal padrão.
√ √
O intervalo aleatório (X̄ − (σ/ n) × z; X̄ + (σ/ n) × z) é chamado intervalo de confiança da
média aleatória µ.
27
Não é correto dizer que a “probabilidade de µ cair dentro do intervalo acima especificado é
2Φ − 1”, pois µ é um parâmetro fixo: ou ele está ou não está dentro do intervalo.
O intervalo é que é aleatório: a cada amostra obtida, será obtido um intervalo diferente.
O correto então é dizer que “se repertimos a estimação muitas vezes, os intervalos de confiança
obtidos conterão µ em 95% das vezes”.
Podemos escolher z de tal modo que 2Φ(z) − 1 = 1 − α, ou seja, Φ(z) = 1 − α/2.
Esse valor de z, denotado por K1−α/2 , é tabelado, de tal modo que Φ(K1−α/2 ) = 1 − α/2.
√ √
Dizemos que (X̄ − (σ/ n) × K1−α/2 ; X̄ + (σ/ n) × K1−α/2 ) é um intervalo de confiança do
parâmetro µ, com coeficiente de confiança 1 − α (ou um intervalo de confiança 100(1 − α)%).
Exemplo: Suponha que X ∼ N (µ, 16) representa a duração da vida de uma peça de equipa-
mento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 100 dessa
variável, em que X̄ = 501, 2 horas. O intervalo de confiança de 95% para a média µ é:

4 4
501, 2 − √ × 1, 96 ; 501, 2 + √ × 1, 96 = (500,4 ; 502,0)
100 100
Note novamente que isto não significa que a média amostral cairá neste intervalo com 95% de
probabilidade. Ou µ está ou não está no intervalo (500,4 ; 502,0).
Finalmente, observe que para um mesmo nı́vel de confiança 1 − α e um mesmo tamanho n da
amostra aleatória, os intervalos de confiança estimados quando a variância é conhecida terão
sempre a mesma amplitude (ie, o mesmo comprimento), igual a:

σ σ 2zσ
X̄ + √ × z − X̄ − √ × z = √
n n n
Logo, se a amostra for diferente (mas de mesmo tamanho), então o comprimento do IC será o
mesmo, apenas os pontos extremos do intervalo serão distintos.
3.3.3 Variância Desconhecida

Suponha que X ∼ N (µ, σ 2 ), com σ 2 desconhecido e µ desconhecido. Sejam X1 , . . . , Xn uma
amostra aleatória de X e X̄ a média amostral.
Estimando σ 2 por meio da estimativa não viesada:
n
2 1 X
σ̂ = (Xi − X̄)2 ,
n − 1 i=1
então para α e n dados, o intervalo:
√ √
X̄ − (σ̂/ n) × tn−1,1−α/2 ; X̄ + (σ̂/ n) × tn−1,1−α/2
define um intervalo de confiança ao nı́vel de 100(1 − α)% para µ, onde tn−1,1−α/2 é dado pela
distribuição t de Student.
Exemplo: Suponha que X ∼ N (µ, σ 2 ) represente a duração da vida de uma peça de equipa-
mento em horas.
Suponha que foi obtida uma amostra aleatória de tamanho n = 9 dessa variável, em que
X̄ = 10, 50 horas e σ̂ = 1, 50 horas.
Temos então que o IC associada a esta amostra aleatória é:

1, 50 1, 50
10, 50 − √ × 2, 31 ; 10, 50 + √ × 2, 31 = (9,345 ; 11,655)
9 9
28
3.4 Testes de Hipóteses – Parte 1/2
3.4.1 Definição
Definição: Teste de Hipóteses. Um teste de hipóteses é um método estatı́stico que utiliza
amostras aleatórias para avaliar uma hipótese sobre algum parâmetro θ (que pode ser um vetor
de parâmetros) populacional.
Portanto, no lugar de obter uma estimativa para θ, vamos fazer um teste de hipótese, que
consiste em admitir um valor hipotético para θ e então usar a informação da amostra para
confirmar ou rejeitar esse valor hipotético.
3.4.2 Quatro Passos

1. Estabelecida a hipótese sobre a população (por exemplo, média de altura da população
em Brası́lia é 1,70m);
2. Usamos a hipótese para predizer caracterı́sticas que a amostra deve ter (no exemplo,
prevemos que a média amostral estará próxima de 1,70m);
3. Obtemos uma amostra aleatória da população;
4. Comparamos os resultados obtidos com a amostra aleatória com previsão que foi feita
na hipótese (no exemplo, se a média amostral for consistente com a previsão, concluı́mos
que a hipótese é razoável; se for muito discrepante, concluı́mos que não é razoável).
3.4.3 Tipo Usual de Teste

Vamos testar uma hipótese base H0 (ou hipótese nula ou de nulidade ou hipótese básica) versus
uma hipótese alternativa H1 .
O termo hipótese nula refere-se que na maioria das aplicações de testes de hipóteses, deseja-se
verificar se um determinado tratamento alterou a média populacional (sem alterar a vairância
ou a distribuição populacional).
A hipótese nula assume que não ocorre mudança e a hipótese alternativa que ocorre mudança.
3.4.4 Definição
Definição: Hipótese Nula. A hipótese nula H0 assume que a variável independente (o
tratamento) não tem efeito na variável dependente da população.
Definição: Hipótese Alternativa. A hipótese alternativa H1 assume que a variável inde-

pendente (o tratamento) tem efeito na variável dependente da população.
3.4.5 Teste Bicaudal

Podemos realizar basicamente dois tipos de testes. O primeiro, descrito por:
H0 : θ = θ0 vs H1 : θ 6= θ0 ,
é chamado bicaudal (ou bilateral ou não-direcional ).
Neste teste rejeitaremos a hipótese nula se encontrarmos evidência convincente de que θ 6= θ0

(ou seja, ou de que θ > θ0 ou de que θ < θ0 .
29
3.4.6 Teste Unicaudal
O segundo tipo, descrito por:
H0 : θ ≤ θ0 (ou θ ≥ θ0 ) vs H1 : θ > θ0 (ou θ < θ0 ) ,
é chamado unicaudal (à direita, pois H1 : θ > θ0 ; à esquerda se H1 : θ < θ0 ).
O teste unicaudal também é chamado unilateral ou direcional.
Neste teste rejeitaremos a hipótese nula se encontrarmos evidência convincente de que θ > θ0
(θ < θ0 ).
3.4.7 Teste Bicaudal – Set-up Inicial

Vamos analisar testes de hipóteses para a média populacional de uma v.a. X com distribuição
normal N (µ, σ 2 ).
Vamos supor que a variância σ 2 é conhecida

Pn (caso não seja, é fácil adaptar o teste usando o
2 2
estimador não viesado σ̂ = (1/(n − 1)) i=1 (Xi − X̄) de modo similar ao que foi feito acima
para intervalos de confiança).
Considere uma amostra

Pn aleatória X1 , . . . , Xn de tamanho n de X. Sabemos que a média
2
amostral X̄ = (1/n) i=1 Xi possui distribuição normal com média µ e variância σ /n.
3.4.8 Teste Bicaudal para Média Populacional

Vamos analisar o teste bicaudal para média, supondo o set-up acima. O teste pode ser descrito
então por:
H0 : µ = µ0 vs H1 : µ 6= µ0 ,
em que µ0 é o valor que assumimos para a média populacional,
3.4.9 Definição de Nı́vel de Significância

Definição: Nı́vel de Significância. O nı́vel de significância α de um teste de hipóteses é o
valor de probabilidade usado para definir que resultados amostrais são muito improváveis se a
hipótese nula for verdadeira.
Os valores mais comuns para α são 0, 10 = 10%, 0, 05 = 5%, 0, 01 = 1% e 0, 001 = 0, 1%. Um

α = 0, 05 significa que iremos separar os 5% menos prováveis valores para a média amostral
dos 95% valores mais prováveis (valores centrais).
3.4.10 Região Crı́tica

Definição: Região Crı́tica. A região crı́tica de um teste de hipóteses é dada pelos va-
lores amostrais extremos que são muito improváveis de serem obtidos (onde agora “muito
improvável” é definido pelo nı́vel de significância do teste) se a hipótese nula for verdadeira.
Os limites da região crı́tica são definidos pelo nı́vel de significância α selecionado para o teste.
30
3.4.11 Definindo os Limites da Região Crı́tica
Para determinar exatamente os limites da região crı́tica, usamos o valor α selecionado e a
tabela da normal padrão (para o caso do exemplo acima e de situações em que se deseja testar
a média populacional quando a variância populacional é conhecida).
Se α = 0, 05, precisamos encontrar os limites que separam os 5% extremos dos 95% centrais.
Como a distribuição normal padrão é simétrica ao redor de zero, temos 2, 5% em cada cauda.
Na tabela da normal padrão, obtemos z0,025 = 1, 96. Portanto, para qualquer distribuição
normal, os 5% extremos possuem valores acima de z = 1, 96 ou abaixo de z = −1, 96.
Figura 1: Região crı́tica para α = 0, 05
3.4.12 Valor Crı́tico

Os valores da distribuição que definem os dois extremos são denominados valores crı́ticos do
teste e determinados pelo nı́vel de significância adotado (e, evidentemente, pela distribuição
considerada).
Para o caso da distribuição normal padrão, como ela é simétrica em torno de zero, os dois
valores que determinam a região crı́tica são iguais em valor absoluto.
Se α = 5%, então o valor crı́tico |zc | associado, que delimita os dois extremos da distribuição
com probabilidade 2, 5% de ocorrer, é igual a 1, 96.
3.4.13 Decisão
Calculada a média amostral X̄, computamos o valor da estatı́stica do teste, denotada por z,
usando a hipótese nula:
X̄ − µ0 Média Amostral − Media Populacional Hipotética

z= √ =
σ/ n Desvio Padrão Amostral
Uma vez calculado a estatı́stica do teste z acima, devemos tomar uma decisão entre duas
possı́veis: rejeitar a hipótese nula ou falhar em rejeitar a hipótese nula.
31
3.4.14 Regra de Decisão
A decisão é feita simplesmente comparando a estatı́stica do teste z com o valor crı́tico zc :
• Se −zc < z < zc (ou seja, se |z| < |zc |), então não rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de aceitação de H0 .
• Se z < −zc ou z > zc (ou seja, se |z| > |zc |), então rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de crı́tica do teste).
3.4.15 p-Valor
Para um determinado valor da estatı́stica z do teste, podemos encontrar a probabilidade asso-
ciada a esse valor, usando a tabela da distribuição normal padrão (e.g., se z = 4, temso que
p = 0, 0003).
Este é o p-valor do teste de hipóteses (também chamado valor -p, nı́vel descritivo, probabilidade
de significância).
Definição: p-valor. O p-valor de um teste é a probabilidade de se obter uma estatı́stica de

teste igual àquela calculada com a amostra obtida, sob a hipótese nula.
Então o p-valor de um teste pode ser visto como o menor nı́vel de significância com o qual se
rejeitaria a hipótese nula (isso é bastante controverso!).
3.4.16 Tomada de Decisão Usando o p-Valor

Portanto, se o p-valor do teste for menor do 0, 05, pode-se rejeitar a hipótese nula ao nı́vel de
significância de 0, 05 = 5%.
Se a estatı́stica do teste for, por exemplo, z = 1, temos que p = 0, 3374. Neste caso, aceitamos
a hipótese nula ao nı́vel de significância de 5%.
Logo, quanto menor o p-valor, maior a incompatibilidade estatı́stica dos dados amostrais com
a hipótese nula.
Podemos usar o p-valor para a tomada de decisão:
• Se p > α: aceita-se a hipótese nula.
• Se p < α: rejeita-se a hipótese nula.
3.4.17 Observações sobre o p-Valor

1. O p-valor não é a probabilidade da hipótese nula de um teste ser verdadeira;
2. O p-valor não é a probabilidade da hipótese nula ter sido rejeitada erroneamente (ou seja,
a probabilidade de um erro do tipo I, que veremos abaixo);
3. A magnitude do p-valor não indica o tamanho ou a importância de um efeito observado;
4. p-valor e nı́vel de significância não são sinônimos: o p-valor é sempre computado a partir
da amostra, enquanto o nı́vel de significância é fixado antes de se obter a amostra.
32
3.4.18 Erro Tipo I
Testes de hipóteses são procedimentos de inferência estatı́stica, que usam informação limitada
(amostra) para chegar a uma conclusão geral (população).
Logo, existe a possibilidade de que a conclusão obtida seja incorreta. Existem dois tipos de
erros que podem ocorrer.
Definição: Erro Tipo I. Um erro tipo I ocorre quando a hipótese nula é válida, mas é
rejeitada pelo teste. Tipicamente, conclui-se que o tratamento teve efeito quando na verdade
não teve.
Definição (alternativa): Nı́vel de Significância. O nı́vel de significância α de um teste

de hipóteses é a probabilidade de ocorrer um erro tipo I.
3.4.19 Erro Tipo II

O erro tipo II consiste no outro tipo de erro que pode ocorrer em um teste de hipóteses, que
consiste em não rejeitar a hipótese nula quando ela é falsa. Ou seja, o teste de hipóteses falhou
em observar que o tratamento de fato teve efeito.
Definição: Erro Tipo II. Um erro tipo II ocorre quando não se rejeita uma hipótese nula
falsa. Tipicamente, conclui-se que o tratamento não teve efeito quando na verdade teve.
Figura 2: H0 : “pessoa não grávida”, H1 : “pessoa grávida”
3.4.20 Probabilidade do Erro Tipo II e Poder do Teste

A probabilidade de ocorrência de um erro tipo II é usualmente denotada por β:
β = p (Erro Tipo II) = p (Aceitar H0 | H0 é falsa) = p (H0 | H1 ) .
Definição: Poder de um Teste. O poder (ou potência) de um teste de hipóteses, denotado

por P D, é a probabilidade de o teste rejeitar H0 quando H0 é realmente falsa. Logo, o poder
de um teste é 1 menos a probabilidade de ocorrer um erro tipo II: P D = 1 − β.
33
Figura 3: Possibilidades em um Teste de Hipóteses
3.4.21 Aumentando o Poder de um Teste

Para aumentar o poder de um teste, podemos:
• Aumentar o tamanho n da amostra aleatória;
• Aumentar o nı́vel de significância α adotado (ou seja, se aumentarmos a probabilidade de

um erro tipo I, diminuı́mos a probabilidade de um erro tipo II, tudo o mais constante);
• Aumentar o tamanho do efeito (ou seja, a distância entre o valor do parâmetro real e o
considerado verdadeiro em H0 ).
3.4.22 Teste Unicaudal

O procedimento visto acima é válido para um teste bicaudal, ou seja, um teste em que a região
crı́tica se encontra nas duas caudas da distribuição. O procedimento para um teste unicaudal
(ou direcional ), definido abaixo, é um pouco diferente.
Definição: Teste de Hipóteses Unicaudal. Em um teste de hipóteses unicaudal, a hipótese

estatı́stica (dada por H0 e H1 ) especifica ou um aumento ou uma diminuição no parâmetro
populacional de interesse (usualmente, a média populacional).
3.4.23 Novo Procedimento

Portanto, um teste unicaudal modifica o procedimento do teste de hipóteses em duas etapas:
1. Na primeira etapa do teste de hipóteses, a predição direcional do tratamento é incorporada

nas hipóteses; e
2. Na segunda etapa do teste de hipóteses, a região crı́tica é localizada inteiramente em uma

das caudas da distribuição.
Daı́ procede-se exatamente como antes: calculamos a estatı́stica z e tomamos a decisão sobre
aceitar ou rejeitar H0 se a estatı́stica z estiver fora ou dentro da região crı́tica.
34
Figura 4: Teste Unicaudal
3.4.24 Exemplo
Suponha que a estatı́stica de um certo teste é:
X̄ − µ0 29, 5 − 26 3, 5
z= = = = 1, 75 .
σX̄ 2 2
O valor da estatı́stica z maior do que o tabelado ao nı́vel de 5% (zc = 1, 65) indica que a média
amostral obtida está na região crı́tica. Logo, a decisão é rejeitar H0 .
Se fosse usado um teste bicaudal, então para este caso H0 seria aceito. Temos que sempre que
se rejeitar H0 no teste bicaudal, rejeita-se também H0 em um teste unicaudal, mas o contrário
não é válido.
3.4.25 Variância Desconhecida

Suponha o mesmo arcabouço de antes, só que agora não conhecemos a variância populacional
associada a v.a. X ∼ N (µ, σ 2 ) para a qual queremos realizar um teste de hipótese sobre µ.
Como fazemos agora? Se utilizarmos a variância amostral σ̂ 2 = (1/(n − 1)) ni=1 (Xi − X̄)2 ,
P
em que X̄ denota a média amostral, podemos proceder exatamente do mesmo modo que antes
(seja um teste bicaudal, seja um teste unicaudal), usando a variância amostral no lugar da
variância populacional para calcular a estatı́stica do teste.
Porém, agora devemos comparar a estatı́stica obtida com uma estatı́stica t com n − 1 graus de
liberdade. A justificativa para isso é similar à que vimos com intervalos de confiança.
3.4.26 Teste para Proporções

O mesmo procedimento visto acima, com pequenas modificações, vale quando queremos realizar
um teste de hipóteses para proporções, como no exemplo abaixo.
Exemplo. Uma fábrica afirma que a probabilidade de uma peça produzida por ela ser defei-
tuosa é 0, 1. Suponha que obtivemos uma amostra aleatória com 100 peças e verificamos que
19 são defeituosas. Queremos realizar o seguinte teste de hipóteses:
H0 : p = 0, 1 vs H1 : p 6= 0, 1 ,
onde p denota a proporção de peças defeituosas. Vamos adotar o nı́vel de significância de 0, 1%.
35
Como procedemos para realizar o teste? Sob a hipótesep nula, temos
√ que a variância amostral
é p0 (1 − p0 )/n. Então o desvio-padrão amostral é p0 (1 − p0 )/ n.
Nesse tipo de teste, o correto seria utilizar a distribuição binomial.
Mas se n for grande, o Teorema Central do Limite permite usar

p a distribuição
√ normal para
calcular de modo aproximado a estatı́stica do teste, usando p0 (1 − p0 )/ n como desvio
padrão:
p̄ − p0
z=p √ ,
p0 (1 − p0 )/ n
onde p̄ é a proporção obtida na amostra.
Voltando ao Exemplo acima, temos que:

p̄ − p0 0, 19 − 0, 10 0, 09
z=p √ =p √ = = 10
p0 (1 − p0 )/ n (0, 1 × 0, 9)/ 100 0, 009
Como o valor crı́tico do teste para o nı́vel de significância α = 0, 1% é 3,3, podemos então
rejeitar a hipótese nula ao nı́vel de significância de 0, 1%.
36

Estatistica CCM NA RevisaoParte1

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Estatistica CCM NA RevisaoParte1

Încărcat de

Drepturi de autor:

Formate disponibile

Revisão – Parte 1/2

Podemos encontrar facilmente o percentual (ou taxa) da mudança do preço de um bem no

1.1.2 Número Índice Simples (relativos) de Quantidade

Como vt = pt × qt , temos que:

1.1.4 Números Índices de Ligação

p0,1 , p1,2 , p2,3 , . . . , pT −1,T ,

1.2 Números Índices Compostos

Portanto, p0 é o vetor n-dimensional de preços no perı́odo base e pt é o vetor de preços no

w · pt w1 pt1 + w2 pt2 + · · · + wn ptn

1.2.3 Cobrado pela ANPEC

1. Laspeyres (e Laspeyres modificado),

1.2.4 Índice de Laspeyres

Se o ı́ndice for de preço, a quantidade no perı́odo base constitui o sistema de ponderação:

1.2.5 Índice de Paasche

Se o ı́ndice for de preço, a quantidade no perı́odo corrente constitui o sistema de ponderação:

1.2.7 Índices de Laspeyres e Paasche

1.2.8 Índice de Fisher

2. Reversibilidade no tempo: It,0 × I0,t = 1, para todo t.

3. Encadeamento: I0,1 × I1,2 × · · · × It−1,t = I0,t .

4. Decomposição das causas: IP × IQ = IV .

5. Homogeneidade: mudanças de unidade não afetam o ı́ndice.

6. Proporcionalidade: Se todos os componentes do ı́ndice variarem na mesma proporção,

1.3.2 Propriedades Satisfeitas pelos Índice Agregados Compostos

2.1.2 Eventos Mutualmente Excludentes

2.1.3 Função de Probabilidade

6. p(A ∪ B) = p(A) + p(B) − p(A ∩ B).

Definição: Probabilidade Condicional. Seja (Ω, A, p) um espaço de probabilidade. Se

2.1.6 Regra de Probabilidade Composta

p(A ∩ B) = p(A | B) p(B) = p(B | A) p(A) ,

Regra de Probabilidade Composta. Temos que:

p(A1 ∩ A2 ∩ · · · ∩ An ) = p(A1 ) p(A2 | A1 ) p(A3 | A1 ∩ A2 ) . . . p(An | A1 ∩ · · · ∩ An−1 ) ,

onde A1 , . . . , An são eventos aleatórios e n ≥ 2.

2.1.7 Teorema da Probabilidade Total

para todo evento aleatório B.

2.1.8 Fórmula de Bayes

p(A ∩ B) = p(A) p(B) .

Se os conjuntos A e B são independentes, então A e B c (e Ac e B; e Ac e B c ) são independentes.

2.1.10 Dois Modos de Generalizar Independência

• independentes dois a dois se:

p(Ai ∩ Ak ) = p(Ai ) p(Ak ), para todo i, k = 1, . . . , n, i 6= k .

• estocasticamente (ou mutualmente) independentes se:

p(Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = p(Ai1 )p(Ai2 ) . . . p(Aim ) ,

para todo 1 ≤ i1 ≤ i2 ≤ · · · ≤ im ≤ n, para todo m = 2, 3, . . . , n.

2.2 Variável Aleatória

Definição: Variável Aleatória. Dizemos que a função X : Ω → R é uma variável aleatória

Considere uma v.a. X e um conjunto T ⊂ R quaisquer. Vamos denotar por X ∈ T como o

2.2.2 Distribuição de uma v.a.

pX (T ) = p(X ∈ T ) = p({ω ∈ Ω | X(ω) ∈ T }),

é chamada distribuição de X (mais rigorosamente, não podemos definir pX sobre todos os

2.2.4 Função de Distribuição Acumulada

2.2.5 V.A Absolutamente Contı́nua

2.2.6 Propriedades de uma FDP

2.2.7 Variável Aleatória Multidimensional

2.2.9 Vetor Aleatório Discreto

2.2.10 Vetor Aleatório Contı́nuo

2.2.11 Calculando a Distribuição Conjunta

2. Se o vetor aleatório (X, Y ) é contı́nuo, então:

2.2.12 Independência entre V.A.s

• Se X, Y são independentes, então:

• Se X, Y são independentes e possuem densidades fX e fY , então:

onde fX obtida desse modo é chamada função de densidade marginal de X.

2.2.14 Os Dois Casos

2.2.15 Distribuição Condicional