Documente Academic
Documente Profesional
Documente Cultură
Estatı́stica
Curso Cecı́lia Menon
(Notas de Aula 1 a 5)
1 Números Índices
1.1 Números Índices Simples
1.1.1 Números Índices Simples (relativos de base fixa)
O número ı́ndice simples (ou relativo de base fixa) do preço de um bem no perı́odo corrente t
com relação ao perı́odo base 0 é denotado por p0,t e definido por:
pt pt
p0,t = ou p0,t = 100 ×
p0 p0
Observe que o relativo do perı́odo base com relação ao perı́odo base p0,0 é, por definição, igual
a 1 (ou 100).
Se o valor de ∆p0,t for positivo, temos um aumento de preço. Se ele for negativo, temos uma
queda no preço.
Observando o relativo do preço, também podemos tirar a mesma conclusão: se p0,t for maior
do que 1 (ou 100), o preço em t será maior do que no perı́odo base.
Já se p0,t for menor do que 1 (ou 100), o preço em t será menor do que no perı́odo base.
1
1.1.3 Número Índice Simples (relativos) de Valor
O relativo de valor de base fixa é dado por:
vt vt
v0,t = ou v0,t = 100 × ,
v0 v0
onde vt é o valor do produto no perı́odo corrente t, v0 o valor no perı́odo base 0 e v0,t o relativo
de valor (de base fixa) que descreve o quanto o valor do perı́odo corrente t corresponde ao valor
do perı́odo base 0.
ou seja, o relativo de valor é igual ao produto dos relativos de preço e de quantidade (propriedade
de decomposição das causas).
em que:
pt+1 pt+1
pt,t+1 = ou pt,t+1 = 100 × , para t = 0, . . . , T − 1 .
pt pt
onde pt,t+1 é o número ı́ndice de ligação (ou relativo de base móvel ou elo de relativo) entre t
e t + 1.
Com uma variável multidimensional (um vetor de preços, neste caso), não temos mais uma
forma natural de fazer esse cálculo. Índices desse tipo, que levam em consideração mais de
uma variável, são chamados agregados (ou agregativos ou compostos).
Vamos denotar vetores em negrito e mudar um pouco a notação: no caso de vetores, denota-
remos o perı́odo por superescritos e, por subescritos, a coordenada do vetor.
2
1.2.2 Índices de Preços Compostos Ponderados
Considere o sistema de pesos w = (w1 , w2 , . . . , wn ). O número ı́ndice composto p0,t , ponderado
pelo sistema de pesos w, é definido por:
sendo que o ı́ndice pode ser apresentado na base 100 (ou seja, multiplicado por 100).
A questão que surge então é qual sistema de pesos usar. Não há uma resposta clara: diferentes
sistemas de pesos geram diferentes ı́ndices.
2. Paasche, e
3. Fischer,
que são os cobrados no exame da ANPEC (apenas em 1991 foi cobrado um ı́ndice diferente
desses, o de Marshall-Edgeworth).
pt · q0 pt · q0
LtP = 0 0 ou LtP = 100 × 0 0
p ·q p ·q
Já se o ı́ndice for de quantidade, o preço no perı́odo base constitui o sistema de ponderação:
p0 · qt p0 · qt
LtQ = ou LtP = 100 ×
p0 · q0 p0 · q0
pt · qt pt · qt
PPt = ou PPt = 100 ×
p0 · qt p0 · qt
Já se o ı́ndice for de quantidade, o preço no perı́odo corrente constitui o sistema de ponderação:
pt · qt pt · qt
PQt = ou PQt = 100 ×
pt · q0 pt · q0
3
1.2.6 Base Fixa e Base Móvel
Observe que o ı́ndice de Laspeyres é considerado um ı́ndice com ponderação fixa (ou base fixa),
já que a ponderação é sempre a mesma (o perı́odo base), qualquer que seja o perı́odo corrente.
Observe que o ı́ndice de Paasche é considerado um ı́ndice com ponderação variável (ou base
móvel), já que variando o perı́odo corrente, a ponderação irá variar com ele.
Já o ı́ndice de preços de Paasche é igual à média harmônica ponderada dos relativos conside-
rados, com os pesos definidos no perı́odo corrente t.
sendo que o ı́ndice pode ser apresentado na base 100 (ou seja, multiplicado por 100) e também
pode ser calculado como ı́ndice de quantidade de modo similar.
1.3 Propriedades
1.3.1 Propriedades
1. Identidade: It,t = 1, para todo t.
4
2 Probabilidade
2.1 Probabilidade
2.1.1 Espaço Amostral e Eventos
O espaço amostral de um experimento aleatório é o conjunto de todas as ocorrências possı́veis
associadas a esse experimento.
Definição: Espaço Amostral. O espaço amostral Ω contém todos os resultados de um
experimento.
Definição: Eventos. Um evento é qualquer subconjunto do espaço amostral Ω.
Em particular, o evento ∅ é chamado evento impossı́vel, Ω é chamado evento certo, e {ω} ⊆ Ω
é chamado evento simples (ou ponto amostral ou estado da natureza).
2.1.4 Propriedades
As três propriedades acima (chamados axiomas de uma probabilidade σ-aditiva) têm como
consequência todas as outras propriedades comuns a uma probabilidade, tais como:
1. p(∅) = 0;
2. p(Ac ) = 1 − p(A) (ou p(A) + p(Ac ) = 1);
3. 0 ≤ p(A) ≤ 1;
4. Se A ⊆ B, então p(A) ≤ p(B);
5. p ( ∞
S P∞
i=1 Ai ) ≤ i=1 p(Ai );
5
2.1.5 Probabilidade Condicional
Vamos definir por p(A | B) a probabilidade de o evento A ocorrer, dado que o evento B ocorreu.
Chamamos p(A | B) a probabilidade de A condicional em B.
p(A ∩ B)
p(A | B) = ∀ A ∈ A.
p(B)
onde estamos supondo que p(A) e p(B) são positivos. Esse resultado pode ser generalizado na
seguinte regra.
p(Ai ) p(B | Ai )
p(Ai | B) = P ,
k p(Ak ) p(B | Ak )
onde estamos supondo que todos os elementos Ai da Ppartição possuem probabilidade positiva
de ocorrerem (p(Ai ) > 0, ∀ i, Ai ∩ Aj = ∅, ∀ i 6= j, i p(Ai ) = 1).
2.1.9 Independência
Dizemos que dois eventos são independentes quando a ocorrência de um deles não afeta a
probabilidade de ocorrência do outro.
Ou seja, saber que um deles ocorreu não fornece qualquer informação adicional sobre a ocorrência
do outro.
6
Definição: Independência. Seja (Ω, A, p) um espaço de probabilidade. Dizemos que os
eventos aleatórios A e B são independentes se:
Observe que se os eventos A e B são independentes, então p(A | B) = p(A) e p(B | A) = p(B).
Isso captura a ideia de que se A e B forem independentes, conhecer A não informa nada
adicional sobre a probabilidade de ocorrência de B (p(B | A) = p(B)) e conhecer B não
informa nada adicional sobre a probabilidade de ocorrência de A (p(A | B) = p(A)).
7
2.2.3 V.A. Discreta
Dizemos que X é uma variável aleatória discreta se assume apenas um número contável de
valores, ou seja, se assume um valor finito de valores ou um valor infinito enumerável de valores.
No primeiro caso, X(ω) ∈ {x1 , . . . , xn }, para algum conjunto {x1 , . . . , xn } ⊆ R. Nesse caso,
dizemos que pX (xi ) = p({ω ∈ Ω | X(ω) = xi }) é a função de probabilidade gerada por X, que
satisfaz:
a) 0 ≤ pX (xi ) ≤ 1, para todo i,
P
b) i pX (xi ) = 1.
Observe que a uma fda pode ser definida para v.a.s discretas e não-discretas. Se a v.a. X é
discreta, então: X
F (x) = p(X ≤ x) = pX (xi ) .
xi ≤x
Poderı́amos ter definido uma v.a contı́nua dizendo que ela é contı́nua se existir uma função real
f tal que satisfaça as propriedades (a), (b) e (c) acima.
8
2.2.8 Função de Distribuição Conjunta
Definição. Seja (X, Y ) um vetor aleatório bidimensional. A função de distribuição acumulada
FX,Y de (X, Y ) é definida por:
FX,Y (x, y) = p(X ≤ x, Y ≤ y) ,
onde
p(X ≤ x, Y ≤ y) = p({X ≤ x} ∩ {Y ≤ y})
FX,Y (x, y) é também chamada função de distribuição conjunta das v.a.s X e Y .
A função f é chamada densidade do vetor aleatório (X, Y ) ou densidade conjunta das variáveis
aleatórias X e Y .
9
2.2.13 Densidade Marginal
Se fX,Y (x, y) é a densidade conjunta de X e Y , então a função de densidade de X é:
Z +∞
fX (x) = fX,Y (x, y) dy ,
−∞
• Caso contı́nuo:
Z b Z +∞ Z b
p(a ≤ X ≤ b) = f (x, y) dy dx = fX (x)dx
a −∞ a
Suponha agora que (X, Y ) é um vetor aleatório contı́nuo com fdp conjunta fX,Y e denote por
fX e fY as distribuições marginais de X e Y , respectivamente. Então:
• A fdp de X condicionada a um dado Y = y é definida por:
fX,Y (x, y)
fX|Y (x | y) = , onde fY (y) > 0
fY (y)
10
2.2.17 Resultados
• Seja (X, Y ) um vetor aleatório discreto. Então X e Y são independentes se, e somente
se, pX (xi | yj ) = pX (xi ), para todo i e j (ou, de modo análogo, se pY (yj | xi ) = pY (yj ),
para todo i e j).
• Seja (X, Y ) um vetor aleatório contı́nuo. Então X e Y são independentes se, e somente
se, fX|Y (x | y) = fX (x), para todo (x, y) (ou, de modo análogo, se fY |X (y | x) = fY (y),
para todo (x, y)).
Já se X for uma v.a. absolutamente contı́nua, então a esperança de X pode ser calculada
como: Z ∞
EX = xf (x)dx ,
−∞
• Se X ≤ Y , então EX ≤ EY .
Eg(X) ≥ g(EX)
Definição. A covariância das v.a.s X e Y , denotada por Cov(X, Y ) ou σXY , é definida como:
11
2.3.4 V.A.s Independentes
Se a covariância de X e Y é zero, então dizemos que X e Y são não-correlacionadas.
Existe uma importante exceção a essa regra, muito cobrada pelo exame da ANPEC: se X e Y
são duas variáveis com distribuição normal bivariada, então se X e Y forem não correlacionadas,
elas serão independentes.
• Cov(X, X) = V ar(X).
2.3.6 Correlação
Definição. A correlação entre as v.a.s X e Y , denotada por Corr(X, Y ) ou ρXY , é definida
como:
Cov(X, Y ) σXY
Corr(X, Y ) = p p =
V ar(X) V ar(Y ) σX σY
12
(b) Se (X, Y ) for um vetor aleatório discreto, então o valor esperado condicionado de X, para
um dado Y = y, é definido por:
+∞
X
E(X | Y = y) = xi pX|Y (xi | y) ,
i=1
13
2.4.2 Distribuição de Bernoulli
A probabilidade de sucesso, denotada por p, é, por hipótese, a mesma em cada ensaio de
Bernoulli.
Logo, dizemos que X tem distribuição de Bernoulli, cuja função de probabilidade pode ser
representada por:
p(X = x) = px (1 − p)1−x , para x = 0, 1 ,
e p(X = x) = 0 para outros valores de x.
E(X) = p ,
V ar(X) = p(1 − p) .
Logo, para descrevermos completamente um modelo binomial, precisamos conhecer dois valores,
a probabilidade p de sucesso em um ensaio e o número n de ensaios.
onde:
n n!
= ,
k (n − k)! k!
é o coeficiente binomial de n e k e n! = n × (n − 1) × · · · × 2 × 1 é o fatorial de n (por definição,
0! = 1).
Uma amostragem com reposição pode ser vista como um processo de Bernoulli, onde tiramos
um elemento da população, coletamos dados, o recolocamos na população para daı́ retirar outra
observação.
Porém, muitas amostragens são feitas sem reposição, logo, a propriedade de independência
entre ensaios não é válida (neste caso usamos a distribuição hipergeométrica).
14
2.4.4 Distribuição Mutinomial
A distribuição multinomial generaliza a binomial, ao permitir que um experimento possa ter
k resultados possı́veis. Logo, cada ensaio do experimento resulta em k valores possı́veis, com
probabilidades pi , i = 1, 2, . . . , k.
Denotando por Xi a v.a. que informa o número de vezes que o resultado i foi observado nos
n ensaios independentes feitos, o vetor aleatório X = (X1 , . . . , Xk ) segue uma distribuição
multinomial com parâmetros n e p onde p = (p1 , . . . , pk ).
λk e−λ
p(X = k) = , para k = 0, 1, 2, . . .
k!
Suponha que quando n tende a infinito, p tende a zero de modo que np → λ > 0. Então a
distribuição de X tende para uma Poisson de parâmetro λ = np.
O modelo probabilı́stico geométrico consiste então em repetir os ensaios, até que o evento
sucesso ocorra pela primeira vez.
15
Logo, quanto menor a probabilidade de sucesso p, maior o valor esperado EX, o que é intui-
tivamente claro: pequenos valores de sucesso exigem muitas repetições do experimento, “na
média”, para obter sucesso pela primeira vez.
O resultado abaixo mostra que a distribuição geométrica não possui memória, no sentido de que
se sucesso não ocorreu durante as primeiras k repetições do experimento, então a probabilidade
de que ele não ocorra durante as próximas n repetições do experimento é igual a probabilidade
de que ele não tivesse ocorrido durante as primeiras n repetições do experimento.
Teorema. Suponha que X tem distribuição geométrica com parâmetro p. Então para todo n
e k inteiros positivos, temos que:
p(X ≥ n + k | X > k) = p(X ≥ n) .
Temos que X = k se, e somente se, k fracassos foram obtidos (e, portanto, n − k sucessos) da
amostra de n observações selecionada.
Neste caso, dizemos que X tem distribuição hipergeométrica com parâmetros N , r e n e que
sua distribuição de probabilidade é:
r N −r
k n−k
p(X = k) = N
, k = 0, 1, 2, . . . ,
n
a
onde usamos a convenção de que b
= 0 se b > a.
16
2.5.2 Distribuição Normal
A distribuição normal é completamente caracterizada por dois valores apenas, a sua média,
denotada por µ, e a sua variância, denotada por σ 2 . Ela é simétrica em torno da sua média.
com −∞ < µ < +∞ e σ > 0. Neste caso denotamos X ∼ N (µ, σ 2 ). Se Z ∼ N (0, 1), dizemos
que Z possui distribuição normal padrão (ou reduzida).
2.5.3 Resultados
O teorema abaixo mostra que qualquer distribuição normal X com média µ e desvio-padrão σ
pode ser padronizada, bastando para isso fazer Z = (X − µ)/σ.
Teorema. Seja X v.a. com distribuição normal N (µ, σ 2 ). Então Y = aX + b tem distribuição
normal N (aµ + b, a2 σ 2 ).
Corolário. Seja X v.a. com distribuição normal N (µ, σ 2 ). Então Z = (X − µ)/σ tem
distribuição normal padrão N (0, 1).
Teorema. Sejam X1 , X2 , . . . , Xn n v.a.s independentes, tais que Xi ∼ N (µi , σi2 ), para todo
i = 1, . . . , n. Então a variável aleatória Z definida como a combinação linear de X1 , . . . , Xn ,
Z = a1 X1 + a2 X2 + · · · + an Xn , possui distribuição N (µ, σ 2 ), em que:
µ = a1 µ 1 + a2 µ 2 + · · · + an µ n ,
σ 2 = a21 σ12 + a22 σ22 + · · · + a2n σn2 .
Pelo corolário acima, se X tem distribuição N (µ, σ 2 ), então Z = (X − µ)/σ tem distribuição
N (0, 1). Logo,
a−µ b−µ b−µ a−µ
p(a ≤ X ≤ b) = p ≤Z≤ =Φ −Φ
σ σ σ σ
Isso implica que se X ∼ N (µ, σ 2 ), então para todo k > 0, vale que:
X −µ
p(µ − kσ ≤ X ≤ µ + kσ) = p −k ≤ ≤k
σ
= Φ(k) − Φ(−k) = 2Φ(k) − 1 .
17
2.5.5 Distribuição Exponencial
A v.a. X tem distribuição exponencial com parâmetro α > 0 se sua função de densidade de
probabilidade é dada por:
O resultado abaixo mostra que, assim como a distribuição geométrica, a distribuição exponen-
cial não possui memória.
Teorema. Suponha que X tem distribuição exponencial com parâmetro α > 0. Então para
todo s e t positivos, temos que:
A recı́proca do teorema também é válida: a única v.a. contı́nua X que toma valores não
negativos e que satisfaz a propriedade p(X ≥ s + t | X > s) = p(X > t), para todo s, t > 0 é a
exponencial.
E(X) = n e V ar(X) = 2n .
Uma distribuição qui-quadrada com n graus de liberdade pode também ser obtida como a soma
de n v.a.s independentes elevadas ao quadrado, cada uma com distribuição normal padrão:
18
2.5.7 Distribuição t de Student
Considere as v.a.s X ∼ N (0, 1) e Y ∼ χ2k independentes. A v.a. t de Student com k graus de
liberdade é definida como:
X
t= p
Y /k
A distribuição t de student é simétrica, em forma de sino, mas possui caudas mais grossas do
que a normal. O valor esperado e a variância de X com distribuição t de student com n graus
de liberdade são:
n
E(X) = 0 e V ar(X) = , n > 2.
n−2
Logo,
X2 X 2 /1
t2 = =
Y /n Y /n
Como X 2 ∼ χ21 e X 2 e Y são independente (já que X e Y são independentes), então t2 ∼ F (1, n)
(ou seja, a v.a. t2 possui distribuição F com 1 e n graus de liberdade).
A Lei dos Grandes Números (LGN) diz que a média aritmética dos n valores observados
converge em certo sentido para o valor esperado EX, quando n tende a infinito, se determinadas
condições forem satisfeitas.
p
Já o Teorema Central do Limite (TCL) diz que (Sn − ESn )/ V ar(Sn ), onde Sn = X1 + X2 +
· · · + Xn , converge em certo sentido para a distribuição normal padronizada, se determinadas
condições forem satisfeitas.
19
2.6.2 Tipos de Convergência
Os dois tipos de convergência a que se referem a LGN e o TCL são diferentes.
p (|Xn − X| ≥ ε) → 0 quando n → ∞ .
2.6.4 Relações
Proposição: Convergência em Probabilidade implica Convergência em Distribuição.
P D
Se Xn −→ X então Xn −→ X.
D P
Proposição. Se Xn −→ c, c constante, então Xn −→ c.
E(X − c)2
p (|X − c| ≥ ε) ≤ ,
ε2
para todo ε > 0.
20
• Considerando o evento complementar:
E(X − c)2
p (|X − c| < ε) ≥ 1 − ,
ε2
para todo ε > 0.
• Fazendo c = µ:
V ar(X)
p (|X − µ| ≥ ε) ≤ ,
ε2
para todo ε > 0.
• Fazendo c = µ e ε = kσX , onde σX denota o desvio padrão de X:
1
p (|X − µ| ≥ kσX ) ≤ 2 ,
k
para todo k > 0.
A Lei dos Grandes Números trata da convergência de n1 (Sn − ESn ) para zero quando n tende
a infinito, supondo que as v.a.s Xi possuam valor esperado finito.
21
2.6.8 Teorema Central do Limite
Teorema Central do Limite. Se X1 , X2 , . . . são v.a.s iid com EXn = µ e V ar(Xn ) = σ 2 ,
onde 0 < σ 2 < +∞, então:
Sn − nµ D
√ −→ N (0, 1) quando n → +∞ .
σ n
√
Note que para o TCL acima, se dividirmos o numerador e o denominador de (Sn − nµ)/(σ n)
por n, obtemos:
X̄ − µ D
√ −→ N (0, 1) quando n → +∞ ,
σ/ n
onde X̄ = (1/n) ni=1 Xi .
P
3 Inferência Estatı́stica
3.1 Estimação Pontual
3.1.1 Amostra Aleatória
Definição. Seja X uma variável aleatória com distribuição de probabilidade qualquer. Sejam
n v.a.s X1 , . . . , Xn independentes e com a mesma distribuição de X. Nesse caso dizemos que
(X1 , . . . , Xn ) é uma amostra aleatória de tamanho n da v.a. X.
3.1.2 Estatı́stica
Uma vez obtida uma amostra aleatória de X, queremos utilizar os valores amostrais para
realizar inferências sobre alguma ou algumas caracterı́sticas da população representada pela
amostra. Para isso, vamos definir o seguinte conceito.
Uma estatı́stica nada mais é do que uma função de valores reais da amostra e, portanto, é
também uma variável aleatória.
Mais ainda, apesar de comum, não é correto dizer “a estatı́stica y = H(x1 , . . . , xn )”.
22
3.1.3 Duas Estatı́sticas Importantes
(a) X̄ = (1/n) ni=1 Xi é a média amostral.
P
Pn
(b) S 2 = [1/(n − 1)] i=1 (Xi − X̄)2 é a variância amostral.
i) E(X̄) = µ;
O teorema acima mostra que, quanto maior o tamanho n da amostra, a média amostral varia
cada vez menos (V ar(X̄) → 0 quando n → ∞).
Se n não for grande, essa aproximação pode não ser boa e podemos então tentar calcular a
distribuição exata de X̄.
O valor que H assume em (x1 , . . . , xn ) é uma estimativa de θ, que será denotada por θ̂ =
H(x1 , . . . , xn ). Não é esperado que a estimativa θ̂ de θ seja igual a θ. Mais ainda, θ̂ é uma
variável aleatória, que depende da amostra considerada.
θ̂ = a1 X1 + a2 X2 + · · · + an Xn ,
23
3.1.7 Abuso de Terminologia
Há um abuso de notação muito comum em livros de estatı́stica, que algumas vezes é replicado
nos exames da ANPEC.
A notação θ̂ é usada também para denotar o estimador de θ, apesar de que na definição acima
θ̂ é uma estimativa de θ, enquanto o estimador é H(X1 , . . . , Xn ).
Dizemos que θ̂ é um estimador não viesado (ou não tendencioso ou não viciado) de θ se E θ̂ = θ.
Logo, um estimador não viesado de um parâmetro qualquer é tal que o seu valor esperado é
igual ao parâmetro que se deseja estimar.
Se a estimativa θ̂ for não tendenciosa, então E(θ̂) = θ e basta verificar se V ar(θ̂) → 0 quando
n → ∞ para concluirmos que θ̂ é consistente.
V ar(θ̂) ≤ V ar(θ̃) ,
24
3.1.12 Estimador BLUE
Definição: Estimador BLUE. Dizemos que θ̂ é o melhor estimador linear não-tendencioso
(no inglês, Best Linear Unbiased Estimate – BLUE ) do parâmetro θ se:
i) θ̂ é linear;
iii) θ̂ possui a menor variância entre todos os estimadores lineares não-tendenciosos de θ (ou
seja, V ar(θ̂) ≤ V ar(θ̃), para todo θ̃ linear e não-tendencioso).
3.1.13 Eficiência
Se estivermos comparando um grupo de estimadores θ̂i , i = 1, . . . , k, de θ, todos não ten-
denciosos, dizemos que um estimador é o mais eficiente do grupo se tiver a menor variância.
Porém, essa comparação perde sentido quando alguns estimadores são tendenciosos.
Observe que se o estimador for não tendencioso, então o MSE será igual à variância do esti-
mador. Logo, o MSE estende o conceito de eficiência para estimadores tendenciosos.
Note então que a média amostral X̄ = (1/n) ni=1 Xi é uma estimativa linear e não-tendenciosa
P
do valor esperado µ. Além disso, X̄ tem a menor variância entre todos os estimadores lineares
não-tendenciosos de µ (logo, X̄ é BLUE).
é tal que:
i) E(S 2 ) = σ 2 ; e
25
3.1.17 Estimador Tendencioso da Variância
Logo, S 2 definido no teorema acima é uma estimativa não-tendenciosa da variância σ 2 .
n
E(σ̂) = σ2
n−1
É comum log-linearizar a FV, que neste caso será denotada por L(X1 , . . . , Xn ; θ).
A estimação de máxima verossimilhança consiste em, dada uma amostra aleatória qualquer,
encontrar o estimador que maximiza a função de verossimilhança. A definição abaixo conceitua
esse estimador.
As CPOs não são suficientes (nem necessárias, caso de solução de canto, a não ser que algumas
condições sejam satisfeitas) para uma solução.
26
3.2.4 Problemas Técnicos
A determinação de estimadores de máxima verossimilhança pode ser complicada e envolver
uma série de aspectos técnicos.
Além disso, em muitos problemas pode não ser possı́vel encontrar uma solução analı́tica fechada
para o estimador de MV.
c) são consistentes.
27
Não é correto dizer que a “probabilidade de µ cair dentro do intervalo acima especificado é
2Φ − 1”, pois µ é um parâmetro fixo: ou ele está ou não está dentro do intervalo.
O intervalo é que é aleatório: a cada amostra obtida, será obtido um intervalo diferente.
O correto então é dizer que “se repertimos a estimação muitas vezes, os intervalos de confiança
obtidos conterão µ em 95% das vezes”.
Podemos escolher z de tal modo que 2Φ(z) − 1 = 1 − α, ou seja, Φ(z) = 1 − α/2.
Esse valor de z, denotado por K1−α/2 , é tabelado, de tal modo que Φ(K1−α/2 ) = 1 − α/2.
√ √
Dizemos que (X̄ − (σ/ n) × K1−α/2 ; X̄ + (σ/ n) × K1−α/2 ) é um intervalo de confiança do
parâmetro µ, com coeficiente de confiança 1 − α (ou um intervalo de confiança 100(1 − α)%).
Exemplo: Suponha que X ∼ N (µ, 16) representa a duração da vida de uma peça de equipa-
mento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 100 dessa
variável, em que X̄ = 501, 2 horas. O intervalo de confiança de 95% para a média µ é:
4 4
501, 2 − √ × 1, 96 ; 501, 2 + √ × 1, 96 = (500,4 ; 502,0)
100 100
Note novamente que isto não significa que a média amostral cairá neste intervalo com 95% de
probabilidade. Ou µ está ou não está no intervalo (500,4 ; 502,0).
Finalmente, observe que para um mesmo nı́vel de confiança 1 − α e um mesmo tamanho n da
amostra aleatória, os intervalos de confiança estimados quando a variância é conhecida terão
sempre a mesma amplitude (ie, o mesmo comprimento), igual a:
σ σ 2zσ
X̄ + √ × z − X̄ − √ × z = √
n n n
Logo, se a amostra for diferente (mas de mesmo tamanho), então o comprimento do IC será o
mesmo, apenas os pontos extremos do intervalo serão distintos.
28
3.4 Testes de Hipóteses – Parte 1/2
3.4.1 Definição
Definição: Teste de Hipóteses. Um teste de hipóteses é um método estatı́stico que utiliza
amostras aleatórias para avaliar uma hipótese sobre algum parâmetro θ (que pode ser um vetor
de parâmetros) populacional.
Portanto, no lugar de obter uma estimativa para θ, vamos fazer um teste de hipótese, que
consiste em admitir um valor hipotético para θ e então usar a informação da amostra para
confirmar ou rejeitar esse valor hipotético.
2. Usamos a hipótese para predizer caracterı́sticas que a amostra deve ter (no exemplo,
prevemos que a média amostral estará próxima de 1,70m);
4. Comparamos os resultados obtidos com a amostra aleatória com previsão que foi feita
na hipótese (no exemplo, se a média amostral for consistente com a previsão, concluı́mos
que a hipótese é razoável; se for muito discrepante, concluı́mos que não é razoável).
O termo hipótese nula refere-se que na maioria das aplicações de testes de hipóteses, deseja-se
verificar se um determinado tratamento alterou a média populacional (sem alterar a vairância
ou a distribuição populacional).
A hipótese nula assume que não ocorre mudança e a hipótese alternativa que ocorre mudança.
3.4.4 Definição
Definição: Hipótese Nula. A hipótese nula H0 assume que a variável independente (o
tratamento) não tem efeito na variável dependente da população.
H0 : θ = θ0 vs H1 : θ 6= θ0 ,
29
3.4.6 Teste Unicaudal
O segundo tipo, descrito por:
Neste teste rejeitaremos a hipótese nula se encontrarmos evidência convincente de que θ > θ0
(θ < θ0 ).
Os limites da região crı́tica são definidos pelo nı́vel de significância α selecionado para o teste.
30
3.4.11 Definindo os Limites da Região Crı́tica
Para determinar exatamente os limites da região crı́tica, usamos o valor α selecionado e a
tabela da normal padrão (para o caso do exemplo acima e de situações em que se deseja testar
a média populacional quando a variância populacional é conhecida).
Se α = 0, 05, precisamos encontrar os limites que separam os 5% extremos dos 95% centrais.
Como a distribuição normal padrão é simétrica ao redor de zero, temos 2, 5% em cada cauda.
Na tabela da normal padrão, obtemos z0,025 = 1, 96. Portanto, para qualquer distribuição
normal, os 5% extremos possuem valores acima de z = 1, 96 ou abaixo de z = −1, 96.
Para o caso da distribuição normal padrão, como ela é simétrica em torno de zero, os dois
valores que determinam a região crı́tica são iguais em valor absoluto.
Se α = 5%, então o valor crı́tico |zc | associado, que delimita os dois extremos da distribuição
com probabilidade 2, 5% de ocorrer, é igual a 1, 96.
3.4.13 Decisão
Calculada a média amostral X̄, computamos o valor da estatı́stica do teste, denotada por z,
usando a hipótese nula:
Uma vez calculado a estatı́stica do teste z acima, devemos tomar uma decisão entre duas
possı́veis: rejeitar a hipótese nula ou falhar em rejeitar a hipótese nula.
31
3.4.14 Regra de Decisão
A decisão é feita simplesmente comparando a estatı́stica do teste z com o valor crı́tico zc :
• Se −zc < z < zc (ou seja, se |z| < |zc |), então não rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de aceitação de H0 .
• Se z < −zc ou z > zc (ou seja, se |z| > |zc |), então rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de crı́tica do teste).
3.4.15 p-Valor
Para um determinado valor da estatı́stica z do teste, podemos encontrar a probabilidade asso-
ciada a esse valor, usando a tabela da distribuição normal padrão (e.g., se z = 4, temso que
p = 0, 0003).
Este é o p-valor do teste de hipóteses (também chamado valor -p, nı́vel descritivo, probabilidade
de significância).
Então o p-valor de um teste pode ser visto como o menor nı́vel de significância com o qual se
rejeitaria a hipótese nula (isso é bastante controverso!).
Se a estatı́stica do teste for, por exemplo, z = 1, temos que p = 0, 3374. Neste caso, aceitamos
a hipótese nula ao nı́vel de significância de 5%.
Logo, quanto menor o p-valor, maior a incompatibilidade estatı́stica dos dados amostrais com
a hipótese nula.
2. O p-valor não é a probabilidade da hipótese nula ter sido rejeitada erroneamente (ou seja,
a probabilidade de um erro do tipo I, que veremos abaixo);
4. p-valor e nı́vel de significância não são sinônimos: o p-valor é sempre computado a partir
da amostra, enquanto o nı́vel de significância é fixado antes de se obter a amostra.
32
3.4.18 Erro Tipo I
Testes de hipóteses são procedimentos de inferência estatı́stica, que usam informação limitada
(amostra) para chegar a uma conclusão geral (população).
Logo, existe a possibilidade de que a conclusão obtida seja incorreta. Existem dois tipos de
erros que podem ocorrer.
Definição: Erro Tipo I. Um erro tipo I ocorre quando a hipótese nula é válida, mas é
rejeitada pelo teste. Tipicamente, conclui-se que o tratamento teve efeito quando na verdade
não teve.
Definição: Erro Tipo II. Um erro tipo II ocorre quando não se rejeita uma hipótese nula
falsa. Tipicamente, conclui-se que o tratamento não teve efeito quando na verdade teve.
33
Figura 3: Possibilidades em um Teste de Hipóteses
• Aumentar o tamanho do efeito (ou seja, a distância entre o valor do parâmetro real e o
considerado verdadeiro em H0 ).
Daı́ procede-se exatamente como antes: calculamos a estatı́stica z e tomamos a decisão sobre
aceitar ou rejeitar H0 se a estatı́stica z estiver fora ou dentro da região crı́tica.
34
Figura 4: Teste Unicaudal
3.4.24 Exemplo
Suponha que a estatı́stica de um certo teste é:
X̄ − µ0 29, 5 − 26 3, 5
z= = = = 1, 75 .
σX̄ 2 2
O valor da estatı́stica z maior do que o tabelado ao nı́vel de 5% (zc = 1, 65) indica que a média
amostral obtida está na região crı́tica. Logo, a decisão é rejeitar H0 .
Se fosse usado um teste bicaudal, então para este caso H0 seria aceito. Temos que sempre que
se rejeitar H0 no teste bicaudal, rejeita-se também H0 em um teste unicaudal, mas o contrário
não é válido.
Como fazemos agora? Se utilizarmos a variância amostral σ̂ 2 = (1/(n − 1)) ni=1 (Xi − X̄)2 ,
P
em que X̄ denota a média amostral, podemos proceder exatamente do mesmo modo que antes
(seja um teste bicaudal, seja um teste unicaudal), usando a variância amostral no lugar da
variância populacional para calcular a estatı́stica do teste.
Porém, agora devemos comparar a estatı́stica obtida com uma estatı́stica t com n − 1 graus de
liberdade. A justificativa para isso é similar à que vimos com intervalos de confiança.
Exemplo. Uma fábrica afirma que a probabilidade de uma peça produzida por ela ser defei-
tuosa é 0, 1. Suponha que obtivemos uma amostra aleatória com 100 peças e verificamos que
19 são defeituosas. Queremos realizar o seguinte teste de hipóteses:
H0 : p = 0, 1 vs H1 : p 6= 0, 1 ,
onde p denota a proporção de peças defeituosas. Vamos adotar o nı́vel de significância de 0, 1%.
35
Como procedemos para realizar o teste? Sob a hipótesep nula, temos
√ que a variância amostral
é p0 (1 − p0 )/n. Então o desvio-padrão amostral é p0 (1 − p0 )/ n.
Como o valor crı́tico do teste para o nı́vel de significância α = 0, 1% é 3,3, podemos então
rejeitar a hipótese nula ao nı́vel de significância de 0, 1%.
36