Documente Academic
Documente Profesional
Documente Cultură
INSTITUTO DE MATEMTICA
DEPARTAMENTO DE ESTATSTICA
NOTAS DE AULA
MAT236 MTODOS ESTATSTICOS
2 UNIDADE
5. INTRODUO
A Estatstica constitui-se num conjunto de tcnicas e mtodos cientficos que tratam da
coleta, anlise e interpretao de informaes numricas, cujo objetivo principal auxiliar na
tomada de decises ou tirar concluses em situaes de incerteza, a partir de informaes
numricas.
A Teoria Estatstica moderna se divide em dois grandes campos:
Estatstica Descritiva - consiste num conjunto de mtodos que ensinam a reduzir uma
quantidade de dados bastante numerosa por um nmero pequeno de medidas, substitutas e
representantes daquela massa de dados.
estudar em todos os elementos da populao por diversos fatores. Para resolver o problema
devemos trabalhar com um subconjunto da populao, chamado de AMOSTRA. A inferncia
estatstica procura com base nos dados amostrais tirar concluses sobre a populao. Considere o
exemplo abaixo para ilustrar as definies dadas.
Tcnicas de Amostragem
Amostra
Populao
Anlise
Descritiva
Concluses
sobre as
caractersticas
da populao
Inferncia
Estatstica
Informaes contidas
nos dados
jurdica; porte; nmero total de empregados em 1999; faturamento anual em 1998 e 1999; tempo
de existncia; regio metropolitana; e setor de atividade. As observaes referentes s 106
empresas amostradas encontram-se no arquivo Empresa.xls.
Dado um conjunto de dados o modo de condensao ou apresentao das informaes
pode ser na forma de tabelas de frequncias ou de grficos que facilitam a visualizao do
fenmeno, permitem a comparao com outros elementos ou, ainda, fazer previses.
Frequncia simples relativa(fri): a razo entre a frequncia simples absoluta e o nmero total
de dados (soma de todas as frequncias simples absolutas).
Agora vamos exemplificar distribuies de frequncia para cada tipo de varivel.
Exemplo 6.1: Considere a planilha de dados empresa.xls. Para a varivel porte de empresa
construa uma tabela:
Tabela 6.1: Porte das indstrias de matrias plsticas nas principais regies metropolitanas do Brasil
1999
Porte da Indstria
Grande
Mdia
Pequena
Total geral
Nmeros de indstrias
23
70
13
106
% (100xfri )
21,7
66,0
12,3
100,0
1
2
1
1
2
1
1
1
4
1
0
3
2
1
1
1
1
0
0
0
1
0
1
3
1
Tabela 6.2: Nmero de defeitos em uma mquina industrial durante o perodo de 30 dias.
Nmero de defeitos
0
1
2
3
4
Total
Quantidade (fi)
6
17
4
2
1
30
% (100xfri)
20,0
56,7
13,3
6,67
3,33
100,0
em que k o nmero de classes e n o nmero de dados. Outra maneira para obter o nmero de
classes
k n.
Mesmo conhecendo alguns mtodos para a determinao do k, deve-se saber que a
escolha depender antes da natureza dos dados, da unidade de medida e da experincia e do bom
senso de quem far a organizao dos dados da pesquisa.
Uma vez encontrado o nmero de classes, determina-se a amplitude do intervalo de
classes atravs da frmula:
h=
AT
.
k
70,7
71,8
73,9
74,4
75,9
76,0
76,6
76,7
77,4
78,0
78,1
78,1
78,2
78,4
78,4
78,4
78,5
78,5
78,5
78,9
79,0
79,1
79,3
79,3
79,5
79,5
79,7
79,8
79,9
79,9
80,1
80,2
80,4
80,4
80,5
80,7
80,7
80,7
80,9
81,3
81,4
81,6
81,8
81,9
82,0
82,0
82,1
82,3
82,5
82,7
82,9
83,0
83,0
83,2
83,4
83,5
83,6
83,6
83,7
83,8
84,3
84,5
84,5
84,5
84,6
85,2
85,5
85,5
85,7
86,4
86,5
86,8
86,8
86,8
87,1
87,1
87,1
87,3
88,5
90,0
Procedimento para construir uma tabela de distribuio de frequncias com intervalos de classes.
Soluo: Neste caso, n = 80 k = (80)1/2 9
A amplitude total ser dada por AT = 90 70,7 = 19,3.
Assim, a amplitude de cada intervalo de classe ser: h 2,2
Dessa forma, a tabela de distribuio de frequncias para dados agrupados em classes fica da
seguinte maneira:
Tabela 6.3: Rendimento, em porcentagem, de uma reao para fabricao de uma substncia
qumica.
Rendimento
70,5 | 72,7
72,7 | 74,9
74,9 | 77,1
77,1 | 79,3
79,3 | 81,5
81,5 | 83,7
83,7 | 85,9
85,9 | 88,1
88,1 | 90,3
Total
Nmero de
substncia (fi)
2
2
4
14
19
17
11
9
2
80
% (100xfri)
2,50
2,50
5,00
17,50
23,75
21,25
13,75
11,25
2,50
100,00
Tabela 6.4: Porte das indstrias de matrias plsticas por regio metropolitana do Brasil 1999.
Porte da empresa
Regio
Metropolitana
Belo Horizonte
Curitiba
Porto Alegre
Rio de Janeiro
Salvador
So Paulo
Total
Total
Grande
Mdia
Pequena
2
1
0
3
8
9
23
9
4
7
13
18
19
70
3
0
1
2
4
3
13
14
5
8
18
30
31
106
1) Grfico em barras
Exemplo 6.4:
7
Quantidade
Carto roubado
243
Carto falsificado
85
52
Outros
46
Figura 6.1: Tipo de fraude nos cartes de crdito da Mastercard Internacional no Brasil 2000.
2) Grfico em colunas
Utilizado para representao de variveis qualitativas e quantitativas discretas.
Exemplo 6.5:
Tabela 6.6: Nmero de crianas de baixa renda, segundo o bairro de residncia, que
participaram do ensino de msica na Escola XYZ, em Salvador 1998.
Bairro
Paripe
Periperi
Plataforma
Praia Grande
Total
Nmero de crianas
11
39
45
25
120
Figura 6.2: Nmero de crianas de baixa renda, segundo o bairro de residncia, que participaram
do ensino de msica na Escola XYZ, em Salvador 2008.
Exemplo 6.6: Tabela 2.7: Estudantes da Universidade XYZ Segundo rea de estudo e ano de
ingresso.
rea
Exatas
Humanas
Biolgicas
1998
Ano
1999
2000
120
72
169
156
85
145
68
112
73
Total
344
269
387
Figura 6.3: Estudantes da Universidade XYZ Segundo rea de estudo e ano de ingresso.
3) Grfico de Pareto
O grfico de Pareto composto por colunas e por uma curva representando a percentagem
acumulada. As barras esto disponveis em ordem decrescente, tornando evidente a priorizao
de temas. Este grfico muito utilizado na rea de Controle de Qualidade.
Exemplo 6.8: (Werkema, vol. 2): Uma indstria fabricante de lentes tem como objetivo resolver
o seguinte problema: aumento do nmero de lentes defeituosas produzidas pela empresa a partir
de fevereiro de 1995. A empresa classificou uma amostra de lentes fabricadas durante uma
semana de produo de acordo com os tipos de defeitos detectados. O resultado est na tabela a
seguir:
Tabela 6.8: Defeitos encontrados em uma amostra de lentes fabricadas durante uma semana de
produo de uma indstria em 1200 lentes inspecionada.
Tipo de Defeito
Arranho
Trinca
Revestimento Inadequado
Muito Fina ou Muito Grossa
No Acabada
Outros
Total
Quantidade
12
41
55
11
05
03
127
Quantidade de
defeito
55
41
12
11
5
3
127
Total acumulado
55
96
108
119
124
127
/
Percentagem do
total geral (%)
43,3
32,3
9,4
8,7
3,9
2,4
100
Percentagem
acumulada
43,3
75,6
85,0
93,7
97,6
100,0
/
Figura 6.5: Grfico de Pareto para os defeitos de lentes encontrados em uma amostra de lentes
fabricadas durante uma semana de produo de uma indstria em 1200 lentes inspecionada.
Observando a Figura 6.5, foi imediato para indstria perceber que os dois tipos de defeitos
mais frequentes, Revestimento inadequado e trinca, representavam 75,6% dos defeitos
detectados nas lentes produzidas pela empresa. Portanto, Revestimento inadequado e trinca
foram considerados os defeitos mais importantes, que devem ser eliminados em primeiro lugar
esse tipo de defeito chamado de poucos defeitos vitais, enquanto que os outros representam
apenas os muitos defeitos triviais, pois representam a minoria das observaes.
Exemplo 6.9:
Tabela 6.10: ndice de Produto Industrial Brasil 1979.
Meses
Janeiro
Fevereiro
Maro
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
Novembro
Dezembro
IPI
18.633
17.497
19.470
18.884
20.308
20.146
20.258
21.614
19.717
22.133
20.503
18.800
Fonte: FIBGE
Fonte: FIBGE
12
5) Grfico em setores
Exemplo 6.10:
Tabela 2.11: Percentual de funcionrios da Companhia Milsa segundo regio de procedncia
Procedncia
Interior
Capital
Outro
Percentual
33,30
30,60
36,10
6) Histograma
Quando os dados esto agrupados em intervalos de classes, o grfico mais apropriado
o histograma. No caso de classes de mesma amplitude, construdo um retngulo para cada
classe, com base igual amplitude do intervalo classe e altura proporcional a frequncia da
classe. Neste caso,
altura ~ frequncia (absoluta ou relativa)
Quando temos classes com amplitudes diferentes, devemos construir um retngulo para
cada classe, com base igual amplitude do intervalo de classe e altura dada por:
d=
frequncia
amplitude da classe
13
Note que, neste caso, a rea do retngulo igual a frequncia da classe. A altura d definida acima
chamada de densidade de frequncia.
H vrios problemas com este grfico. Ele impressiona mais pela tecnologia utilizada do
que pela informao que passa para o leitor. Os dados no so tridimensionais. As grades do
fundo mais o efeito tridimensional distraem a viso e dificultam comparaes entre trimestre e
regies. Uma forma de melhorar o grfico dar-lhe a dimenso correta. As linhas de grade.
14
No utilize faixas horizontais, verticais ou similares, que s atrapalham a viso do leitor. Faa
mais de um grfico at encontrar um que seja informativo, claro, e que no possua objetos
desnecessrios.
Leste
Oeste
Norte
60
50
40
30
20
10
0
primeiro
segundo
terceiro
quarto
Observe que o efeito 3-D dificulta o julgamento das porcentagens relativas de cada
categoria da varivel. A retirada do efeito 3-D ajudar o leitor a julgar melhor as propores
relativas observadas em cada amostra.
15
7.
grupo decidiu retirar uma amostra aleatria dos azulejos fabricados pela empresa, medir a
espessura destes azulejos e comparar os resultados obtidos com as especificaes. Como a
empresa empregava duas turmas de trabalho (turmas A e B) e poderia haver diferena na
qualidade dos azulejos produzidos por cada turma, foi utilizada uma estratificao, sendo ento
retirada uma amostra de 80 azulejos produzidos pela turma A e 80 fabricados pela turma B. Os
dados coletados, j ordenados, esto na Tabela 7.1.
Ao observarmos o conjunto de dados j fazemos alguma ideia sobre o comportamento das
duas turmas de trabalho, em termos da espessura dos azulejos que produzem. Entretanto,
claramente necessitamos calcular algumas medidas que resumam a informao contida nos
dados. Vamos comear tentando responder: Qual o valor tpico da turma A? E da turma B? A
primeira ideia para obter um valor tpico a de calcular uma mdia.
16
Tabela 7.1: Medidas da Espessura (mm) de 160 Azulejos do Estoque (dados ordenados).
TURMA A
3,1
3,8
3,1
3,9
3,3
3,9
3,3
3,9
3,4
4,0
3,4
4,0
3,5
4,0
3,5
4,0
3,5
4,0
3,5
4,1
3,5
4,1
3,5
4,1
3,6
4,2
3,6
4,2
3,7
4,2
3,7
4,3
3,7
4,3
3,7
4,3
3,8
4,4
3,8
4,4
2,3
2,4
2,4
2,4
2,6
2,7
2,7
2,8
2,8
2,8
2,9
2,9
2,9
3,0
3,0
3,0
3,1
3,1
3,1
3,1
4,5
4,5
4,5
4,5
4,5
4,6
4,6
4,7
4,7
4,9
4,9
5,1
5,2
5,4
5,4
5,5
5,6
5,6
5,7
5,9
4,9
4,9
5,0
5,1
5,1
5,1
5,3
5,3
5,3
5,3
5,3
5,3
5,3
5,4
5,4
5,4
5,4
5,4
5,5
5,5
TURMA B
5,6
5,8
5,6
5,8
5,6
5,8
5,7
5,8
5,7
5,9
5,7
5,9
5,7
5,9
5,7
5,9
5,7
5,9
5,7
5,9
5,7
6,0
5,7
6,0
5,7
6,0
5,7
6,1
5,7
6,1
5,7
6,1
5,8
6,1
5,8
6,1
5,8
6,2
5,8
6,2
6,2
6,2
6,3
6,3
6,4
6,4
6,4
6,4
6,4
6,5
6,5
6,5
6,5
6,6
6,7
6,7
6,7
6,8
6,9
7,0
x1 + x2 + ... + xn = x + x + ... + x = nx
logo temos que,
n
x + x + ... + xn
x= 1 2
=
n
x
i =1
Entretanto, esta medida apresenta alguns inconvenientes como o fato de ser muito sensvel a
valores extremos, isto , a valores excessivamente pequenos ou excessivamente grandes, em
relao s demais observaes do conjunto de dados.
17
Exemplo 7.1 Estamos interessados em conhecer o salrio mdio mensal de certa empresa com
cinco funcionrios. Temos o seguinte conjunto de salrios mensais, em reais: 123 - 145 - 210 225 - 2.500. Podemos observar que quatro dos cinco salrios apresentam valores entre 123 e 225
reais, porm a mdia salarial de 640,6 reais bastante distinta desse conjunto pela influncia do
salrio de 2.500 que puxou o valor mdio para cima.
Em algumas situaes, os nmeros que queremos sintetizar tm graus de importncia
diferentes. Utiliza-se ento uma mdia ponderada. Vamos ver a seguir a definio da mdia
aritmtica ponderada.
A mdia aritmtica ponderada dos nmeros x1 , x2 ,..., xn , n com pesos p1, p2, ..., pn
definida por
n
xi .pi
xp =
i =1
n
, ou simplesmente por x p =
pi
x.p .
p
i =1
Obs.: Quando os dados esto agrupados por frequncias (absolutas ou relativas) os ponderadores
sero as frequncias.
Exemplo 7.2: Em um grupo de pessoas, 70% so adultos e 30% so crianas. O peso mdio dos
adultos 70 kg e o peso mdio das crianas 40 kg. Qual o peso mdio do grupo?
Soluo: a mdia aritmtica ponderada dos dois subgrupos. A resposta
xp =
70 0,7 + 40 0,3
= 61kg
0,7 + 0,3
Tabela 7.2: Valor da mdia aritmtica por turma para dados da espessura dos azulejos
Turma
A
B
Mdia aritmtica
3,8575
5,8725
18
Observando as mdias aritmticas das amostras observadas, parece existir diferena, em termos
mdios, entre as espessuras dos azulejos que esto sendo continuamente produzidos pelas turmas
A e B.
7.2. Moda
A moda outra medida de locao, mas diferentemente da mdia, no utiliza em seu clculo
todos os valores do conjunto de dados analisado.
Notao: Mo = moda
Exemplo 7.3:
a) X = {2, 3, 3, 5, 5, 5, 6, 7}
Mo = 5
c) Z = {2, 2, 5, 5, 7, 7}
Mo = no existe
d) W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21} A distribuio apresenta dois valores
modais: 12 e 18 (distribuio bimodal).
Obs: A moda a nica medida de posio central que pode ser usada em tabelas com
variveis qualitativas.
Quando o conjunto de dados apresenta mais de uma moda damos o nome de distribuio
plurimodal.
A moda uma medida mais adequada ao caso de dados agrupados. Quando a distribuio de
frequncias est organizada por classes de valores, devemos identificar a classe modal (classe em
que observamos a maior frequncia). O ponto mdio da classe modal ser o valor estimado para a
moda que denominada moda bruta.
Mo = li nf +
hi
2
19
Tabela 7.3: Quantidade de operrios das empresas de telemarketing na cidade de Salvador - 2010.
Quantidade de operrios
Quantidade de empresas
11
15
17
19
21
25
Nmero de azulejos
7
15
16
17
14
4
6
1
Tabela 7.5: Espessura (em mm) dos azulejos fabricados pela Turma B.
Espessura
4,75 5,25
5,25 5,75
5,75 6,25
6,25 6,75
6,75 7,25
Nmero de azulejos
6
30
26
15
3
20
Moda
4,0
5,5
7.3. Mediana
Definio: Chamamos de mediana o elemento do conjunto que ocupa a posio central na
distribuio ordenada (crescente ou decrescente). Isto , divide a distribuio em duas partes
iguais de modo que 50% dos valores observados so inferiores ao valor mediano e 50%
superiores a esse valor. A notao usada ser Md = mediana.
X n + X n
1) Md =
+1
2
2) Md = X n +1
, n par
, n mpar
A mediana uma medida de posio resistente, pois pouco afetada por mudanas de pequena
poro dos dados, ao contrrio da mdia aritmtica que sensvel a valores atpicos.
Exemplo 7.4: Comparao entre a mdia aritmtica e a mediana para os conjuntos de salrios
(em reais) dados.
X = { 200, 250, 250, 300, 450, 460, 510}
X = 345,7; Md X = 300.
Y = 601,0; Md Y = 300.
21
Tabela 7.7: Medidas- resumo por turma para dados da espessura dos azulejos
Turma
Mdia aritmtica
Mediana
3,857
3,8
5,865
5,8
A mediana tem vantagem: mais resistente do que a mdia, isto , a alterao drstica de um
s valor do conjunto de dados reflete-se substancialmente no valor da mdia e pode no refletirse, ou refletir-se muito pouco, no valor da mediana.
A mdia tem vantagens: quando a curva de frequncias tem forma de sino, mais ou menos
simtrica, com abas decaindo rapidamente (valores errticos muito improvveis), a mdia mais
eficiente do que a mediana; a mdia uma funo linear das observaes, propriedade que
tambm pode pesar na sua adoo.
22
Por fim, uma vantagem da mediana e da moda em relao mdia aritmtica que esta
ltima no pode ser calculada quando ocorrem classes de frequncias com limites indefinidos
(classes abertas). Entretanto, nesta situao, a moda e a mediana podem ser encontradas sem
qualquer dificuldade.
8. SEPARATRIZES
As separatrizes so medidas que permitem calcularmos valores da varivel que dividem ou
separam a distribuio em partes iguais. Temos trs tipos de separatrizes, tambm chamadas de
quantis: os quartis; os decis; e os percentis.
As medidas de posio denominadas quartis, decis e percentis tm construo anloga a da
mediana. Enquanto a mediana separa a distribuio em duas partes iguais, a caracterstica
principal de cada uma dessas medidas :
Quartis: dividem a distribuio em quatro partes iguais;
Decis: dividem em dez partes iguais;
Percentis: dividem em cem partes iguais.
n
, em que Posi = posio do percentil de ordem i; e n = nmero de elementos da srie
100
1) Se Posi = valor inteiro, ento o percentil definido como a mdia dos valores que ocupam a
posio Posi e Posi + 1.
2) Se Posi = valor no inteiro, ento o percentil definido como o valor que ocupa a posio u
+ 1 , em que u = inteiro mais prximo que seja menor que Posi .
23
18
25
24
28
21
23
24
25
28
Turma A
3,10
3,80
4,45
0,70
0,65
Negativa
Turma B
5,55
5,80
6,20
0,25
0,40
Positiva
9. MEDIDAS DE DISPERSO
Exemplo 9.1: Duas mquinas foram reguladas para encher cada pacote de caf com 500g. Com o
objetivo de verificar a regulagem dessas mquinas, um fiscal de rea anotou o peso dos 5
24
primeiros pacotes produzidos por cada mquina e calculou o peso mdio dos pacotes. Os
resultados encontram-se abaixo:
Mquinas
A
B
1
500
490
Peso mdio
5
495
495
498
500
Observando apenas o peso mdio dos pacotes, poderamos concluir que a mquina B
apresentou melhor desempenho do que A. Porm, quando observamos cada informao
separadamente, verificamos que o peso dos pacotes vindos da mquina A variou entre 495 e
500g, enquanto que o da B variou entre 490 e 510g. Isto quer dizer que a mquina A enche os
pacotes mais uniformemente que a mquina B.
As medidas de disperso servem para avaliar o grau de variabilidade dos valores de um
conjunto de dados. Estas medidas permitem estabelecer comparaes entre fenmenos de mesma
natureza ou de natureza distinta e, em geral, essa variabilidade observada em torno de uma
medida de posio central. Essas medidas podem ser absolutas ou relativas.
A mquina A apresentou uma menor variabilidade nos pesos dos pacotes de caf.
Observaes:
1) A amplitude total a medida mais simples de disperso.
2) A desvantagem desta medida de disperso que leva em conta apenas os valores mnimo e
mximo do conjunto. Se ocorrer qualquer variao no interior do conjunto de dados, a
amplitude total no nos d qualquer indicao dessa mudana.
3) A amplitude total tambm sofre a influncia de um valor "atpico" na distribuio (um valor
muito elevado ou muito baixo em relao ao conjunto).
25
Mdia aritmtica
3,8575
5,8725
Amplitude total
3,6
2,1
Podemos observar que a amplitude total para a turma B menor que a da turma A.
X =200
*
177
* *
193 195
*
192
*
209
Mtodo A
*
226
Mtodo B
* * *
*
196 201204 207
Notao: s = desvio-padro
Definio: Sejam x1 , x2 ,..., xn , n valores que a varivel X assume. O desvio padro amostral
definido como:
(x
n
S=
i =1
n 1
Exerccio: Calcule o desvio padro para as taxas de colesterol: mtodo A e mtodo B.
SA = 18,43909
SB= 6,041523
26
Da mesma maneira que trabalhamos com a amplitude total, vamos observar no nosso
conjunto de dados as mdias aritmticas e os desvios padres (S) para termos uma primeira idia
sobre a variabilidade nas espessuras dos azulejos produzidos pelas turmas A e B.
Tabela 9.2: Medidas-Resumo para dados da espessura dos azulejos.
Turma
3,8575
0,8706
5,8725
0,4802
Podemos observar que a Turma B apresenta maior mdia que a da turma A e alm disso a sua
variabilidade menor. Parece que esta turma atinge mais os objetivos, ou seja, uniformidade na
espessura (menor disperso) e azulejos com espessura mais grossa.
O desvio padro tem a unidade de medida igual a unidade de medida original da varivel,
enquanto que a varincia apresentar a unidade de medida elevada ao quadrado.
ii) Ao trabalharmos com os dados de toda a populao calculamos a varincia e o desvio padro
populacional dividindo por N (tamanho da populao) e no por N-1.
CV =
S
,
X
em que S = desvio padro amostral. Observe que esta uma medida adimensional. Normalmente
expressa em porcentagem.
Exemplo de aplicao:(Azulejos)
27
10. Box-plot
O Box-plot um mtodo alternativo para representar os dados e est ilustrado na Figura 10.1.
O Box-plot fornece informaes sobre as seguintes caractersticas de um conjunto de dados:
locao, disperso, assimetria e outliers (observaes discrepantes).
Figura 10.1 Box Plot
Mximo
Quartil 3
Mediana
Quartil 1
Mnimo
Ponto exterior
Exerccio de aplicao: (Azulejos) Observemos os Box plots para as turmas A e B. Temos que
para turma A, o limite inferior Q11,5(Q3-Q1)= 3,1-1,5(4,45-3,1)= 1,075 e o limite superior
Q3+1,5(Q3-Q1)= 4,45+1,5(4,45-3,1)=6,475. E para a turma B, o limite inferior 5,55-1,5(6,25,55)=4,575 e o superior 6,2+1,5(6,2-5,55)=7,175. Ento, no h pontos exteriores. Os Boxplots correspondentes as turmas A e B esto na Figura 6.2. Podemos perceber que a distribuio
da espessura dos azulejos fabricados pela turma A aparentemente apresenta assimetria negativa.
Enquanto que para a turma B observa-se assimetria positiva.
Figura 10.2: Box-plot para as espessuras (mm) dos azulejos por turma
2. De modo geral, quando a distribuio dos dados assimtrica direita, a linha que representa
a mediana estar mais prxima de Q1 do que de Q3. Isto acontece porque a metade inferior
dos dados est dispersa em uma faixa de comprimento menor que o comprimento da regio
ocupada pela metade superior do conjunto de dados.
3. Quando a distribuio dos dados assimtrica esquerda, a linha que representa a mediana
estar mais prxima de Q3 do que de Q1. Isto acontece porque a metade superior dos dados
est dispersa em uma faixa de comprimento menor que o comprimento da regio ocupada
pela metade inferior do conjunto de dados.
4. O Box-plot tambm pode ser desenhado na posio vertical.
5. Os Box-plots so muito teis para a comparao de dois ou mais conjuntos de dados.
Exerccio de aplicao: (Azulejos). Utilizando agora todos os novos conhecimentos que voc
adquiriu, responda:
a) Sabendo que os limites de especificao para a espessura dos azulejos so (5,0 1,5) mm,
voc considera que a espessura no adequada dos azulejos pode estar provocando as
reclamaes dos clientes? Por que?
b) forma do histograma construdo para todos os dados considerados em conjunto est
indicando que pode haver diferena na qualidade dos azulejos produzidos em diferentes
nveis dos fatores de manufatura do processo de fabricao dos azulejos? Por qu?
c) Voc considera que as duas turmas trabalham do mesmo modo ou existe diferena entre a
qualidade dos azulejos produzidos pelas duas turmas? Justifique sua resposta.
d) O problema de quebra dos azulejos parece ser comum aos azulejos produzidos por ambas as
turmas de trabalho da empresa ou parece estar associado a uma turma especfica? Por que?
e) O problema de falta de uniformidade no assentamento dos azulejos parece ser comum aos
azulejos fabricados por ambas as turmas de trabalho da empresa ou parece estar associado a
uma turma especfica? Por que?
30
5 LISTA DE EXERCCIOS
Elaborada pelos professores: Giovana Silva, Maurcio Lordelo, Rosana Castro.
Revisada: Giovana e Silvia.
1) Classifique cada uma das variveis abaixo em qualitativa (nominal/ordinal) ou quantitativa
(discreta/contnua):
a) Ocorrncia de hipertenso arterial em grvidas com mais de 35 anos (sim ou no so possveis
respostas para esta varivel).
b) Inteno de voto para presidente (possveis respostas so os nomes dos candidatos, alm de
indeciso).
c) Perda de peso de maratonistas na Corrida de So Silvestre, em quilos.
d) Intensidade da perda de peso de maratonistas na Corrida de So Silvestre (leve, moderada, forte).
e) Grau de satisfao da populao brasileira com relao ao trabalho de seu presidente (valores de 0 a 5,
com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito). R.: a)Qualitativa Nominal, b) Qualitativa
Nominal, c)Quantitativa Contnua, d)Qualitativa Ordinal, e) Qualitativa Ordinal
2) Um questionrio foi aplicado aos dez funcionrios do setor de contabilidade de uma empresa
fornecendo os dados apresentados na tabela:
Funcionrio
Sexo
1
2
3
4
5
6
7
8
9
10
masculino
feminino
feminino
masculino
masculino
feminino
masculino
feminino
masculino
feminino
Curso
(completo)
superior
superior
mdio
mdio
mdio
mdio
mdio
mdio
fundamental
fundamental
Idade
Salrio (R$)
34
43
31
37
24
25
27
22
21
26
1100,00
1450,00
960,00
960,00
600,00
600,00
600,00
450,00
450,00
450,00
Anos de
empresa
5
8
6
8
3
2
5
2
3
3
Fundamental
Medio
Superior
Total
Sexo
Feminino
Masculino
Total
1
2
3
6
1
2
5
10
Fonte: exercicio
31
3) Uma empresa do ramo automobilstico apresentou nos ltimos anos os seguintes dados:
Ano
Veculos Vendidos
1990
1991
1992
1993
1994
1995
1996
116002
154972
178179
233011
295725
343533
379370
1713
2835
3585
5566
7251
8146
9148
4) Uma indstria automobilstica verificou que, nos ltimos meses, ocorreu um aumento no nmero de
reclamaes sobre a ocorrncia de defeitos no suporte da lanterna traseira de um modelo de automvel
por ela fabricado. A empresa desejava eliminar esta situao indesejvel e para isto iniciou estudos
para melhorar resultados. Na etapa de identificao do problema, os tcnicos da indstria
classificaram o nmero total de peas defeituosas encontradas em uma amostra de peas produzidas
durante uma semana de trabalho, segundo os tipos de defeitos que foram detectados. Os dados obtidos
so apresentados na tabela abaixo.
Quantidade de
defeitos
14
01
04
24
01
44
07
79
01
05
180
R.:a)grafico em colunas ou barras ou pareto (preferncia). b)limpeza incompleta, moldagem dentada. Prioridade para os que
apresentam maior ocorrncia.
5)
De acordo com uma pesquisa, v-se que dos 36 empregados da seo de oramentos da Cia. Milsa, 12
tm o primeiro grau de educao, 18 o segundo e 6 possuem ttulo universitrio. Apresente esta
distribuio em uma tabela (com as propores) e em um grfico.
18
0,50
3 grau
Total
Fonte: exercicio
b) grafico barra ou coluna
6
36
0,17
1,00
6) Uma empresa procurou estudar a ocorrncia de acidentes com seus empregados, tendo, para isso,
realizado um levantamento abrangendo um perodo de 36 meses, onde foi observado o nmero de
operrios acidentados para cada ms. Os dados correspondentes so:
1
5
6
2
5
7
2
5
7
3
5
7
3
5
7
3
5
7
3
5
8
4
6
8
4
6
8
4
6
9
4
6
9
4
6
10
7) Contou-se o nmero de erros de impresso da primeira pgina de um jornal durante 50 dias, obtendose os resultados abaixo:
08
14
12
09
07
11
13
08
12
15
08
06
11
11
12
12
06
09
14
07
07
14
13
05
12
08
11
08
07
14
14
08
10
08
14
10
14
12
05
16
05
10
06
10
12
12
10
12
07
13
33
%
(100xfri)
6
6
10
14
4
10
8
18
6
14
2
2
100
3
3
5
7
2
5
4
9
3
7
1
1
50
Fonte: exercicio
b) grafico barras ou colunas.
c)10,24
d)10,5
e)12
8) A distribuio de freqncias do salrio anual dos moradores do bairro A que tm alguma forma de
rendimento apresentada na tabela abaixo:
Faixa Salarial (x10 S.M.)
0 2
2 4
4 6
6 8
8 10
10 12
12 14
fi
10.000
3.900
2.000
1.100
800
700
2.000
0,738
0,736
0,728
0,738
0,729
0,735
0,738
0,739
0,743
0,724
0,725
0,727
0,740
0,733
0,733
0,735
0,736
0,742
0,734
0,741
0,736
0,732
0,735
0,739
0,733
0,731
0,735
0,730
0,726
0,745
0,732
0,737
0,736
0,730
0,728
0,742
0,739
0,737
0,740
0,734
40
100,0
b) (
) Numa turma de 50 alunos onde todos tiraram a nota mxima, o desvio padro zero;
c) (
) Quando queremos verificar a questo de uma prova que apresentou maior nmero de erros,
utilizamos a mdia;
d) (
conjunto de dados, a mdia aritmtica fica adicionada (ou subtrada) dessa constante.
e) (
um conjunto de dados, a mdia aritmtica fica multiplicada (ou dividida) por essa constante.
f)
conjunto de dados, o desvio padro fica adicionado (ou subtrado) dessa constante.
g) (
um conjunto de dados, o desvio padro fica multiplicado (ou dividido) por essa constante.
R.: F,V,F,V,V,F,V
11) Na companhia A, a mdia dos salrios 10.000 unidades e o 750 percentil 5.000. Justifique.
a) Se voc se apresentasse como candidato a essa firma e se o seu salrio fosse escolhido ao acaso entre
todos os possveis salrios, o que seria mais provvel: ganhar mais ou menos que 5.000 unidades?
b) Suponha que na companhia B a mdia dos salrios 7.000 unidades e a varincia praticamente zero,
e l o seu salrio tambm seria escolhido ao acaso. Em qual companhia voc se apresentaria para
procurar emprego?R.: a) ganhar menos. b) B
12) Uma indstria de alimentos estava interessada em analisar seu processo de produo de determinado
alimento. Existem nesta indstria duas mquinas responsveis pelo controle do processo de
desidratao do alimento. Um importante item de controle do processo a umidade do produto final,
que segundo as especificaes, deve estar na faixa de 8,0% a 12%. Foi detectado incapacidade do
processo em atender s especificaes. A equipe tcnica suspeitava de que podia haver diferenas na
forma de funcionamento das duas mquinas de desidratao. Com o objetivo de observar o
funcionamento das mquinas foram feitas medidas do teor de umidade do produto final, estratificadas
por mquina de desidratao. Os resultados esto apresentados a seguir:
35
Mquina 1
11,7
11,2
11,9
10,9
11,8
11,2
11,1
11,7
12,1
11,8
11,4
11,3
10,7
11,2
10,7
11,5
11,7
11,0
11,2
10,9
11,7
11,6
10,7
11,1
11,0
11,6
11,3
10,9
12,5
11,0
11,2
10,7
12,2
11,2
11,5
10,7
11,3
11,1
12,2
12,1
11,5
10,2
11,8
10,6
10,4
11,2
11,1
11,0
11,9
10,4
9,9
10,8
11,8
10,5
11,2
11,9
10,8
11,0
10,7
11,4
10,2
10,8
11,5
11,5
10,8
10,9
10,9
10,4
10,2
10,1
10,8
Mquina 2
11,4
11,1
11,2
11,2
11,5
11,0
10,7
10,8
Para cada mquina, calcule a mdia, a mediana, o desvio padro, o coeficiente de variao e o intervalo
interquartil da varivel teor de umidade e construa o histograma e box plot. A partir das medidas
descritivas e dos histogramas e box plots, compare o desempenho das duas mquinas comentando os
aspectos de posio e variabilidade dos dados.
R.:
Maquina 1
Mdia=11,365
Mediana=11,25
Desvio Padro=0,4715
CV=0,0415
Quartil 1: 11,0
Quartil 3: 11,7
Maquina 2
Mdia=10,95
Mediana=10,9
Desvio Padro=0,5109
CV=0,0467
Quartil 1: 10,7
Quartil 3: 11,3
13) As instituies de poupaa e investimento podem comercializar um tipo de seguro de vida conhecido
como seguro de vida das instituies de poupana e investimento( savings bank life insurance
SBLI). O processo de aprovao consiste na subscrio, que inclui a reviso da proposta; verificao
das informaes mdicas ou exames adicionais; e o estgio de compilao da aplice, durante o qual
as pginas da aplice so geradas e enviadas ao banco para que sejam ento remetidas. A capacidade
de entregar as aplices aprovadas ao cliente em tempo hbil critica para a instiuio no que diz
respeito eficcia desse servio. Durante um perodo correspondente a um ms, foi selecionada uma
amostra aleatria de 27 aplices aprovadas, e foram registrados os seguintes dados sobre o total de
tempo, em dias, para o processamento.
73
19
16
64
28
28
31
90
60
56
31
56
22
18
45
48
17
17
17
91
92
63
50
51
69
16
17
36
14) Uma agncia bancria, localizada em uma rea residencial, est preocupada com o horrio de
pico durante o almoo, das 12h s 13h. O tempo de espera, em minutos, coletados a partir de
uma amostra aleatria de 15 clientes durante esse horrio, est apresentado a seguir:
9,66
5,90
8,02
5,79
8,73
5,64
4,08
6,17
9,91
5,47
3,82
8,01
8,35
10,49
6,68
15) Voc est indeciso em comparar uma televiso e decide avaliar algumas informaes
estatsticas, fornecidas pelo fabricante, sobre a durao (em horas) do tubo e imagem. Com
que marca voc ficaria?
Marca da TV
GA
FB
HW
Mdia
8.000
8.200
8.000
Mediana
8.000
9.000
7.000
600
1.500
2.500
Desvio padro
R:As mdias so similares. A mediana da FB mais alta, que um fator positivo. Por outro lado, HW tem a menor mediana e, portanto, essa
marca deve ser desconsiderada. Notemos que o desvio padro de FB duas vezes e meia maior do que o de GA. Como GA tem mediana no
muito baixa e pouca variabilidade, parecer ser a melhor opo. Portanto, recomendado comparar a marca GA.
Mdia
2,5
2,0
Mediana
1,7
1,9
Moda
1,5
1,9
R: A companhia A tem 50% dos seus estagirios recebendo at 1,7 salrios minimos e o valor com maior frequncia de ocorrncia
1,5. Como amdia 2,5 deve haver alguns poucos estagirios com salrio bem mais alto, ou seja, valor alto com frequncia pequena de
ocorrncia. A companhia B tem as trs medidas bem prximas indicando uma razovel simetria entre os salrios altos e baixos. A
opo do estudante depender de sua qualificao. Se o estudante for bem qualificado, deve preferir a companhia A, pois ter mais
chance de obter um dos altos salrios. Se tiver qualificao prxima ou abaixo dos outros estudantes, deve preferir a B qua parece ter
uma poltica mais homognea de salrios.
37
Introduo
Exemplo 1:
Flores brancas
Sementes
(10.000.000)
(POPULAO)
Flores vermelhas
11.2.
X =
X 1 + X 2 + ... + X n
n
(mdia amostral)
(varincia amostral)
Smbolos mais comuns
Mdia
Varincia
Propores
11.3.
Estimador
Parmetro
p ou
Introduo Amostragem
Usualmente impraticvel observar toda uma populao, seja pelo alto custo, seja por
dificuldades diversas. Examina-se ento uma amostra da populao. Se essa amostra for
bastante representativa, os resultados obtidos podero ser generalizados para toda a populao.
Uma amostra muito grande pode implicar em custos desnecessrios enquanto que uma
amostra pequena pode tornar a pesquisa inconclusiva. Assim, deve-se procurar dentro das
restries impostas pelo oramento, desenhar uma amostra que atinja os objetivos,
produzindo estimativas com menor impreciso possvel.
A experincia com amostragem fato corrente no cotidiano. Basta lembrar como um
cozinheiro verifica o tempero de um prato que est preparando, como algum testa a
39
no-probabilsticos. O primeiro grupo rene todas as tcnicas que usam mecanismos aleatrios
de seleo dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida a
priori, de pertencer amostra. No segundo grupo esto os demais procedimentos, tais como:
amostras intencionais, onde os elementos so selecionados com auxlio de especialistas, e
amostras de voluntrios, como ocorre em alguns testes sobre novos remdios.
Ambos os procedimentos tm suas vantagens e desvantagens. Os estatsticos preferem
trabalhar com as amostras probabilsticas pois, tm toda teoria de probabilidade e de inferncia
estatstica para dar suporte s concluses. Dessa forma, possvel medir a preciso dos
resultados, baseando-se na informao contida da prpria amostra. Planos de amostragem
probabilsticos podem ser exemplificados pela amostragem aleatria simples e pela amostragem
estratificada.
Amostragem Aleatria Simples
uma dessas regies. Este procedimento conhecido como a diviso da populao em estratos, e
consequentemente, definem os planos de Amostragem Estratificada.
11.4.
O uso de um levantamento amostral introduz um tipo de erro, que pode ser resumido na
diferena entre o valor de certa caracterstica na amostra e o parmetro de interesse na populao.
Esta diferena pode ocorrer apenas devido particular amostra selecionada, ou ento devido a
fatores externos ao plano amostral. Quando o erro devido amostra selecionada chamado de
erro amostral e quando devido fatores independentes do plano amostral (erros de medida,
digitao, etc) chamado de erro no-amostral.
Considera-se um erro amostral aquele desvio que aparece porque o pesquisador no
levantou a populao toda. Cada amostra possvel de um plano acarreta em um desvio. Vejamos
o esquema que se segue que considera a mdia como a caracterstica de interesse. Vamos denotar
por e X a mdia populacional e a mdia amostral da varivel, respectivamente.
Populao ou
Universo
1
Amostras possveis
de tamanho n
A1
=>
X1
A2
=>
X2
2
3
.
.
| X - | = E = erro
.
Ai
=> X i
Ak
=>
Xk
41
11.5.
Distribuies Amostrais
Diferentes amostras extradas da populao iro originar valores distintos para a estatstica
considerada. Por este motivo, dizemos que as estatsticas so variveis aleatrias, j que seu valor
no pode ser predito com certeza antes da amostra ter sido extrada. Alm disso, as estatsticas,
como funes de variveis aleatrias, so tambm variveis aleatrias, e, portanto, tm uma
distribuio de probabilidade, esperana e varincia.
A distribuio de probabilidade de uma estatstica quando consideramos todas as amostras
possveis de tamanho n denominada de distribuio amostral.
11.5.1.
normal com mdia e desvio padro / n , quando n suficientemente grande. Este resultado
uma aplicao de um importante teorema de probabilidade, chamado Teorema Central do
Limite. Para a utilizao deste resultado, usual considerar que o tamanho n da amostra
suficientemente grande quando n pelo menos 30.
Exerccios:
1) A mquina de empacotar um determinado produto o faz segundo uma distribuio normal,
com mdia e desvio padro de 10g.
a) Em quanto deve ser regulado o peso mdio para que apenas 10% dos pacotes tenham
menos do que 500g. R.:512,8 g
b) Com a mquina assim regulada, qual a probabilidade de que o peso total de 4 pacotes
escolhidos ao acaso seja inferior a 2 Kg?
R.:0,0052
2) No exemplo anterior, e aps a mquina estar regulada, programou-se uma carta de controle.
De hora em hora, ser retirada uma amostra de 4 pacotes, e estes sero pesados. Se a mdia da
42
amostra for inferior a 495g ou superior a 520g para-se a produo para reajustar a mquina,
isto reajustar o peso mdio.
a) Qual a probabilidade de ser feita uma parada desnecessria?
R.: 0,0749
R.: 0,8413
3) Para uma populao com desvio padro igual a 10, qual deve se o tamanho da amostra para
que a diferena da mdia amostral para a mdia populacional, em valor absoluto, seja menor
que 1, com probabilidade igual a 0.99 ? R.: 666
11.5.2.
Sn ~ Binomial (n,p).
Defina como p a proporo de elementos portadores da caracterstica na amostra, isto ,
n
p =
Sn
=
n
Xi
1
=X.
Exerccios
1) Um procedimento de controle de qualidade foi planejado para garantir um mximo de 10% de
itens defeituosos na produo. A cada 60 minutos sorteia-se uma amostra de 50 peas, e,
havendo mais de 15% de defeituosos, pra-se a produo para verificaes. Qual a
probabilidade de uma parada desnecessria? Resp.: 0,119
2) Suponha que uma indstria farmacutica deseja saber quantos voluntrios se deva aplicar uma
vacina, de modo que a proporo de indivduos imunizados na amostra difira de menos de 2%
43
11.5.3.
Distribuio Amostral de S2
Considere uma amostra aleatria de tamanho n que retirada de uma populao normal
com mdia e varincia 2, e seja S2 a varincia amostral. Ento a estatstica
tem
distribuio qui-quadrado com =n-1 graus de liberdade. A varivel aleatria Z tem funo de
densidade dada por:
1
-z 2
z 2 1 e
2
f(z) = 2
( 2 )
0, casocontrrio
, z>0
diz-se que Z segue uma distribuio qui-quadrado com graus de liberdade, denotada por
mdia e a varincia para a distribuio
so, respectivamente, e 2.
liberdade sendo
quadrado:
.
Probabilidade de
determinado valor
b)
c)
11.5.4.
e S2 a mdia e a varincia
A distribuio t de Student contnua e simtrica com mdia igual a zero. Sua aparncia
bastante parecida com a normal padro, veja Figura 1. Ambas as distribuies tem forma de sino,
mas a distribuio t tem mais probabilidade nos extremos. A qualificao com n-1 graus de
liberdade necessria, porque para cada valor diferente do tamanho da amostra n existe uma
distribuio t de Student especfica. O nmero de graus de liberdade (gl) o parmetro da
distribuio t de Student.
Assim como a distribuio normal padro a distribuio t de Student tambm tabelada.
A tabela fornece valores de
. A seguir,
45
mostrado
como
usar
tabela
da
distribuio
de
Student:
processo 500 gramas por mililitro de matria-prima. Para verificar essa afirmao, ele amostra
25 lotes a cada ms. Se o valor t calculado ficar entre t0,05;24 e t0,05;24, ele fica satisfeito com sua
afirmao. A que concluso ele deveria chegar em relao a uma amostra que tem mdia
gramas por mililitro e desvio padro 40 gramas? Assuma que a distribuio dos
rendimentos aproximadamente normal. R.: O valor de t=((518-500)/(40/5))=2,25. Este valor est fora do intervalo
[-1,711; 1,711].
12. Estimao
Os parmetros em geral so desconhecidos. A inferncia estatstica consiste em, atravs
de uma amostra, estimar os valores dos parmetros, ou tambm testar se algumas hipteses so
vlidas sobre determinados parmetros. Estes so os problemas da inferncia paramtrica
conhecidos como problemas de estimao e testes de hipteses, respectivamente.
Exemplos:
Problemas de estimao
1) Estimar a proporo de peas defeituosas num lote.
2) Estimar o peso mdio de um determinado produto de uma linha de produo.
46
Exemplo 12.1: Queremos investigar a durao de vida de um novo tipo de lmpada, pois
acreditamos que ela tenha durao maior do que as fabricadas atualmente.
Cem lmpadas so deixadas acesas at queimarem. A durao em horas de cada lmpada
(T) registrada.
POPULAO: todas as lmpadas fabricadas ou que venham a ser fabricadas por esta
fbrica.
AMOSTRA: cem lmpadas selecionadas.
Em geral, neste tipo de problema adotada a funo de densidade exponencial para
durao T ~ exp ().
Objetivo: Fazer inferncia sobre . Vale lembrar que E(T) = 1/ .
Existem dois tipos de estimao de um parmetro populacional: estimao pontual e a
estimao intervalar.
12.1.
Estimao Pontual
Procura encontrar um valor numrico nico que esteja bastante prximo do verdadeiro
valor do parmetro. Este procedimento no permite julgar a magnitude do erro que podemos estar
cometendo.
Estimadores pontuais razoveis dos principais parmetros populacionais.
Parmetro
Mdia ()
Estimador
X=
1 n
Xi
n i =1
Varincia (2)
Desvio padro
X
em que
n
X = nmero de elementos da amostra que possuem a caracterstica
n = tamanho da amostra
p =
Proporo (p)
47
Podem existir outros estimadores pontuais para esses parmetros. Assim, necessrio definir
propriedades desejveis para os estimadores de maneira que se possa escolher qual estimador
pontual de um determinado parmetro o melhor a ser usado. Este assunto no ser abordado
nesta apostila.
Muito provavelmente uma estimativa pontual no coincide exatamente com o valor verdadeiro do
parmetro populacional que est sendo estimado e, alm disto, esta estimativa no traz associada
a ela uma medida de sua preciso. A estimao intervalar que ser apresentada a seguir ajuda a
resolver este tipo de dvida.
12.2.
Estimao Intervalar
Procura determinar um intervalo que abranja o valor do parmetro, com certa margem de
segurana. Este procedimento permite julgar a magnitude do erro que podemos estar cometendo.
Como mencionado anteriormente, os estimadores pontuais especificam um nico valor
para o estimador e este procedimento no permite julgar qual a possvel magnitude do erro. Da
surge idia de construirmos os intervalos de confiana. De um modo geral, nos basearemos na
amostra para construir um intervalo que com alto grau (ou nvel) de confiana contenha o
verdadeiro valor do parmetro.
Grau de confiana a probabilidade do intervalo de confiana conter o verdadeiro valor do
parmetro. tambm chamado de nvel de confiana e geralmente expresso em porcentagem.
Formalizando um pouco, se denotarmos o parmetro de interesse por , desejamos obter
um intervalo com limite inferior I e limite superior S tal que
P(I < < S) = 1 - ,
1 = 0,90 ou 90%
= 0,05
1 = 0,95 ou 95%
= 0,01
1 = 0,99 ou 99%
A preciso com que se conhece depende da amplitude deste intervalo dada por S I.
Quanto menor esta amplitude melhor determinado estar o valor do parmetro.
48
49
12.2.1.
Populao Normal
Populao no Normal
2. Amostras grandes (n 30)
Populao Normal
Populao no Normal
Para pequenas amostras os procedimentos estatsticos de inferncia paramtrica exigem
que se verifique a normalidade da populao e outras distribuies de probabilidade (por
exemplo a distribuio t de Student) devem ser estudadas a fim de utilizar os procedimentos
adequados. Alm disso, se a normalidade no for aceitvel, no caso de amostras pequenas,
devemos utilizar procedimentos alternativos, por exemplo, inferncia no-paramtrica.
Para amostras suficientemente grandes os procedimentos simplificam bastante e
mesmo sem conhecermos a distribuio da populao, as inferncias podem ser feitas com
base na distribuio normal mesmo que a populao no seja normal.
Amostras pequenas
1) Distribuio normal,
(conhecido)
Esta situao um tanto quanto rara na prtica, pois embora a hiptese de normalidade
seja razovel em muitos casos, dificilmente se conhece a varincia de uma populao quando sua
mdia desconhecida. Algumas vezes o conhecimento de
sobre a populao de interesse ou de resultados obtidos em estudos similares ao que est sendo
realizado.
Sabemos que
X
P z < Z < z = P z <
< z = 1
2
2
2
2
/ n
50
o
o
, X + z
X z 2
2
n
n
0,95
0,025
0,025
-1,96
1,96
Ele sabe que esta varivel normalmente distribuda com desvio padro de 2 unidades.
Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades obtidos de uma amostra de
tamanho 9, determine o intervalo de confiana para a resistncia mdia com um nvel de
confiana de 95%.
Temos que X = 6,2 , n=9, 0=2 e para obtermos um intervalo de 95% de confiana
z/2= 1,96. Substituindo estes valores na frmula acima, obtemos
[6,222 1,96
2
2
; 6,222 + 1,96
] = [4,915 , 7,529]
9
9
Ento podemos afirmar com 95% de confiana que a resistncia mdia () do material est entre
4,915 e 7,529 unidades.
2) Distribuio normal,
desconhecido
distribuio t com n-1 graus de liberdade. O intervalo de confiana para a mdia obtido de
X
= P t
= 1
P t
t
< T < t
<
<
, n 1
, n 1
, n 1
, n 1
S n
2
2
2
s
s
X t
; X + t
, n 1 n
, n 1 n
2
2
calorias (x100), igual a: 10; 11; 11; 12; 13; 13; 13; 13; 13; 14; 14; 14; 15; 15; 16; 16. Construir
um intervalo de confiana para a mdia com um nvel de confiana de 90%.
Soluo:
1,7404
1,7404
s
s
X t
= [13,3125 1,753
; X + t
; 13,3125 + 1,753
]
, n 1 n
, n 1 n
4
4
2
2
= [ 12,543 ; 14,073 ]
Com 90% podemos afirmar que o consumo mdio de calorias, na populao da qual essa amostra
foi retirada, est entre 12,543 e 14,073.
s
s
; X + z
X z
n
n
2
2
Exemplo 12.4: Resistncia trao de 31 corpos de prova (ordenados).
131; 132; 134; 135; 136; 135; 138; 139; 140; 142; 143; 144; 144; 145; 146; 146; 147; 147; 148;
149; 150; 150; 151; 151; 152; 152; 153; 153; 154; 160; 160.
Estabelecer um intervalo de confiana de 95% para a mdia populacional.
Soluo:
Temos que, X = 145,39 e s = 7,75
Como o tamanho da amostra j pode ser considerado suficientemente grande para uma
aproximao normal, o intervalo de confiana para a mdia populacional :
52
s
s
7,75
7,75
;
X
z
X
+
z
; 145,39 + 1,96
]=
= [145,39 1,96
31
31
n
n
2
2
= [ 142,66 ; 148,12 ]
Podemos ento afirmar que com nvel de confiana de aproximadamente de 95% a resistncia
mdia do concreto est entre 142,66 e 148,12 kg/cm2.
Exemplo 12.5 (Werkema, 1996): Um dos principais produtos de uma empresa siderrgica a
folha-de-flandes com tmpera T4 RC, que uma folha de ao de baixo teor de carbono, revestida
em ambas as faces com uma camada de estanho, empregada principalmente na fabricao de
recipientes utilizados para o acondicionamento de alimentos.
Os limites de especificao para a dureza final das folhas-de-flandres so:
LIE = 58,0 HR
61,0
59,3
60,1
61,1
60,8
60,3
59,8
60,7
59,8
61,6
60,2
60,1
60,3
60,1
59,8
58,7
58,6
60,8
60,8
60,4
Desvio padro:
60,0
59,6
59,9
60,7
60,2
60,0
60,5
60,1
60,0
59,7
60,9
60,5
60,2
59,8
60,3
61,2
60,2
60,6
59,0
60,4
59,1
60,5
61,0
60,0
60,2
1 n
x i = 60,212 HR
n i =1
= 0,6107 HR
53
equipe tcnica da indstria pode concluir, com 95% de confiana, que o processo estava centrado
abaixo do valor nominal e ento, deve-se passar a estudar o processo de recozimento contnuo
para descobrir as causas deste deslocamento.
12.2.2.
p =
X
n
2
2
)
n ( p p)
< z / 2 = 1
p(1 p )
54
por
p(1 p)
p(1 p)
+
p
z
;
p
z
n
n
2
2
53
= 0,541
98
(1 p ) = 0,459
= 0,05 e z = 1,96
2
12.2.3.
Intervalo de Confiana para a Varincia e o Desvio Padro
de uma Populao Normal
Suponha que a populao de interesse tenha distribuio normal com mdia e varincia
2
e que desta populao foi extrada uma amostra aleatria de tamanho n. A partir do resultado
.
Neste contexto, um intervalo de confiana para
de 100(1-)% de confiana
O intervalo de confiana para o desvio padro obtido extraindo a raiz quadrada dos limites
de confiana do intervalo para a varincia.
55
Exemplo 12.7: Voltando ao exemplo 12.5. Construa um intervalo de confiana para o desvio
padro da dureza de folhas-de-flandres. Suponha que a dureza siga uma distribuio normal.
(=5%)
HR2.
Ento,
afirmar com 95% de confiana que o desvio padro da dureza est entre
HR.
13.1.
H1 hiptese alternativa
57
No exemplo das lmpadas se a mdia do tempo de vida das lmpadas fabricadas pelo novo
processo, ento:
H0) 1400
H1) > 1400
13.2.
Qualquer que seja a deciso tomada em um teste de hipteses, estamos sujeitos a cometer
erros, devido presena da incerteza.
Concluso do teste
No rejeitar H0
Rejeitar H0
Situao da populao
H0 verdadeira
H0 falsa
Correto
Erro tipo II
Erro tipo I
Correto
fundamental que, em cada caso, se saiba qual so os erros possveis e que se decida a priori
qual o mais srio. No possvel controlar ambos os erros ao mesmo tempo. Quando
diminumos muita a probabilidade de erro tipo I, aumentamos a probabilidade do erro tipo II e
vice-versa.
Exemplo 13.1: No caso das lmpadas, o erro tipo I seria aprovar o novo processo de fabricao
quando na realidade ele no superior. O erro tipo II seria rejeitar o novo processo de fabricao
quando , de fato, melhor.
13.3.
13.4.
A deciso entre as hipteses tomada com base nos dados de uma amostra extrada da
populao. No nosso exemplo, suspeitamos que o tempo de vida mdio das lmpadas maior que
1400. Colhe-se uma amostra aleatria de 100 lmpadas e determina-se o valor da mdia amostral
para, atravs dela, comprovar ou refutar tal hiptese.
Suponha que o pesquisador decide adotar a seguinte regra de deciso:
Rejeitar Ho se X for maior que 1800
Neste exemplo, X est sendo usada como estatstica de teste e a regio crtica ou regio de
rejeio aos valores que forem maiores que 1800.
13.5.
muito
adotado
consiste
em
Regra de deciso
p-valor > no rejeitar 0
p-valor rejeitar 0
13.6.
Hipteses unilaterais
0) 0 (ou = 0)
versus
H1) > 0
0) 0 (ou = 0 )
versus
H1) < 0
versus
H1) 0
Hiptese Bilateral
0) = 0
Distribuio normal,
desconhecido
Neste caso, como vimos em Intervalo de Confiana precisamos usar o desvio padro amostral s
para estimar , e utilizaremos a distribuio t de Student para encontrar a regio crtica do teste
ou calcular o p-valor. A estatstica de teste :
x 0
s
n
Vejamos as regras de deciso para cada tipo de hiptese considerada:
1. 0) 0 (u
( = 0) versus
H1) > 0 .
Rejeitar H0 se
x 0
> t , n -1
s
n
2. 0) 0 (ou
( = 0 ) versus
H1) < 0
Rejeitar H0 se
x 0
< t , n -1
s
n
3. 0) = 0 versus
H1) 0
60
Rejeitar H0 se
x 0
> t ; n 1
s
2
n
Exemplo 13.2: O tempo mdio, por operrio, para executar uma tarefa, tem sido 100 minutos.
Introduziu-se uma modificao para diminuir esse tempo, e, aps certo perodo, sorteou-se uma
amostra de 16 operrios, medindo-se o tempo de execuo de cada um. O tempo mdio da
amostra foi 85 minutos, e o desvio padro foi 12 minutos. Estes resultados trazem evidncias
estatsticas da melhora desejada? Apresente as suposies tericas usadas para resolver problema.
x 0
< t ,n 1
s
n
Rejeitar H0 se
85 100
< -1,753
12
16
Como o valor observado foi -5 e pertence regio crtica, a deciso deve ser de rejeitar H0, e
conclumos que existe evidncia de que o tempo mdio de execuo menor que 100 minutos.
Suposio: Varivel tempo segue distribuio Normal.
normal para encontrar a regio crtica do teste ou calcular o p-valor. Vejamos as regras de deciso
para cada tipo de hiptese considerada:
1. 0) 0 (u
( = 0) versus
H1) > 0
61
x 0
> z
s
n
Rejeitar H0 se
2.
0) 0 (ou
( = 0 ) versus H1) < 0
Rejeitar H0 se
x 0
< z
s
n
3. 0) = 0 versus H1) 0
x 0
> z
s
2
n
Exemplo 13.3: Uma rede de pizzarias deseja testar com nvel de 5% de significncia se o teor
Rejeitar H0 se
mdio de gordura em peas de salame produzidas por determinada indstria de alimentos igual
a 15%. De um grande lote retirou uma amostra de 50 peas de salame e os resultados esto a
seguir:
19,8
23,4
13,6
6,6
13,7
5,2
14,3
13,3
12,2
14,3
8,5
15,8
16,0
18,3
28,7
11,6
16,4
14,4
26,2
17,0
6,5
10,0
24,5
34,9
19,1
6,9
19,5
11,0
8,9
10,6
9,5
14,0
6,0
18,0
10,8
16,7
10,1
12,3
6,5
25,4
15,3
12,1
13,1
7,7
17,4
10,7
24,1
14,0
18,4
21,4
14,894
6,3871
Rejeitar H0 se
x 0
> z
s
2
n
62
Rejeitar H0 se
Como o valor observado foi 0,1174, que no pertence regio crtica, a deciso deve ser de no
rejeitar H0, e conclumos que no existe evidncia de que o teor de gordura nas peas de salame
produzidas pela indstria seja diferente de 15%.
Usando um pacote estatstico:
Varivel
Teor de Gordura
n
50
Mdia
14,894
Erro padro
0,903
t
-0,12
p-valor
0,91
Exemplo 13.4: Iremos utilizar teste de hiptese para solucionar a dvida da equipe tcnica da
indstria siderrgica: pode-se concluir, com bastante segurana, que o processo de recozimento
contnuo estava centrado abaixo do valor nominal da especificao (61,0 HR)? Essa dvida pode
ser solucionada por meio da realizao de teste de hiptese para a dureza mdia () das folhasde-flandres produzidas pelo processo:
H0 se
x 0
< z
s
n
60,212 61
< z
0,611
50
63
13.7.
Quando trabalhamos com grandes amostras vimos que a distribuio amostral das
propores se aproxima da distribuio normal. Se p a proporo populacional e p0 um valor
fixo. A estatstica de teste :
p p 0
p 0q 0
n
Vamos considerar os seguintes testes:
1. 0) p p0 ( p =p
= 0) versus
H1) p > p
Rejeitar H0 se
2. 0) p p0 (u
( p =p
= 0) versus
H1) p < p0
Rejeitar H0 se
3. 0) p = p0 versus
p p0
> z
p 0q 0
n
p p 0
< z
p 0q 0
n
H1) p p0
Rejeitar H0 se
p p 0
> z /2
p 0q 0
n
Exemplo 13.5: A fbrica A de automveis afirma que 60% dos consumidores compram carros
produzidos por ela. Uma fbrica concorrente deseja testar a veracidade desta afirmao. Para isso
decide realizar uma pesquisa por amostragem com 300 proprietrios de veculos.
64
p p 0
< z .
p 0q 0
n
165
= 0 ,55
300
p p0
0,55 0,60
=
1,77 < 1,645
p 0q 0
0,60 0,40
n
300
13.8.
Considere que uma amostra aleatria de tamanho n tenha sido extrada de uma populao
com distribuio normal com mdia e varincia 2. O interesse testar uma hiptese sobre a
varincia 2, que estimada por:
1. 0)
versus
H1 )
em que
tem distribuio Qui-Quadrado com (n-1) graus de liberdade, supondo que a hiptese
nula seja verdadeira.
Para um nvel de significncia , a regra de deciso dada por:
Rejeitar 0 se
65
Para a realizao dos testes unilaterais anlogo ao que foi apresentado para o teste bilateral.
2. 0)
versus
H1 )
versus
H1 )
Rejeitar H0 se
3. 0)
Rejeitar H0 se
Exemplo 13.8: Uma linha de montagem produz peas cujos pesos, em gramas, obedecem ao
modelo normal com varincia de 30 g2. Os equipamentos foram modernizados e, para verificar se
o processo continua sob controle, foi tomada uma amostra de 23 peas, que forneceu uma
varincia de 40 g2. Existem evidncias indicando que a varincia mudou, considerando =5%?
As hipteses a serem testadas so:
0) 2 = 30 g2
versus
H1) 2 30 g2.
Temos que,
.
Usando = 5% obtido a partir da tabela da distribuio qui-quadradro os seguintes resultados:
Como o valor observado foi 29,33, que no pertence regio crtica, a deciso deve ser de no
rejeitar H0, e conclumos que no existem evidncias de que a varincia do peso das peas mudou
para um valor diferente de 30 g2.
66
6a LISTA DE EXERCICIOS
1) De sua opinio sobre os tipos de problemas que surgiro no seguinte plano de amostragem.
Para investigar a proporo de estudantes da UFU, favorveis mudana do incio das
atividades das 7:10 h para as 8:00 h, decidiu-se entrevistar os 30 primeiros estudantes que
chegassem no bloco 4K, na segunda feira. R: No representa a populao. Somente um dia, em um prdio e nico
horrio.
2) Suponha que uma populao apresenta grande variabilidade em relao a uma determinada
caracterstica de interesse. Esta populao , ento, dividida em 4 grupos homogneos para a
caracterstica de interesse, com tamanhos, respectivamente, N1 = 90, N2 =120; N3 = 60 e N4 =
480.
a) Determine qual a tcnica de amostragem mais adequada a ser utilizada?
b) Pretende-se retirar uma amostra aleatria simples com reposio de 100 elementos da
populao. Quantas amostras devem ser retiradas de cada grupo, supondo que ser
retirada uma amostra proporcional ao tamanho dos grupos?
a)R: Amostragem estratificada b) n1=12, n2=16, n3=8 e n4=64
3) Nos itens apresentados adiante, identifique qual o tipo de amostragem mais adequado a ser
utilizado em cada situao.
a) Ao escalar um jri um tribunal de justia decidiu selecionar aleatoriamente 4 pessoas
brancas, 3 morenas, e 4 negras.
b) Um cabo eleitoral escreve o nome de cada senador do Brasil, em cartes separados,
mistura e extra 10 nomes.
c) Um administrador hospitalar faz uma pesquisa com as pessoas que esto na fila de espera
para serem atendidas pelo sistema SUS, entrevistando uma a cada 10 pessoas da fila. R: a) :
Estratificada ; b) : Aleatria simples sem reposio, c) Amostragem sistemtica.
4) Analise as situaes descritas abaixo e decida se a pesquisa deve ser feita por amostragem ou
por censo, justificando sua resposta.
a) Numa linha de produo de empacotamento de caf, observar o peso dos pacotes
produzidos.
b) Em uma sala de aula composta por 40 alunos, analisar suas idades.
c) Observar se a gua de uma lagoa est contaminada.
d) Verificar a carga horria diria de trabalho dos 20 funcionrios da cozinha de um
restaurante
e) Pesquisa de opinio eleitoral para um candidato a governador do estado da Bahia.
R.a)Amostragem, b)Censo, c)Amostragem, d)Censo, e)Amostragem
67
5) Para se ajustar uma mquina, a correia deve ter entre 60 e 62 cm de comprimento. Tendo em
vista o processo de fabricao, o comprimento destas correias pode ser considerado como
uma varivel aleatria com distribuio normal, de mdia 60,7 e desvio padro 0,8 cm. Um
grande revendedor dessas correias estabelece um controle de qualidade nos lotes que compra
da fbrica: ele sorteia 4 correias do lote e s aceita o lote se o comprimento mdio estiver
dentro do tamanho aceito pela mquina. Calcule a probabilidade de aceitao do lote. R: 0,9594
6) Um processo de encher garrafas de vinho fornece 10% de garrafas com volume abaixo do
especificado. Extrada uma amostra aleatria de 400 garrafas enchidas por esse processo, qual
a probabilidade de a proporo amostral de garrafas com volume abaixo do especificado
esteja entre 9% e 11%? R: 0,4971
7) Para uma distribuio qui-quadrado, determine
, de modo que:
)=0,99
a)
)=0,045
b)
R: a) 0,297
b) 46,928
8) Dada uma amostra de tamanho 24 de uma distribuio normal, determine k de modo que:
a) P(-2,069<T<k)=0,965
b) P(k<T<2,807)=0,095
c) P(-k<T<k)=0,90
R: a) 2,5; b) 1,319; c) 1,7139
9) Se recolhesse 200 amostras de dimenso 40 a partir da mesma populao, de modo que com
elas construsse 200 intervalos de confiana a 99%, quantos destes intervalos esperariam que
contivessem o verdadeiro valor da proporo de estudantes em anlise? R:198
10) Interprete e comente as afirmaes abaixo:
a) A mdia de salrio inicial para recmformados em Engenharia est entre 7 e 9 salrios
mnimos, com confiana de 95%
b) Quanto maior for o tamanho da amostra, maior a probabilidade de a mdia amostral
est prxima da verdadeira mdia populacional.
R: a)O intervalo, acompanhado da confiana, a forma correta de apresentar a informao. A verdadeira mdia est contida no intervalo
com 95% de confiana. No confundir confiana com probabilidade. b) A afirmao est correta.
11) Num estudo de mercado foi encontrado o seguinte intervalo de confiana a 95% para a
proporo de pessoas receptivas a um novo tipo de espuma de banho a lanar em breve no
mercado: ]52%; 61%[ . Comente as seguintes afirmaes, indicando se estas lhe parecem
corretas ou incorretas:
a) 95% das pessoas vo passar a usar a nova espuma de banho.
68
d) correta
12) Um provedor de acesso Internet est monitorando a durao do tempo das conexes de seus
clientes, com o objetivo de dimensionar seus equipamentos.
estimar a proporo P de usurios que demoram 60 minutos ou mais para realizarem suas
operaes. Uma amostra aleatria de clientes que utilizam esse provedor foi coletada e o
tempo de utilizao de cada um foi registrado, fornecendo as seguintes medidas desse tempo
(em minutos):
25
28
28
40
52
15
120
34
65
78
42
16
44
27
22
36
50
80
15
45
23
34
14
58
32
90
133
48
19
17
28
39
15
40
33
68
27
37
42
59
62
73
24
28
40
70
19
46
43
31
60
a) D uma estimativa pontual para proporo de usurios que demoram 60 minutos ou mais
para realizarem suas operaes.
b) Construa uma estimativa intervalar com 95% de confiana para proporo de usurios
que demoram 60 minutos ou mais para realizarem suas operaes.
13) O consumo de combustvel uma varivel aleatria com parmetros dependendo do tipo de
veculo. Porm, precisamos de informaes sobre o consumo mdio. Para tal coletamos uma
amostra de 40 automveis desse modelo e observamos o seu consumo.
a) Quem seria um estimador pontual do consumo mdio para todos dos automveis desse
modelo?
b) Se a amostra forneceu um consumo mdio de 9,3 km/l e desvio padro de 2 km/l.
Construa um intervalo de confiana de 94% para a mdia de consumo desses carros.
c) Se a amplitude de um intervalo de confiana, construdo a partir dessa amostra, de 1,5
km/l; qual teria sido o coeficiente de confiana.
R: a) Mdia amostral; b)[8,71; 9,89], c)98,22%
14) Uma empresa fabricante de pastilhas para freios efetua um teste para controle de qualidade de
seus produtos. Selecionou-se uma amostra de 600 pastilhas, das quais 18 apresentaram nveis
69
16) De 50.000 vlvulas fabricadas por uma companhia retirou-se uma amostra aleatria de 400
vlvulas, obtm-se o tempo de vida til das vlvulas, em horas. Os resultados esto adiante.
Tempo de vida til das vlvulas
500 |-- 600
600 |-- 700
700 |-- 800
800 |-- 900
900 |-- 1000
Total
Nmero de vlvulas
27
94
151
97
31
400
, b) 663
17) Uma unidade fabricante da Intel produziu 500.000 chips Pentium IV em certo perodo. So
selecionados, aleatoriamente, 400 chips para teste.
a) Supondo que 20 chips no tenham a velocidade de processamento adequada, construir o
intervalo de confiana para a proporo de chips adequados. Use um nvel de confiana
de 95%.
b) Verifique se essa amostra suficiente para obter um intervalo de 99% de confiana, com
erro mximo de 0,5%, para proporo de chips adequados. Caso contrrio, qual deveria
ser o tamanho da amostra? R: a) [92,9%;
97,1%] b)12.599
265
267
269
271
275
277
281
283
287
289
291
293
293
298
301
303
306
307
309
311
315
319
322
324
328
284
307
70
Considere que a varivel peso seja normalmente distribuda. Por meio da construo do Intervalo
de Confiana, responder se esta amostra satisfaz a especificao pela qual o peso mdio deve ser
300 Kg. Adote = 5%. R: a)[285,98;
301,51]
19) Suponha uma amostra aleatria de 10 contas correntes em uma grande loja de uma cadeia,
com um saldo devedor mdio de 27,60 dlares. Admita que o desvio padro de todos os
saldos de 12,00 dlares.
a) Calcule o intervalo de 95% de confiana para a mdia de todos os saldos. Suponha
normalidade.
b)
R: a)[20,16 ; 35,04]
20) Uma empresa de embalagens que presta o servio de envelopamento de revistas decidiu
reduzir a proporo de embalagens defeituosas produzidas. A empresa tomou como meta
reduzir para menos de 2% a proporo de embalagens defeituosas at o final do ano. Para
alcanar esta meta foram adotadas aes corretivas. Foram coletadas 2000 revistas
embaladas, para confirmar a efetividade das aes. Dentre estas revistas 50 foram
consideradas defeituosas. A meta de melhoria foi alcanada, ao nvel de 1%? R: No. [ 0,016 ; 0,034]
21) Uma companhia de seguros decidiu avaliar qual era a proporo de formulrios de aplices de
seguro preenchidos incorretamente (p) pelos operadores responsveis por esta tarefa. A
empresa considerava um resultado indesejvel descobrir que p 5%, o que implicaria na
necessidade de ser iniciado um trabalho para melhorar o nvel de qualidade que vinha sendo
alcanado. De uma amostra de 200 formulrios examinados, foram encontrados 9 que
apresentavam erros no preenchimento. A partir deste resultado, os tcnicos da empresa
desejam tomar uma deciso. Qual a deciso da empresa? ( = 5%). R: Iniciar um trabalho para melhorar o
nvel de qualidade dos formulrios de aplices. Regio crtica (-;-1,645]
22) Para avaliar a dureza de um material plstico recolheu-se uma amostra aleatria de oito
elementos. Os resultados obtidos foram:
R: a)
71
23) A cadeia de hotis American Resort d um teste de aptido aos candidatos a emprego, e
considera fcil uma questo do tipo mltipla escolha se ao menos 80% das respostas so
corretas. Uma amostra aleatria de 6503 respostas a determinada questo apresenta 84% de
respostas corretas. admissvel que a questo seja realmente fcil? Justifique (Use = 5%). R:
[ 83,1% ; 84,9%] . Sim.
24) Uma lei estadual exige um valor mdio superior a cinco ppm de oxignio dissolvido na gua,
cujo contedo seja suficiente para manter a vida aqutica. Oito amostras aleatrias de gua
foram retiradas de um rio e revelaram os seguintes ndices de oxignio dissolvidos:
4,9
5,1
4,9
5,0
5,0
4,7
5,8
5,2
; b)[0,22; 0,67]
25) Os Lderes estudantis de uma faculdade querem conduzir uma pesquisa para determinar a
proporo p de estudantes a favor de uma mudana no horrio de aulas. Como impossvel
entrevistar todos os 2000 estudantes em um tempo razovel, decide-se fazer uma amostragem
aleatria simples dos estudantes:
a) Determinar o tamanho de amostra (nmero de estudantes a serem entrevistados)
necessrio para estimar p com um erro mximo de 0,05 e nvel de confiana de 95%.
Assumir que no h nenhuma informao a priori disponvel para estimar p.
b) Os lderes estudantis tambm querem estimar a proporo de p de estudantes que sentem
que a representao estudantil atende adequadamente as suas necessidades. Com um erro
mximo de 7% e nvel de confiana de 95%, determinar o tamanho de amostra para
estimar p. Utilizar a informao de uma pesquisa similar conduzida h alguns anos,
quando 60% dos estudantes acreditavam que estavam bem representados.
c) Qual o tamanho de amostra adequado para atingir ambos os objetivos da pesquisa?
R: a)385;
b)189; c) Para atingir ambos os objetivos da pesquisa deveram considerar a maior amostra, que a de 385 estudantes.
26) Um gerente de uma filial de uma cadeia de livrarias deseja estudar as caractersticas dos
clientes de sua loja, que se localiza perto do campus de uma Universidade Federal. Ele
decidiu concentrar seu estudo em duas variveis: o valor gasto pelos clientes e se os clientes
esto interessados em adquirir vdeos educativos relacionados s reas de interesses (vdeos
sobre economia, estatstica, pesquisa operacional, etc.). Foi selecionada uma amostra aleatria
de 70 clientes e os resultados foram os seguintes: o valor gasto, em mdia, por cliente foi de
R$28,52 com desvio-padro de R$11,39 e 28 clientes declararam interesse em adquirir os
vdeos.
72
a) Determine o intervalo de confiana de 95% para o verdadeiro valor mdio gasto por
cliente.
b) Determine o intervalo de confiana de 99% para a verdadeira proporo de clientes que
declararam interesse em adquirir os vdeos educativos.
c) Para o nvel de confiana de 95%, qual deve ser o tamanho da amostra necessrio para
que o erro cometido na estimao da proporo de clientes que declararam interesse em
adquirir vdeos educativos seja de, no mximo, 5%?
d) Para um nvel de confiana de 99%, qual deve ser o tamanho da amostra para que o erro
cometido na estimao do valor mdio gasto por cliente seja de, no mximo, R$4,00?
R:
27) A associao dos proprietrios de industrias metalrgicas est muito preocupada com o tempo
perdido com acidentes de trabalho, cuja mdia, nos ltimos tempo, tem sido da ordem de 60
h/homem por ano e desvio padro de 20 h/homem. Tentou-se um programa de preveno de
acidentes e aps o mesmo, tomou-se uma amostra de 9 indstrias e mediu-se o nmero de
horas/homens perdidas por acidentes que foi 50 horas. Voc diria, ao nvel de 5%, que h
evidncia de melhoria?
28) O rtulo de uma caixa de sementes informa que a taxa de germinao de 90%. Entretanto,
como a data de validade est vencida, acredita-se que a taxa de germinao seja inferior a este
nmero. Foi realizado um experimento e de 400 sementes, tomadas ao acaso, 350
germinaram. Qual a concluso do teste ao nvel de 1% de significncia? R: A taxa de germinao no
inferior a 90%. Regio crtica (-; -2,33]
29) A fora de compresso de concreto est sendo testada por um engenheiro civil. Ele testa 12
amostras e obtm os seguintes dados:
2216 2237 2249 2204 2225 2301 2281 2263 2318 2255 2275 2295
Suponha normalidade para a populao de estudo, responda os itens a seguir:
a) Construir o intervalo de 95% para a fora mdia;
b) Construir o intervalo de 99% para a fora mdia;
c) Ao nvel de 5% de significncia, verificar se a verdadeira mdia da fora de compresso
difere de 2280.
d) Repetir o item c, usando =1%.
e) Repetir o item c, porm verificando se a verdadeira mdia da fora de compresso difere
de 2300.
f) Compare as concluses obtidas usando Intervalo de Confiana e teste de hipteses.
73
b) [ 2228,02; 2291,81 ]
confiana. d) No. A verdadeira mdia da fora de compresso no difere de 2280, com 99% de confiana
difere de 2300.
30) Um jornal afirma que 40% dos seus leitores tm curso superior. Um jornal concorrente afirma
que essa proporo menor. Para verificar sua suspeita, o concorrente sorteou 200 leitores
daquele jornal e observou os seguintes resultados:
Apresenta nvel
superior
Sim
No
Total
Nmero de
leitores
70
130
200
vs P<0,40;
b) Erro tipo I- Dizer que a proporo de leitores menor do que 40% quando na verdade proporo igual a 40%. Erro tipo II- Dizer que a
proporo de leitores igual a 40% quando na verdade a proporo menor. C)Rejeita a hiptese nula. Regio crtica (-; -1,28]
31) Numa linha de produo importante que o tempo gasto numa determinada operao no
varie muito de empregado para empregado. Em operrios bem treinados a variabilidade fica
em 100 segundos2. A empresa colocou 11 novos funcionrios para trabalhar na linha de
produo, supostamente bem treinados, e observou as seguintes informaes, em segundos:
Testar se a tempo despendido por estes funcionrios pode ser considerado mais varivel do que
os demais funcionrios. Suponha que a populao seja normalmente distribuda e utilize 5% de
significncia. Qual foi a concluso? R: Sim. Regio crtica [18,3070;
74
33) Um restaurante alega que a varincia para a durao do intervalo entre um atendimento e
outro inferior a 8,41 minutos2. Uma amostra aleatria de 23 intervalos de tempo at o
servio tem uma varincia de 4,41 minutos2. Sendo =5%, h evidncia suficiente que
sustente a alegao do restaurante? Suponha que a populao seja normalmente distribuda. R:
Rejeitae Ho , pois
34) Avaliou-se em 240 kg o desvio padro das tenses de ruptura de certos cabos produzidos por
uma fbrica. Depois de ter sido introduzida uma mudana no processo de fabricao desses
cabos, as tenses de ruptura de uma amostra de 8 cabos apresentaram o desvio padro de 300
kg. Verifique se houve aumento aparente da varincia, ao nvel de significncia de 5%.
Suponha que a populao seja normalmente distribuda.
R:
No
se
Rejeita
Ho,
pois
35) Um estudo foi desenvolvido para avaliar o salrio de empregados de nvel mdio na cidade de
Salvador. Foram sorteados e entrevistados 200 trabalhadores. Admita que o desvio padro do
salrio recebido pelos trabalhadores nessa cidade de 0,80 salrios mnimos.
a) Voc conhece a distribuio do estimador de ? Se no, possvel fazer alguma
suposio?
b) Deseja-se testar se a mdia igual a 3 salrios mnimos ou menor. Formule as hipteses
adequadas.
c) Se a amostra forneceu mdia de 2,5 salrios mnimos, qual seria a concluso (Use
=10%)?
R: a)No conhecemos e supomos n grande para aplicar o Teorema Central do Limite; b) H0: =3 vs H1: <3. Rejeita H0, regio crtica (-; 1,28]
0,06
p-valor
1,12
0,12
37) Uma mquina de refrigerantes considerada fora de controle se a varincia dos contedos
exceder 1,15 decilitros2. Se uma amostra aleatria de 25 copos de bebidas dessa mquina
apresentou uma varincia de 2,03 decilitros2. Assuma que a varivel de estudo tenha
75
que
mquina
est
fora
de
controle?R:
Rejeita
Ho,
pois
38) A fim de acelerar o tempo que um analgsico leva para penetrar na corrente sangunea, um
qumico analista acrescentou certo componente frmula original, que acusava um tempo
mdio de 43 minutos. O pesquisador obteve 36 observaes atravs de um experimento com
a nova frmula. A partir da sada do programa, o que analista pode concluir, ao nvel de 5%
de significncia, sobre a eficincia do novo componente? (Suponha que a populao tenha
distribuio Normal).
Varivel
Mdia
Desvio-padro
p-valor
Tempo
41,27
10,53
-0,99
0,16
39) Para verificar as hipteses de seu trabalho, um pesquisador fez vrios testes estatsticos (um
para cada hiptese de pesquisa), adotando para cada teste o nvel de significncia de 5%.
Responda os seguintes itens adiante:
a) Num dado teste, o p-valor=0,0001. Qual deve ser a concluso (decide-se pela hiptese
nula ou pela hiptese alternativa)? Qual o risco de o pesquisador estar tomando a deciso
incorreta?
b) Em outro teste, o p-valor=0,25. Qual deve ser a concluso? Nesse caso, voc consegue
avaliar o risco de o pesquisador estar tomando a deciso incorreta?
c) Em outros dois testes, os p-valores foram de 0,0001 e 0,01, respectivamente. Em qual dos
testes o pesquisador deve estar mais convicto na deciso de qual hiptese deve ser
escolhida? Por qu? R: a) Decide-se por H1, pois o p-valor menor que o nvel de significncia adotado. Dada a evidncia da
amostra, o risco dele estar tomando a deciso incorreta de 0,0001; b) Decide-se por H0, pois p-valor maior do que o nvel de
significncia adotado. Dada a evidncia da amostra, quando se no rejeita H0 o p-valor no oferece qualquer informao sobre o risco
de se estar tomando a deciso incorreta; c) Quanto menor o p-valor existe maior evidncia para a rejeio de H0.
40) Os seguintes dados vm de um estudo que examina a eficcia da cotinina na saliva como um
indicador para a exposio fumaa do tabaco. Em uma parte do estudo, sete indivduos
nenhum dos quais grandes fumantes e todos eles se abstiveram de fumar pelo menos uma
semana antes do estudo foi solicitado fumar um nico cigarro. Foram tomadas amostras da
saliva de todos os indivduos 12 e 24 horas depois de terem fumado o cigarro. Os nveis de
cotinina obtidos so mostrados adiante*:
76
*DIGIUSTO, E. e ECKHARD, I. Some Properties of Saliva Continine Measurements in Indicating Exposure To Tobacco Smoking, American
Indivduo
1
2
3
4
5
6
7
A partir da sada de um programa computacional a seguir, teste a hiptese nula de que as mdias
da populao sejam idnticas ao nvel de significncia de 5%. O que voc conclui?
Paired T-Test
N
Mean
StDev SE Mean
Doze
7 69.8571 42.2154 15.9559
VinteQuatro 7 30.4286 21.1176
7.9817
Difference
7 39.4286 31.3946 11.8660
95% CI for mean difference: (10.3934, 68.4637)
T-Test of mean difference = 0 (vs not = 0):
T-Value = 3.32
P-Value = 0.016
REFERNCIAS BIBLIOGRFICAS
1) MAGALHES, Marcos Nascimento; LIMA, Antonio Carlos Pedroso de. Noes de Probabilidade e
Estatstica. 6. ed., rev So Paulo, SP: EDUSP, 2005 392 p.
2) MONTGOMERY, Douglas C.; RUNGER, George C.; HUBELE, Norma Faris. Estatstica Aplicada
Engenharia. Rio de Janeiro: LTC, 2004. 335 p.
3) MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2006.
526 p.
4) WERKEMA, Maria Cristina Catarino. Como Estabelecer Concluses com Confiana: entendendo inferncia
estatstica. Belo Horizonte, MG: UFMG. Escola de Engenharia, [1996]. 309 p. (Ferramentas da qualidade 4) .
77
Distribuio t de Student* com os valores de t tais que a probabilidade de a varivel aleatria T ser
maior do que tc vale , ou seja, Prob(T tc) =
Valores de
Graus de
Liberdade
0,4
0,25
0,10
0,05
0,025
0,010
0,005
0,0010
0,0005
0,325
1,000
3,078
6,314
12,706
31,821
63,657
318,309
636,619
0,289
0,816
1,886
2,920
4,303
6,965
9,925
22,327
31,599
0,277
0,765
1,638
2,353
3,182
4,541
5,841
10,215
12,924
0,271
0,741
1,533
2,132
2,776
3,747
4,604
7,173
8,610
0,267
0,727
1,476
2,015
2,571
3,365
4,032
5,893
6,869
0,265
0,718
1,440
1,943
2,447
3,143
3,707
5,208
5,959
0,263
0,711
1,415
1,895
2,365
2,998
3,499
4,785
5,408
0,262
0,706
1,397
1,860
2,306
2,896
3,355
4,501
5,041
0,261
0,703
1,383
1,833
2,262
2,821
3,250
4,297
4,781
10
0,260
0,700
1,372
1,812
2,228
2,764
3,169
4,144
4,587
11
0,260
0,697
1,363
1,796
2,201
2,718
3,106
4,025
4,437
12
0,259
0,695
1,356
1,782
2,179
2,681
3,055
3,930
4,318
13
0,259
0,694
1,350
1,771
2,160
2,650
3,012
3,852
4,221
14
0,258
0,692
1,345
1,761
2,145
2,624
2,977
3,787
4,140
15
0,258
0,691
1,341
1,753
2,131
2,602
2,947
3,733
4,073
16
0,258
0,690
1,337
1,746
2,120
2,583
2,921
3,686
4,015
17
0,257
0,689
1,333
1,740
2,110
2,567
2,898
3,646
3,965
18
0,257
0,688
1,330
1,734
2,101
2,552
2,878
3,610
3,922
19
0,257
0,688
1,328
1,729
2,093
2,539
2,861
3,579
3,883
20
0,257
0,687
1,325
1,725
2,086
2,528
2,845
3,552
3,850
21
0,257
0,686
1,323
1,721
2,080
2,518
2,831
3,527
3,819
22
0,256
0,686
1,321
1,717
2,074
2,508
2,819
3,505
3,792
23
0,256
0,685
1,319
1,714
2,069
2,500
2,807
3,485
3,768
24
0,256
0,685
1,318
1,711
2,064
2,492
2,797
3,467
3,745
25
0,256
0,684
1,316
1,708
2,060
2,485
2,787
3,450
3,725
26
0,256
0,684
1,315
1,706
2,056
2,479
2,779
3,435
3,707
27
0,256
0,684
1,314
1,703
2,052
2,473
2,771
3,421
3,690
28
0,256
0,683
1,313
1,701
2,048
2,467
2,763
3,408
3,674
29
0,256
0,683
1,311
1,699
2,045
2,462
2,756
3,396
3,659
30
0,256
0,683
1,310
1,697
2,042
2,457
2,750
3,385
3,646
40
0,255
0,681
1,303
1,684
2,021
2,423
2,704
3,307
3,551
60
120
0,254
0,254
0,679
0,677
1,296
1,289
1,671
1,658
2,000
1,980
2,390
2,358
2,660
2,617
3,232
3,160
3,460
3,373
0,253
0,674
1,282
1,645
1,960
2,326
2,576
3,090
3,291
78
Graus de
Liberdade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,995
0,00
0,01
0,07
0,21
0,41
0,68
0,99
1,34
1,73
2,16
2,60
3,07
3,57
4,07
4,60
5,14
5,70
6,26
6,84
7,43
8,03
8,64
9,26
9,89
10,52
11,16
11,81
12,46
13,12
13,79
20,71
27,99
35,53
43,28
51,17
59,20
67,33
0,99
0,00
0,02
0,11
0,30
0,55
0,87
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
8,90
9,54
10,20
10,86
11,52
12,20
12,88
13,56
14,26
14,95
22,16
29,71
37,48
45,44
53,54
61,75
70,06
0,975
0,00
0,05
0,22
0,48
0,83
1,24
1,69
2,18
2,70
3,25
3,82
4,40
5,01
5,63
6,26
6,91
7,56
8,23
8,91
9,59
10,28
10,98
11,69
12,40
13,12
13,84
14,57
15,31
16,05
16,79
24,43
32,36
40,48
48,76
57,15
65,65
74,22
0,95
0,00
0,10
0,35
0,71
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,12
10,85
11,59
12,34
13,09
13,85
14,61
15,38
16,15
16,93
17,71
18,49
26,51
34,76
43,19
51,74
60,39
69,13
77,93
Valores de
0,50
0,10
0,45
2,71
1,39
4,61
2,37
6,25
3,36
7,78
4,35
9,24
5,35
10,64
6,35
12,02
7,34
13,36
8,34
14,68
9,34
15,99
10,34
17,28
11,34
18,55
12,34
19,81
13,34
21,06
14,34
22,31
15,34
23,54
16,34
24,77
17,34
25,99
18,34
27,20
19,34
28,41
20,34
29,62
21,34
30,81
22,34
32,01
23,34
33,20
24,34
34,38
25,34
35,56
26,34
36,74
27,34
37,92
28,34
39,09
29,34
40,26
39,34
51,81
49,33
63,17
59,33
74,40
69,33
85,53
79,33
96,58
89,33
107,57
99,33
118,50
0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,15
124,34
0,025
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
59,34
71,42
83,30
95,02
106,63
118,14
129,56
0,01
6,63
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,72
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,43
112,33
124,12
135,81
0,005
7,88
10,60
12,84
14,86
16,75
18,55
20,28
21,95
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,64
50,99
52,34
53,67
66,77
79,49
91,95
104,21
116,32
128,30
140,17
79
Z
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0,00
0,0000
0,0398
0,0793
0,1179
0,1554
0,1915
0,2257
0,2580
0,2881
0,3159
0,3413
0,3643
0,3849
0,4032
0,4192
0,4332
0,4452
0,4554
0,4641
0,4713
0,4772
0,4821
0,4861
0,4893
0,4918
0,4938
0,4953
0,4965
0,4974
0,4981
0,4987
0,4990
0,4993
0,4995
0,4997
0,4998
0,4998
0,4999
0,4999
0,5000
0,01
0,0040
0,0438
0,0832
0,1217
0,1591
0,1950
0,2291
0,2611
0,2910
0,3186
0,3438
0,3665
0,3869
0,4049
0,4207
0,4345
0,4463
0,4564
0,4649
0,4719
0,4778
0,4826
0,4864
0,4896
0,4920
0,4940
0,4955
0,4966
0,4975
0,4982
0,4987
0,4991
0,4993
0,4995
0,4997
0,4998
0,4998
0,4999
0,4999
0,5000
0,02
0,0080
0,0478
0,0871
0,1255
0,1628
0,1985
0,2324
0,2642
0,2939
0,3212
0,3461
0,3686
0,3888
0,4066
0,4222
0,4357
0,4474
0,4573
0,4656
0,4726
0,4783
0,4830
0,4868
0,4898
0,4922
0,4941
0,4956
0,4967
0,4976
0,4982
0,4987
0,4991
0,4994
0,4995
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,03
0,0120
0,0517
0,0910
0,1293
0,1664
0,2019
0,2357
0,2673
0,2967
0,3238
0,3485
0,3708
0,3907
0,4082
0,4236
0,4370
0,4484
0,4582
0,4664
0,4732
0,4788
0,4834
0,4871
0,4901
0,4925
0,4943
0,4957
0,4968
0,4977
0,4983
0,4988
0,4991
0,4994
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
Segunda decimal de zc
0,04
0,05
0,0160
0,0199
0,0557
0,0596
0,0948
0,0987
0,1331
0,1368
0,1700
0,1736
0,2054
0,2088
0,2389
0,2422
0,2704
0,2734
0,2995
0,3023
0,3264
0,3289
0,3508
0,3531
0,3729
0,3749
0,3925
0,3944
0,4099
0,4115
0,4251
0,4265
0,4382
0,4394
0,4495
0,4505
0,4591
0,4599
0,4671
0,4678
0,4738
0,4744
0,4793
0,4798
0,4838
0,4842
0,4875
0,4878
0,4904
0,4906
0,4927
0,4929
0,4945
0,4946
0,4959
0,4960
0,4969
0,4970
0,4977
0,4978
0,4984
0,4984
0,4988
0,4989
0,4992
0,4992
0,4994
0,4994
0,4996
0,4996
0,4997
0,4997
0,4998
0,4998
0,4999
0,4999
0,4999
0,4999
0,4999
0,4999
0,5000
0,5000
0,06
0,0239
0,0636
0,1026
0,1406
0,1772
0,2123
0,2454
0,2764
0,3051
0,3315
0,3554
0,3770
0,3962
0,4131
0,4279
0,4406
0,4515
0,4608
0,4686
0,4750
0,4803
0,4846
0,4881
0,4909
0,4931
0,4948
0,4961
0,4971
0,4979
0,4985
0,4989
0,4992
0,4994
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,07
0,0279
0,0675
0,1064
0,1443
0,1808
0,2157
0,2486
0,2794
0,3078
0,3340
0,3577
0,3790
0,3980
0,4147
0,4292
0,4418
0,4525
0,4616
0,4693
0,4756
0,4808
0,4850
0,4884
0,4911
0,4932
0,4949
0,4962
0,4972
0,4979
0,4985
0,4989
0,4992
0,4995
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,08
0,0319
0,0714
0,1103
0,1480
0,1844
0,2190
0,2517
0,2823
0,3106
0,3365
0,3599
0,3810
0,3997
0,4162
0,4306
0,4429
0,4535
0,4625
0,4699
0,4761
0,4812
0,4854
0,4887
0,4913
0,4934
0,4951
0,4963
0,4973
0,4980
0,4986
0,4990
0,4993
0,4995
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,09
0,0359
0,0753
0,1141
0,1517
0,1879
0,2224
0,2549
0,2852
0,3133
0,3389
0,3621
0,3830
0,4015
0,4177
0,4319
0,4441
0,4545
0,4633
0,4706
0,4767
0,4817
0,4857
0,4890
0,4916
0,4936
0,4952
0,4964
0,4974
0,4981
0,4986
0,4990
0,4993
0,4995
0,4997
0,4998
0,4998
0,4999
0,4999
0,4999
0,5000
80