Sunteți pe pagina 1din 35

Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R.

Schmildt

Teoria da Amostragem

Conteúdo da unidade: principais conceitos; tipos de amostragem;


determinação do erro; intervalo de confiança e; tamanho da amostra para
populações finitas e infinitas relacionado à média e proporção.

Objetivos da unidade: oferecer condições de trabalhar com amostragem


para casos de médias e proporções.

Esta Unidade estará dividida em duas partes, a saber: Amostragem;


Estimativas.

1) Amostragem

Considerações iniciais
O conhecimento de fatos que afetam a convivência socio-econômica
numa comunidade influi sempre na tomada de decisão de um indivíduo
em todos os aspectos de sua vida e de sua família. Um cidadão comum,
geralmente decide sobre os seus problemas diários bem como a respeito
dos rumos de seu negócio com base no bom senso e nas indicações de
sua experiência acumulada ao longo do tempo.
Quando uma pessoa escolhe uma marca de carro para comprar, um
mecânico para fazer revisão do seu carro, um oftalmologista para fazer
uma consulta, um restaurante para jantar, alguma informação ele utiliza
para nortear sua escolha. Esta informação é baseada em seus
conhecimentos ou nos de seus familiares ou amigos. Percebe-se que as
pessoas se utilizam no dia a dia de resultados de amostragens, mesmo
que imperceptivelmente.
Quando a indústria e o comércio se baseiam em levantamentos por
amostragens para decidir sobre os investimentos a serem feitos,
geralmente obtém sucesso. A pesquisa de mercado nesse caso é
fundamental para que se conheça a reação do consumidor a novos
produtos e embalagens, identificando-se críticas e razões pela preferência
por um artigo. Os resultados de pesquisa são sempre utilizados pela
indústria no sentido de se fabricar produtos que atendam às exigências do
mercado consumidor.
Para se fazer um diagnóstico sobre aspectos ligados a economia, um
pesquisador utiliza sempre levantamentos por amostragem. Os dados
coletados em planilhas de custo de acordo com o planejamento
estabelecido, permitem o cálculo do índice de inflação e de outros índices
econômicos relevantes para a população.
Em campanhas eleitorais, as pesquisas feitas por órgãos
especializados, apontam para a preferência do eleitorado a um
determinado candidato, apontando o possível vencedor no pleito.
Vários são os tipos de dados de interesse que são obtidos por
amostragem. Como exemplo, podem ser citados entre outros:
a) força de trabalho, nível de emprego e desemprego;
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

b)produção agrícola e nível de abastecimento;


c)produção industrial;
d)condições sanitárias da população;
e)inadimplência no comércio;
f)nível educacional da população;
g)nível de informatização das empresas;
h)orçamentos familiares e custo de vida;
i)audiência de programas de rádio e emissoras de TV.
Para que um levantamento por amostragem tenha sucesso, é
importante que se conheça profundamente a população.

Alguns conceitos

População: é o conjunto de todos os elementos de interesse em


um estudo (N).
Amostra: é um subconjunto da população. Tamanho n.
Parâmetro: uma característica numérica da população, como uma
média da população, μ um desvio padrão da população, σ uma proporção
da população e assim por diante.
Amostragem: estudo das relações existentes entre a amostra e a
população de onde esta foi extraída. A amostragem é usualmente
realizada com o objetivo de estimar parâmetros da população, como por
exemplo a média (μ), a variância (σ) ou a proporção (p) de uma
determinada característica.
Estimador: função que estima o valor de um parâmetro baseando-
se nas observações de uma amostra. Ele representa uma dada fórmula de
cálculo que fornecerá valores que serão diferentes, conforme a amostra
selecionada. Exemplos: i) o estimador da média populacional μ é
μ̂ ou X que é uma média amostral.
Estimativa: valor obtido pelo estimador numa amostra.
Inferência estatística: métodos que tornam possível a estimativa
de uma característica de uma população ou a tomada de uma decisão
referente à população com base somente em resultados de amostras.
Dados: se referem à informação numérica necessária para nos
ajudar a tomar decisões mais bem fundamentadas em determinada
situação. Lembramos que no passado muitas decisões eram difíceis de
serem tomadas por existência de poucos dados. Hoje o número de dados
normalmente disponível é grande e se faz necessário em alguns casos o
uso de amostragem, em outros casos a mineração de dados. Fonte
primária e fonte secundária, biblioteca virtual, são termos comuns a quem
trabalha com dados. Quando nos referimos a fonte secundária e biblioteca
virtual, estamos dizendo que alguém trabalhou por nós, não sendo
necessário fazer-se uma pesquisa de campo já que os dados estão
disponíveis. Dados secundários importantes são liberados por fontes do
governo federal.
Resumimos então três métodos para se dispor de dados: 1) fonte
primária; 2) fonte secundária; 3) pesquisa. Das três formas de obtenção

2
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

de dados, apenas na pesquisa aplicamos o chamado questionário. Os


dados de fonte secundária, já representados em gráficos e tabelas e
figuras são mais comuns que os dados primários.
Lembramos que existem essencialmente quatro motivos para se
coletar dados:
1) oferecer insumos a um estudo de pesquisa;
2) medir desempenho;
3) elevar o nível da tomada de decisão;
4) satisfazer nossa curiosidade.
Para se enfatizar a importância de se obterem dados de qualidade,
pesquisadores adotaram o termo GIGO (garbage in, garbage out) que
significa lixo dentro, lixo fora, em português podendo ser expresso por
LDLF.
Os dados são um produto observado das variáveis aleatórias. Estas,
conforme relatamos no capítulo 2, são qualitativas e quantitativas
(discretas e contínuas).

A amostragem e o censo

O censo é o estudo envolvendo todos os elementos da população.


Por meio do censo se determina o valor exato de cada parâmetro da
população. Exemplos disso são o censo demográfico e o agropecuário
realizados pelo governo Federal. No entanto, a realização do censo nem
sempre é possível e lança-se mão do uso de amostragens, pelas seguintes
razões:
a) Custo reduzido
Em função dos dados serem tomados de uma fração da população.
b) Maior rapidez
Em decorrência do menor volume de dados.
c) Maior amplitude
Em certas pesquisas há necessidade de utilização de uma equipe bem
treinada e equipamento bem sofisticado para obtenção dos dados, o que
limita a realização do censo. Assim, dado sua flexibilidade, a amostragem
pode ser utilizada em situações onde o censo é inviável.
d) Maior exatidão
Em decorrência da possibilidade de trabalhar com uma equipe de
melhor nível, mais bem treinada e ainda se poder acompanhar melhor a
coleta e a tabulação dos dados, em virtude da redução do volume de
trabalho.
e) Testes destrutivos
Nesses casos, como no teste de lâmpadas, não interessa testar toda
população e ter resultados sobre uma população que não mais existirá.

Por outro lado, o censo deve ser realizado:


- quando o tamanho da população for bastante pequeno;
- quando os requisitos do problema em estudo impõem a obtenção de
dados específicos de cada elemento da população;
- por imposição legal; - quando já se dispõe de informação completa.

3
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Planejamento de um levantamento por amostragem

No planejamento de qualquer levantamento, devem-se considerar


os seguintes tópicos:

a) Objetivos
A definição das finalidades do levantamento é a diretriz para a sua
perfeita execução. Baseado nos objetivos é que se obtém as conclusões
finais do trabalho.

b) População
Em certos casos a população é bem definida, em outros casos não.
População dos estudantes de uma universidade ou faculdade por exemplo
é bem definido, onde entrarão os alunos de graduação, pós-graduação e
os alunos especiais. No entanto, quando se fala em população de
hospedarias de uma cidade: um quarto alugado numa casa de família
seria considerado uma hospedaria e participaria do estudo?

c) Dados a serem coletados


Deve-se ter o cuidado de observar se todos os dados levantados são
essenciais para a pesquisa em questão. Perguntas supérfluas são
dispensadas como, qual o mês do nascimento do consumidor numa
pesquisa sobre consumo de macarrão.
Lembramos também que um questionário muito extenso, prejudica a
qualidade das respostas. O número de perguntas num questionário nunca
deve exceder a 30.

d) Grau de precisão
Quando se procede a um levantamento por amostragem, os resultados
estão sujeitos a um certo grau de incerteza, devido ao fato de que foi
considerada apenas uma parte da população. Segundo Levine et al.
(2000) existem quatro erros de pesquisa:

1) erro de cobertura – o caso mais conhecido foi o erro da revista


americana Literary Digest em 1936 com relação à previsão das eleições
presidenciais nos Estados Unidos. O erro foi tão gritante e a revista
perdeu a credibilidade vindo à falência. A revista previu que Alf Landon
(governador do Kansas) ganharia as eleções para presidente com 57%
dos votos. Quando a contagem dos votos terminou, Alf Landon teve
apenas 38% dos votos e o então presidente Franklin Delano Roosevelt
foi reeleito.
Surge a pergunta. O que houve de errado? Foi um caso de erro de
cobertura. A revista entrevistou 2,4 milhões de indivíduos (grande
número), no entanto selecionando os mesmos com base em fontes
como catálogo telefônico, lista de sócios de clubes, assinantes de
revistas e licenças de veículos. Desse modo, selecionou os ricos e
excluiu da sua lista a maioria da população votante, que ainda vivia
sofrendo devido á grande depressão, não possuindo recursos para

4
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

manter assinatura de revistas, telefones, etc. Certamente a revista não


errou a previsão para a população alvo mas errou a previsão para a
população real.

2) erro por falta de resposta – em pesquisas socio-econômicas


normalmente indivíduos de classes baixa e alta respondem com menos
freqüência que os da classe média. Com esses deveria se insistir para
que os mesmos respondam para não mascarar o verdadeiro resultado.
Insistir por correio ou por telefone.

3) Erro de amostragem – mesmo usando a aleatoriedade pelo uso de


tabelas aleatórias, a depender de que parte da tabela eu inicio a
seleção, os componentes da amostra serão diferentes do que se eu
começasse a seleção em outra parte da tabela, podendo produzir um
erro de amostragem. Esse erro, particularmente, é reduzido tomando-
se tamanhos da amostra maiores. Exemplo de situação com margem
de erro: “ espera-se que os resultados dessa votação estejam entre ± 4
pontos percentuais do valor real”
.
4) Erro de medição – ocorre devido falta de exatidão das respostas
registradas: por deficiência na formulação da pergunta; por um efeito
causado pelo entrevistador sobre o informante; por causa do esforço
realizado pelo informante.

e) Métodos de medida
Antes de coletar os dados, é necessário e importante que esteja bem
definida toda a metodologia de obtenção dos mesmos. Essas metodologias
podem ser, dentre outras:
e1) declaração de entrevistas;
e2) consultas de fichas;
e3) por telefone;
e4) por resposta a um questionário.
Caso os dados sejam coletados por mais de uma pessoa, é necessário
o bom treinamento e padronização de linguagem, a fim de existir um
critério único de registro de dados.
No caso de se trabalhar com questionário deve-se padronizar os
diferentes tipos de respostas a serem obtidas e, se possível, codificá-las
para cada item respondido, a fim de evitar controvérsias na tabulação dos
dados. Exemplo: Qual forma de pagamento aceita:
( ) dinheiro em moeda nacional
( ) dinheiro em moeda de outro país
( ) cheque
( ) cheque pré-datado
( ) cartão de crédito
( ) outra
É interessante na confecção dos questionários, que haja algumas
perguntas que sirvam para verificação da consistência das respostas,

5
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

como por exemplo: qual a renda da família? E depois: quais os aparelhos


eletrodomésticos que possui?

f) Unidade de amostra
Qual a unidade amostral? Num levantamento socio-econômico a
unidade de medida é a família com todos os residentes numa mesma
casa. Caso haja sublocação, também estes indivíduos estariam incluídos?
É necessário que haja uma definição prévia. Aqui portanto, observamos
mais uma vez que quem trabalha para fazer o levantamento deve ser
conhecedor do assunto.

g) Escolha do tipo de amostra


De conformidade com o tipo de levantamento é definido o tipo de
amostra que será adotado no estudo, de tal forma a obter o grau de
precisão desejado. Não se pode perder de vista o custo operacional do
trabalho e sua execução prática.

h) Pré-verificação
Na prática isso se chama de pré-amostragem. Aqui podemos detectar
possíveis faltas de entendimento no questionário e corrigir eventuais
falhas na estrutura adotada.

i) Organização do trabalho
Deve-se traçar toda a sistemática operacional da equipe de trabalho,
organizando um processo para acompanhamento dos resultados e ainda,
estruturar quais as providências tomar quando não são obtidas
informações de algum entrevistado, ou quando não é encontrado o
indivíduo.
A condução do levantamento amostral deve ser muito bem planejada,
já prevendo quaisquer imprevistos da não obtenção de dados. Deve-se
neste caso sortear alguns elementos reservas para eventuais substituições
na amostra.

j) Análise dos dados


Uma vez coletados os dados deve-se fazer a sua compilação e
conferência, a fim de corrigir eventuais falhas de registro. A seguir os
dados são processados organizando-se os dados em Quadros e tabelas de
onde são calculadas as estimativas desejadas. Sempre que possível, as
estimativas devem ser apresentadas, acompanhadas dos erros-padrão,
construindo-se intervalos de confiança, conforme o grau de precisão pré-
estabelecido. A ilustração dos resultados utilizando-se Gráficos e Figuras é
sempre recomendada, pois facilita o entendimento do fenômeno estudado.

k) Sugestões
As informações pré-amostrais são de grande valia na determinação
do método de amostragem a ser adotado. Desta forma, cada
levantamento pode fornecer valiosas sugestões para outras pesquisas
análogas futuras, principalmente no que tange a falhas cometidas. A

6
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

quantificação da variabilidade da população é bastante útil no


dimensionamento de novas amostras para novos estudos.

Amostragem probabilística e não probabilística

Quando se planeja cientificamente um levantamento por


amostragem, usualmente se leva em conta que todas as amostras
possíveis da população tem probabilidade diferente de zero de ser
selecionada. Neste caso a escolha da amostra é feita por processo
aleatório, o que permite a aplicação da teoria envolvida nas distribuições
probabilísticas da estatística.
Há casos em que restrições de ordem prática impedem que a
seleção da amostra seja totalmente aleatória e nesse caso a amostra é
não probabilística. Como exemplo de amostra não probabilística podem
ser citados os seguintes casos:

a) amostra de Conveniência – a amostra é identificada primariamente


por conveniência, devido principalmente:

a1) Acessibilidade
A amostra atinge apenas a parte acessível da população. Num vagão
de minério, por exemplo, a amostra pode ser feita em alguns casos
apenas nos 20cm superiores, por dificuldades de se atingir todos os
pontos do vagão.

a2) amostra tomada ao acaso


A amostra é constituída pelos elementos que se consegue tomar de
uma população. Num galpão de aves, por exemplo, a amostra pode ser
constituída das aves que forem tomadas no instante de coleta dos dados,
sem entretanto ter havido um sorteio prévio.

a3) Amostra de voluntários


Casos onde o processo de obtenção de dados é desagradável (amostra
envolvida num estudo com doadores de sangue ou portadores de doenças
fatais) ou o orçamento é baixo (uso de voluntários para uma pesquisa
escolar).

b) Amostra de julgamento ou intencional


O pesquisador escolhe a seu juízo os elementos da população que
julga representativos, para constituírem a sua amostra, mas sem fazer
sorteio. É perigoso pois pode ocorrer de se confundir amizade com
profissionalismo, e os constituintes da amostra serem as pessoas que o
entrevistador tem melhor relação, grau de parentesco, etc. Exemplo: um
repórter pode amostrar dois ou três senadores, julgando que eles reflitam
a opinião geral de todos os senadores sobre determinada situação.

7
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

O questionário e a entrevista
Em algumas áreas como a psicologia e a psiquiatria é possível a
obtenção de dados apenas com a observação das pessoas, com alta
precisão. No entanto, na maioria das áreas como as que se voltam para a
tomada de decisões administrativas e na epidemiologia, necessário se faz
levantamento de dados com o preenchimento de questionários ou em
entrevistas, satisfazendo a pesquisa do tipo Survey para coleta de dados:

a) obtenção de dados mediante perguntas


Por meio de perguntas feitas em questionários ou em entrevistas,
permitem obter informações de: comportamento; atitudes; motivações;
expectativas; crenças.

b) Vantagens e limitações dos questionários e das entrevistas


No questionário, as perguntas propostas pelo pesquisador são
respondidas por escrito pelo pesquisado, enquanto que na entrevista as
respostas do entrevistado são anotadas pelo pesquisador.
A técnica de questionário se desdobra em:
b1) enviado pelo correio – é a mais barata e garante o anonimato do
entrevistado, uma vez que este não precisa identificar-se. Exige que o
entrevistado saiba ler e esteja disposto a responder. Dessa forma, boa
parte dos questionários enviados pelo correio não é devolvida.
b2) aplicado em grupo – permite rapidez na aplicação, pois após os
esclarecimentos são preenchidos e recolhidos imediatamente,
proporcionando maior garantia de retorno.

A técnica de entrevista se desdobra em:


1) entrevista face a face – é bem flexível pois permite ajustar-se aos
mais diversos tipos de problemas e de informantes. Permite obter
respostas em profundidade, complexas, detalhadas, ligadas à
intimidade do entrevistado, desde que o pesquisador tenha habilidade
e treinamentos adequados. O entrevistador deve ser omisso em
relação as suas idéias para não influenciar o entrevistado.

2) por telefone – é bastante adotada em pesquisas de opinião de


mercado, sendo rápida, econômica e garantindo altas taxas de
resposta. A desvantagem desta técnica é que nem sempre a amostra
obtida é representativa da população, pois nem todos possuem
telefone.

3) Pela internet – também pode ser rápida a resposta, porém apresenta


a limitação de nem todos terem acesso a um computador.

c) Construção de questionários
O questionário deve traduzir os objetivos da pesquisa em itens bem
redigidos. Para tanto é importante que os objetivos tenham sido bem
definidos. As perguntas devem ter conteúdos adequados para obtenção
dos dados do entrevistado, podendo ser feitas de forma aberta ou

8
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

fechada. Em estudos iniciais podem ser usadas perguntas abertas, onde o


entrevistado responde com suas próprias palavras sem qualquer restrição.
As perguntas fechadas são mais freqüentemente usadas. Nesse tipo de
pergunta, as respostas são fixadas de antemão.
Exemplo 1: Qual forma de pagamento aceita:
( ) dinheiro em moeda nacional
( ) dinheiro em moeda de outro país
( ) cheque
( ) cheque pré-datado
( ) cartão de crédito
( ) outro
Exemplo 2: Coloque um X na opção correspondente ao seu nível de
renda líquida:
( ) abaixo de R$ 1.000,00
( ) de R$ 1.000,00 a R$ 1.999,00
( ) de R$ 2.000 a R$ 2.999,00
( ) de R$ 3.000 a R$ 3.999,00
( ) de R$ 4.000 a R$ 4.999,00
( ) acima de R$ 5.000,00

Nesse momento para melhor entendimento do que estamos falando,


recorra à unidade I (p. 15), onde na figua 6 retratamos um exemplo de
formulário que pode ser aplicado na forma de entrevista. Nesse exemplo
verifica-se um questionário contendo 10 perguntas, sendo duas abertas e
oito fechadas. Lembramos que o número de perguntas de um questionário
não deve ultrapassar a trinta.
A ordem das perguntas é importante devendo-se evitar mudanças
bruscas de tema sem antes oferecer as explicações necessárias.
Recomenda-se que a pergunta refira-se a uma única idéia de cada vez,
possibilitando interpretação única. De maneira nenhuma a pergunta deve
sugerir a resposta. Deve-se evitar também que o entrevistado se sinta
julgado ou exposto na pergunta.
Voltamos a falar aqui sobre a necessidade de se fazer um pré-teste
para evidenciar possíveis falhas tais como: complexidade das perguntas,
imprecisão da redação, questões desnecessárias, cansaço e
constrangimento do entrevistado.

d) condução de entrevista
O pesquisador deve ser cuidadoso e habilidoso na realização da
entrevista. Recomenda-se uma conversa inicial, de forma amistosa, sobre
qualquer tema que possa interessar ao entrevistado procurando obter a
sua confiança. Em seguida são feitos esclarecimentos sobre a finalidade
da pesquisa.
O entrevistado deve sentir-se absolutamente livre de qualquer
pressão ou intimidação. Ao se fazer as perguntas recomenda-se ter o
cuidado de não se deixar implícito as respostas, ou seja, o entrevistado
não deve ser induzido a uma resposta específica.

9
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Terminada a entrevista, a boa educação sugere que o entrevistado


seja tratado com respeito. Como existe a possibilidade de uma nova
entrevista a posteriori, convém ao pesquisador conseguir que a porta
fique aberta para prováveis novos encontros.

Tipos de amostragem Probabilística


Entre os tipos de amostragem probabilística, os mais usados são:
amostra aleatória simples; amostra aleatória sistemática; amostra
aleatória estratificada; amostra aleatória por conglomerado.

Amostragem aleatória simples


Está na dependência do tipo de população, finita ou infinita

Amostra aleatória simples (população finita)


Uma amostra aleatória simples de tamanho n de uma população
finita de tamanho N é uma amostra selecionada tal que cada possível
amostra de tamanho n tem a mesma probabilidade de ser selecionada.
Para selecionar os elementos da amostra de populações finitas,
podemos usar de recursos como sorteios com uso de dado, papéis
numerados, ou mais freqüentemente e corretamente as tabelas de
números aleatórios (vide como exemplo o Quadro 26). Os números
aleatórios podem ser selecionados de qualquer lugar do Quadro. É
importante manter uma seqüência lógica (coluna de cima para baixo, linha
esquerda para a direita, etc). Existem várias tabelas de números
aleatórios com seqüência de três, quatro ou cinco números. Essas tabelas
também podem ser obtidas em programas como Excel.
Para o Excel entre em inserir – função - aleatórioentre. Designe o
menor e o maior número do intervalo e posteriormente arraste o mouse
correspondente ao número de células que seja o tamanho da amostra.

Exemplos:
1) A Fortune publica dados sobre vendas, lucros, lucro líquido dos
acionistas, valor de mercado e ganhos por ação para as 500 maiores
empresas industriais dos Estados Unidos (The Fortune 500, 1998).
Suponha que você quer selecionar uma amostra aleatória simples de
10 empresas da lista de Fortune 500. Use os últimos 3 dígitos na
coluna 9 do Quadro 26, começando com 554. Leia a coluna de cima
para baixo e identifique os números das 10 empresas que seriam
selecionadas.
Resolução:
459 147 385 113 340 401 215 002 033 348

10
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Tabela de Números aleatórios (Anderson et al., 2002).


63271 59986 71744 51102 15141 80714 58683 93108 13554 79945
88547 09896 95436 79115 08303 01041 20030 63754 08459 28364
55957 57243 83865 09911 19761 66535 40102 26646 60147 15702
46276 87453 44790 67122 45573 84358 21625 16999 13385 22785
55363 07449 34835 15290 76616 67191 12777 21861 68689 03263

69393 92785 49902 58447 42048 30378 87618 26933 40640 16281
13186 29431 88190 04588 38733 81290 89541 70290 40113 08243
17726 28652 56836 78351 47327 18518 92222 55201 27340 10493
36520 64465 05550 30157 82242 29520 69753 72602 23756 54935
81628 36100 39254 56835 37636 02421 98063 89641 64953 99337

84649 48968 75215 75498 49539 74240 03466 49292 36401 45525
63291 11618 12613 75055 43915 26488 41116 64531 56827 30825
70502 53225 03655 05915 37140 57051 48393 91322 25653 06543
06426 24771 59935 49801 11082 66762 94477 02494 88215 27191
20711 55609 29430 70165 45406 78484 31639 52009 18873 96927

41990 70538 77191 25860 55204 73417 83920 69468 74972 38712
72452 36618 76298 26678 89334 33938 95567 29380 75906 91807
37042 40318 57099 10528 09925 89773 41335 96244 29002 46453
53766 52875 15987 46962 67342 77592 57651 95508 80033 69828
90585 58955 53122 16025 84299 53310 67380 84249 25348 04332

32001 96293 37203 64516 51530 37069 40261 61374 05815 06714
62606 64324 46354 72157 67248 20135 49804 09226 64419 29457
10078 28073 85389 50324 14500 15562 64165 06125 71353 77669
91561 46145 24177 15294 10061 98124 75732 00815 83452 97355
13091 98112 53959 79607 52244 63303 10413 63839 74762 50289

2) Suponha que queremos identificar uma amostra aleatória simples de


12 médicos de um total de 372 de uma cidade. Os nomes dos médicos
estão disponíveis na organização médica local. Use a oitava coluna de
números aleatórios de cinco dígitos do Quadro 26 para identificar os 12
médicos da amostra. Ignore os dois primeiros dígitos aleatórios em
cada um dos grupos de números aleatórios de cinco dígitos. Esse
processo começa com o número aleatório 108 e continua de cima para
baixo na coluna de números aleatórios.
Resolução:
108 290 201 292 322 009 244 249 226 125 147 113

11
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

3) A Airport Transport Association of America forneceu a seguinte lista das


dez maiores linhas aéreas no mundo (The Book of Mosts, 1997):
01. Aeroflot (Rússia) 06. JAL (Japão)
02. Air France (França) 07. Lufthansa (Alemanha)
03. Americam Airlines (EUA) 08. Northwest Airlines (EUA)
04. British Airways (Inglaterra) 09. United Airlines (EUA)
05. Delta Airlines (EUA) 10. USAir (EUA)
a) Assuma que uma amostra aleatória de cinco dessas linhas aéreas serão
selecionadas para um estudo profundo de fatores tais como o número
de aviões em serviço, o total de milhas anuais voadas pelos
passageiros e assim por diante. Começando com o primeiro dígito
aleatório do Quadro 26 e lendo a coluna para baixo, selecione as cinco
linhas aéreas a serem usadas no estudo.
Resolução:
06 10 09 07 05, ou seja:
05. Delta Airlines (EUA)
06. JAL (Japão)
07. Lufthansa (Alemanha)
09. United Airlines (EUA)
10. USAir (EUA)

b) Quantas amostras aleatórias simples diferentes de tamanho cinco


podem ser selecionadas da lista de dez linhas aéreas?
Resolução:
Trata-se de um caso de combinações.
⎛ N⎞ N! 10!
⎜⎜ ⎟⎟ = = = 252 amostras aleatórias simples
⎝ n ⎠ ( N − n )!n! 5!5!

Amostra aleatória simples (população infinita)


Na prática, uma população é considerada infinita se ela envolve um
processo contínuo que torna impossível a contagem de cada elemento na
população.
Na amostragem a partir de uma população infinita, precisamos usar
uma nova definição de amostra aleatória simples. Além disso, como os
elementos de uma população infinita não podem ser numerados,
precisamos usar um processo diferente para selecionar os elementos para
a amostra.
Uma amostra aleatória simples a partir de uma população infinita é
uma amostra selecionada tal que as seguintes condições são satisfeitas:
a) cada elemento selecionado vem da mesma população; 2) cada
elemento é selecionado de forma independente.
Como exemplo de como selecionar os elementos de uma amostra,
consideremos: queremos estimar o tempo médio entre fazer um pedido e
receber a comida para os clientes em um restaurante fast food durante o
horário de almoço das 11h30 às 13h. Se considerarmos a população como
a visita de todos os possíveis clientes, vemos que não seria viável
especificar um limite finito ao número de possíveis visitas. De fato, se

12
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

definirmos a população como todas as visitas de clientes que poderiam


concebivelmente ocorrer durante o horário de almoço, podemos
considerar a população como sendo infinita. Um procedimento para
selecionar a amostra poderia ser: se alguns clientes possuem cupons que
lhes oferece desconto, o próximo cliente servido é selecionado para a
amostra. Como os clientes apresentam cupons de desconto de forma
aleatória e independente, a empresa está satisfeita de que o plano de
amostragem cumpra as duas condições: uma amostra aleatória simples a
partir de uma população infinita.
Para o caso de populações consideradas infinitas, fica claro que a
amostra aleatória simples é constituída sem qualquer auxílio de tabelas de
números aleatórios.
A Figura a seguir representa a amostra aleatória simples.
Selecionamos aleatoriamente uma parte da população com características
diversas para compor a amostra. Repare que embora haja uma
segmentação das características da população, representada por desenhos
variados, estes segmentos estão “embaralhados” dentro da população.

Amostra

População

Amostragem aleatória sistemática


É uma variação da amostra aleatória simples. Sua aplicação exige
que a população esteja devidamente ordenada de tal forma que cada um
dos seus elementos possa ser unicamente identificado por sua localização.
Isto ocorre, por exemplo, quando todos os elementos de uma população
estão anotados em uma listagem, quando um grupo de pessoas está
colocado em uma fila ou ainda quando se considera o conjunto das fichas
de inscrição referentes aos candidatos de um concurso.
Para efetuar a seleção da amostra, procede-se ao sorteio de um
ponto de partida entre 1 e o fator de expansão, k, definido pela razão
entre o número de elementos da população e o número de elementos da
N
amostra, isto é: k=
n

13
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Uma vez sorteado o primeiro elemento da amostra, os demais serão


encontrados, somando-se k, 2k, 3k, ... até completar a amostra. Portanto
se a população tem N = kn elementos, existem k possíveis amostras
sistemáticas de tamanho n.
Como exemplo, seja uma população com N = 50 elementos.
Tomando-se amostras sistemáticas n = 10, existem
N 50
k= k= =5 possíveis amostras sistemáticas
n 10

Amostras Elementos
1 1 6 11 16 21 26 31 36 41 46
2 2 7 12 17 22 27 32 37 42 47
3 3 8 13 18 23 28 33 38 43 48
4 4 9 14 19 24 29 34 39 44 49
5 5 10 15 20 25 30 35 40 45 50
Admitindo que o primeiro elemento sorteado tenha sido o 3, a
amostra selecionada é constituída pelos elementos:
3 8 13 18 23 28 33 38 43 48
Na prática é comum ocorrer que N ≠ kn. Neste caso as amostras
terão tamanhos diferentes. Considere uma população com N = 26, da qual
serão extraídas amostras sistemáticas n = 9. Portanto: k = 26/9 = 2,9 ≅
3. Como k exigiu arredondamento, em conseqüência as amostras terão
tamanhos diferentes, conforme listados a seguir:

Amostras Elementos
1 1 4 7 10 13 16 19 22 25
2 2 5 8 11 14 17 20 23 26
3 3 6 9 12 15 18 21 24
Se se começar com o elemento 1, a amostra será constituída pelos
elementos:
1 4 7 10 13 16 19 22 25
Se se começar com o elemento 3, a amostra será constituída pelos
elementos:
3 6 9 12 15 18 21 24
A amostra sistemática apresenta as seguintes vantagens em relação à
amostra aleatória simples:
a) maior simplicidade no processo de seleção dos elementos que
comporão a amostra. O sorteio do primeiro elemento define os (n – 1)
outros do rol dos dados que comporão a amostra. Isto facilita a
supervisão da coleta dos dados controlando facilmente os erros;
b) a amostra sistemática se distribui mais uniformemente na população
podendo levar a uma maior representatividade;
c) a população fica dividida em n estratos de tamanho k, sendo tomado
um elemento de cada estrato. A precisão das estimativas quase
sempre é maior.

14
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Amostra aleatória estratificada


A amostragem estratificada pressupõe a divisão da população em
subgrupos (estratos) de itens similares, procedendo-se então a
amostragem em cada subgrupo. Deve ser usada quando a população é
heterogênea. A lógica do processo é que, dispondo os itens da população
em subgrupos homogêneos, a variabilidade é menor que a da
população global, o que leva a um menor tamanho de amostra.
Consideremos alguns exemplos onde a amostragem estratificada
deve ser adotada:
1) Um estudo do volume de vendas comparado com o gasto com
propaganda, desde que haja muitas firmas incluídas no estudo;
2) Estudo do tempo que indivíduos de várias categorias de rendas
despendem com o lazer;
3) Percentagem de salários gastos com recreação, por pessoas de várias
categorias de rendas;
4) Em pesquisa política, também pose-se adotar amostra estratificada,
considerando que em épocas de eleições as regiões da cidade se
transformam em centros de influência de alguns candidatos, o que
poderia de alguma forma influenciar as conclusões finais sobre intenção
de voto;
5) Número de carros por família numa cidade, considerando que existem
bairros que residem famílias de melhor poder aquisitivo e bairros que
residem famílias sem condições de sustentar um carro;

Ilustrativamente, possuo uma amostra de tamanho 8 com relação


ao número de carros por família numa cidade:
Identificação da Família Carros (nº)
Bairro A
1 3
2 2
3 4
4 3
Bairro B
5 1
6 0
7 1
8 0
O número médio de carros por família é de 1,75 e o desvio padrão é
de 1,49. No entanto, se eu considerar cada bairro isoladamente, o desvio
padrão para o bairro A será de apenas 0,82 e do bairro B será de 0,58.
Esse exemplo poderia ser claro para um mesmo bairro, por exemplo, o
bairro de São Conrado no Rio de Janeiro, onde fica a favela da rocinha.
Esse bairro é segmentado em dois grupos pela classe social, e, portanto a
estratificação se faz necessária.
A figura a seguir ilustra esquematicamente a amostra estratificada.
Todos os estratos são contemplados na amostra. Apesar da semelhança
no mesmo quadrante, a estratificação se mostra necessária devido à
diferença entre os quatro quadrantes.

15
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Amostra

População
Amostragem aleatória por conglomerado
Ao contrário da amostra estratificada, os conglomerados são muito
semelhantes uns aos outros. Logo, aqueles que compõem a amostra tem
a capacidade de representar os que não a pertencem.
Quando realizamos uma pesquisa em um bairro de uma cidade onde
as características de todos os consumidores se assemelham,
independentemente do quarteirão selecionado, os quarteirões não
selecionados para participar da amostra serão representados pelos
selecionados. Assim teremos uma visão de todo o bairro.
Se o bairro fosse composto por pessoas de classes sociais
diferentes, concentradas em determinados quarteirões do bairro, a
amostragem mais apropriada seria a por estratificação. A figura a seguir
representa amostragem por conglomerados.

População
Conglome-
rado =
Amostra

16
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

2) Estimação
Para trabalhos em epidemiologia, vide artigo a seguir:
PEREIRA, Júlio C.R. Tamanho de amostra: uma necessidade real ou um
capricho cultural? Arteríola, v.4, n.1, p.13-16, 2002.

Resumo de fórmulas:
População
Infinita Finita
A. Estimativa de médias
Pontual X X
Intervalar
σx conhecido
σX σX N−n
X±Z X±Z
n n N −1
σx desconhecido
X±t
sX sX N−n
X±t
n n N −1
Tamanho da amostra
σx conhecido
Z 2 σ 2X Z 2 σ 2X N
n= n= 2 2
e2 Z σ X + e 2 ( N − 1)
σx desconhecido
Z 2 s 2X t 2 s 2X N
n= n=
e2 t 2 s X2 + e 2 ( N − 1)
Erro
σx conhecido
σX σX N−n
e=Z e=Z
n n N −1
σx desconhecido
e=t
sX sX N−n
e=t
n n N −1
B. Estimativa de proporções
Pontual (p) X X
n n
Intervalar (IC)
X (X / n )[1 − (X / n )] X (X / n )[1 − (X / n )] N − n
±Z ±Z
n n n n N −1
Tamanho da amostra
⎧ (X / n )[1 − (X / n )] ⎫ Z 2 (X / n )[1 − (X / n )]( N)
n = Z2 ⎨ ⎬ n =
⎩ e2 ⎭ ( N − 1)e 2 + Z 2 (X / n )[1 − (X / n )]

Erro (X / n )[1 − (X / n )] (X / n )[1 − (X / n )] N − n


e=Z e=Z
n n N −1

17
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Sendo,
X = número de itens na amostra
Z = desvio padrão normal, valor tabelado
n = tamanho da amostra

Alguns conceitos

População: é o conjunto de todos os elementos de interesse em


um estudo.
Amostra: é um subconjunto da população.
Parâmetro: uma característica numérica da população, como uma
média da população, μ um desvio padrão da população, σ uma proporção
da população e assim por diante.
Estimador: um estimador de um parâmetro é qualquer função das
observações da amostra aleatória X1, X2,..., Xn. Ele representa uma dada
fórmula de cálculo que fornecerá valores que serão diferentes, conforme a
amostra selecionada. Exemplos: i) o estimador da média populacional μ é
μ̂ ou X que é uma média amostral.
Teorema do limite central: um teorema que nos possibilita usar a
distribuição normal de probabilidade para aproximar a distribuição de
amostragem de X e de p sempre que o tamanho da amostra é grande,
usualmente maior que 30.

Estimativas pontuais e intervalares


Estimativa pontual: estimativa única de um parâmetro
populacional
Estimativa intervalar: dá um intervalo de valores possíveis, no
qual se admite esteja o parâmetro populacional.

Estimativa da média de uma população


Depende se a população é finita ou infinita e se o desvio padrão é
conhecido ou não.

i) Para populações infinitas – n/N é menor que 5% e com desvio-


padrão conhecido.

Depende do conhecimento ou não da variância populacional.


Consideremos que a mesma não seja conhecida. Como conhecê-la?
Podemos seguir alguns caminhos alternativos para conhecer a variância
amostral e inferir sobre a população:
a) usar uma variância a partir de algum outro levantamento feito no
passado referente ao mesmo tipo de pesquisa;
b) tomar uma amostra de um tamanho compatível, se possível com folga,
com o orçamento da pesquisa. Com o resultado da pesquisa, estimar o
valor da variância. Ao aplicar o valor da variância à fórmula e
verificando-se que deve aumentar o tamanho da amostra, deve ser
então complementado o n;

18
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

c) buscar um especialista no assunto em pauta e perguntar a ele qual é o


menor e maior valores para a variável em questão. Desta forma, a
variância poderá ser calculada por:
2
⎛ máximo − mínimo ⎞
σ =⎜ 2

⎝ 3,92 ⎠
A fórmula acima pressupõe que entre os limites máximo e mínimo
há 3,92 desvios-padrão. É como se entre os dois limites existissem 95%
dos casos possíveis (lembre da tabela de Z).
1) Consideremos um exemplo: pesquisa sobre a média de consumo
de sabonete (ao mês) por famílias de domicílios de um bairro.
Consideremos que as famílias a serem pesquisadas consomem no mínimo
1 e no máximo 25 sabonetes ao mês.

2 2
⎛ máximo − mínimo ⎞ ⎛ 25 − 1 ⎞
σ =⎜
2
⎟ σ2 = ⎜ ⎟ = 37,5
⎝ 3,92 ⎠ ⎝ 3,92 ⎠
O tamanho da amostra para se realizar a pesquisa sobre o consumo
de sabonetes será? Precisamos ainda considerar o erro máximo, pois a
fórmula será:
Z 2 σ 2X
n=
e2
Considerando então um erro de 1 sabonete por família (residência) e
confiança de 95%:

Z 2 σ 2X (1,96) 2 37,5
n= = n = = 144 residências
e2 12
Se após a realização das 144 entrevistas em domicílio, se verificar
que a variância é inferior a 37,5, confirmaremos que o tamanho da
amostra é suficiente para garantir que o erro amostral seja inferior ao
fixado: 1 no exemplo em questão (sabonetes). Se a variância calculada a
partir da amostra dos 144 domicílios for superior a 37,5, devemos
complementar a amostra calculando o seu novo tamanho a partir da nova
variância.
Suponha que o valor da variância calculada a partir da amostra seja
(1,96) 2 40
40. O tamanho da amostra deve ser: n = = 154 residências . Como já
12
foram entrevistados 144 domicílios, basta apenas mais 10 para completa
o tamanho da amostra.
Se eu desejasse uma confiança de 99%:
(2,58) 2 40
n= = 267 residências
12
Percebe-se que o tamanho da amostra aumenta à medida que
aumentamos o grau de confiança (1 - α) e possuímos variância de valor
elevado. Aumenta também à mediada que diminui o tamanho do erro
tolerado (e).

19
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

2) O departamento de habitação e de desenvolvimento urbano dos


Estados Unidos publica dados sobre o aluguel mensal de mercado para
moradia de um quarto na área metropolitana (Levine et al., 2000, apud
The federal register, 30 de abril de 1997). O desvio-padrão para o aluguel
é de aproximadamente U$80,00. Considere que uma amostra das áreas
metropolitanas será selecionada de modo a se estimar o aluguel médio
mensal da população para moradia de um quarto. Use uma confiança de
95%.
a) Qual o tamanho da amostra se a margem de erro desejada é de U$
25,00?
Resolução:
Z 2 σ 2X (1,96) 2 (80) 2
n= n= = 40 moradias
e2 (25) 2
b) Qual o tamanho da amostra se a margem de erro desejada é de U$
15,00?
Resolução:
Z 2 σ 2X (1,96) 2 (80) 2
n= n= = 110 moradias
e2 (15) 2

3) Um estudo prévio que investigou o custo do aluguel de automóveis nos


Estados Unidos concluiu que a diária de um automóvel de tamanho médio
variou de U$ 36,00 em Oakland, Califórnia, até U$ 73,50 em Hartford,
Connecticut (USA Today, 16 de outubro de 1998). Considere que a
organização que realizou o estudo gostaria de realizar um novo estudo de
modo a estimar o custo médio atual da diária de aluguel da população de
automóveis de tamanho médio nos Estados Unidos. Na concepção do novo
estudo, o diretor do projeto especificou que o custo médio da diária de
aluguel da população deveria ser estimado com uma margem de erro de
U$ 2,00 e um nível de confiança de 95%. Qual o tamanho da amostra
para um novo estudo?
Resolução:
2 2
⎛ máximo − mínimo ⎞ ⎛ 73,50 − 36 ⎞
σ2 = ⎜ ⎟ σ 2
= ⎜ ⎟ = 91,51
⎝ 3,92 ⎠ ⎝ 3,92 ⎠
Z 2 σ 2X (1,96) 2 91,51
n= = n = = 88 aluguéis de automóveis de tamanho médio
e2 22

4) Determine o número de observações necessário para estimar o tempo


médio de serviço de atendimento a chamadas de um bombeiro hidráulico,
se o erro máximo deve ser de 0,6 hora para um nível de confiança de
95%, sabendo-se que o tempo de atendimento tem um desvio padrão de
uma hora. É necessário supor a normalidade da população?
Resolução:
Z 2 σ 2X 1,96 212
n= n = = 11 observações
e2 0,6 2

20
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Como n é menor que 30, é preciso saber se a população é normal,


ou pelo menos aproximadamente normal.

ii) Para populações infinitas – n/N é menor que 5% e com desvio-


padrão desconhecido.

Para esses casos, quando usualmente n é menor que 30. Usa-se a


fórmula:
Z 2 s 2X
n= 2
e

1) Considere que a administração de uma empresa concordou em treinar


15 empregados com um novo método. Os dados de tempo de
treinamento, em dias, dos 15 empregados estão listados a seguir:

Empregado Tempo Empregado Tempo Empregado Tempo


1 52 6 59 11 54
2 44 7 50 12 58
3 55 8 54 13 60
4 44 9 62 14 62
5 45 10 46 15 63
A média de tempo gasto foi de 53,87 dias de treinamento e o
desvio-padrão foi de 6,82 dias de treinamento.
a) Qual o erro ( X − μ ) computado para o tempo de treinamento?
Resolução:
s 6,82
e = t X e = 2,145 = 3,78 dias
n 15
b) Qual a variação de tempo (intervalo de confiança) para o tempo de
treinamento?
Resolução:
s
IC = X ± t X 53,87 ± 3,78 = 50,09 a 57,65 dias de treinament o
n

iii) Para populações finitas – n/N é maior que 5% e com desvio-


padrão populacional conhecido.

1) Determine um intervalo de 95% confiança:


X = 15 σ = 2,0 n = 100 N = 1000
Resolução:
n/N = 100/1000 = 10%
Portanto, devemos utilizar o fator de correção finita. A fórmula para o
intervalo de confiança é:

21
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

σX N −n
IC = X ± Z
n N −1

2 1000 − 100
IC = 15 ± 1,96 = 15 ± 0,372 = 14,63 a 15,372
100 999

iv) Para populações finitas – n/N é maior que 5% e com desvio-


padrão populacional desconhecido.

1) Determine um intervalo de 95% confiança:


X = 15 s = 2,0 n = 16 N = 200
Resolução:
n/N = 16/200 = 8%
Portanto, devemos utilizar o fator de correção finita. A fórmula para o
intervalo de confiança é:
s N −n
IC = X ± t X
n N −1

2 200 − 16
IC = 15 ± 2,131 = 15 ± 1,025 = 13,98 a 16,025
16 199

2) Solicitou-se a 100 estudantes de um colégio que anotassem suas


despesas com alimentação e bebidas num período de uma semana. Há
500 estudantes no colégio. O resultado foi uma despesa média de
$40,00 com um desvio padrão de $ 10,00.
a) construa um intervalo de 95% de confiança para a verdadeira média;
b) se desejamos um erro de no máximo $ 5,00 em relação à verdadeira
média populacional, qual deveria ser o tamanho da amostra, para uma
confiança de 95%?

Resolução:
a) n/N = 100/500 = 20%. Trata-se de uma população finita
s N −n
IC = X ± t X
n N −1

10 500 − 200
IC = 40 ± 1,98 = 40 ± 1,755 = 38,25 a 41,755
100 499

1,98 210 2 500 196020


b) n = = = 16 estudantes
1,98 10 + 5 (500 − 1) 12867,04
2 2 2

22
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Proporções

n n
Para saber se a população é finita, > 0,05 e para infinita, < 0,05
N N
Populações Infinitas

a) Intervalo de confiança

1) Determine um intervalo de 98% de confiança para a verdadeira


proporção populacional, se X = 50 e n = 200.
Resolução:
A proporção amostral é X/n = 50/200 = 0,25
Z = ? ⇒ 98% quer dizer que sob a curva normal padrão há 98%/2 =
49% de área ou probabilidade em cada lado da curva simétrica.
Consultando a tabela de Z para área de 49% = 0,49, teremos valor de Z
= 2,33 desvios padrões.
IC = proporção ± erro
IC = proporção ± Z x desvio padrão da proporção
X ( X / n)[1 − ( X / n)]
IC = ± Z
n n

X (X / n )[1 − (X / n )]
IC = ±Z
n n
50 (50 / 200)[1 − (50 / 200)]
IC = ± 2,33
200 200

(0,25)(0,75)]
IC = 0,25 ± 2,33
200

IC = 0,25 ± 0,07

IC = 0,18 a 0,32
Enquanto a proporção populacional é 0,25, com 98% de certeza
podemos dizer que a verdadeira proporção populacional está entre 0,18 e
0,32.

2) Uma amostra de 200 pessoas alérgicas foi tratada com uma droga A.,
ficando curadas 180 pessoas. Encontre um intervalo de confiança de 95%
para a proporção de pessoas curadas pela droga A.
Resolução:
X ( X / n)[1 − ( X / n)]
IC = ± Z
n n
180 (180 / 200)[1 − (20 / 200)]
IC = ± 1,96
200 200

23
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

(0,90)(0,10)]
IC = 0,90 ± 1,96
200

IC = 0,90 ± 0,042 (e = 4,2%)

IC = 0,86 a 0,94
Enquanto a proporção dos curados pela droga A é 0,90, com 95%
de certeza podemos dizer que a verdadeira proporção populacional está
entre 0,86 e 0,94, ou seja, entre 86% e 94% são curados pela droga A.

b) Erro

1) Uma amostra de 200 observações acusou 20 baterias defeituosas


numa remessa. Usando uma confiança de 99%, determine o erro de
estimação.
Resolução:
A proporção amostral é X/n = 20/200 = 0,10
Z = ? ⇒ 99% quer dizer que sob a curva normal padrão há 99%/2 =
49,5% de área ou probabilidade em cada lado da curva simétrica.
Consultando a tabela de Z para área de 49,5% = 0,495, teremos valor de
Z = 2,58 desvios padrões.

(X / n )[1 − (X / n )] p(1 − p)
e=Z ou e=Z
n n
(0,10)(0,90)]
e = 2,58 = 0,055
200
O erro de estimação é de 0,055 ou 5,5%.

c) Determinação do tamanho da amostra

1) Qual o tamanho da amostra necessário para obter um intervalo de


95% de confiança para a proporção populacional, se o erro tolerável é
0,08?
Resolução:
Como o enunciado do problema não contém informação sobre o
tamanho possível da proporção populacional, os cálculos devem basear-se
no intervalo mais amplo possível, o que ocorre quando o valor amostral é
igual a 0,5.
Z = ? ⇒ 95% quer dizer que sob a curva normal padrão há 95%/2 =
47,5% de área ou probabilidade em cada lado da curva simétrica.
Consultando a tabela de Z para área de 47,5% = 0,475, teremos valor de
Z = 1,96 desvios padrões.

⎧ (X / n )[1 − ( X / n )] ⎫ ⎡ p(1 − p) ⎤
n = Z2 ⎨ ⎬ ou n = Z2 ⎢ ⎥⎦
⎩ e2 ⎭ ⎣ e
2

24
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

⎡ p(1 − p) ⎤ ⎡ (0,5)(0,5) ⎤
n = Z2 ⎢ ⎥ = 1,96 2 ⎢ ⎥ = 149,5
⎣ e ⎦
2 2
⎣ 0,08 ⎦
O tamanho da amostra será 150.
Importante:
Vejamos outra maneira de encontrar o valor do tamanho da amostra
para cada erro tolerado considerando confiança de 95% e o não
conhecimento da proporção.
Inicialmente representamos os valores de p (1 – p) para possíveis
valores de p, na tabela a seguir.

Valores assumidos por p (1 – p), de acordo


com a proporção p
p (1-p) p (1 – p)
0,0 1,0 0,000
0,1 0,9 0,090
0,2 0,8 0,160
0,3 0,7 0,210
0,4 0,6 0,240
0,5 0,5 0,250
0,6 0,4 0,240
0,7 0,3 0,210
0,8 0,2 0,160
0,9 0,1 0,090
1,0 0,0 0,000

Os valores de p (1 – p) em função de p são representados na Figura


a seguir.

0,3

0,25

0,2
p (1 - p)

0,15

0,1

0,05

0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
p

FIGURA - Valores assumidos por p (1 – p), em função de p.

25
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Enfatizamos o valor de p (1 – p) = 0,25 quando p vale 0,5.


Consideremos a fórmula para tamanho da amostra (n) em caso de
população infinita:
⎡ p(1 − p) ⎤
n = Z2 ⎢ ⎥⎦
⎣ e
2

Observa-se pela fórmula, que quanto maior o valor de p (1 – p) maior


será o tamanho da amostra. Na prática, quando não dispomos de
qualquer informação sobre o valor de p, usa-se p = 0,5 e assim
trabalhando-se com uma amostra de tamanho grande, há maior
segurança nos resultados encontrados.
Dessa forma, usando-se p = 0,5 e confiança de 95% para população
infinita, a fórmula se reduz a:

⎡ p(1 − p) ⎤ 0,96
n = Z2 ⎢ ⎥ ⇒ n= 2
⎣ e ⎦
2
e

Pode-se então compilar a tabela a seguir, que nos fornece o tamanho


da amostra de acordo com o erro máximo tolerável:

Tamanho da amostra de acordo com o erro para


p desconhecido, confiança de 95% e pop. infinita
e (%) n
1 9600
2 2400
3 1067
4 600
5 384
6 267
7 196
8 150
9 119
10 96

No exercício em questão, para um erro de 0,08 = 8%, o tamanho


da amostra é 150. Nesse mesmo exercício, se o erro tolerado fosse 2%, o
tamanho da amostra seria 2400.
A tabela também nos mostra que se quisermos estimar uma
proporção, com um erro máximo de 5% e confiança de 95%, teremos que
tomar uma amostra de 384 (na área de marketing, poderia ser 384
consumidores entrevistados). É de praxe na área de marketing, bem como
em outros ramos da ciência, considerar o erro máximo de 5%. Logo, na
maioria dos casos o tamanho satisfatório da amostra será 384.
Quando conhecemos uma faixa de variação de p devemos utilizar na
fórmula, o valor que mais se aproxime a 0,5. Por exemplo, se soubermos
que a proporção p está:

26
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Faixa de p p a ser usado


0,00 a 0,20 0,20
0,20 a 0,35 0,35
0,75 a 0,85 0,75
0,40 a 0,70 0,50

2) Determine o tamanho da amostra necessário para estimar a verdadeira


percentagem populacional a menos de 4%, usando um intervalo de
confiança de 90%. É razoável suspeitar que o verdadeiro valor seja
0,30 ou menos.
Resolução:
Z = ? ⇒ 90% quer dizer que sob a curva normal padrão há 90%/2 =
45% de área ou probabilidade em cada lado da curva simétrica.
Consultando a tabela de Z para área de 45% = 0,45, teremos valor de Z
= 1,65 desvios padrões.

⎡ p(1 − p) ⎤ ⎡ (0,3)(0,7) ⎤
n = Z2 ⎢ ⎥ = 1,65 2 ⎢ ⎥ = 357,3
⎣ e ⎦
2 2
⎣ 0,04 ⎦
O tamanho da amostra será 358.

Aplicações práticas – populações infinitas

1) Foi realizada uma pesquisa numa cidade sobre a preferência do


eleitorado nas vésperas do segundo turno de uma eleição para prefeito.
Os resultados obtidos foram os seguintes:

Candidato Nº de eleitores favoráveis


A 503
B 529
Brancos/Nulos 66
Indeciso/Não respondeu 102
Total 1200

a) Estime a proporção de votos de cada candidato e os respectivos erros


de estimativa (α = 0,05).
Resolução:
pA = X/n = 503/1200 = 0,419 = 41,90%
(X / n )[1 − (X / n )]
eA = Z
n
(0,419)(0,581)]
e A = 1,96 = 1,96x 0,014243 = 0,028 = 2,8%
1200
X
IC A = ± e A = 0,419 ± 0,028 = 0,39 a 0,447
n

pB = 529/1200 = 0,441 = 44,10%


B

27
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

(X / n )[1 − (X / n )]
eB = Z
n
(0,441)(0,559)]
e B = 1,96 = 1,96x 0,0143329 = 0,028 = 2,8%
1200
X
IC B = ± e B = 0,441 ± 0,028 = 0,413 a 0,469
n

b) Pelos resultados obtidos, se a eleição fosse realizada no mesmo dia da


pesquisa seria possível prever o candidato vitorioso?
Resolução: ?

c) Qual deveria ser o tamanho da amostra para que fosse possível prever
o candidato vitorioso com uma confiança de 95% e um erro de 2%?
Resolução:
Admitindo que não haja mais estratégias de última hora na
campanha que possa alterar a tendência do eleitorado, para que seja feita
a previsão do vitorioso com uma confiança de 95% e um erro máximo de
2,0%, que é inferior a diferença entre os índices de preferência dos
candidatos, o tamanho da amostra deveria ser de:

⎡ p(1 − p) ⎤
n = Z2 ⎢ ⎥⎦
⎣ e
2

⎡ (0,441)(0,559) ⎤
n = 1,96 2 ⎢ ⎥ = 2367,57 = 2368 eleitores
⎣ 0,02 2 ⎦
Observe pelo tabela à página 26, que se p = 0,5 o número de
eleitores a serem entrevistados seria de 2400 para um erro de 2% e
confiança de 95%.

2) Uma amostra de 200 pessoas alérgicas foi tratada com uma droga A.,
ficando curadas 180 pessoas. Quantas pessoas você recomenda usar
num novo teste com a droga A para estimar sua eficiência com 95% de
confiança e um erro máximo de 3%?
Resolução:
⎡ p(1 − p) ⎤ 2 ⎡ (0,9)(0,1) ⎤
n = Z2 ⎢ ⎥⎦ = 1,96 ⎢ 0,03 2 ⎥ = 384,16 ≈ 385 pessoas
⎣ e
2
⎣ ⎦

3) Um fabricante de flashes deseja estimar a probabilidade de um flash


funcionar. Como se trata de um teste destrutivo, ele deseja manter o
tamanho da amostra o menor possível. Determine o número de
observações que devem ser feitas para estimar a probabilidade a
menos de 0,04 com 95% de confiança, se: a) ele não tem idéia da
percentagem de defeituosos; b) se ele crê que a percentagem de
defeituosos não supere 6%.

28
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

Resolução:
⎡ p(1 − p) ⎤ ⎡ 0,25 ⎤
a) n = Z 2 ⎢ ⎥ = 1,96 2 ⎢ 2 ⎥
= 600,25 ≈ 601 flashes
⎣ e ⎦
2
⎣ 0,04 ⎦
⎡ p(1 − p) ⎤ ⎡ (0,06)(0,94) ⎤
b) n = Z 2 ⎢ ⎥ = 1,96 2 ⎢ ⎥ = 135,41 ≈ 136 flashes
⎣ e ⎦
2 2
⎣ 0,04 ⎦

Populações finitas

A população é considerada finita quando o tamanho da amostra é


mais que 5% da população.
a) Erro e Intervalo de confiança
1) Determine um intervalo de confiança de 95% para a percentagem
populacional de defeituosos para os seguintes dados:
N = 2000 n = 400 X/n = 0,10
Resolução:
Como n/N = 400/2000 = 0,20 = 20%, é necessário o fator de
correção finita.
Z = ? ⇒ 95% quer dizer que sob a curva normal padrão há 95%/2 =
47,5% de área ou probabilidade em cada lado da curva simétrica.
Consultando a tabela de Z para área de 47,5% = 0,475, teremos valor de
Z = 1,96 desvios padrões.
X ( X / n)[1 − ( X / n)] N − n
IC = ±Z
n n N −1

(0,10)(0,90)] 2000 − 400


IC = 0,10 ± 1,96
400 2000 − 1
IC = 0,10 ± 0,0265 = 10% ± 2,65% = 7,35% a 12,65%
e = 2,65%

b) Determinação do tamanho da amostra


1) Determine o tamanho amostral com confiança de 95% para a
percentagem populacional de defeituosos para os seguintes dados,
considerando e = 2%:
N = 2000 n = 400 X/n = 0,10 n/N = 400/2000 = 0,20
Resolução:
Z 2 ( X / n )[1 − ( X / n )]( N )
n=
( N − 1)e 2 + Z 2 ( X / n )[1 − ( X / n )]

29
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

1,96 2 (0,10)(0,90)(2000) 691,488


n= = = 603,73 = 604
(1999)0,02 + 1,96 (0,10)(0,90)]
2 2
1,145

Aplicações práticas – populações finitas

1) Seja uma pesquisa realizada numa indústria de 1500 empregados,


usando uma amostra aleatória simples de tamanho n = 100. Os
resultados mostraram a distribuição salarial nas seguintes faixas:
Faixa Salarial (R$) Empregados (nº)
FS1 - < 300,00 52
FS2 – [300,00 a 600,00] 28
FS3 – [600,00 a 1000,00] 12
FS4 - ≥ 1000,00 08
Total 100

Na amostra foram obtidas ainda, por meio de questionário, as


seguintes informações:
Possui casa própria
Faixa Salarial Total
Sim Não
FS1 5 47 52
FS2 12 16 28
FS3 8 4 12
FS4 6 2 8
Total 31 69 100
a) Estime a proporção de funcionários em cada faixa salarial e os
respectivos intervalos de confiança (α = 0,05).
Resolução:

• FS1 - < 300,00


n/N = 100/1500 = 0,0667. A população é finita (> 0,05)
X1 = 52
p1 = X1/n = 52/100 = 0,52
(X / n )[1 − (X / n )] N − n
e=Z
n N −1
(0,52)(0,48)] 1500 − 100
e = 1,96 = 0,0946327
100 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC p1 =
±Z
n n N −1
IC(p1) = 0,52 ± 0,0946327 = 0,425 a 0,615

• FS2 – [300,00 a 600,00]


X2 = 28
p2 = X2/n = 28/100 = 0,28

30
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

(X / n )[1 − (X / n )] N − n
e=Z
n N −1
(0,28)(0,72)] 1500 − 100
e = 1,96 = 0,085
100 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC p 2 =
±Z
n n N −1
IC(p2) = 0,28 ± 0,085 = 0,195 a 0,365

• FS3 – [600,00 a 1000,00]


X3 = 12
p3 = X3/n = 12/100 = 0,12
(X / n )[1 − (X / n )] N − n
e=Z
n N −1
(0,12)(0,88)] 1500 − 100
e = 1,96 = 0,0616
100 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC p3 =
±Z
n n N −1
IC(p3) = 0,12 ± 0,0616 = 0,058 a 0,182

• FS4 - ≥ 1000,00
X4 = 08
p4 = X4/n = 8/100 = 0,08
(X / n )[1 − (X / n )] N − n
e=Z
n N −1
(0,08)(0,92)] 1500 − 100
e = 1,96 = 0,0514
100 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC p 4 =
±Z
n n N −1
IC(p4) = 0,08 ± 0,0514 = 0,029 a 0,131

b) Estime a proporção de funcionários da indústria que tem casa própria e


o intervalo de confiança (α = 0,05).
Resolução:
X = 31
p = X/n = 31/100 = 0,31
(X / n )[1 − (X / n )] N − n
e=Z
n N −1
(0,31)(0,69)] 1500 − 100
e = 1,96 = 0,0876
100 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC = ±Z
n n N −1

31
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

IC = 0,31 ± 0,0876 = 0,222 a 0,398


c) Estime em cada faixa salarial a proporção de funcionários com casa
própria e o intervalo de confiança (α = 0,05).
Resolução:
• FS1 com Casa própria
X = 05
p = X/n = 5/52 = 0,0962
(X / n )[1 − (X / n )] N − n
e=Z
n N −1
(0,0962)(0,9038)] 1500 − 52
e = 1,96 = 0,078
52 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC =
±Z
n n N −1
IC = 0,0962 ± 0,078 = 0,018 a 0,174

• FS2 com Casa própria


X = 12
p = X/n = 12/28 = 0,4286
(X / n )[1 − (X / n )] N − n
e=Z
n N −1
(0,4286)(0,5714] 1500 − 28
e = 1,96 = 0,181
28 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC =
±Z
n n N −1
IC = 0,4286 ± 0,181 = 0,248 a 0,610

• FS3 com Casa própria


X=8
p = X/n = 8/12 = 0,6667
(X / n )[1 − (X / n )] N − n
e=Z
n N −1
(0,6667)(0,3333)] 1500 − 12
e = 1,96 = 0,266
12 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC =
±Z
n n N −1
IC = 0,6667 ± 0,266 = 0,401 a 0,933

• FS4 com Casa própria


X=6
p = X/n = 6/8 = 0,75
(X / n )[1 − (X / n )] N − n
e=Z
n N −1

32
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

(0,75)(0,25] 1500 − 8
e = 1,96 = 0,299
8 1500 − 1
X ( X / n)[1 − ( X / n)] N − n
IC =±Z
n n N −1
IC = 0,75 ± 0,299 = 0,45 a 1,05
Obs.: 0,45 a 1,05 = 45% a 105%. Como não existe 105% com casa
própria, o valor passa a ser entendido como 100% e portanto,
IC = 0,45 a 1,00

d) Dimensione a amostra para um novo estudo considerando e = 6%.


Resolução:
No cálculo da amostra será considerado a estimativa da proporção
da faixa salarial 1 (FS1), onde p = 0,52, pois é a estimativa que fornece
maior valor para p (p – 1). Assim,

Z 2 (X / n )[1 − (X / n )]( N)
n=
( N − 1)e 2 + Z 2 (X / n )[1 − (X / n )]
1,96 2 (0,52)(0,48)(1500)
n= =1438,3/6,355 = 226,32 ≈ 227
(1500 − 1)0,06 2 + 1,96 2 (0,52)(0,48)
funcionários.

Observações Importantes:

a) Quando a população é muito pequena até 100, digamos até 100


consumidores, é melhor entrevistar a todos. Isto é, devemos realizar
um censo sem utilizar a teoria da amostragem, já que para este
tamanho de mercado teríamos que conviver com um erro de
amostragem, além do custo do censo ser praticamente o mesmo que o
da amostragem.

b) Se não possuo qualquer informação sobre p e desejo calcular o


tamanho da amostra para populações finitas com confiança de 95% e
384
erro máximo de 5%, posso usar a fórmula resumida: n =
384
1+
N

c) Considerando variados valores de p e erros de 2% e 5% para confiança


de 95% para populações finitas, teremos os tamanhos amostrais
constantes nas tabelas a seguir.

d) Existe um tamanho N para dizer se a população é finita ou infinita?


Alguns pesquisadores preferem adotar uma regra prática que é: de N =
100 a 5000 usa-se a fórmula de dimensionamento da amostra que
considera a correção para população finita. Além de 5000, usa-se a
fórmula para população infinita. Um exemplo: Para 95% de confiança e

33
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

erro de 5% , na população infinita n = 384 e para população finita (N =


5000), n = 357. Ou seja, o tamanho da amostra nesses dois casos é
praticamente igual.
Tamanho da amostra em função de p e N para 95% de confiança,
população finita e erro de 2%
Valor aproximado de p antes da pesquisa
91% a 100% 81% a 90% 71% a 80% 61% a 70% 51% a 60%
Tamanho do ou ou ou ou ou
Mercado 0% a 10% 11% a 20% 21% a 30% 31% a 40% 41% a 50%
20 20 20 20 20 20
30 29 29 30 30 30
50 47 48 49 49 49
100 90 94 95 96 96
200 162 177 182 184 185
300 223 251 261 265 267
500 317 377 401 411 414
1000 464 606 668 697 706
2000 603 869 1004 1071 1091
5000 737 1175 1437 1577 1622
10000 795 1331 1678 1873 1935
20000 828 1426 1831 2066 2143
30000 840 1461 1889 2140 2222
50000 849 1490 1938 2203 2290
100000 857 1513 1976 2252 2344

Tamanho da amostra em função de p e N para 95% de confiança,


população finita e erro de 5%
Valor aproximado de p antes da pesquisa
91% a 100% 81% a 90% 71% a 80% 61% a 70% 51% a 60%
Tamanho ou ou ou ou ou
do Mercado 0% a 10% 11% a 20% 21% a 30% 31% a 40% 41% a 50%
20 17 18 19 19 19
30 25 27 27 28 28
50 37 42 43 44 44
100 58 71 76 79 79
200 82 110 123 130 132
300 95 135 155 165 168
500 108 165 196 212 217
1000 121 197 244 269 277
2000 129 219 278 311 322
5000 135 234 303 343 357
10000 136 240 312 356 370
20000 137 243 317 362 377
30000 138 244 319 364 379
50000 138 245 320 366 381
100000 138 245 322 367 383

34
Unidade IV – Teoria da Amostragem – Bioestatística – Prof. Edílson R. Schmildt

2) De um grupo de 20 secretárias de uma grande firma de advocacia,


escolhidas aleatoriamente, cinco não se mostram satisfeitas com o
trabalho que vem executando. Há 50 secretárias empregadas na firma.

a) Construa um intervalo de 90% de confiança para a proporção de


secretárias insatisfeitas.
Resolução:
N = 50 n = 20 X = 5 X/n = 5/20 = 0,25 n/N = 20/50 = 0,40 (pop.
finita)
X ( X / n)[1 − ( X / n)] N − n
IC = ± Z
n n N −1
(0,25)(0,75) 50 − 20
IC = 0,25 ± 1,65 = 0,25 ± 0,160 = 0,09 a 0,41
20 50 − 1

b) Converta o intervalo da parte a em número de secretárias.


Resolução:
9% a 41% de 50 = 4,5 a 20,5 secretárias insatisfeitas.

35

S-ar putea să vă placă și