Documente Academic
Documente Profesional
Documente Cultură
ESTATÍSTICA
DESCRITIVA
FLORIANÓPOLIS
2004
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 2
SUMÁRIO
1. NOÇÕES DE BIOESTATÍSTICA
A inferência indutiva terá tanto mais significado quanto mais rigoroso for o
delineamento da coleta de dados e quanto mais apropriada for a análise estatística destes
dados. As falhas nestas fases podem implicar em que os valores encontrados não reflitam
adequadamente os parâmetros correspondentes. A inferência da hipótese estatística para a
científica será tanto melhor quanto mais adequada tenha sido a formulação dos conceitos
teóricos.
Uma conclusão indutiva bem confirmada é provisoriamente aceita como verdade,
tornando-se um princípio. Será ajustada com a aquisição de novos conhecimentos, somando
experiências que a regulem, e permitindo o contínuo ajuste do modelo à realidade do universo.
Ao verificar a provável verdade de uma hipótese, a Estatística fornece, em bases
probabilísticas, o risco de errar ao aceitar ou rejeitar uma hipótese. Constitui-se em um
instrumento dos mais poderosos para o pesquisador na busca da verdade, e o principal
instrumento para generalizar conclusões a partir de experimentos particulares.
OBSERVAÇÃO DO FENÔMENO
↓
HIPÓTESE CIENTÍFICA PENSAMENTO
CONSEQUÊNCIAS DEDUTIVO
↓ LÓGICAS
HIPÓTESE ESTATÍSTICA (regras para aceitação da
→ hipótese)
VERIFICAR HIPÓTESE
↓ ↓
HIPÓTESE HIPÓTESE PENSAMENTO INDUTIVO
ESTATÍSTICA ESTATÍSTICA
VERDADEIRA FALSA
↓ ↓
VERDADE CIENTÍFICA
CORRESPONDENTE → VERDADE PROVISÓRIA
1.2 - DEFINIÇÃO
Processo planejado para coleta do material básico de cada variável de interesse. O tipo
de dado e a forma de coletá-lo dependem de cada investigação.
Os levantamentos de dados podem ser:
• Contínuos: os dados vão sendo registrados à medida que ocorrem. Ex: registros civis
(nascimento, óbito, casamento), registro de doenças compulsórias, registros
hospitalares.
• Periódicos: os dados são coletados periodicamente. Ex: recenseamento.
• Ocasionais: os dados são coletados sem preocupação de continuidade ou
periodicidade, mas no momento de interesse. Ex: Pesquisas de situação econômica,
estudos de doenças específicas.
Os dados podem ser:
• Primários: dados levantados diretamente na população no momento da investigação.
• Secundários: dados já registrados, arquivados ou publicados que serão utilizados na
investigação.
• Existentes registrados: os dados existem e estão registrados em documentos
anteriores. Ex: dados demográficos.
• Existentes não registrados: os dados existem, mas não estão registrados em
documentos anteriores. Ex: peso e altura dos alunos da UFSC.
• Não existentes: os dados não existem, ou seja, eles precisam ser provocados antes da
investigação. Ex: experimentos para testar eficácia de medicamentos.
2 - AMOSTRAGEM
A pesquisa deve tirar conclusões abrangentes, mas nem sempre é possível estudar a
população total de interesse. A amostragem consiste em determinar na população total quais
os elementos que iremos investigar e que fornecerão informação estimada para a totalidade
populacional.
As vantagens do levantamento por amostragem são: custo menor; menor tempo de
estudo; objetivos amplos; e exatidão.
Raramente o pesquisador estuda todo o universo de interesse em uma investigação.
As pesquisas são conduzidas com um número menor de elementos tirados da população de
interesse (amostra), que permitirá chegar a conclusões generalizadas para a totalidade
populacional de onde a amostra foi extraída.
2.1 - DEFINIÇÕES
Número de Sexo
Total
irmãos masc. fem.
0a1 1 3 4
2a3 1 10 11
4a5 8 5 13
5a6 12 2 14
Total 22 20 42
Neste exemplo, na primeira classe estão os alunos que têm 0 e 1 irmãos, na segunda
os alunos que têm 2 e 3 irmãos, e assim, sucessivamente.
Uma tabela deve ser explicativa, sem necessidade de consulta ao texto para entendê-
la. Para tanto, os componentes essenciais são o título, corpo da tabela, cabeçalho e coluna
indicadora.
• O título é a indicação anterior a tabela, e deve ser preciso, claro e resumido, indicando o
que está sendo tabulado, quais as variáveis que estão sendo consideradas, o local e a
data em que o fato foi observado.
• O corpo da tabela é o conjunto de linhas e colunas onde são colocadas as informações,
e cada célula é o cruzamento de uma linha com uma coluna, indicando a freqüência
com que a categoria foi observada.
• O cabeçalho é onde se define a categoria de cada coluna e a coluna indicadora é onde
se define a categoria de cada linha.
(TÍTULO): TABELA 3: Número de alunos da faculdade X, segundo sexo
e altura, São Paulo, 1987.
COLUNA INDICADORA
sexo
Altura (metros) Total ÕCABEÇALHO
masc. fem.
1,45 ├- 1,55 1 3 4
1,55 ├- 1,65 1 10 11 CORPO
1,65 ├- 1,75 8 5 13 DA
1,75 ├- 1,85 12 2 14 TABELA
Total 22 20 42
Fonte: Y
Uma questão de forma que melhora a apresentação dos dados é colocar na coluna
indicadora a variável com maior número de categorias e usar o cabeçalho para colocar variável
apenas em tabelas com mais que uma variável. Nas tabelas unidimensionais a variável deve
ser colocada na coluna indicadora.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 12
A tabela possui, ainda, alguns elementos complementares, que são a fonte, que fica
abaixo da tabela e indica a entidade responsável pela organização dos dados ou fornecedora
dos dados, e notas, que podem ser colocadas no rodapé da tabela para esclarecer questões
gerais.
Nenhuma casa da tabela deve ficar em branco, devendo apresentar sempre um
número ou sinal. Usa-se o hífen (-) para representar valores nulos, reticência (...) quando não
se dispõe de dado, interrogação (?) quando se tem dúvida quanto ao valor numérico, e zero (0)
quando o valor numérico é muito pequeno para ser expresso na unidade utilizada. Essa
diferenciação para valores nulos (hífen) e muito pequenos (zero) é muito importante na
construção de tabelas.
As casas decimais, quando utilizadas, devem ser uniformes em todas as células da
mesma coluna e as regras matemáticas de aproximação devem ser obedecidas. Quando
temos várias tabelas em uma publicação, elas devem estar numeradas em ordem crescente de
acordo com o aparecimento.
As tabelas devem ser fechadas por linhas horizontais no alto e embaixo, não sendo
fechadas à direita e esquerda. Os totais e subtotais devem ser destacados e quando existem
duas variáveis devem estar presentes os totais de cada uma delas: um na última linha e outro
na última coluna.
As variáveis contínuas devem ter a unidade de medida especificada no título ou na
coluna e cabeçalho da tabela.
As tabelas podem apresentar, além das freqüências absolutas, as freqüências
relativas. Para obter a freqüência relativa de uma categoria, divide-se a freqüência dessa
categoria pela soma das freqüências, multiplicando-se o resultado por cem (porcentagem).
TABELA 4: Número e porcentagem de alunos, segundo sexo,
no Curso de Odontologia da Metodista - São Bernardo - 1992.
SEXO No de alunos %
(variável) (freqüência absoluta) (freqüência relativa)
masculino 160 40
feminino 240 60
TOTAL 400 100
Fonte: Administração Geral da Universidade Metodista de São Paulo, 1992.
A partir dos dados de uma tabela (TABELA 1), existem várias possibilidades de
representação das freqüências.
TABELA 1: Número de alunos, segundo sexo, no 6º
semestre do Curso de Medicina da UFSC - Florianópolis -
1996.
Sexo No de alunos
Masculino 40
Feminino 50
Total 90
Fonte: Administração geral da UFSC, 1996.
60
50
40
30
20
10
0
masc fem
60
50
40
30
20
10
0
masc fem
masc
fem
0 ├- 10 90
120
10 ├- 20 120
100
20 ├- 30 90
80
30 ├- 40 100
60
40 ├- 50 80
40
50 ├- 60 90
20
60 ├- 70 80
0
Total 650 0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 50 |- 60 60 |- 70
idade (anos)
Fonte: Ministério da Saúde, Brasil, 1978.
Fonte: Ministérios da Saúde, Brasil, 1978.
140
120
100
80
60
40
20
0
0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 50 |- 60 60 |- 70
idade (anos)
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 17
5
casos/anos de idade
0
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
idade (anos)
Após a coleta de dados, os mesmos são apurados de acordo com os valores de uma
ou mais variáveis, estabelecendo uma distribuição de freqüências, através de gráfico ou tabela.
Exemplo:
TABELA 1: Número de escolares examinados
segundo idade1 e sexo na Escola Estadual Paulo
Freire - Diadema - 1992.
Idade Sexo
Total
(anos) masculino feminino
7 50 40 90
8 30 40 70
9 30 40 70
10 50 60 110
11 40 30 70
12 50 40 90
Total 250 250 500
GRÁFICO 1: Número de escolares examinados segundo
idade2 e sexo na Escola Estadual Paulo Freire - Diadema
- 1992.
60
50
40
n
30
20
10
0
7 8 9 10 11 12
idade (anos)
masc. fem.
Fonte: IMES/DOPS/1992
1
Idade neste exemplo está sendo utilizada como variável discreta, representando categorias
separadas, embora a natureza da variável seja contínua. Essa alteração deve-se à natureza do
problema analisado, onde cada ano a mais de idade interfere no valor da variável.
2
Idem nota anterior. Por isso o gráfico pode ser barras separadas – indicado para variáveis
discretas mas não para variáveis contínuas.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 19
Perceba a distribuição diversificada das faltas verificadas, apesar das médias iguais: 2
faltas por aluno nas quatro situações.
O conhecimento da média de uma variável não permite identificar como os valores
estão distribuídos no grupo de indivíduos, ou seja, quanto os valores estão dispersos em
relação à média. Essa discussão será complementada no próximo capítulo.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 21
5.2 - MEDIANA
5.2.1 - Variável Discreta:
Dada uma distribuição de freqüências em ordem crescente ou decrescente de
magnitude, a mediana é definida como sendo igual ao valor que ocupar o posto central nesse
conjunto, ou seja, é o valor da variável que deixa 50% das observações abaixo e 50% das
observações acima desse valor.
Exemplo: Os dentes de 7 crianças foram examinados, e foram contados os dentes
cariados em cada uma delas, com os seguintes resultados: 3, 2, 5, 2, 3, 9, 7. Dispondo os
valores em ordem crescente temos: 2, 2, 3, 3, 5, 7, 9. O posto central é o quarto, ocupado pelo
valor 3, então dizemos que a mediana desse conjunto é 3.
Quando o número de observações (n) é ímpar, sempre existe um posto central e não
há problema em estabelecer a mediana, que será igual ao valor que estiver no posto (n + 1)/2.
Se as observações estiverem dispostas em uma tabela de freqüências, temos:
TABELA 4: Número de pacientes segundo número de
filhos. UBS Vinicius de Moraes, 1990.
No de filhos No de freqüência
pacientes acumulada
0 10 10
1 20 30
2 33 63
3 15 78
4 5 83
Total 83
Fonte: Y
O posto mediano (83 + 1)/2 corresponde a 42. O posto 42 está localizado após a
frequência acumulada 30, da segunda linha, entre as observações acumuladas até o total de
63, da terceira linha. Então, a mediana de filhos é 2 filhos por paciente.
Quando n é par, existem dois valores centrais, sendo estabelecido por convenção que
a mediana é a média dos valores que ocupam os dois postos centrais - n/2 e (n+2)/2.
Corresponde, portanto a:
valor do posto n/2 + valor do posto (n+2)/2
2
Exemplo: No conjunto dos valores 21, 25, 26, 30, 32, 33 os valores centrais são 26 e
30. A mediana será (26 + 30)/2, que é igual a 28.
Em uma tabela de freqüências temos:
TABELA 5: Número de pacientes segundo número
de filhos. UBS Tom Jobim, 1990.
No de No de freqüência
filhos pacientes acumulada
0 10 10
1 12 22
2 5 27
3 20 47
4 7 54
Total 54
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 22
Indivíduos 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Peso adicional 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33
1,1,1,1,1,2,2,3,3,3,3,3,4,4,4,4,4,5,5,5,5,5,6,6,6,6,7,7,7,7,8,8,8,8,9,9,9,9,9,10,10,10,10,10,10
Valor mínimo: 1; Primeiro quartil: 3; Mediana: 6; Terceiro quartil: 8; Valor máximo: 10
5.3 - MODA
A moda é definida como o valor que ocorre com maior freqüência em uma distribuição.
No caso de termos as seguintes observações: 2, 2, 4, 6, 6, 6, 7, 9, 20, a moda será 6,
que é o valor que aparece em maior número de vezes.
Em outra situação temos: 2, 2, 2, 5, 6, 6, 6, 7, 9, 20, com dois valores modais - 2 e 6,
dizendo tratar-se de distribuição bimodal.
Ainda, podemos ter: 2, 3, 5, 6, 7, 9, 10, 20, sem valor modal.
Se a distribuição apresenta-se em forma de tabela, a moda será aquela
correspondente à maior freqüência:
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 24
40
30
20
10
0
0 1 2 3 4 esp 0 1 2 3 4 esp 0 1 2 3 4 esp 0 1 2 3 4
Pela figura acima pode-se perceber a distribuição diversificada dos valores, apesar de
possuírem médias iguais a 2 faltas por aluno nas quatro situações.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 27
A soma dos desvios é sempre igual a zero. Então, os valores dos desvios são elevados
ao quadrado, e a soma desses valores é dividida pela freqüência total de elementos. A
variância, portanto, é a média dos quadrados dos desvios contados a partir da média
aritmética.
s2 = Σ (xi-x)2.fi σ2 = Σ (xi-x)2.fi
N-1 N
TABELA B: TABELA D:
Faltas fi xi-x (xi-x)².fi faltas fi xi-x (xi-x)².fi
0 30 -2 4x30 120 0 50 -2 4x50 200
1 - -1 1x0 0 1 - -1 1x0 0
2 40 0 0x40 0 2 - 0 0x0 0
3 - 1 1x0 0 3 - 1 1x0 0
4 30 2 4x30 120 4 50 2 4x50 200
Total 100 240 Total 100 400
média (x) = 2 faltas/aluno média (x) = 2 faltas/aluno
s² = 2,4 faltas²/aluno s² = 4,0 faltas²/aluno
Raiz quadrada da variância, ou: raiz quadrada positiva da média dos quadrados dos
desvios contados a partir da média aritmética. Segue a mesma indicação que a variância para
amostra ou população: s ou σ, respectivamente
Nos exemplos anteriores temos:
O desvio padrão será tanto maior quanto maior for a dispersão dos valores em relação
à média, mas isso depende da magnitude da variável. Alguns valores de desvio são altos
porque cada elemento da distribuição possui valor alto, e não porque a distribuição é muito
dispersa. Assim, para afirmar que uma dispersão é grande é necessário relativizar o valor do
desvio padrão pela média aritmética da distribuição.
O coeficiente de variação é resultado da divisão do desvio padrão pela média de uma
variável, dado em porcentagem
CV = desvio padrão x 100
média
Observando duas distribuições distintas, com diferentes magnitudes de variável:
TABELA X: Distribuição de recém-nascidos TABELA Y: Distribuição de
segundo peso adolescentes segundo peso
Peso (kg) Fi xi-x (xi-x)².fi Peso (kg) Fi xi-x (xi-x)².fi
2,0 10 (2-3) 1 x 10 10 45 10 (45-46) 1 x 10 10
3,0 10 (3-3) 0 x 10 0 46 10 (46-46) 0 x 10 0
4,0 10 (4-3) 1 x 10 10 47 10 (47-46) 1 x 10 10
Total 30 20 Total 30 20
x = 3 kg/recém-nascido x = 46 kg/adolescente
s2 = 0,69 kg2/ recém-nascido s2 = 0,69 kg2/adolescente
s = 0,83 kg/ recém-nascido s = 0,83 kg/adolescente
CV= 27,7% CV= 1,8%
O exemplo demonstra uma maior dispersão de valores na distribuição de peso de
recém-nascidos, embora as duas distribuições possuam a mesma variância e o mesmo desvio
padrão.
A comparação de variabilidades de distribuições com valores de média ou com
variáveis diferentes somente é possível com o coeficiente de variação. O coeficiente de
variação não tem valor máximo possível, podendo exceder 100% nas distribuições onde o
desvio padrão é maior que a média.
Coeficientes de variação com valores superiores a 15% indicam distribuições pouco
simétricas em relação à média aritmética, aconselhando o emprego de outras medidas
auxiliares para descrever o conjunto de dados.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 30
7 - NOÇÕES DE PROBABILIDADE
Dois eventos são mutuamente exclusivos quando não podem ocorrer simultaneamente.
A probabilidade de eventos mutuamente exclusivos é a soma das probabilidades de cada um
deles. Exemplo: cara ou coroa em lançamento de moeda; carta preta ou vermelha no baralho.
P (A ∪ B) = P (A ou B) = P (A) + P (B)
Exemplo: No lançamento de dado, sucesso será face 2 ou 3: P(2 ou 3) = P(2) + P(3) = 1/6 +
1/6 = 1/3
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 31
P (A ∩ B) = P (A e B) = P(A) x P(B)
8 - DISTRIBUIÇÃO BINOMIAL
8.1 - CONCEITOS
• Variável aleatória: qualquer função de número real definida no espaço amostral. São
variáveis influenciadas ao acaso, com variabilidade resultante da soma de fatores não
controlados.
• Variável aleatória discreta: quando só assume valores associados ao números naturais.
Ex.: nº de filhos, nº de pacientes.
• Variável aleatória binária: só assume um de dois valores possíveis. Ex.: ser ou não
hipertenso, fator Rh.
A distribuição binomial é uma distribuição discreta que resulta da soma de variáveis
aleatórias binárias.
Exemplo: No lançamento de duas moedas:
Variável aleatória sendo nº de coroas
Possibilidades: A distribuição da ocorrência de “cara”
será:
x - nº de coroas P (x)
Moeda 2
0 1/4 = 0,25 = 25%
Cara Coroa
1 2/4 = 0,50 = 50%
Cara Cara e cara Cara e coroa
Moeda 1 2 1/4 = 0,25 = 25%
Coroa Coroa e cara Coroa e coroa
total 1 = 100%
!
8.2 - MÉDIA E VARIÂNCIA DE DISTRIBUIÇÃO BINOMIAL
µ = n.p
σ2 = n.p.q
9 - DISTRIBUIÇÃO NORMAL
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,00 0,40 0,80 1,20 1,59 1,99 2,39 2,79 3,19 3,59
0,1 3,98 4,38 4,78 5,17 5,57 5,96 6,36 8,75 7,14 7,53
0,2 7,93 8,32 8,71 9,10 9,48 9,87 10,28 10,64 11,03 11,41
0,3 11,79 12,17 12,55 12,93 13,31 13,68 14,06 14,43 14,80 15,17
0,4 15,54 15,91 16,28 16,64 17,00 17,36 17,72 18,08 18,44 18,78
0,5 19,15 19,50 19,85 20,19 20,54 20,88 21,23 21,57 21,90 22,24
0,6 22,57 22,91 23,24 23,57 23,89 24,22 23,54 24,86 25,18 25,49
0,7 25,80 26,12 26,42 26,73 27,04 27,34 27,64 27,94 28,23 28,52
0,8 28,81 29,10 29,39 29,67 29,95 30,23 30,51 30,78 31,06 31,33
0,9 31,59 31,86 32,12 32,38 32,64 32,89 33,15 33,40 33,65 33,80
1,0 34,13 34,38 34,61 34,85 35,08 35,31 35,54 35,77 35,99 36,21
1,1 36,43 36,65 36,86 37,08 37,29 37,49 37,70 37,90 38,10 38,30
1,2 38,49 38,69 38,88 39,07 39,25 39,44 39,62 39,80 39,97 40,15
1,3 40,32 40,49 40,66 40,83 40,99 41,15 41,31 41,47 41,62 41,77
1,4 41,92 42,07 42,22 42,36 42,51 42,65 42,70 42,92 43,06 43,19
1,5 43,32 43,45 43,57 43,70 43,82 43,94 44,00 44,10 44,30 44,41
1,6 44,52 44,63 44,74 44,84 44,95 45,05 45,15 45,25 45,35 45,45
1,7 45,54 45,64 45,73 45,82 45,91 45,99 46,08 46,16 46,25 46,33
1,8 46,41 46,49 46,58 46,64 46,71 46,78 46,86 46,93 46,99 47,06
1,9 47,13 47,19 47,26 47,32 47,38 47,44 47,50 47,56 47,61 47,67
2,0 47,73 47,78 47,83 47,88 47,93 47,98 48,03 48,08 48,12 48,17
2,1 48,21 48,26 48,30 48,34 48,38 48,42 48,46 48,50 48,54 48,57
2,2 48,61 48,65 48,68 48,71 48,75 48,78 48,81 48,84 48,87 48,90
2,3 48,93 48,96 48,98 49,01 49,04 49,06 49,09 49,11 49,13 49,16
2,4 49,18 49,20 49,22 49,25 49,27 49,29 49,31 49,32 49,34 49,36
2,5 49,38 49,40 49,41 49,43 49,45 49,46 49,48 49,49 49,51 49,52
2,6 49,53 49,55 49,56 49,57 49,59 49,60 49,61 49,62 49,63 49,64
2,7 49,65 49,66 49,67 49,68 49,69 49,70 49,71 49,72 49,73 49,74
2,8 49,74 49,75 49,76 49,77 49,77 49,78 49,79 49,79 49,80 49,81
2,9 49,81 49,82 49,83 49,84 49,84 49,84 49,85 49,85 49,86 49,86
3,0 49,86 49,87 49,87 49,88 49,88 49,88 49,89 49,89 49,89 49,90
3,1 49,90 49,91 49,91 49,91 49,92 49,92 49,92 49,92 49,93 49,93
x − µ
z =
σ
Exemplo: A média de colesterol em 100 ml de plasma sanguíneo é de 200 mg, com
desvio padrão de 20 mg. A probabilidade de uma pessoa apresentar mais que 225 mg de
colesterol em 100 ml de plasma será:
z =(225 – 200)/20 = 1,25
Esse valor de z corresponde a 39,44 na tabela de valores sob a curva normal reduzida.
Essa facilidade de cálculo para variáveis de distribuição normal pode ser utilizada nas
distribuições binomiais. Quando faço um gráfico com as probabilidades de eventos em
variáveis binomiais, este terá aparência semelhante ao gráfico de uma distribuição normal.
Para o cálculo das probabilidades de variáveis binomiais também existe uma tabela
com várias situações e combinações possíveis, mas esta tabela exige certo trabalho de soma
de probabilidades.
A utilização da curva normal reduzida para cálculo de probabilidades em variáveis
binomiais é possível sempre que np > 5 e nq > 5. Primeiro deve-se calcular a média e desvio
padrão da distribuição:
µ = np σ = npq
Com os valores da média e desvio padrão, aplico a mesma fórmula que para
distribuição normal:
x − µ
z =
σ
10 – ESTIMATIVA POPULACIONAL3
Fórmula 1 Fórmula 2
n0
n0 = z ( p2.q) n=
2
e 1+ n0
N
onde:
no - número inicial
Z - nível de confiança
p - valor obtido de trabalho anteriormente realizado por outro autor
N -tamanho da população
3
O texto deste capítulo foi extraído de RODRIGUES/93
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 38
n0 = z ( p2.q)
2
e
Z corresponderá ao valor de 1,96 ou 2,581 em função do critério que o experimentador
escolher; p será a percentagem de indivíduos com virose de acordo com a última informação.
(normalmente usamos os dados existentes em literatura recente).
q = igual a 100% - p
e = precisão que se deseja alcançar, ou seja, à diferença entre o percentual que iremos
encontrar e o verdadeiro percentual da população.
Considerando uma prevalência de anos anteriores igual a 20% com valor de Z = 1,96 e
sendo necessária uma precisão de 4%, qual seria o número de elementos que a amostra
deveria conter?
Z = 1,96
p = 20% 1,96 2 x 20 x80 3,84 x1600
n0 = = = 384
q = 80% 42 16
e = 4%
0 número de indivíduos que deveríamos examinar para a determinação da prevalência
da virose é de 384.
10.3.2 - Determinação da amostra de dados contínuos
Para variáveis quantitativas contínuas, dispomos das seguintes fórmulas:
onde:
Fórmula 1 Fórmula 2
2 2 n= n0
n0 = z .2s
e 1+ n 0
N
no - número inicial
Z - nível de confiança
s - desvio padrão obtido de trabalho anterior realizado por outro autor. Não sendo
encontrado, procede-se a uma pré-amostragem, retirando-se 30 observações da
população e calculando-se o desvio padrão da característica a estudar.
N - tamanho da população
e = precisão arbitrada pelo pesquisador
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 39
Quando não conheço o desvio padrão na população, posso usar o erro padrão da
média, e o intervalo de confiança será:
Onde:
Onde:
p: proporção amostral
q: (1 - p)
n: tamanho da amostra
Nas três fórmulas está sendo utilizado o valor de z, supondo uma distribuição de
elevado número de elementos. Para distribuições com até 30 elementos o z será substituído
pelo t, e a tabela utilizada será a curva t.
4
O valor de z é apresentado na tabela de distribuição normal. Os valores mais frequentemente
utilizados são: 2,58 para 99%; 1,96 para 95%. Em distribuições de número pequeno de
elementos será utilizada a tabela t, com valores para 99% e 95% de confiança que dependem
do número de elementos amostrais.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 41
11 - CORRELAÇÃO:5
5
ADAPTAÇÃO DE TEXTO TRADUZIDO, PRODUZIDO POR Silvia Emiko
Shimakura & Paulo Justiniano Ribeiro Junior, Departamento de Estatística-UFPR
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 42
• Para descrever a relação entre variáveis. (Dado um aumento específico numa variável,
qual o crescimento médio esperado para a segunda variável?).
A associação linear entre duas variáveis é avaliada usando correlação. Para predizer o
valor de uma variável contínua a partir de uma outra variável e para descrever a relação
entre duas variáveis utiliza-se regressão (veja o próximo capítulo).
O primeiro estágio em qualquer um dos casos é produzir um gráfico de pontos dos
dados para obter alguma idéia da forma e grau de associação entre duas variáveis.
165
160
155
150
altura (cm)
145
140
135
130
50 55 60 65 70 75
peso (kg)
Mesmo tendo somente 20 observações, podemos ver que parece existir alguma
associação entre peso e altura das crianças de 7 a 9 anos de idade.
11-2 - DEFINIÇÕES:
Seja x1 , x2 ,.....xn o conjunto das medidas de uma das variáveis (peso), e seja y1 , y2 ,.... yn
as medidas da outra variável (altura). Seja x, y, sx , s y as médias e desvios padrão
amostrais dos dois conjuntos de dados.
Para obter uma medida do grau de associação da relação linear entre duas variáveis,
usamos o coeficiente de correlação, definido como:
Onde
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 43
291,8 15,36
sxy = = 15,36 e r = = 0,42
19 4,88 × 7,58
Assim como para médias e desvios padrão, existe uma letra Grega especial que
utilizados para o coeficiente de correlação populacional: ρ . Podemos considerar
r como sendo uma estimativa de ρ , exatamente como x é uma estimativa da média
populacional µ .
O valor de r está sempre entre -1 e +1, com r=0 correspondendo à não associação.
Usamos o termo correlação positiva quando r>0, e nesse caso à medida que x
cresce também cresce y, e correlação negativa quando r<0 , e nesse caso à medida que x
cresce, y decresce (em média).
Quanto maior o valor de r (positivo ou negativo), mais forte a associação. No extremo,
se r=1 ou r=-1 então todos os pontos no gráfico de dispersão caem exatamente numa
linha reta. No outro extremo, se r=0 não existe nenhuma associação linear.
O seguinte quadro fornece um guia de como podemos descrever uma correlação em
palavras dado o valor numérico. É claro que as interpretações dependem de cada
contexto em particular.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 44
Somente relações lineares são detectadas pelo coeficiente de correlação que acabamos
de descrever (também chamado coeficiente de correlação de Pearson). Nos dados
abaixo, mesmo existindo uma clara relação (não-linear) entre x e y, o coeficiente de
correlação é zero. Sempre faça o gráfico dos dados de modo que você possa visualizar
tais relações.
A terceira explicação é freqüentemente a mais apropriada. Isto indica que existe algum
processo de conexão atuando. Por exemplo, o número de pessoas usando óculos-de-sol e a
quantidade de sorvete consumido num particular dia são altamente correlacionados. Isto não
significa que usar óculos-de-sol causa a compra de sorvetes ou vice-versa!
É extremamente difícil estabelecer relações causais a partir de dados observacionais.
Precisamos realizar experimentos para obter mais evidências de uma relação causal.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 46
12. REGRESSÃO
Este é o modelo mais simples para descrever a relação entre uma variável explanatória
x e uma variável resposta y. O modelo faz a seguintes suposições, em ordem
decrescente de importância:
1. o valor médio da variável resposta é uma função linear de x,
2. a variância da variável resposta é constante (ou seja, a mesma para todos os valores
de x),
3. a variação aleatória da variável resposta para qualquer valor fixo de x segue uma
distribuição Normal, e estes termos de erro são independentes.
Uma tarefa importante associada com o modelo de regressão linear é a estimação dos
valores de α e β, os quais juntos determinam a equação da reta ajustada.
Um método padrão de estimação em estatística chamado máxima verossimilhança leva
às mesmas estimativas de mínimos quadrados descrito na Seção 1, ou seja,
Em aplicações, não existe garantia de que o modelo de regressão linear será razoável
para nossos dados. Devemos sempre sobrepor a reta ajustada y = αˆ + βˆx sobre um
gráfico de dispersão dos dados para checar se o modelo é razoável. Devemos procurar
por evidências de uma relação não-linear, ou desvios muito extremos da reta ajustada.
Se acharmos que o modelo está razoável, podemos também estimar , a variância dos
erros ε i , usando a fórmula
2 2
onde s y e s x denotam a variância amostral de y e de x, respectivamente.
3.1 Exemplo
Para os nossos dados, já sabemos que αˆ = −51,17 e que βˆ = 0,68 . Um gráfico dos
dados com a reta ajustada é:
O ajuste da reta não parece tão bom. Existem dois pontos bem distantes da reta ajustada,
e o da esquerda em particular parece ter uma grande influência na reta ajustada. Na
prática é aconselhável investigar a acurácia destes valores e/ou verificar quanto muda a
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 50
reta ajustada quando estes pontos são removidos. Contudo, por enquanto
prosseguiremos assumindo que está tudo ok!
Para sermos capazes de calcular erros padrão e intervalos de confiança, é importante
manter tantas casa decimais quanto possível: βˆ = 0,6846253 . As outras quantidades
são:
Então uma estimativa do desvio padrão dos desvios aleatórios, ε i ,em torno da reta é
12-6 - RESUMO
Regressão permite-nos:
• Descrever sucintamente o nível geral de uma variável que está associada com cada
nível de outra.
• Predizer uma variável de uma outra variável. É importante aqui distinguir entre
interpolação (predição dentro da amplitude dos dados amostrados; no exemplo,
predição do peso de uma pessoa de altura 170 cm) e extrapolação (predição fora da
amplitude dos dados; no exemplo, predição do peso de alguém com altura 70cm como
sendo aproximadamente -3 kg!).
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 51
ANEXOS:
Z ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,0 0000 0040 0080 0120 0159 0199 0239 0279 0319 0359
0,1 0398 0438 0478 0517 0557 0596 0636 0875 0714 0753
0,2 0793 0832 0871 0910 0948 0987 1028 1064 1103 1141
0,3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517
0,4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1878
0,5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224
0,6 2257 2291 2324 2357 2389 2422 2354 2486 2518 2549
0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852
0,8 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133
0,9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3380
1,0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621
1,1 3643 3665 3686 3708 3729 3749 3770 3790 3810 3830
1,2 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015
1,3 4032 4049 4066 4083 4099 4115 4131 4147 4162 4177
1,4 4192 4207 4222 4236 4251 4265 4270 4292 4306 4319
1,5 4332 4345 4357 4370 4382 4394 4400 4410 4430 4441
1,6 4452 4463 4474 4484 4495 4505 4515 4525 4535 4545
1,7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633
1,8 4641 4649 4658 4664 4671 4678 4686 4693 4699 4706
1,9 4713 4719 4726 4732 4738 4744 4750 4756 4761 4767
2,0 4773 4778 4783 4788 4793 4798 4803 4808 4812 4817
2,1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857
2,2 4861 4865 4868 4871 4875 4878 4881 4884 4887 4890
2,3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916
2,4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936
2,5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952
2,6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964
2,7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974
2,8 4974 4975 4976 4977 4977 4978 4979 4979 4980 4981
2,9 4981 4982 4983 4984 4984 4984 4985 4985 4986 4986
3,0 4986 4987 4987 4988 4988 4988 4989 4989 4989 4990
3,1 4990 4991 4991 4991 4992 4992 4992 4992 4993 4993
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 53
α ( NÍVEL DE SIGNIFICÂNCIA)
graus de liberdade
10% 5% 1%
1 6,31 12,71 63,66
2 2,92 4,30 9,92
3 2,35 3,18 5,84
4 2,13 2,78 4,60
5 2,02 2,57 4,03
6 1,94 2,45 3,71
7 1,90 2,36 3,50
8 1,86 2,31 3,36
9 1,83 2,26 3,25
10 1,81 2,23 3,17
11 1,80 2,20 3,11
12 1,78 2,18 3,06
13 1,77 2,16 3,01
14 1,76 2,14 2,98
15 1,75 2,13 2,95
16 1,75 2,12 2,92
17 1,74 2,11 2,90
18 1,73 2,10 2,88
19 1,73 2,09 2,86
20 1,73 2,09 2,84
21 1,72 2,08 2,83
22 1,72 2,07 2,82
23 1,71 2,07 2,81
24 1,71 2,06 2,80
25 1,71 2,06 2,79
26 1,71 2,06 2,78
27 1,70 2,05 2,77
28 1,70 2,05 2,76
29 1,70 2,04 2,76
30 1,70 2,04 2,75
40 1,68 2,02 2,70
60 1,67 2,00 2,66
120 1,66 1,98 2,62
INFINITO 1,64 1,96 2,58
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 54
EXERCÍCIOS:
CASA REGIÃO TIPO Nº P RSM CASA REGIÃO TIPO Nº P RSM CASA REGIÃO TIPO Nº P RSM
1 NORTE A 3 6.5 42 NORTE B 4 4.8 83 CENTRO B 3 8.4
2 NORTE B 2 3.6 43 NORTE B 3 5.9 84 CENTRO C 3 9.4
3 NORTE C 5 4.9 44 NORTE A 3 5.7 85 CENTRO B 5 8.7
4 NORTE B 4 3.9 45 NORTE C 5 3.5 86 CENTRO B 2 6.8
5 NORTE B 5 4.0 46 NORTE B 2 3.8 87 CENTRO A 4 4.9
6 NORTE C 4 4.4 47 NORTE A 4 3.7 88 CENTRO C 6 8.7
7 NORTE C 4 3.6 48 NORTE B 6 3.9 89 CENTRO B 5 6.9
8 NORTE A 5 4.0 49 NORTE C 5 4.6 90 CENTRO A 4 5.4
9 NORTE A 3 6.6 50 CENTRO A 4 5.8 91 CENTRO B 3 11.1
10 NORTE B 5 3.1 51 CENTRO B 3 7.3 92 CENTRO A 2 10.0
11 NORTE C 4 3.5 52 CENTRO B 2 8.2 93 CENTRO B 3 9.4
12 NORTE C 2 5.0 53 CENTRO A 4 8.3 94 CENTRO A 4 9.6
13 NORTE B 3 3.9 54 CENTRO C 5 7.5 95 CENTRO B 3 6.6
14 NORTE B 4 4.7 55 CENTRO B 3 6.2 96 CENTRO C 3 7.4
15 NORTE A 3 5.4 56 CENTRO A 3 8.9 97 CENTRO B 2 7.3
16 NORTE C 3 4.0 57 CENTRO B 4 8.1 98 CENTRO B 2 8.1
17 NORTE B 2 5.4 58 CENTRO C 4 10.8 99 CENTRO A 7 5.4
18 NORTE A 2 4.0 59 CENTRO B 2 5.9 100 CENTRO C 2 8.6
19 NORTE B 7 4.5 60 CENTRO B 2 11.6 101 CENTRO B 4 5.8
20 NORTE C 2 4.6 61 CENTRO A 5 6.8 102 CENTRO A 4 9.8
21 NORTE A 4 3.4 62 CENTRO C 5 8.9 103 CENTRO C 3 10.1
22 NORTE B 4 3.2 63 CENTRO B 6 6.3 104 CENTRO B 3 5.4
23 NORTE C 3 5.4 64 CENTRO A 2 9.0 105 CENTRO B 5 6.7
24 NORTE B 3 3.1 65 CENTRO B 3 9.4 106 CENTRO C 2 10.7
25 NORTE B 5 3.4 66 CENTRO C 3 5.6 107 CENTRO C 4 7.1
26 NORTE A 2 4.6 67 CENTRO A 2 8.3 108 CENTRO A 6 8.0
27 NORTE A 4 5.0 68 CENTRO C 2 5.6 109 CENTRO A 5 3.0
28 NORTE C 6 5.9 69 CENTRO C 7 9.8 110 CENTRO B 4 7.7
29 NORTE C 5 4.5 70 CENTRO C 2 6.4 111 CENTRO C 3 7.7
30 NORTE C 4 3.6 71 CENTRO C 4 7.6 112 CENTRO C 2 6.8
31 NORTE B 3 4.3 72 CENTRO B 2 6.1 113 CENTRO B 4 8.8
32 NORTE B 2 3.8 73 CENTRO B 4 4.8 114 CENTRO B 5 8.8
33 NORTE A 3 3.7 74 CENTRO A 5 8.2 115 CENTRO A 3 9.1
34 NORTE C 4 3.7 75 CENTRO C 3 11.2 116 CENTRO C 3 8.7
35 NORTE B 3 6.4 76 CENTRO B 3 2.2 117 CENTRO B 4 5.3
36 NORTE A 3 5.0 77 CENTRO A 2 10.3 118 CENTRO A 4 10.2
37 NORTE B 2 5.1 78 CENTRO B 2 10.4 119 CENTRO B 2 9.4
38 NORTE C 2 3.1 79 CENTRO C 7 6.3 120 CENTRO C 2 5.7
39 NORTE A 7 4.2 80 CENTRO A 2 8.6 121 SUL A 5 11.4
40 NORTE C 2 6.2 81 CENTRO B 4 8.1 122 SUL B 5 10.4
41 NORTE C 4 3.5 82 CENTRO A 4 8.2 123 SUL C 6 16.9
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 55
CASA REGIÃO TIPO Nº P RSM CASA REGIÃO TIPO Nº P RSM CASA REGIÃO TIPO Nº P RSM
124 SUL B 2 18.1 153 SUL A 4 17.8 182 SUL C 4 10.9
125 SUL B 3 11.1 154 SUL C 2 11.4 183 SUL B 3 6.4
126 SUL A 3 9.9 155 SUL B 2 15.1 184 SUL B 3 6.1
127 SUL A 2 17.2 156 SUL A 5 15.0 185 SUL A 5 15.5
128 SUL C 2 7.6 157 SUL B 5 17.2 186 SUL C 2 19.8
129 SUL C 7 14.5 158 SUL C 6 15.3 187 SUL B 4 16.8
130 SUL C 2 15.7 159 SUL B 2 12.3 188 SUL A 6 12.2
131 SUL B 4 10.7 160 SUL B 3 15.3 189 SUL B 5 17.3
132 SUL B 2 12.6 161 SUL A 3 8.2 190 SUL C 4 12.2
133 SUL A 4 10.8 162 SUL C 2 10.1 191 SUL A 3 17.3
134 SUL C 7 12.7 163 SUL B 2 15.9 192 SUL B 2 10.3
135 SUL B 2 6.9 164 SUL A 7 11.6 193 SUL C 4 16.0
136 SUL A 4 13.7 165 SUL B 5 17.3 194 SUL B 5 11.9
137 SUL B 4 8.3 166 SUL C 2 12.2 195 SUL B 3 9.6
138 SUL C 3 7.0 167 SUL A 4 6.2 196 SUL A 3 17.3
139 SUL A 3 9.9 168 SUL C 6 8.6 197 SUL A 4 4.9
140 SUL C 5 10.7 169 SUL C 5 12.9 198 SUL C 4 1.0
141 SUL C 2 11.7 170 SUL C 4 11.7 199 SUL C 2 13.2
142 SUL B 4 13.8 171 SUL C 3 6.8 200 SUL C 2 8.4
143 SUL B 6 8.2 172 SUL B 2 10.7 201 SUL A 5 13.5
144 SUL A 5 12.6 173 SUL B 3 6.7 202 SUL C 5 13.1
145 SUL C 4 15.1 174 SUL A 4 13.1 203 SUL B 6 15.2
146 SUL B 3 13.9 175 SUL C 3 7.9 204 SUL A 2 13.6
147 SUL A 2 16.6 176 SUL B 3 9.1 205 SUL B 3 15.5
148 SUL B 4 11.1 177 SUL A 2 11.8 206 SUL C 3 7.4
149 SUL C 5 16.1 178 SUL B 2 10.5 207 SUL A 2 14.6
150 SUL A 3 10.9 179 SUL C 7 10.6 208 SUL C 2 8.8
151 SUL B 3 8.9 180 SUL A 2 15.4 209 SUL C 7 8.9
152 SUL B 4 6.4 181 SUL C 4 12.2 210 SUL C 2 12.1
Utilize a lista acima para construir um banco de dados em uma planilha eletrônica.
Calcule as médias e medianas para renda e número de pessoas em cada região. Calcule as
medidas de dispersão e as medidas de amplitude quartil.