Sunteți pe pagina 1din 55

UNIVERSIDADE FEDERAL DE SANTA CATARINA

CENTRO DE CIÊNCIAS DA SAÚDE


DEPARTAMENTO DE SAÚDE PÚBLICA

ESTATÍSTICA
DESCRITIVA

MARIA CRISTINA MARINO CALVO

FLORIANÓPOLIS
2004
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 2

SUMÁRIO

1. NOÇÕES DE BIOESTATÍSTICA ................................................................................... 03


2.AMOSTRAGEM............................................................................................................... 07
3 APURAÇÃO E APRESENTAÇÃO DOS DADOS: APRESENTAÇÃO TABULAR .......... 09
4. APURAÇÃO E APRESENTAÇÃO DOS DADOS: APRESENTAÇÃO GRÁFICA.......... 13
5. ANÁLISE DESCRITIVA DE VARIÁVEIS QUANTITATIVAS:
MEDIDAS DE POSIÇÃO OU TENDÊNCIA CENTRAL .................................................. 18
6. ANÁLISE DESCRITIVA DE VARIÁVEIS QUANTITATIVAS:
MEDIDAS DE DISPERSÃO ........................................................................................... 26
7. NOÇÕES DE PROBABILIDADE.................................................................................... 30
8. DISTRIBUIÇÃO BINOMIAL............................................................................................ 32
9. DISTRIBUIÇÃO NORMAL.............................................................................................. 34
10. ESTIMATIVA POPULACIONAL ................................................................................... 37
11. CORRELAÇÃO LINEAR .............................................................................................. 41
12. REGRESSÃO LINEAR................................................................................................. 46
BIBLIOGRAFIA................................................................................................................... 41
ANEXOS............................................................................................................................. 42
EXERCÍCIOS PROPOSTOS.............................................................................................. 44
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 3

1. NOÇÕES DE BIOESTATÍSTICA

A ciência busca a verdade descrevendo o universo e estabelecendo princípios gerais


para explicar os fenômenos do universo. Para tanto deve valer-se do pensamento científico,
que se estabelece ao nível de uma linguagem teórica de conceitos e hipóteses. As hipóteses
precisam ser comprovadas, quando se faz necessária a utilização de instrumentos
operacionais que explicitarão os procedimentos usados para observação e mensuração do
fenômeno. São as hipóteses estatísticas.
A passagem da hipótese teórica para a hipótese estatística poderia ser assim
exemplificada: Determinado investigador estudará a veracidade da hipótese: "Os indivíduos
gordos comem mais que os indivíduos magros".
Esta hipótese encerra alguns conceitos, como: gordo, magro e comer mais. Qualquer
que seja o entendimento destes conceitos teóricos, para se operacionalizar a comprovação
desta hipótese o investigador deverá estabelecer a maneira de medir gordo, magro e comer
mais. Ou seja, como observar e medir gordo, magro e comer mais?
Uma tradução operacional destes conceitos pode ser de que gordo é o indivíduo que
apresente peso acima da faixa de normalidade no índice de massa corporal (IMC), e magro é o
indivíduo que apresente peso abaixo dessa faixa. Comer mais seria traduzido como consumir
mais calorias do que o definido como necessário pela tabela de ingestão diária de calorias de
acordo com o perfil de atividades do indivíduo.
Desta forma, a hipótese científica poderia ser enunciada como uma hipótese estatística
da seguinte forma: "Os indivíduos que apresentam peso acima da faixa de normalidade do
IMC, ingerem mais calorias (medidas pela tabela de ingestão diária), do que os indivíduos que
apresentam peso abaixo da faixa de normalidade do IMC".
Se esta hipótese referir-se a poucos indivíduos basta verificar se é verdade para estes
indivíduos e a questão estará resolvida. No entanto, para a ciência não terá muita utilidade tal
observação.
Em ciência buscam-se hipóteses mais gerais, referentes a parâmetros populacionais.
Para tanto, serão elaborados planos de coleta e análise de dados que testarão a hipótese. Os
dados serão coletados e analisados através de técnicas estatísticas adequadas e, através de
uma inferência indutiva, aceita-se a veracidade ou falsidade da hipótese estatística e,
conseqüentemente, de sua hipótese científica correspondente.
Esquematicamente:
• Observa-se determinado fenômeno e elabora-se uma hipótese científica que procura
estabelecer a relação entre seres e atributos;
• A partir da hipótese científica se deduz (inferência dedutiva) uma hipótese estatística
que permita explicar o fenômeno observado dentro de uma estrutura universal e
coerente, incorporada ao conjunto de conhecimentos atuais;
• Com a hipótese estatística se deduzem (inferência dedutiva) as conseqüências lógicas
quanto ao que deve ser esperado empiricamente com relação à população;
• São estabelecidas as regras de decisão para aceitação ou não aceitação da hipótese;
• A hipótese será verificada quanto a sua veracidade ou falsidade através do estudo do
comportamento do fenômeno, com coleta de dados e análise dos resultados através de
técnicas estatísticas adequadas definidas previamente;
• De acordo com o definido como regra de decisão, induz-se (inferência indutiva), a partir
dos resultados e com base na teoria das probabilidades, a veracidade ou falsidade da
hipótese estatística e a veracidade científica correspondente.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 4

A inferência indutiva terá tanto mais significado quanto mais rigoroso for o
delineamento da coleta de dados e quanto mais apropriada for a análise estatística destes
dados. As falhas nestas fases podem implicar em que os valores encontrados não reflitam
adequadamente os parâmetros correspondentes. A inferência da hipótese estatística para a
científica será tanto melhor quanto mais adequada tenha sido a formulação dos conceitos
teóricos.
Uma conclusão indutiva bem confirmada é provisoriamente aceita como verdade,
tornando-se um princípio. Será ajustada com a aquisição de novos conhecimentos, somando
experiências que a regulem, e permitindo o contínuo ajuste do modelo à realidade do universo.
Ao verificar a provável verdade de uma hipótese, a Estatística fornece, em bases
probabilísticas, o risco de errar ao aceitar ou rejeitar uma hipótese. Constitui-se em um
instrumento dos mais poderosos para o pesquisador na busca da verdade, e o principal
instrumento para generalizar conclusões a partir de experimentos particulares.

OBSERVAÇÃO DO FENÔMENO


HIPÓTESE CIENTÍFICA PENSAMENTO
CONSEQUÊNCIAS DEDUTIVO
↓ LÓGICAS
HIPÓTESE ESTATÍSTICA (regras para aceitação da
→ hipótese)

VERIFICAR HIPÓTESE

↓ ↓
HIPÓTESE HIPÓTESE PENSAMENTO INDUTIVO
ESTATÍSTICA ESTATÍSTICA
VERDADEIRA FALSA

↓ ↓
VERDADE CIENTÍFICA
CORRESPONDENTE → VERDADE PROVISÓRIA

1.1 - BREVE HISTÓRICO

Na antiguidade a estatística era utilizada com finalidade econômico-administrativa,


coletando dados populacionais, registro de colheitas, cheias do Nilo, e outros fatos ligados a
fenômenos naturais, caracterizando a estatística como auxiliar da administração pública.
O aparecimento do Estado Moderno (século XVII) e o estabelecimento de conceitos de
estado, governo, nação e povo, trouxeram a idéia de que a riqueza de uma nação é seu povo,
aliada ao dado objetivo de que o poder político é o poder do exército. Torna-se necessário
contar o povo e o exército, ou seja, o Estado. A medida utilizada é a "estatística". Era
considerada, portanto, uma ciência que descrevia a situação do Estado.
Com a evolução da Teoria das Probabilidades a estatística pode evoluir para a situação
de uma ciência independente, com objetivos e métodos próprios. A constatação da
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 5

variabilidade dos fenômenos levou à consciência da necessidade de se considerar o conjunto


de manifestações e não apenas uma manifestação isolada do fenômeno.

1.2 - DEFINIÇÃO

Historicamente foram muitas as definições estabelecidas para Estatística, mas uma


abrangente pode ser: "Ramo do conhecimento científico que consta de um conjunto de
processos que tem por objeto a observação, a classificação formal e a análise dos fenômenos
coletivos ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer
inferências indutivas válidas a partir dos dados observados e buscar métodos capazes de
permitir esta inferência (finalidade indutiva)”.(BERQUÓ/81)
Da mesma forma, são muitas as definições para Bioestatística. Preferimos adotar a
seguinte: Conjunto de técnicas que permite coletar, apurar e apresentar dados para que sejam
analisados, proporcionando inferências indutivas sobre as ciências da vida.

1.3 - LEVANTAMENTO DE DADOS

Processo planejado para coleta do material básico de cada variável de interesse. O tipo
de dado e a forma de coletá-lo dependem de cada investigação.
Os levantamentos de dados podem ser:
• Contínuos: os dados vão sendo registrados à medida que ocorrem. Ex: registros civis
(nascimento, óbito, casamento), registro de doenças compulsórias, registros
hospitalares.
• Periódicos: os dados são coletados periodicamente. Ex: recenseamento.
• Ocasionais: os dados são coletados sem preocupação de continuidade ou
periodicidade, mas no momento de interesse. Ex: Pesquisas de situação econômica,
estudos de doenças específicas.
Os dados podem ser:
• Primários: dados levantados diretamente na população no momento da investigação.
• Secundários: dados já registrados, arquivados ou publicados que serão utilizados na
investigação.
• Existentes registrados: os dados existem e estão registrados em documentos
anteriores. Ex: dados demográficos.
• Existentes não registrados: os dados existem, mas não estão registrados em
documentos anteriores. Ex: peso e altura dos alunos da UFSC.
• Não existentes: os dados não existem, ou seja, eles precisam ser provocados antes da
investigação. Ex: experimentos para testar eficácia de medicamentos.

1.4 - POPULAÇÃO E VARIÁVEIS

Quando vamos realizar um levantamento, precisamos definir a população que será


observada. Definida a população, chamamos de elemento a menor parte desta população. Ex:
Ao estudar os alunos da UFSC, o elemento é o aluno da universidade. Ao estudar a rede
hospitalar de um estado, o elemento é um hospital.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 6

Os elementos da população serão observados segundo a indagação que tenhamos, ou


seja, segundo a característica daquilo que é objeto de estudo. Esta característica é
denominada variável.
As variáveis possuem naturezas diversas, que definem o tipo de descrição e análise
estatística possíveis para cada uma delas. Podem ser:
• Não-paramétricas: estaremos interessados na distribuição das observações em cada
uma das categorias ou modalidades desta variável.
• Paramétricas: as observações são mensuráveis ou contáveis. As variáveis quantitativas
podem ser nomeadas, ordenadas e pode-se dizer qual o valor da diferença entre as
observações.
As variáveis não-paramétricas são subdivididas em:
• Escala nominal – quando cada categoria da variável recebe um nome e não há
hierarquia entre elas. Ex: sexo, cor de olhos, profissão, religião. Para essas variáveis
não se poderá estabelecer operações matemáticas, ou seja, os indivíduos do sexo
masculino com olhos castanhos não podem ser somados aos indivíduos do sexo
masculino com olhos azuis para estabelecer uma média de indivíduos do sexo
masculino com olhos castanho-azulados.
• Escala ordinal - quando além da classificação em uma determinada categoria, pode-
se estabelecer uma graduação entre elas. Ex: nível de escolaridade, nível sócio-
econômico. Para essas variáveis valem apenas as operações de maior que e menor
que.
As variáveis paramétricas são subdivididas em:
• Escala intervalar: quando sei qual a exata diferença entre as observações, mas não
existe um zero real. Ex.: a diferença entre 10oC e 30oC é a mesma que entre 70oC e
90oC, ou seja, 20oC. Mas não posso dizer que 10oC é 1/3 do calor de 30oC.
• Escala de razões: quando é possível fixar um zero de forma não arbitrária, poderei
aplicar todas as operações aritméticas. Ex: Idade dos indivíduos. Posso dizer que
um indivíduo de 60 anos tem o dobro da idade de um indivíduo de 30 anos.
A principal diferenciação para variáveis em escala de razões é quanto a serem:
• Contínuas: quando não se obtém um valor exato, mas sim aproximado. Os valores
possíveis estão no conjunto dos números reais, podendo haver valores fracionários.
Ex: peso, altura, concentração de flúor na água. Não existe um instrumento de
medida preciso o suficiente para determinar o valor exato, sendo mensuráveis.
• Discretas: quando enumeráveis ou contáveis. Os valores possíveis estão no
conjunto de números inteiros. Ex: número de filhos, número de carros, número de
óbitos. É possível definir o número exato de ocorrências, sendo contáveis.
Quanto às variáveis, convém ainda lembrar que de uma escala de determinado nível
pode-se passar para um nível anterior, com o risco de se perder a precisão da informação; o
contrário não é possível. Ex: Quando tenho a renda individual de uma população estou em uma
escala de razão, podendo realizar todas as operações aritméticas. Posso transformar esta
informação em escala ordinal, classificando os indivíduos em renda baixa, média e alta, quando
já não poderei realizar as mesmas operações. Se a informação for coletada na escala ordinal
(alta, média, baixa), não será possível definir a renda média individual.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 7

2 - AMOSTRAGEM

A pesquisa deve tirar conclusões abrangentes, mas nem sempre é possível estudar a
população total de interesse. A amostragem consiste em determinar na população total quais
os elementos que iremos investigar e que fornecerão informação estimada para a totalidade
populacional.
As vantagens do levantamento por amostragem são: custo menor; menor tempo de
estudo; objetivos amplos; e exatidão.
Raramente o pesquisador estuda todo o universo de interesse em uma investigação.
As pesquisas são conduzidas com um número menor de elementos tirados da população de
interesse (amostra), que permitirá chegar a conclusões generalizadas para a totalidade
populacional de onde a amostra foi extraída.

2.1 - DEFINIÇÕES

• Censo: coleta de dados de todos os elementos que constituem a população ou universo


de estudo.
• População ou universo: conjunto de elementos sobre o qual desejamos pesquisar. Pode
ser finita (quando o tamanho total é conhecido e relativamente pequeno), e infinita
(quando o tamanho total é desconhecido e grande).
• Amostragem: normas e procedimentos utilizados para extrair de uma população definida
uma fração que seja representativa do grupo todo.
• Amostra: fração representativa da população, sobre a qual se pode fazer inferência para
a totalidade.
• Elementos: componentes da amostra e da população.

2.2 - TIPOS DE AMOSTRAGEM

2.2.1 - Não Probabilística


Esse tipo de amostragem pode prejudicar a possibilidade de generalizações (validade
externa) de um estudo, fazendo com que não seja representativo em relação à população.
Seus resultados são válidos para aquele estudo determinado, não permitindo generalizações
para outras situações semelhantes. Tipos:
• por voluntários: os elementos amostrais são voluntários para a pesquisa. Bastante
empregada em experimentos com medicamentos e técnicas médicas.
• intencional: o pesquisador escolhe os elementos amostrais. Ex: Entrevistar os ex-
secretários de saúde para pesquisa de políticas de saúde.
• por acesso mais fácil: os elementos são escolhidos por estarem mais próximos ou
em melhores condições de acesso. Ex: Aplicar questionário na população da zona
rural mais próxima do centro.
2.2.2 - Probabilística
A amostragem é probabilística quando cada elemento na população tem uma
probabilidade conhecida e diferente de zero de pertencer à amostra. É usada alguma forma de
sorteio. Permite generalizações para a totalidade da população.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 8

a) Amostragem casual simples:


Também denominada aleatória, consiste em sorteio dos elementos amostrais na
população, todos com igual probabilidade de pertencer à amostra. Sendo “N” o número
total de elementos da população e “n” o número total de elementos da amostra, a
probabilidade de cada elemento pertencer à amostra será (n/N). É a mais simples de
ser obtida, mas sua aplicação restringe-se à investigação de características distribuídas
homogeneamente na população.
b) Amostragem sistemática:
Para populações finitas; os elementos são escolhidos por um sistema, utilizando sua
ordenação natural (prontuários, quarteirões, alunos, etc.). Define-se a quantidade
k=(N/n) onde “k” recebe o nome de intervalo de amostragem. A seguir deve ser
sorteado o início do sistema, a partir do qual serão definidos os elementos amostrais a
cada intervalo “k”. Exemplo: Em 1500 alunos de uma escola serão sorteados 150 para
compor a amostra de um estudo. Estando esses alunos ordenados em listas de
presença, será definido o intervalo de sorteio: 1500 ÷ 150 = 10. Sorteia-se um número
entre 1 e 10 para dar início à composição da amostra, 3, por exemplo. As unidades
amostrais serão: 3 - 13 (3+10) - 23 (3+20) - 33 (3+30) ..... 1493 (3+1490).
c) Amostragem estratificada:
Para populações com características heterogêneas que podem comprometer as
conclusões se não forem consideradas na composição da amostra. A população é
dividida em grupos homogêneos denominados estratos e a amostra será sorteada em
cada um deles. O tamanho da amostra em cada estrato será definido pela variância da
característica a ser estudada, ou através da definição de um percentual nos estratos.
Neste caso, a amostra terá a representação proporcional de todos os estratos, e é
chamada amostra com partilha proporcional.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 9

3 - APURAÇÃO E APRESENTAÇÃO DOS DADOS:


APRESENTAÇÃO TABULAR

3.1 - APURAÇÃO DOS DADOS

A apuração dos dados tem por finalidade conhecer a freqüência de elementos da


população em cada uma das modalidades de cada variável de interesse.
Após a coleta de dados, os mesmos são apurados de acordo com os valores de uma
ou mais variáveis, estabelecendo uma distribuição de freqüências. Chama-se, portanto,
distribuição de freqüências à correspondência entre categorias ou valores possíveis de uma
variável e as freqüências respectivas. Exemplo:
TABELA 1: Número de alunos, segundo sexo, no 2º
ano do Curso de Odontologia da UMES - São
Bernardo - 1992.
SEXO No de alunos
(variável) (freqüência)
masculino 41
feminino 52
TOTAL 93
Fonte: Administração Geral da UMES, 1992.
Neste exemplo temos uma distribuição unidimensional ou univariada, pois se refere a
apenas uma variável (sexo).
Podemos ter uma distribuição bidimensional ou bivariada, referindo-se a duas
variáveis. Exemplo:
TABELA 2: Número de escolares examinados,
segundo idade e sexo, na Escola Estadual X -
Diadema - 1992.
Idade (anos) Sexo (variável)
Total
(variável) Masc. Fem.
7 50 47 97
8 35 34 69
9 36 41 77
10 53 53 106
11 33 30 63
12 46 46 92
Total 253 251 504
Fonte: DOPSP/UMESP - 1992.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 10

3.2 - DEFINIÇÃO DE CLASSES

Existem situações em que uma variável apresenta-se naturalmente em classes, como


no caso de sexo - masculino ou feminino, estado civil - solteiro, casado, viúvo, divorciado,
profissão – dentista, médico, enfermeiro, número de filhos – 1, 2, 3. Já as variáveis contínuas
podem apresentar inúmeras modalidades, por exemplo, peso e altura. Nestes casos pode ser
interessante o estabelecimento de distribuição em classes em lugar de estabelecer uma
distribuição com todas as modalidades.
Alguns cuidados devem ser tomados ao estabelecer classes, quais sejam:
• as classes devem ser mutuamente exclusivas, para que não haja dúvida na localização
dos valores da variável na distribuição;
• o elemento deve estar incluído em uma única classe;
• todos os elementos devem ter onde ser classificados;
• os valores reunidos passam a assumir o valor médio do intervalo de classe, portanto,
quanto maior for o intervalo de classe, maiores serão as possibilidades de distorção.
Deve-se procurar uma amplitude pequena nas classes, sem estabelecer um número
muito grande de classes;
• a amplitude das classes pode variar, desde que mantenham os aspectos relevantes da
distribuição. É comum o estabelecimento de classes de diferentes amplitudes no caso
de idade.
TABELA 3: Número de alunos da faculdade X,
segundo sexo e altura, São Paulo, 1987.
Sexo
Altura (metros) Total
masc. fem.
1,45 ├- 1,55 1 3 4
1,55 ├- 1,65 1 10 11
1,65 ├- 1,75 8 5 13
1,75 ├- 1,85 12 2 14
Total 22 20 42
Fonte: Y
As classes terminam e começam com o mesmo valor quando a variável é contínua,
sendo o símbolo entre os valores o que define até onde cada classe vai. Por exemplo, se a
barra vertical está do lado do 1,45 na primeira linha da tabela 3, significa que 1,45 está nesta
classe. Já o valor 1,55 está sem a barra vertical na primeira linha e com a barra vertical na
segunda, indicando que o valor 1,55 está na segunda classe e não na primeira.
As variáveis discretas também podem ser colocadas em intervalos de classe. Neste
caso, a notação pode ser diferente. Como os valores são exatos, as classes podem começar e
terminar sem que o valor se repita na classe seguinte. Assim:
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 11

TABELA 3a: Número de alunos da faculdade X,


segundo sexo e número de irmãos, São Paulo, 1987.

Número de Sexo
Total
irmãos masc. fem.
0a1 1 3 4
2a3 1 10 11
4a5 8 5 13
5a6 12 2 14
Total 22 20 42
Neste exemplo, na primeira classe estão os alunos que têm 0 e 1 irmãos, na segunda
os alunos que têm 2 e 3 irmãos, e assim, sucessivamente.

3.3 - CARACTERÍSTICAS DE UMA TABELA

Uma tabela deve ser explicativa, sem necessidade de consulta ao texto para entendê-
la. Para tanto, os componentes essenciais são o título, corpo da tabela, cabeçalho e coluna
indicadora.
• O título é a indicação anterior a tabela, e deve ser preciso, claro e resumido, indicando o
que está sendo tabulado, quais as variáveis que estão sendo consideradas, o local e a
data em que o fato foi observado.
• O corpo da tabela é o conjunto de linhas e colunas onde são colocadas as informações,
e cada célula é o cruzamento de uma linha com uma coluna, indicando a freqüência
com que a categoria foi observada.
• O cabeçalho é onde se define a categoria de cada coluna e a coluna indicadora é onde
se define a categoria de cada linha.
(TÍTULO): TABELA 3: Número de alunos da faculdade X, segundo sexo
e altura, São Paulo, 1987.

COLUNA INDICADORA

sexo
Altura (metros) Total ÕCABEÇALHO
masc. fem.
1,45 ├- 1,55 1 3 4
1,55 ├- 1,65 1 10 11 CORPO
1,65 ├- 1,75 8 5 13 DA
1,75 ├- 1,85 12 2 14 TABELA
Total 22 20 42
Fonte: Y
Uma questão de forma que melhora a apresentação dos dados é colocar na coluna
indicadora a variável com maior número de categorias e usar o cabeçalho para colocar variável
apenas em tabelas com mais que uma variável. Nas tabelas unidimensionais a variável deve
ser colocada na coluna indicadora.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 12

A tabela possui, ainda, alguns elementos complementares, que são a fonte, que fica
abaixo da tabela e indica a entidade responsável pela organização dos dados ou fornecedora
dos dados, e notas, que podem ser colocadas no rodapé da tabela para esclarecer questões
gerais.
Nenhuma casa da tabela deve ficar em branco, devendo apresentar sempre um
número ou sinal. Usa-se o hífen (-) para representar valores nulos, reticência (...) quando não
se dispõe de dado, interrogação (?) quando se tem dúvida quanto ao valor numérico, e zero (0)
quando o valor numérico é muito pequeno para ser expresso na unidade utilizada. Essa
diferenciação para valores nulos (hífen) e muito pequenos (zero) é muito importante na
construção de tabelas.
As casas decimais, quando utilizadas, devem ser uniformes em todas as células da
mesma coluna e as regras matemáticas de aproximação devem ser obedecidas. Quando
temos várias tabelas em uma publicação, elas devem estar numeradas em ordem crescente de
acordo com o aparecimento.
As tabelas devem ser fechadas por linhas horizontais no alto e embaixo, não sendo
fechadas à direita e esquerda. Os totais e subtotais devem ser destacados e quando existem
duas variáveis devem estar presentes os totais de cada uma delas: um na última linha e outro
na última coluna.
As variáveis contínuas devem ter a unidade de medida especificada no título ou na
coluna e cabeçalho da tabela.
As tabelas podem apresentar, além das freqüências absolutas, as freqüências
relativas. Para obter a freqüência relativa de uma categoria, divide-se a freqüência dessa
categoria pela soma das freqüências, multiplicando-se o resultado por cem (porcentagem).
TABELA 4: Número e porcentagem de alunos, segundo sexo,
no Curso de Odontologia da Metodista - São Bernardo - 1992.
SEXO No de alunos %
(variável) (freqüência absoluta) (freqüência relativa)
masculino 160 40
feminino 240 60
TOTAL 400 100
Fonte: Administração Geral da Universidade Metodista de São Paulo, 1992.

3.4 - PLANILHA ELETRÔNICA PARA CONSTRUIR TABELAS:

Os aplicativos mais utilizados em computadores possuem planilhas eletrônicas que


permitem a inclusão dos dados e de pois a construção de tabelas. Usando o Excell como
exemplo, os dados do levantamento devem ser digitados na forma de lista, com os elementos
da amostra nas linhas e as variáveis nas colunas. Após completado o banco de dados, tabelas
podem ser construídas utilizando o recurso de tabela dinâmica.
Na barra de ferramenta do Excell, na parte superior, no item "dados", selecionar o item
"relatório de tabela dinâmica" e seguir as orientações do programa. Tenha calma e leias todas
as instruções que o programa oferece. Se tiver dúvidas, o "help" do programa poderá auxiliar.
As tabelas construídas com esse recurso são fixas, e vinculadas à planilha digitada.
Para fazer alterações nos resultados, mudar a forma ou agrupar categorias, por exemplo, será
necessário copiar a tabela dinâmica e "colar especial" (do item editar) "valores" (sub-item do
colar especial).
A prática trará o aperfeiçoamento!
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 13

4 - APURAÇÃO E APRESENTAÇÃO DOS DADOS:


APRESENTAÇÃO GRÁFICA

4.1 - CARACTERÍSTICAS DE UM GRÁFICO

Os dados coletados e apurados podem também ser apresentados em forma de figuras,


em geral gráficos ou diagramas. Os gráficos devem ser auto-explicativos, de fácil
compreensão, sem comentários inseridos, de aparência agradável, que chame a atenção do
leitor e inspirem confiança.
Existem normas nacionais para construção de gráficos, devendo apresentar título e
escala. Por escala entende-se que os valores apresentados devem obedecer à mesma escala
em todo o gráfico, sendo que os valores expressos pelas figuras sejam proporcionalmente
iguais aos reais. Por exemplo, se devo apresentar os valores 10, 20 e 40 em um gráfico, estes
devem estar expressos de forma que, na figura, 40 seja o dobro de 20 e 20 seja o dobro de 10.
O tamanho do gráfico deve ser adequado à publicação a que se destina. O gráfico
deve possuir um título; as escalas devem crescer da esquerda para a direita e de baixo para
cima. A escala adotada não deve desfigurar os fatos ou as relações que se deseja destacar.
Os gráficos podem ser cartogramas ou diagramas. Os cartogramas são mapas
geográficos ou topográficos, muito utilizados em epidemiologia para observar o aparecimento
de certos agravos.

FIGURA 1: Municípios com vigilância sanitária dos teores de


flúor no Estado de São Paulo. 1994.

Os diagramas são gráficos em que as freqüências são representadas pela mensuração


de uma figura geométrica. Assim, temos:
• Diagrama de ordenadas: a medida utilizada é o comprimento, e
• Diagrama de barras, histograma e setores de círculo: a medida utilizada é a área ou
superfície da figura.
Na representação de um diagrama deve ser levada em conta a natureza da variável -
paramética contínua, paramétrica discreta ou não-paramétrica.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 14

4.2 - REPRESENTAÇÃO GRÁFICA DE VARIÁVEL NÃO-


PARAMÉTRICA E PARAMÉTRICA DISCRETA

A partir dos dados de uma tabela (TABELA 1), existem várias possibilidades de
representação das freqüências.
TABELA 1: Número de alunos, segundo sexo, no 6º
semestre do Curso de Medicina da UFSC - Florianópolis -
1996.
Sexo No de alunos
Masculino 40
Feminino 50
Total 90
Fonte: Administração geral da UFSC, 1996.

a) Diagrama de ordenadas: Sobre uma reta de sustentação, a partir de pontos


eqüidistantes na mesma, são construídas perpendiculares cujos comprimentos são
proporcionais às freqüências observadas. Exemplo: Gráfico 1.

GRÁFICO1:Número de alunos, segundo


sexo, no 6º semestre do Curso de
Medicina da UFSC - Florianópolis - 1996.

60
50
40
30
20
10
0
masc fem

Neste exemplo, coincidentemente, as freqüências de cada categoria – masculino e


feminino – aparecem na escala do gráfico, mas isso não é obrigatório. Poderia ocorrer das
freqüências serem 42 para masculino e 53 para feminino e a escala continuaria com os
mesmos valores indicativos; apenas a linha correspondente a cada freqüência seria um pouco
maior. O valor exato da freqüência não deve ser acrescentado à escala do gráfico.
b) Diagrama de barras: A mesma distribuição poderia ser representada por meio de um
diagrama que levasse em conta a área da figura geométrica. No diagrama de barras
são construídos retângulos em intervalos apropriados com áreas proporcionais às
freqüências das categorias da variável observada. Lembrando que a área do retângulo
é o produto da base pela altura, se fixarmos o mesmo tamanho de base para os vários
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 15

retângulos, poderemos construí-los com alturas proporcionais às freqüências. Exemplo:


Gráfico 1a.

GRÁFICO1a: Número de alunos, segundo


sexo, no 6º semestre do Curso de Medicina
da UFSC - Florianópolis - 1996.

60
50
40
30
20
10
0
masc fem

c) Diagrama de setores de círculo: A área correspondente a cada categoria da variável


deve obedecer à proporção da freqüência observada. Assim, no mesmo exemplo,
temos:
360° = 90
x = 50 ⇒ x = 200° (sexo feminino)
360° = 90
x = 40 ⇒ x = 160° (sexo masculino)
Como pode ser verificado no Gráfico 1b.

GRÁFICO1b: Número de alunos, segundo


sexo, no 6º semestre do Curso de Medicina
da UFSC - Florianópolis - 1996.

masc
fem

Fonte: Administração geral da UFSC, 1996.


ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 16

4.3 - REPRESENTAÇÃO GRÁFICA DE VARIÁVEL PARAMÉTRICA


CONTÍNUA

Nas distribuições de variáveis paramétricas é necessário se distinguir quando ela é


discreta e quando é contínua. Quando a variável é discreta utiliza-se o mesmo tipo de gráfico
que para as variáveis não-paramétricas. Quando é contínua, os gráficos mais utilizados são o
polígono de freqüências e o histograma.
a) Para construir o polígono de freqüências, admite-se que as freqüências das classes
estão concentradas no ponto médio dos intervalos que as definem. Localizados esses
pontos, eles são unidos entre si por retas, e o primeiro e último pontos são ligados ao
eixo das abscissas na metade das classes hipotéticas imediatamente anterior a
primeira e posterior à última, definindo a área total delimitada, correspondente a 100%
da distribuição. As áreas parciais serão proporcionais à freqüência de cada classe.
b) O histograma é um diagrama de barras justapostas. Lembrar que as áreas das
barras devem ser proporcionais às freqüências. Na construção de um gráfico de
freqüências em intervalos de classe, se as classes forem de mesma amplitude, basta
construir bases iguais e alturas proporcionais às freqüências.
Exemplo para amplitudes de classe iguais:

TABELA 2: Número de casos de linfomas no GRÁFICO 2: Número de casos de linfomas,


sexo masculino, segundo idade. Brasil, 1975. sexo masculino, segundo idade. Brasil,
1975. (Polígono de freqüências)

Idade em anos No 140

0 ├- 10 90
120

10 ├- 20 120
100
20 ├- 30 90
80
30 ├- 40 100
60
40 ├- 50 80
40
50 ├- 60 90
20
60 ├- 70 80
0
Total 650 0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 50 |- 60 60 |- 70

idade (anos)
Fonte: Ministério da Saúde, Brasil, 1978.
Fonte: Ministérios da Saúde, Brasil, 1978.

GRÁFICO 2a: Número de casos de linfomas, sexo


masculino, segundo idade. Brasil, 1975. (Histograma)

140
120
100
80
60
40
20
0
0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 50 |- 60 60 |- 70
idade (anos)
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 17

Se as amplitudes das classes forem diferentes, precisamos fazer um ajuste das


freqüências, caso contrário a área não será proporcional à freqüência com que ocorre a
variável. O ajuste é feito dividindo-se o número de casos de cada classe pela amplitude da
respectiva classe, obtendo-se um número de casos por intervalo de classe.
Exemplo para amplitudes de classe diferentes:
TABELA 3: Número de casos de linfomas, sexo
feminino, segundo a idade. Brasil, 1975.
Casos/ano
Idade em anos No Amplitude do intervalo
(freqüência ajustada)
0 ├- 5 15 5 anos 15/5 = 3
5 ├- 20 60 15 anos 60/15 =4
20 ├- 50 150 30 anos 150/30 = 5
50 ├- 65 75 15 anos 75/15 = 5
65 ├- 100 70 35 anos 70/35 = 2
Total 370

GRÁFICO 3: Número de casos de linfomas, sexo


feminino, segundo a idade. Brasil, 1975.

5
casos/anos de idade

0
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
idade (anos)

4.4 - APLICATIVOS GRÁFICOS:

Os programas de edição de texto (word) e de planilhas eletrônicas (excell) oferecem


instrumentos para construção digital de gráficos. Na barra de ferramentas, no item "inserir", há
um sub-item para "gráfico", que abre uma janela com várias opções de figuras.
Cabe alertar que o programa fará qualquer gráfico solicitado, independentemente de
sua correta indicação estatística. Então, o usuário é responsável pela correta seleção do tipo
de gráfico de acordo com a(s) variável(is) a serem apresentadas.
Os histogramas não são construídos pelo padrão do programa, sendo necessária a
instalação de suplementos para sua elaboração automática. Os polígonos de frequência são os
chamados "gráficos de linha". Observar sempre se os intervalos de classe estão definidos de
maneira adequada.
São muitas opções de formas e cores, e é preciso exercitar para aproveitar todos os
recursos gráficos desses programas.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 18

5 - ANÁLISE DESCRITIVA DE VARIÁVEIS PARAMÉTRICAS:


MEDIDAS DE POSIÇÃO OU TENDÊNCIA CENTRAL

Após a coleta de dados, os mesmos são apurados de acordo com os valores de uma
ou mais variáveis, estabelecendo uma distribuição de freqüências, através de gráfico ou tabela.
Exemplo:
TABELA 1: Número de escolares examinados
segundo idade1 e sexo na Escola Estadual Paulo
Freire - Diadema - 1992.
Idade Sexo
Total
(anos) masculino feminino
7 50 40 90
8 30 40 70
9 30 40 70
10 50 60 110
11 40 30 70
12 50 40 90
Total 250 250 500
GRÁFICO 1: Número de escolares examinados segundo
idade2 e sexo na Escola Estadual Paulo Freire - Diadema
- 1992.

60

50

40
n
30

20

10

0
7 8 9 10 11 12

idade (anos)
masc. fem.

Fonte: IMES/DOPS/1992

1
Idade neste exemplo está sendo utilizada como variável discreta, representando categorias
separadas, embora a natureza da variável seja contínua. Essa alteração deve-se à natureza do
problema analisado, onde cada ano a mais de idade interfere no valor da variável.
2
Idem nota anterior. Por isso o gráfico pode ser barras separadas – indicado para variáveis
discretas mas não para variáveis contínuas.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 19

O problema que se apresenta em conexão com estas distribuições é o de analisá-las


para descrever as suas características mais importantes. Assim, embora não possamos
conhecer os valores individuais, temos alguma idéia a respeito do conjunto estudado.
O método usual de análise de uma distribuição de freqüências de uma variável
quantitativa X consiste em definir as medidas de tendência central e as medidas de
variabilidade ou dispersão.
As medidas de posição ou tendência central visam determinar o centro da distribuição.
São medidas de tendência central a média aritmética, a mediana, a moda, a média geométrica
e a média harmônica.
Trataremos aqui de três destas medidas: mediana, moda, e média aritmética. Esta
última de maior interesse para os dados que, mais freqüentemente, são trabalhados na área.

5.1 - MÉDIA ARITMÉTICA

Dada uma distribuição de freqüências, chama-se de média aritmética a soma de todos


os valores da variável, dividida pela freqüência total.
Exemplo:
TABELA 2: Funcionários da receita federal segundo
valor de salário (em número de salários mínimos) -
Brasília, 1994.
Valor de salário (SM) freqüência
2 30
4 10
6 5
10 5
Total 50
Fonte: dados hipotéticos
A média será calculada através da SOMATÓRIA do produto VALOR DE SALÁRIO X
FREQUÊNCIA, dividida pela FREQUÊNCIA TOTAL.
Ou seja:
[(2x30)+(4x10)+(6x5)+(10x5)] ÷ 50 = [60+40+30+50] ÷ 50 =
180 ÷ 50 = 3,6 salários mínimos por funcionário
Esse valor expressa que o valor médio de salário por funcionário da receita federal em
Brasília é 3,6 salários mínimos por funcionário. Ou: os funcionários da receita federal de
Brasília apresentam uma média salarial de 3,6 salários mínimos por funcionário.
No mesmo exemplo da Tabela 2, se um dos funcionários fosse promovido e passasse
de 10 salários para 100 salários, ou seja, se tivéssemos um único valor de salário igual a 100
(cem salários mínimos):
TABELA 2a:
Valor de salário (SM) freqüência
2 30
4 10
6 5
10 4
100 1
Total 50
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 20

O cálculo da média seria:


[(2x30)+(4x10)+(6x5)+(10x4)+(1x100)] ÷ 50 = [60+40+30+40+100] ÷ 50 =
270 ÷ 50 = 5,4 salários mínimos por funcionário
A introdução de um único valor muito alto aumentou a média em 50%.
São características da média:
• É o valor que as observações teriam se fossem todas iguais.
• É da mesma natureza que a variável considerada, devendo ser acompanhada da
unidade de medida da variável.
• Sempre existe, e admite um único valor.
• É influenciada, e atraída, por valores aberrantes, como já foi demonstrado no exemplo
das tabelas 2 e 2a.
Dessa característica decorre a necessidade de cuidado ao analisar a média de uma
variável quando temos valores aberrantes, ou seja, muito altos ou muito baixos quando
comparados aos demais valores da distribuição.
Analisando as seguintes distribuições:
TABELA A: Distribuição de faltas dos TABELA C: Distribuição de faltas dos
alunos do 3º semestre de medicina. alunos do 3º semestre de medicina.
Nº faltas f Nº faltas F
0 40 0 10
1 10 1 20
2 - 2 40
3 10 3 20
4 40 4 10
Total 100 Total 100
Média = (40x0) + (10x1) + (0x2) + (10x3)+ Média = (10x0) + (20x1) + (40x2) + (20x3)+
(40x4) = 200/100 = 2 (10x4) = 200/100 = 2

TABELA B: Distribuição de faltas dos TABELA D: Distribuição de faltas dos


alunos do 3º semestre de medicina. alunos do 3º semestre de medicina.
Nº faltas f Nº faltas F
0 30 0 50
1 - 1 -
2 40 2 -
3 - 3 -
4 30 4 50
Total 100 Total 100
Média = (30x0) + (0x1) + (40x2) + (0x3)+ Média = (50x0) + (0x1) + (0x2) + (0x3)+
(30x4) = 200/100 = 2 (50x4) = 200/100 = 2

Perceba a distribuição diversificada das faltas verificadas, apesar das médias iguais: 2
faltas por aluno nas quatro situações.
O conhecimento da média de uma variável não permite identificar como os valores
estão distribuídos no grupo de indivíduos, ou seja, quanto os valores estão dispersos em
relação à média. Essa discussão será complementada no próximo capítulo.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 21

5.2 - MEDIANA
5.2.1 - Variável Discreta:
Dada uma distribuição de freqüências em ordem crescente ou decrescente de
magnitude, a mediana é definida como sendo igual ao valor que ocupar o posto central nesse
conjunto, ou seja, é o valor da variável que deixa 50% das observações abaixo e 50% das
observações acima desse valor.
Exemplo: Os dentes de 7 crianças foram examinados, e foram contados os dentes
cariados em cada uma delas, com os seguintes resultados: 3, 2, 5, 2, 3, 9, 7. Dispondo os
valores em ordem crescente temos: 2, 2, 3, 3, 5, 7, 9. O posto central é o quarto, ocupado pelo
valor 3, então dizemos que a mediana desse conjunto é 3.
Quando o número de observações (n) é ímpar, sempre existe um posto central e não
há problema em estabelecer a mediana, que será igual ao valor que estiver no posto (n + 1)/2.
Se as observações estiverem dispostas em uma tabela de freqüências, temos:
TABELA 4: Número de pacientes segundo número de
filhos. UBS Vinicius de Moraes, 1990.
No de filhos No de freqüência
pacientes acumulada
0 10 10
1 20 30
2 33 63
3 15 78
4 5 83
Total 83
Fonte: Y
O posto mediano (83 + 1)/2 corresponde a 42. O posto 42 está localizado após a
frequência acumulada 30, da segunda linha, entre as observações acumuladas até o total de
63, da terceira linha. Então, a mediana de filhos é 2 filhos por paciente.
Quando n é par, existem dois valores centrais, sendo estabelecido por convenção que
a mediana é a média dos valores que ocupam os dois postos centrais - n/2 e (n+2)/2.
Corresponde, portanto a:
valor do posto n/2 + valor do posto (n+2)/2
2
Exemplo: No conjunto dos valores 21, 25, 26, 30, 32, 33 os valores centrais são 26 e
30. A mediana será (26 + 30)/2, que é igual a 28.
Em uma tabela de freqüências temos:
TABELA 5: Número de pacientes segundo número
de filhos. UBS Tom Jobim, 1990.
No de No de freqüência
filhos pacientes acumulada
0 10 10
1 12 22
2 5 27
3 20 47
4 7 54
Total 54
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 22

Os dois postos centrais são 54/2 e 56/2, 27 e 28 respectivamente. O posto 27


corresponde a 2 filhos e o 28 corresponde a 3 filhos. Nesse caso a mediana será (2 + 3)/2, que
é igual a 2,5 filhos por paciente.
5.2.2. Variável contínua:
Para variáveis contínuas determina-se o valor que divide a freqüência total n em duas
partes iguais, independentemente de n ser par ou ímpar. Como normalmente as variáveis
contínuas são apresentadas em intervalos de classe, temos:
TABELA 6: Número de alunos da classe
segundo peso. Classe de 1992.
peso (kg) No alunos freqüência
acumulada
50 ├- 55 10 10
55 ├- 60 15 25
60 ├- 70 13 38
70├-75 2 40
Total 40
A mediana estará no posto 40/2, que é igual a 20. O posto 20 está incluído na classe
de 55 /- 60 kg. Neste caso imagino que os 15 indivíduos desta classe estão distribuídos de
forma idêntica nos 5 kg. então, tenho 5 kg para 15 indivíduos e procuro o valor correspondente
a 10 indivíduos - já tenho 10 indivíduos até o início desta classe, faltando 10 para chegar aos
vinte da mediana. Se 15 indivíduos têm 5 kg, 10 indivíduos têm 3,33 kg. A mediana será 55 +
3,33, igual a 58,3 kg por aluno.
Se fosse um número ímpar de elementos, o cálculo seria o mesmo:
TABELA 7: Número de alunos da classe
segundo peso. Classe de 1992.
peso (kg) No alunos freqüência
acumulada
50 ├- 55 10 10
55 ├- 60 15 25
60 ├- 70 13 38
70├-75 3 41
Total 41
A mediana estará no posto 41/2, que é igual a 20,5. O posto 20,5 está incluído na
classe de 55 |- 60 kg. Neste caso imagino que os 15 indivíduos desta classe estão distribuídos
de forma idêntica nos 5 kg. Então, tenho 5 kg para 15 indivíduos e procuro o valor
correspondente a 10,5 indivíduos - já tenho 10 indivíduos até o início desta classe, faltando
10,5 para chegar aos vinte da mediana. Se 15 indivíduos têm 5 kg, 10,5 indivíduos têm 3,5 kg.
A mediana será 55 + 3,5, igual a 58,5 kg por aluno.

Indivíduos 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Peso adicional 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33

O indivíduo 11 começou com 55 kg e ganhou 0,33 kg (55,33). O indivíduo 12 começou


com 55,33 kg e ganhou mais 0,33 kg (55,66), e assim sucessivamente, até chegar ao indivíduo
20,5.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 23

5.2.3 - Características da mediana:


• É da mesma natureza que a variável e deve ser expressa com a unidade de medida da
variável. Se estou descrevendo a idade de alunos, a mediana deverá ser expressa em X
anos por aluno.
• Sempre existe e é única.
• Não sofre influência de valores aberrantes. Essa é uma vantagem da mediana sobre a
média aritmética, que será apresentada mais adiante. Em duas distribuições de salários,
como se segue:
R$50,00, R$65,00, R$75,00, R$90,00, R$95,00 - mediana igual a R$75,00;
R$50,00, R$65,00, R$75,00, R$90,00, R$12.000,00 - mediana igual a R$75,00;
observa-se que a mediana não foi influenciada pelo valor "aberrante" de R$12.000,00.
• Para a mediana, sempre há 50% dos valores acima e 50% dos valores abaixo dela.
Dessa característica decorre um dos problemas de seu emprego sem adequada
indicação. Quando possuo valores diferentes da variável sua interpretação é simples,
mas quando possuo valores repetidos, sua interpretação pode levar a equívocos. Por
exemplo: Em uma avaliação dos alunos foram obtidas as notas 2, 2, 5, 5, 5, 5, 6, 7, 7, 8,
8, com mediana igual a 5. Ocorre que existem apenas 2 notas abaixo de 5 e 5 notas
acima de 5. Disso decorre o cuidado quanto ao emprego da mediana para expressar
características de distribuições.
5.2.4 – Medidas complementares da mediana:
Para descrever melhor a distribuição a partir das medidas de posição, a mediana deve
ter seus valores auxiliares apresentados sempre que a distribuição possuir repetição de valores
ou valores muito extremos para qualquer lado da distribuição. As medidas complementares
são:
• Valor mínimo: é o valor mais baixo encontrado na distribuição
• Valor máximo: é o valor mais elevado encontrado na distribuição
• Primeiro quartil: é o valor localizado ao final do primeiro quarto da distribuição
• Terceiro quartil: é o valor localizado ao final do terceiro quarto da distribuição
• Percentil: dez, vinte, trinta, etc... é o valor localizado a cada décimo da distribuição
Exemplo:

1,1,1,1,1,2,2,3,3,3,3,3,4,4,4,4,4,5,5,5,5,5,6,6,6,6,7,7,7,7,8,8,8,8,9,9,9,9,9,10,10,10,10,10,10
Valor mínimo: 1; Primeiro quartil: 3; Mediana: 6; Terceiro quartil: 8; Valor máximo: 10

5.3 - MODA

A moda é definida como o valor que ocorre com maior freqüência em uma distribuição.
No caso de termos as seguintes observações: 2, 2, 4, 6, 6, 6, 7, 9, 20, a moda será 6,
que é o valor que aparece em maior número de vezes.
Em outra situação temos: 2, 2, 2, 5, 6, 6, 6, 7, 9, 20, com dois valores modais - 2 e 6,
dizendo tratar-se de distribuição bimodal.
Ainda, podemos ter: 2, 3, 5, 6, 7, 9, 10, 20, sem valor modal.
Se a distribuição apresenta-se em forma de tabela, a moda será aquela
correspondente à maior freqüência:
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 24

TABELA 8: Número de alunos segundo idade. Classe de 1992.


Idade Caso 1 Caso 2 Caso 3
(anos)
No alunos No alunos No alunos
19 15 15 15
20 20 20 15
21 30 20 15
22 10 20 15
23 15 15 15
Total 90 90 90
Existem três
A moda é 21 modas: 20,
Não há moda
anos de idade 21, e 22
anos.
São características da moda:
• É da mesma natureza que a variável.
• Nem sempre existe e nem sempre é única, existindo distribuições multi-modais - quando
há mais que um valor modal.
• Pode ser utilizada para variável qualitativa.

5.4 - DEFINIÇÃO DAS MEDIDAS A PARTIR DE APLICATIVOS:

Atualmente as medidas de posição e de tendência central podem ser facilmente


detectadas a partir de programas estatísticos ou planilhas eletrônicas.
Utilizando o excell como exemplo, após a digitação do banco de dados em uma
planilha, obedecendo a adequada inclusão dos valores observados - elementos nas linhas e
variáveis nas colunas - essas medidas podem aferidas usando as funções de cálculo da
planilha.
Na barra de ferramentas do excell é comum a existência de um atalho de "função",
representado por "fx". Esse atalho abre uma janela com várias opções de cálculos na planilha.
Escolhido o cálculo desejado, uma janela de orientação vai indicar os próximos passos.
Como exemplo, para cálculo da média de altura valores de 100 indivíduos, teremos:
- Na planilha deverão estar colocados os 100 valores de altura dos indivíduos,
um valor em cada linha.
- Supondo que a primeira linha das colunas tenha sido usada para indicar a
variável de cada coluna, teremos na A1 "nome", na A2 "altura", e assim por
diante, para todas as variáveis.
- Na segunda linha estarão os valores das variáveis. Na A2 estará o nome do
primeiro indivíduo e na B2 o valor da sua altura. Na A3 estará o nome do
segundo indivíduo e na B3 estará sua altura. E assim por diante.
- Para calcular a média devemos estar na planilha e teclar na tecla de função (fx)
e selecionar "estatística" na janela da esquerda. Entre as funções estatísticas
que aparecem, selecionar "média".
- A descrição de cada uma das medidas da janela aparece na parte inferior da
mesma. Leia com atenção para saber se é a medida que deseja utilizar.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 25

- Ao selecionar "média", uma outra janela se abre, solicitando que informe de


quais dados deseja a média. Então, se a média desejada é da altura dos 100
indivíduos, nesse espaço deverá ser definido o intervalo deles na planilha -
B2:B101. A forma de indicar esse intervalo é destacar esse espaço na planilha.
- Tecle enter para finalizar o procedimento.
- Na célula onde o cursor estava no início da operação aparecerá o valor da
média.
- É aconselhável deixar o cursor no final da planilha, embaixo da coluna sobre a
qual se deseja calcular a medida.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 26

6 - ANÁLISE DESCRITIVA DE VARIÁVEIS PARAMÉTRICAS:


MEDIDAS DE DISPERSÃO

Se quatro distribuições de faltas possuírem a mesma média por indivíduo, posso


concluir que a situação de absenteísmo nesses locais é a mesma? Evidentemente que não.
Pelos exemplos A, B, C e D podemos verificar que a média é a mesma, embora na situação A
40% dos indivíduos estejam com 2 faltas e na situação D 50% dos indivíduos estejam com 4
faltas.

TABELA A: Distribuição de faltas dos alunos TABELA C: Distribuição de faltas dos


do 3º semestre de medicina. alunos do 3º semestre de medicina.
Nº faltas f Nº faltas f
0 10 0 40
1 20 1 10
2 40 2 -
3 20 3 10
4 10 4 40
Total 100 Total 100

TABELA B: Distribuição de faltas dos alunos TABELA D: Distribuição de faltas dos


do 3º semestre de medicina. alunos do 3º semestre de medicina.
Nº faltas f Nº faltas f
0 30 0 50
1 - 1 -
2 40 2 -
3 - 3 -
4 30 4 50
Total 100 Total 100

50 TABELA A TABELA B TABELA C TABELA D

40

30

20

10

0
0 1 2 3 4 esp 0 1 2 3 4 esp 0 1 2 3 4 esp 0 1 2 3 4

Pela figura acima pode-se perceber a distribuição diversificada dos valores, apesar de
possuírem médias iguais a 2 faltas por aluno nas quatro situações.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 27

O conhecimento da média de uma variável não permite identificar como os valores


estão distribuídos no grupo de indivíduos, ou seja, quanto os valores estão dispersos em
relação à média.
Dessa forma, as medidas de dispersão visam, a partir da média, descobrir como os
valores estão dispersos ao seu redor.
Partindo do fato de que a média aritmética é o valor que todas as observações teriam
se fossem iguais entre si, podemos dizer que é o valor que todas as observações teriam se não
houvesse variabilidade. Daí resulta que o desvio (diferença) de cada observação para a média
aritmética representa o quanto as observações variam com relação à média.
Definem-se, portanto, medidas de variabilidade baseadas nestes desvios.

6.1 – DESVIO EM RELAÇÃO À MÉDIA:

É a distância entre cada valor da distribuição e a média da mesma distribuição.


Exemplo: Distribuição de notas na primeira avaliação de bioestatística:
0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10.
Tabela correspondente: Cálculo do desvio:
Notas freqüência Notas x desvio F
3 3 (3 - 6) (-3 X 3) -9
4 4 (4 - 6) (-2 X 4) -8
5 3 (5 - 6) (-1 X 3) -3
6 2 (6 - 6) (0 X 2) 0
7 2 (7 - 6) (1 X 2) 2
8 2 (8 - 6) (2 X 2) 4
9 2 (9 - 6) (3 X 2) 6
10 2 (10 - 6) (4 X 2) 8
Total 20 SOMA DOS DESVIOS 0
Média: (3x3)+(4x4)+(3x5)+(2x6)+(2x7)+(2x8)+(2x9)+(2x10) = 120 = 6,0
20 20
A soma dos desvios de uma distribuição é sempre igual a zero; por isso o desvio
simples não é usado como medida de dispersão de uma distribuição.

6.2 – VARIÂNCIA - S2 OU σ2:

A soma dos desvios é sempre igual a zero. Então, os valores dos desvios são elevados
ao quadrado, e a soma desses valores é dividida pela freqüência total de elementos. A
variância, portanto, é a média dos quadrados dos desvios contados a partir da média
aritmética.

Para dados amostrais: Para dados populacionais

s2 = Σ (xi-x)2.fi σ2 = Σ (xi-x)2.fi
N-1 N

∑ = somatória xi= cada valor da variável


x = média aritmética da distribuição fi= freqüência do valor xi

N = freqüência total s2 ou σ2 = variância


ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 28

O resultado é dado ao quadrado.


Tomando os mesmos exemplos A, B, C e D:
TABELA A TABELA C:
faltas fi xi-x (xi-x)².fi Faltas fi xi-x (xi-x)².fi
0 10 -2 4x10 40 0 40 -2 4x40 160
1 20 -1 1x20 20 1 10 -1 1x10 10
2 40 0 0x40 0 2 - 0 0x0 0
3 20 1 1x20 20 3 10 1 1x10 10
4 10 2 4x10 40 4 40 2 4x40 160
Total 100 120 Total 100 340
média (x) = 2 faltas/aluno média (x) = 2 faltas/ aluno
s² = 1,2 faltas²/aluno s² = 3,4 faltas²/aluno

TABELA B: TABELA D:
Faltas fi xi-x (xi-x)².fi faltas fi xi-x (xi-x)².fi
0 30 -2 4x30 120 0 50 -2 4x50 200
1 - -1 1x0 0 1 - -1 1x0 0
2 40 0 0x40 0 2 - 0 0x0 0
3 - 1 1x0 0 3 - 1 1x0 0
4 30 2 4x30 120 4 50 2 4x50 200
Total 100 240 Total 100 400
média (x) = 2 faltas/aluno média (x) = 2 faltas/aluno
s² = 2,4 faltas²/aluno s² = 4,0 faltas²/aluno

O valor expresso ao quadrado dificulta o entendimento da medida, por isso costuma-se


usar sua raiz quadrada.

6.3 - DESVIO PADRÃO:

Raiz quadrada da variância, ou: raiz quadrada positiva da média dos quadrados dos
desvios contados a partir da média aritmética. Segue a mesma indicação que a variância para
amostra ou população: s ou σ, respectivamente
Nos exemplos anteriores temos:

A: s2= 1,2 faltas 2/ aluno B: s2= 2,4 faltas2/aluno


s = 1,09 faltas / aluno s = 1,55 faltas/aluno

C: s2= 3,4 faltas2/aluno D: s2= 4,0 faltas2/ aluno


s = 1,84 faltas/aluno s = 2,0 faltas/ aluno
Esses valores expressam a forma como as observações estão dispersas em relação à
média 2 faltas/aluno em cada uma das situações. Ou seja, nas situações A, B, C e D, os
valores encontrados estão distantes da média, em média, 1,09 1,55, 1,84, e 2,0 faltas/criança,
respectivamente.
Essa informação permite avaliar que a situação mais simétrica de absenteísmo é a
verificada na distribuição A, onde os valores estão menos dispersos em relação à média.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 29

São características do desvio padrão:


• É quantidade essencialmente positiva
• Só é nulo se todos os valores da distribuição forem iguais entre si, isto é, se não houver
variabilidade
• É da mesma natureza que a variável X e depende de sua magnitude.
• Desta última característica resulta que, se se quiser comparar duas distribuições quanto
à variabilidade, deve-se relativizar o desvio padrão.

6.4 - COEFICIENTE DE VARIAÇÃO DE PEARSON:

O desvio padrão será tanto maior quanto maior for a dispersão dos valores em relação
à média, mas isso depende da magnitude da variável. Alguns valores de desvio são altos
porque cada elemento da distribuição possui valor alto, e não porque a distribuição é muito
dispersa. Assim, para afirmar que uma dispersão é grande é necessário relativizar o valor do
desvio padrão pela média aritmética da distribuição.
O coeficiente de variação é resultado da divisão do desvio padrão pela média de uma
variável, dado em porcentagem
CV = desvio padrão x 100
média
Observando duas distribuições distintas, com diferentes magnitudes de variável:
TABELA X: Distribuição de recém-nascidos TABELA Y: Distribuição de
segundo peso adolescentes segundo peso
Peso (kg) Fi xi-x (xi-x)².fi Peso (kg) Fi xi-x (xi-x)².fi
2,0 10 (2-3) 1 x 10 10 45 10 (45-46) 1 x 10 10
3,0 10 (3-3) 0 x 10 0 46 10 (46-46) 0 x 10 0
4,0 10 (4-3) 1 x 10 10 47 10 (47-46) 1 x 10 10
Total 30 20 Total 30 20
x = 3 kg/recém-nascido x = 46 kg/adolescente
s2 = 0,69 kg2/ recém-nascido s2 = 0,69 kg2/adolescente
s = 0,83 kg/ recém-nascido s = 0,83 kg/adolescente
CV= 27,7% CV= 1,8%
O exemplo demonstra uma maior dispersão de valores na distribuição de peso de
recém-nascidos, embora as duas distribuições possuam a mesma variância e o mesmo desvio
padrão.
A comparação de variabilidades de distribuições com valores de média ou com
variáveis diferentes somente é possível com o coeficiente de variação. O coeficiente de
variação não tem valor máximo possível, podendo exceder 100% nas distribuições onde o
desvio padrão é maior que a média.
Coeficientes de variação com valores superiores a 15% indicam distribuições pouco
simétricas em relação à média aritmética, aconselhando o emprego de outras medidas
auxiliares para descrever o conjunto de dados.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 30

7 - NOÇÕES DE PROBABILIDADE

Após a apuração, apresentação e descrição dos dados obtidos em investigações, o


pesquisador busca estender suas observações e conclusões além dos elementos estudados
em sua amostra, ou seja, busca fazer inferência. Para fazer inferência estatística usam-se
técnicas e conhecimentos de probabilidade.
Probabilidade é um afirmação numérica sobre a possibilidade de que algo ocorra,
quantifica o grau de incerteza dos eventos, variando de 0 a 1, ou 0% a 100%. Um evento
impossível de ocorrer tem probabilidade 0 (zero), e um evento certo de ocorrer tem
probabilidade 1 (um).
Se são possíveis “n” eventos mutuamente exclusivos e igualmente prováveis, e “m”
desses eventos têm a característica que me interessa, a probabilidade de que ocorra o evento
de meu interesse é “m/n”.
Exemplos:
Ao jogar uma moeda, a probabilidade de sair “cara” é ½, 0,5 ou 50%.
A probabilidade de tirar uma carta de copas do baralho é ¼, 0,25 ou 25%.
Dizer que a eficácia de uma vacina é 70% equivale a dizer que os indivíduos vacinados
tem probabilidade 0,7 ou 70% de estarem imunizados.
Em um espaço amostral - conjunto de todos os eventos possíveis - será chamado
sucesso o resultado que interessa que ocorra, e a probabilidade de ocorrer sucesso será “P”.
Exemplo:
Qual a probabilidade de tirar uma carta de copas do baralho?
As 52 cartas do baralho: espaço amostral
Qualquer carta de copas: sucesso
Todas as cartas de copas - conjunto de interesse
13 (cartas de copas) ÷ 52 (todas as cartas) = P (carta de copas)
P (carta de copas) = ¼, 0,25, ou 25%.

7.1 - PROBABILIDADE DE EVENTOS MUTUAMENTE EXCLUSIVOS:


ADIÇÃO DE PROBABILIDADES

Dois eventos são mutuamente exclusivos quando não podem ocorrer simultaneamente.
A probabilidade de eventos mutuamente exclusivos é a soma das probabilidades de cada um
deles. Exemplo: cara ou coroa em lançamento de moeda; carta preta ou vermelha no baralho.

P (A ∪ B) = P (A ou B) = P (A) + P (B)

Exemplo: No lançamento de dado, sucesso será face 2 ou 3: P(2 ou 3) = P(2) + P(3) = 1/6 +
1/6 = 1/3
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 31

7.2 - PROBABILIDADE DE EVENTOS INDEPENDENTES:


PRODUTO DE PROBABILIDADES

Dois eventos são independentes quando o resultado de um não interfere no resultado


do outro, e vice-versa. Exemplo: No lançamento de dois dados, sair 2 em um e 3 no outro. A
probabilidade de eventos independentes é o produto das probabilidades de cada um deles.

P (A ∩ B) = P (A e B) = P(A) x P(B)

Exemplo: No lançamento de uma moeda e um dado, a probabilidade de sair “cara” e “face 6”


será:
P (cara e face 6) = P (cara) x P (face 6) = 1/2 x 1/6 = 1/12

7.3 - PROBABILIDADE DE EVENTOS INDEPENDENTES


E MUTUAMENTE EXCLUSIVOS

Quando o resultado de um não interfere no resultado do outro, e os dois eventos não


podem ocorrer simultaneamente. Exemplos:
a) No lançamento de dois dados, a probabilidade de sair 2 em um dado e 3 no outro
será a probabilidade de sair 2 no primeiro e 3 no segundo, ou sair 3 no primeiro e 2
no segundo:
P1º dado(2) x P2º dado(3) + P1º dado(3) x P2º dado(2) = (1/6 x 1/6) + (1/6 x 1/6) = 2/36 = 1/18
b) No lançamento de dois dados, a probabilidade de sair 2 ou 3 no primeiro e no
segundo será:
[ P1º dado(2) + P1º dado(3) ] x [ P2º dado(2) + P2º dado(3) ] = [ 1/6 + 1/6] x [ 1/6 + 1/6 } = 1/3 x
1/3 = 1/9

7.4 - PROBABILIDADE CONDICIONAL

É a probabilidade de ocorrer determinado evento sob uma dada condição. Exemplo:


Quando um dado é lançado, a probabilidade de sair 3 é 1/6. Se o dado já foi lançado e
sabemos que saiu face ímpar, a probabilidade de ter saído 3 é 1/3. Sob a condição de ter saído
ímpar, a probabilidade de sair 3 foi alterada de 1/6 para 1/3. A probabilidade condicional é
representada por P (A ∫ B), que significa “probabilidade de A dado B”.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 32

8 - DISTRIBUIÇÃO BINOMIAL

8.1 - CONCEITOS

• Variável aleatória: qualquer função de número real definida no espaço amostral. São
variáveis influenciadas ao acaso, com variabilidade resultante da soma de fatores não
controlados.
• Variável aleatória discreta: quando só assume valores associados ao números naturais.
Ex.: nº de filhos, nº de pacientes.
• Variável aleatória binária: só assume um de dois valores possíveis. Ex.: ser ou não
hipertenso, fator Rh.
A distribuição binomial é uma distribuição discreta que resulta da soma de variáveis
aleatórias binárias.
Exemplo: No lançamento de duas moedas:
Variável aleatória sendo nº de coroas
Possibilidades: A distribuição da ocorrência de “cara”
será:
x - nº de coroas P (x)
Moeda 2
0 1/4 = 0,25 = 25%
Cara Coroa
1 2/4 = 0,50 = 50%
Cara Cara e cara Cara e coroa
Moeda 1 2 1/4 = 0,25 = 25%
Coroa Coroa e cara Coroa e coroa
total 1 = 100%

No lançamento de três moedas: CARA = K; COROA = C


Possibilidades:
Moeda 1 moeda 2 moeda 3
K K K K e K e K ⇒ K x K x K ⇒ [P(K)]3 ⇒ ½ x ½ x ½ = 1/8
K K C (K e K e C) ou (K e C e K) ou (C e K e K)
K C K (K x K x C) + (K x C x K) + (C x K x K) ⇒ 3 (K x K x C)
C K K 3 [P(K)]2 x P(C) ⇒ 3(½ x ½) (½) = 3/8
K C C (K e C e C) ou (C e K e C) ou (C e C e K)
C K C (K x C x C) + (C x K x C) + (C x C x K) ⇒ 3 (K x C x C)
C C K 3 P(C) x [P(K)]2 x ⇒ 3 (½)(½ x ½) = 3/8
C C C C e C e C ⇒ C x C x C ⇒ [P(C)]3 ⇒ ½ x ½ x ½ = 1/8
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 33

A distribuição das probabilidades de ocorrência de cara será:


x - nº de coroas P (x)
0 1/8 = 0,125 = 12,5%
1 3/8 = 0,375 = 37,5%
2 3/8 = 0,375 = 37,5%
3 1/8 = 0,125 = 12,5%
Total 1 = 100%
A probabilidade do sucesso é chamada “p”, e seu complemento (1-p) é chamado “q”.
Em “n” situações, a probabilidade da variável aleatória assumir valor x é obtida pela fórmula:

Onde, a combinação de n, x a x, decorre da análise combinatória, com a seguinte


fórmula:

p = probabilidade de sucesso no evento


q = probabilidade de insucesso no evento (1-p)
n = número de vezes em que o evento é observado
x = valor que se deseja que a variável assuma

!
8.2 - MÉDIA E VARIÂNCIA DE DISTRIBUIÇÃO BINOMIAL

A média µ (mi) de uma distribuição binomial é dada pela fórmula:

µ = n.p

e a variância σ2 (sigma ao quadrado) é dada pela fórmula:

σ2 = n.p.q

Exemplo: Para calcular a média e variância de ocorrência de cara em 100 lançamentos


de uma moeda,
µ = n.p ⇒ 100 . ½ = 50 caras
σ2 = n.p.q ⇒ 100 . ½ . ½ = 25
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 34

9 - DISTRIBUIÇÃO NORMAL

As distribuições de grandes amostras de variáveis aleatórias permitem construir


gráficos com aparência típica - Curva de Gauss - chamada distribuição normal.
A distribuição normal possui as seguintes características:
• a variável pode assumir qualquer valor real;
• o gráfico será uma curva em forma de sino, simétrica em torno da média µ;
• a área total sob a curva vale 1;
• os valores maiores e menores que a média ocorrem com igual probabilidade;
• a configuração da curva é dada pelos parâmetros média µ e variância σ2. Mudando a
média, muda a posição da distribuição; mudando a variância, muda a dispersão da
distribuição.

9.1 - DISTRIBUIÇÃO NORMAL REDUZIDA

As propriedades da curva normal são conhecidas, e é possível descobrir determinada


área sob a curva a partir dos seus valores de média e desvio padrão. A probabilidade
associada à ocorrência de um evento de distribuição normal corresponde à área sob o gráfico
da distribuição.
Para facilitar os cálculos de parte da área sob a curva de uma dada distribuição usa-se
a distribuição normal reduzida, que é a distribuição normal de média zero e variância 1. As
probabilidades associadas a essa distribuição são obtidas em tabelas padronizadas. A
probabilidade de ocorrer valor menor que zero é 0,5 ou 50%, e de ocorrer valor maior que zero
também é 0,5 ou 50%.
Quando o interesse é pela probabilidade de ocorrer valor entre zero e outro valor
qualquer, vou aplicar a tabela de valores padronizados da curva “z”. Exemplo:
A probabilidade de ocorrer valor entre zero e z=1,45 será a intersecção do valor 1,4 na
primeira coluna, com 5 da primeira linha da tabela normal reduzida, ou seja, 42,65%. Observar
esse cruzamento na tabela de valores sob a curva normal reduzida.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 35

VALORES SOB A CURVA NORMA REDUZIDA – CURVA Z

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,00 0,40 0,80 1,20 1,59 1,99 2,39 2,79 3,19 3,59
0,1 3,98 4,38 4,78 5,17 5,57 5,96 6,36 8,75 7,14 7,53
0,2 7,93 8,32 8,71 9,10 9,48 9,87 10,28 10,64 11,03 11,41
0,3 11,79 12,17 12,55 12,93 13,31 13,68 14,06 14,43 14,80 15,17
0,4 15,54 15,91 16,28 16,64 17,00 17,36 17,72 18,08 18,44 18,78
0,5 19,15 19,50 19,85 20,19 20,54 20,88 21,23 21,57 21,90 22,24
0,6 22,57 22,91 23,24 23,57 23,89 24,22 23,54 24,86 25,18 25,49
0,7 25,80 26,12 26,42 26,73 27,04 27,34 27,64 27,94 28,23 28,52
0,8 28,81 29,10 29,39 29,67 29,95 30,23 30,51 30,78 31,06 31,33
0,9 31,59 31,86 32,12 32,38 32,64 32,89 33,15 33,40 33,65 33,80
1,0 34,13 34,38 34,61 34,85 35,08 35,31 35,54 35,77 35,99 36,21
1,1 36,43 36,65 36,86 37,08 37,29 37,49 37,70 37,90 38,10 38,30
1,2 38,49 38,69 38,88 39,07 39,25 39,44 39,62 39,80 39,97 40,15
1,3 40,32 40,49 40,66 40,83 40,99 41,15 41,31 41,47 41,62 41,77
1,4 41,92 42,07 42,22 42,36 42,51 42,65 42,70 42,92 43,06 43,19
1,5 43,32 43,45 43,57 43,70 43,82 43,94 44,00 44,10 44,30 44,41
1,6 44,52 44,63 44,74 44,84 44,95 45,05 45,15 45,25 45,35 45,45
1,7 45,54 45,64 45,73 45,82 45,91 45,99 46,08 46,16 46,25 46,33
1,8 46,41 46,49 46,58 46,64 46,71 46,78 46,86 46,93 46,99 47,06
1,9 47,13 47,19 47,26 47,32 47,38 47,44 47,50 47,56 47,61 47,67
2,0 47,73 47,78 47,83 47,88 47,93 47,98 48,03 48,08 48,12 48,17
2,1 48,21 48,26 48,30 48,34 48,38 48,42 48,46 48,50 48,54 48,57
2,2 48,61 48,65 48,68 48,71 48,75 48,78 48,81 48,84 48,87 48,90
2,3 48,93 48,96 48,98 49,01 49,04 49,06 49,09 49,11 49,13 49,16
2,4 49,18 49,20 49,22 49,25 49,27 49,29 49,31 49,32 49,34 49,36
2,5 49,38 49,40 49,41 49,43 49,45 49,46 49,48 49,49 49,51 49,52
2,6 49,53 49,55 49,56 49,57 49,59 49,60 49,61 49,62 49,63 49,64
2,7 49,65 49,66 49,67 49,68 49,69 49,70 49,71 49,72 49,73 49,74
2,8 49,74 49,75 49,76 49,77 49,77 49,78 49,79 49,79 49,80 49,81
2,9 49,81 49,82 49,83 49,84 49,84 49,84 49,85 49,85 49,86 49,86
3,0 49,86 49,87 49,87 49,88 49,88 49,88 49,89 49,89 49,89 49,90
3,1 49,90 49,91 49,91 49,91 49,92 49,92 49,92 49,92 49,93 49,93

Se o interesse fosse conhecer a probabilidade de ocorrer valor maior que z=1,45,


teríamos que subtrair da probabilidade total de valores maiores que zero (50%) a probabilidade
dos valores até z=1,45 (42,65%). Então:
50- 42,65 = 7,35 ⇒ 7,35%
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 36

Se o interesse fosse conhecer a probabilidade de ocorrer valor menor que z=1,45,


teríamos que adicionar a probabilidade total de valores menores que zero (0,5) à probabilidade
dos valores até z=1,45 (0,4265). Então:
50 + 42,65 = 92,65 ⇒ 92,65%
Se os valores desejados forem negativos, as mesmas proporções podem ser utilizadas.
Para calcular probabilidades associadas à distribuição normal e aplicando as
propriedades da normal reduzida, utiliza-se um artifício. Uma variável de distribuição normal,
média µ, e desvio padrão σ, terá a probabilidade associada a Z de apresentar valor X dada
pela fórmula:

x − µ
z =
σ
Exemplo: A média de colesterol em 100 ml de plasma sanguíneo é de 200 mg, com
desvio padrão de 20 mg. A probabilidade de uma pessoa apresentar mais que 225 mg de
colesterol em 100 ml de plasma será:
z =(225 – 200)/20 = 1,25
Esse valor de z corresponde a 39,44 na tabela de valores sob a curva normal reduzida.
Essa facilidade de cálculo para variáveis de distribuição normal pode ser utilizada nas
distribuições binomiais. Quando faço um gráfico com as probabilidades de eventos em
variáveis binomiais, este terá aparência semelhante ao gráfico de uma distribuição normal.
Para o cálculo das probabilidades de variáveis binomiais também existe uma tabela
com várias situações e combinações possíveis, mas esta tabela exige certo trabalho de soma
de probabilidades.
A utilização da curva normal reduzida para cálculo de probabilidades em variáveis
binomiais é possível sempre que np > 5 e nq > 5. Primeiro deve-se calcular a média e desvio
padrão da distribuição:

µ = np σ = npq
Com os valores da média e desvio padrão, aplico a mesma fórmula que para
distribuição normal:

x − µ
z =
σ

O valor de z será levado a tabela da normal reduzida para o cálculo da probabilidade.


As propriedades da curva normal reduzida podem ser aplicadas para cálculo de
probabilidades associadas aos eventos sempre que o número de elementos observados for
maior que 30. Para número inferior de observações são utilizadas as propriedades da curva t.
O cálculo do valor de t é o mesmo que para o valor de z, mas a tabela utilizada para
verificar a probabilidade associada é outra. Veja a tabela com valores de t em anexos.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 37

10 – ESTIMATIVA POPULACIONAL3

10.1 - PARÂMETROS E ESTIMATIVAS

Quando utilizamos os dados de todos os elementos de uma população, ao


determinarmos a média aritmética e o desvio padrão, estes são considerados parâmetros da
população. Em se tratando de amostras, as mesmas medidas obtidas são consideradas
estimativas dos parâmetros.

10.2 - DETERMINAÇÃO DO TAMANHO DA AMOSTRA

É muito comum ao pesquisador indagar sobre o número de elementos para uma


amostra, quando pretende realizar uma pesquisa de campo, laboratório ou uma simples
investigação.
A determinação do tamanho da amostra depende de 3 fatores:
a) Nível de confiança - comumente são adotados 2 níveis: o de 95% de probabilidade
que emprega uma constante Z = 1,96, ou o de 99% de probabilidade, cuja constante é Z =
2,58. É o nível de confiança que se deposita da amostra. O pesquisador poderá usar a
confiança que deseja.
b) Precisão - em toda experimentação ou pesquisa, a utilização de amostragem está
condicionada a um erro amostral, que nada mais é do que a diferença entre as estimativas
amostrais e os parâmetros populacionais (média ou percentagem). A maior precisão que
desejamos alcançar em nosso trabalho implicará no aumento da amostra selecionada.
c) Variância ou percentagem - em alguns estudos são empregadas características que
apresentam determinada variabilidade. Em outros casos, observamos a percentagem de certas
características em um conjunto. Dependendo do tipo de investigação, ora usamos a variância,
ora usamos a percentagem.
10.2.1 - Determinação da amostra de dados discretos
Quando dispomos de variáveis quantitativas discretas utilizamos as seguintes fórmulas:

Fórmula 1 Fórmula 2
n0
n0 = z ( p2.q) n=
2

e 1+ n0
N
onde:
no - número inicial
Z - nível de confiança
p - valor obtido de trabalho anteriormente realizado por outro autor
N -tamanho da população

3
O texto deste capítulo foi extraído de RODRIGUES/93
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 38

Quando não se dispõe de nenhum valor de referência, usamos p = 50%.


q = 100% - p
e = precisão arbitrada pelo pesquisador

Em populações finitas, são utilizadas as fórmulas 1 e 2. Para populações infinitas e


para as que N apresenta valor elevado, apenas a fórmula 1 deve ser utilizada.
Exemplo: com o objetivo de verificar a incidência de uma virose em uma população de
certa região, desejamos determinar o tamanho da amostra, sendo N = 40.000.
Para isto, necessitamos utilizar uma fórmula apropriada, qual seja:

n0 = z ( p2.q)
2

e
Z corresponderá ao valor de 1,96 ou 2,581 em função do critério que o experimentador
escolher; p será a percentagem de indivíduos com virose de acordo com a última informação.
(normalmente usamos os dados existentes em literatura recente).
q = igual a 100% - p
e = precisão que se deseja alcançar, ou seja, à diferença entre o percentual que iremos
encontrar e o verdadeiro percentual da população.
Considerando uma prevalência de anos anteriores igual a 20% com valor de Z = 1,96 e
sendo necessária uma precisão de 4%, qual seria o número de elementos que a amostra
deveria conter?
Z = 1,96
p = 20% 1,96 2 x 20 x80 3,84 x1600
n0 = = = 384
q = 80% 42 16
e = 4%
0 número de indivíduos que deveríamos examinar para a determinação da prevalência
da virose é de 384.
10.3.2 - Determinação da amostra de dados contínuos
Para variáveis quantitativas contínuas, dispomos das seguintes fórmulas:
onde:

Fórmula 1 Fórmula 2
2 2 n= n0
n0 = z .2s
e 1+ n 0
N
no - número inicial
Z - nível de confiança
s - desvio padrão obtido de trabalho anterior realizado por outro autor. Não sendo
encontrado, procede-se a uma pré-amostragem, retirando-se 30 observações da
população e calculando-se o desvio padrão da característica a estudar.
N - tamanho da população
e = precisão arbitrada pelo pesquisador
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 39

A utilização das fórmulas 1 e 2 tem procedimento semelhante ao mostrado para


variáveis discretas.
Exemplo: numa pesquisa para determinar a taxa média do teor de hemoglobina de uma
tribo de índios navajo, deparamo-nos com o problema de definir o tamanho da amostra.
Sabemos que a população desta tribo é de aproximadamente 18.000 indivíduos, o que torna
impraticável utilizar todos os elementos. Então, resolvemos determinar o número de elementos
para compor a amostra. Selecionamos ao acaso 30 elementos, determinamos o valor do teor
de hemoglobina de cada um e calculamos a variância (medida de dispersão), cujo valor foi
igual a 9 mg2.
Para tal estudo, a fórmula a empregar para a determinação do tamanho da amostra é
igual a:
2 2
n0 = z .2s
e
em que Z pode ter valor 1,96 ou 2,58, de acordo com o critério do investigador;
s2 corresponde à variância da amostra piloto;
(e) equivale à diferença entre a média da população e a média que será obtida na
amostra. Corresponde à precisão que se deseja alcançar.
Prosseguindo, façamos, para o problema que temos, Z = 1,96 e consideremos uma
precisão de 0,5 mg.
Substituindo os valores na fórmula:

1,96 2.9 3,84.9


n0 = = = 138,2
0,5 2 0,25
n = 140
Para o presente estudo este será o número ideal de elementos da amostra, dados os
critérios estabelecidos.

10.4 - ERRO AMOSTRAL

Para diferenciar as características das amostras das populações, chamaremos de “x” e


“s” a média e desvio padrão da amostra; e “µ” e “σ” a média e desvio padrão da população.
Mesmo nas amostras casuais podemos esperar diferenças entre os valores obtidos na
amostra (estimativas) e os valores reais da população (parâmetros), que ocorrem
independentemente da boa elaboração do plano amostral. A diferença observada é
denominada erro amostral.
Com essa evidência, como generalizar uma informação amostral para a totalidade da
população? Para essa resposta são necessárias algumas considerações:
• Dada uma característica de distribuição normal na população, se tomarmos infinitas
amostras desta população e calcularmos as médias destas amostras, essas médias
terão uma distribuição aproximada da curva normal;
• A média das médias amostrais será igual à média populacional;
• O desvio padrão da distribuição das médias amostrais é menor que o desvio padrão da
população.
Esses aspectos constituem parte da teoria de limite central, que permite utilizar as
características da curva normal para calcular o grupo de valores que se supõe conter o
parâmetro de interesse, com certo grau de confiança.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 40

10.5 - INTERVALO DE CONFIANÇA

A estrutura mais simples de intervalo de confiança é:


x - zσ ├─ intervalo que deve conter o parâmetro ─┤ x + zσ
Onde:
x: valor amostral observado
z: valor padronizado na distribuição normal 4, que define o grau de confiança do
intervalo.
σ: desvio padrão na população

Quando não conheço o desvio padrão na população, posso usar o erro padrão da
média, e o intervalo de confiança será:

x – z (s/√ n-1) ├─ intervalo que deve conter o parâmetro ─┤ x+ z (s/√ n-1)

Onde:

(s/√ n-1): é o erro padrão da média


s: desvio padrão da amostra
n: tamanho da amostra

A estimativa para proporções - distribuição binomial - pode ser calculada da seguinte


forma:

x – z √ pq/n ├─ intervalo que deve conter o parâmetro ─┤ x + z √ pq/n

Onde:
p: proporção amostral
q: (1 - p)
n: tamanho da amostra

Nas três fórmulas está sendo utilizado o valor de z, supondo uma distribuição de
elevado número de elementos. Para distribuições com até 30 elementos o z será substituído
pelo t, e a tabela utilizada será a curva t.

4
O valor de z é apresentado na tabela de distribuição normal. Os valores mais frequentemente
utilizados são: 2,58 para 99%; 1,96 para 95%. Em distribuições de número pequeno de
elementos será utilizada a tabela t, com valores para 99% e 95% de confiança que dependem
do número de elementos amostrais.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 41

11 - CORRELAÇÃO:5

11-1 - RELAÇÕES ENTRE VARIÁVEIS:

Em diversas investigações deseja-se avaliar a relação entre duas medidas quantitativas.


Por exemplo, estão as alturas de filhos relacionadas com as alturas dos seus pais? Níveis
de colesterol no sangue estão relacionados aos níveis de antioxidantes circulantes? Peso
e altura estão relacionados em crianças de 7 a 9 anos de idade?
PESO ALTURA
ID
(kg) (cm)
1 72 157
2 65 160
3 65 150
4 62 160
5 61 147
6 59 150
7 59 140
8 59 141
9 59 153
10 57 150
11 56 145
12 55 144
13 55 148
14 55 139
15 55 133
16 54 151
17 54 140
18 54 147
19 54 153
20 53 160

Três propósitos principais de tais investigações podem ser:


• Para verificar se os valores estão associados. (Os valores de uma medida tendem a
crescer (ou decrescer) à medida que a outra cresce?).

• Para predizer o valor de uma variável a partir de um valor conhecido da outra.

5
ADAPTAÇÃO DE TEXTO TRADUZIDO, PRODUZIDO POR Silvia Emiko
Shimakura & Paulo Justiniano Ribeiro Junior, Departamento de Estatística-UFPR
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 42

• Para descrever a relação entre variáveis. (Dado um aumento específico numa variável,
qual o crescimento médio esperado para a segunda variável?).

A associação linear entre duas variáveis é avaliada usando correlação. Para predizer o
valor de uma variável contínua a partir de uma outra variável e para descrever a relação
entre duas variáveis utiliza-se regressão (veja o próximo capítulo).
O primeiro estágio em qualquer um dos casos é produzir um gráfico de pontos dos
dados para obter alguma idéia da forma e grau de associação entre duas variáveis.

165

160

155

150
altura (cm)

145

140

135

130
50 55 60 65 70 75
peso (kg)

Mesmo tendo somente 20 observações, podemos ver que parece existir alguma
associação entre peso e altura das crianças de 7 a 9 anos de idade.

11-2 - DEFINIÇÕES:

Seja x1 , x2 ,.....xn o conjunto das medidas de uma das variáveis (peso), e seja y1 , y2 ,.... yn
as medidas da outra variável (altura). Seja x, y, sx , s y as médias e desvios padrão
amostrais dos dois conjuntos de dados.
Para obter uma medida do grau de associação da relação linear entre duas variáveis,
usamos o coeficiente de correlação, definido como:

Onde
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 43

Para os dados do exemplo acima, temos n = 20, x = 58,2 , y = 148,4 , sx = 4,88 ,


s y = 7,58 , ∑x y
i i = 291,8 , a partir dos quais podemos calcular:

291,8 15,36
sxy = = 15,36 e r = = 0,42
19 4,88 × 7,58

Assim como para médias e desvios padrão, existe uma letra Grega especial que
utilizados para o coeficiente de correlação populacional: ρ . Podemos considerar
r como sendo uma estimativa de ρ , exatamente como x é uma estimativa da média
populacional µ .

11-3 - INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO

O valor de r está sempre entre -1 e +1, com r=0 correspondendo à não associação.

Usamos o termo correlação positiva quando r>0, e nesse caso à medida que x
cresce também cresce y, e correlação negativa quando r<0 , e nesse caso à medida que x
cresce, y decresce (em média).
Quanto maior o valor de r (positivo ou negativo), mais forte a associação. No extremo,
se r=1 ou r=-1 então todos os pontos no gráfico de dispersão caem exatamente numa
linha reta. No outro extremo, se r=0 não existe nenhuma associação linear.
O seguinte quadro fornece um guia de como podemos descrever uma correlação em
palavras dado o valor numérico. É claro que as interpretações dependem de cada
contexto em particular.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 44

Note que correlações não dependem da escala de valores de x ou y. (Por exemplo,


obteríamos o mesmo valor se medíssemos altura e peso em metros e quilogramas ou em
pés e libras.).

11-4 - LINEARIDADE E NORMALIDADE:

Somente relações lineares são detectadas pelo coeficiente de correlação que acabamos
de descrever (também chamado coeficiente de correlação de Pearson). Nos dados
abaixo, mesmo existindo uma clara relação (não-linear) entre x e y, o coeficiente de
correlação é zero. Sempre faça o gráfico dos dados de modo que você possa visualizar
tais relações.

Em alguns casos pode ser apropriado transformar x e/ou y.


ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 45

11-5 - COEFICIENTE DE DETERMINAÇÃO, R2

O quadrado do coeficiente de correlação de Pearson é chamado de coeficiente de


determinação ou simplesmente R2. É uma medida da proporção da variabilidade em
uma variável que é explicada pela variabilidade da outra. É pouco comum que tenhamos
uma correlação perfeita (R2=1) na prática, porque existem muitos fatores que
determinam as relações entre variáveis na vida real. No nosso exemplo, tivemos r=0,42,
de modo que R2=0,1764 ou 17,6 %. Então cerca de 82% da variabilidade da altura não
podem ser descritos (ou explicados) pela variabilidade no peso e vice-versa. Fica,
portanto claro que existem outros fatores que poderiam ser importantes, como por
exemplo, atividade física, tipo de alimentação, hereditariedade, etc.

11-6 - ASSOCIAÇÃO NÃO É CAUSALIDADE

Suponha que encontremos uma associação ou correlação entre duas variáveis A e B.


Podem existir diversas explicações do porque elas variam conjuntamente, incluindo:
• Mudanças em A causam mudanças em B.

• Mudanças em B causam mudanças em A.

• Mudanças em outras variáveis causam mudanças tanto em A quanto em B.

• A relação observada é somente uma coincidência.

A terceira explicação é freqüentemente a mais apropriada. Isto indica que existe algum
processo de conexão atuando. Por exemplo, o número de pessoas usando óculos-de-sol e a
quantidade de sorvete consumido num particular dia são altamente correlacionados. Isto não
significa que usar óculos-de-sol causa a compra de sorvetes ou vice-versa!
É extremamente difícil estabelecer relações causais a partir de dados observacionais.
Precisamos realizar experimentos para obter mais evidências de uma relação causal.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 46

12. REGRESSÃO

12-1 - IDÉIA BÁSICA

Em certas situações podemos estar interessados em descrever a relação entre duas


variáveis, e também predizer o valor de uma a partir de outra. Por exemplo, se sabemos
a altura de um certo estudante, mas não o seu peso, qual seria um bom chute para o peso
deste estudante? O coeficiente de correlação apenas indica a grau de associação como
um único número.
Observe os dados de altura e peso na figura abaixo. As alturas são definidas por
x1 , x2 ,.....xn e os pesos definidos por y1 , y2 ,.... yn . (Por enquanto vamos ignorar se eles
são do sexo masculino ou feminino). Se estamos interessados em predizer peso a partir
de altura então não temos uma relação simétrica entre as duas variáveis. Chamamos
peso a variável resposta ou dependente, e altura a variável explanatória, preditora ou
independente. A variável resposta é sempre disposta no eixo vertical y, e a variável
explanatória é sempre disposta no eixo x.

Se a relação entre as duas variáveis é aproximadamente linear, então os dados podem


ser resumidos através do ajuste de uma reta passando pelos dados. A equação dessa reta
é dada por:
y = a + bx
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 47

onde a é conhecida como o intercepto e b é a inclinação. Intuitivamente, queremos


uma reta que forneça pequenas diferenças entre os verdadeiros pesos e aqueles dados pela
reta para as alturas correspondentes.
O método padrão para obter a melhor reta ajustada é chamado mínimos quadrados o
qual literalmente minimiza a soma dos quadrados das distâncias de yi à reta ajustada.
Em princípio isto requer traçar retas possíveis, calculando a soma dos quadrados das
distâncias:

e encontrar os valores de a e b (equivalentemente a reta) que fornecem o menor valor


de S. É possível mostrar que a melhor reta é aquela tal que:

Nesse exemplo, a = -51,17 kg e b = 0,68 kg/cm; então a reta de regressão é

Nossa reta ajustada é uma estimativa da reta de regressão populacional,


y =α + βx . Nossos a e b são estimativas de α e β. (É comum, denotar-se estas estimativas
por e αˆ e βˆ ao invés de a e b)

O próximo passo é construir intervalos de confiança etc para e α e β (intercepto e


inclinação populacional), mas para fazer isto precisamos pensar mais cuidadosamente
sobre nossas suposições acerca da população.

12-2 MODELO DE REGRESSÃO LINEAR SIMPLES

Este é o modelo mais simples para descrever a relação entre uma variável explanatória
x e uma variável resposta y. O modelo faz a seguintes suposições, em ordem
decrescente de importância:
1. o valor médio da variável resposta é uma função linear de x,

2. a variância da variável resposta é constante (ou seja, a mesma para todos os valores
de x),

3. a variação aleatória da variável resposta para qualquer valor fixo de x segue uma
distribuição Normal, e estes termos de erro são independentes.

Em termos algébricos, seja (xi,yi) para i = 1,.........,n os valores observados da variável


explanatória x e da variável resposta y para os n sujeitos.
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 48

O modelo de regressão linear é

onde εi representa desvios independentes aleatórios da relação linear entre y e x e,


para satisfazer nossas três suposições acima,

Note que α e β são parâmetros da população, e eles são freqüentemente conhecidos


como coeficientes. Em particular, β é denominado coeficiente, ou efeito, de x.
Os dados abaixo parecem satisfazer todas as três suposições:

Um exemplo construído de dados que não satisfazem nenhuma das suposições é


mostrado abaixo:
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 49

12-3 - ESTIMANDO OS PARÂMETROS DO MODELO

Uma tarefa importante associada com o modelo de regressão linear é a estimação dos
valores de α e β, os quais juntos determinam a equação da reta ajustada.
Um método padrão de estimação em estatística chamado máxima verossimilhança leva
às mesmas estimativas de mínimos quadrados descrito na Seção 1, ou seja,

Em aplicações, não existe garantia de que o modelo de regressão linear será razoável
para nossos dados. Devemos sempre sobrepor a reta ajustada y = αˆ + βˆx sobre um
gráfico de dispersão dos dados para checar se o modelo é razoável. Devemos procurar
por evidências de uma relação não-linear, ou desvios muito extremos da reta ajustada.

Se acharmos que o modelo está razoável, podemos também estimar , a variância dos
erros ε i , usando a fórmula

2 2
onde s y e s x denotam a variância amostral de y e de x, respectivamente.

3.1 Exemplo

Para os nossos dados, já sabemos que αˆ = −51,17 e que βˆ = 0,68 . Um gráfico dos
dados com a reta ajustada é:

O ajuste da reta não parece tão bom. Existem dois pontos bem distantes da reta ajustada,
e o da esquerda em particular parece ter uma grande influência na reta ajustada. Na
prática é aconselhável investigar a acurácia destes valores e/ou verificar quanto muda a
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 50

reta ajustada quando estes pontos são removidos. Contudo, por enquanto
prosseguiremos assumindo que está tudo ok!
Para sermos capazes de calcular erros padrão e intervalos de confiança, é importante
manter tantas casa decimais quanto possível: βˆ = 0,6846253 . As outras quantidades
são:

n = 37, s x = 11,38700, s y = 11,70791, s xy = 88,77102

Podemos agora obter σ̂ 2 :

Então uma estimativa do desvio padrão dos desvios aleatórios, ε i ,em torno da reta é

12-5 - TRANSFORMAÇÕES DE DADOS

Uma forma de estender a aplicabilidade do modelo de regressão linear é aplicar uma


transformação em x ou y, ou ambos, antes de ajustar o modelo. Ou seja, se a relação
entre duas variáveis é não-linear (uma curva pareceria ajusta melhor do que uma reta),
então freqüentemente a relação pode ser feita linear transformando uma ou ambas as
variáveis.
Transformações podem ser muito úteis em algumas circunstâncias, mas deveria somente
ser considerada como um último recurso uma vez que quando uma ou ambas as
variáveis são transformadas, os coeficientes deixam de ter interpretações diretas.
A idéia é escolher uma transformação que faça a relação aproximadamente linear
enquanto ainda permanecendo interpretáveis. Freqüentemente, relações biológicas são
multiplicativas e não aditivas e transformações logarítmicas são particularmente úteis
nestes casos.

12-6 - RESUMO

Regressão permite-nos:
• Descrever sucintamente o nível geral de uma variável que está associada com cada
nível de outra.

• Predizer uma variável de uma outra variável. É importante aqui distinguir entre
interpolação (predição dentro da amplitude dos dados amostrados; no exemplo,
predição do peso de uma pessoa de altura 170 cm) e extrapolação (predição fora da
amplitude dos dados; no exemplo, predição do peso de alguém com altura 70cm como
sendo aproximadamente -3 kg!).
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 51

SUGESTÃO DE BIBLIOGRAFIA DE APOIO

• BIOESTATÍSTICA – ELZA BERQUÓ – EPU – SÃO PAULO


• INTRODUÇÃO À BIOESTATÍSTICA – SONIA VIEIRA – EDITORA CAMPUS
• ESTATÍSTICA INDUTIVA – MAURI JOSÉ GUERRA – LIVRARIA CIÊNCIA E
TECNOLOGIA EDITORA
• BIOESTATÍSTICA – PEDRO CARVALHO RODRIGUES – EDUFF
• ESTATÍSTICA APLICADA ÀS CIÊNCIAS HUMANAS – JACK LEVIN
• ESTATÍSTICA BÁSICA – WILTON BUSSAB
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 52

ANEXOS:

TABELA DAS ÁREAS SOB A CURVA NORMAL (z)

Z ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,0 0000 0040 0080 0120 0159 0199 0239 0279 0319 0359
0,1 0398 0438 0478 0517 0557 0596 0636 0875 0714 0753
0,2 0793 0832 0871 0910 0948 0987 1028 1064 1103 1141
0,3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517
0,4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1878
0,5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224
0,6 2257 2291 2324 2357 2389 2422 2354 2486 2518 2549
0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852
0,8 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133
0,9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3380
1,0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621
1,1 3643 3665 3686 3708 3729 3749 3770 3790 3810 3830
1,2 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015
1,3 4032 4049 4066 4083 4099 4115 4131 4147 4162 4177
1,4 4192 4207 4222 4236 4251 4265 4270 4292 4306 4319
1,5 4332 4345 4357 4370 4382 4394 4400 4410 4430 4441
1,6 4452 4463 4474 4484 4495 4505 4515 4525 4535 4545
1,7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633
1,8 4641 4649 4658 4664 4671 4678 4686 4693 4699 4706
1,9 4713 4719 4726 4732 4738 4744 4750 4756 4761 4767
2,0 4773 4778 4783 4788 4793 4798 4803 4808 4812 4817
2,1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857
2,2 4861 4865 4868 4871 4875 4878 4881 4884 4887 4890
2,3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916
2,4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936
2,5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952
2,6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964
2,7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974
2,8 4974 4975 4976 4977 4977 4978 4979 4979 4980 4981
2,9 4981 4982 4983 4984 4984 4984 4985 4985 4986 4986
3,0 4986 4987 4987 4988 4988 4988 4989 4989 4989 4990
3,1 4990 4991 4991 4991 4992 4992 4992 4992 4993 4993
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 53

VALORES DE t, SEGUNDO OS GRAUS DE LIBERDADE E O VALOR DE α

α ( NÍVEL DE SIGNIFICÂNCIA)
graus de liberdade
10% 5% 1%
1 6,31 12,71 63,66
2 2,92 4,30 9,92
3 2,35 3,18 5,84
4 2,13 2,78 4,60
5 2,02 2,57 4,03
6 1,94 2,45 3,71
7 1,90 2,36 3,50
8 1,86 2,31 3,36
9 1,83 2,26 3,25
10 1,81 2,23 3,17
11 1,80 2,20 3,11
12 1,78 2,18 3,06
13 1,77 2,16 3,01
14 1,76 2,14 2,98
15 1,75 2,13 2,95
16 1,75 2,12 2,92
17 1,74 2,11 2,90
18 1,73 2,10 2,88
19 1,73 2,09 2,86
20 1,73 2,09 2,84
21 1,72 2,08 2,83
22 1,72 2,07 2,82
23 1,71 2,07 2,81
24 1,71 2,06 2,80
25 1,71 2,06 2,79
26 1,71 2,06 2,78
27 1,70 2,05 2,77
28 1,70 2,05 2,76
29 1,70 2,04 2,76
30 1,70 2,04 2,75
40 1,68 2,02 2,70
60 1,67 2,00 2,66
120 1,66 1,98 2,62
INFINITO 1,64 1,96 2,58
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 54

EXERCÍCIOS:

LISTA 1 - RELAÇÃO DOS DOMICÍLIOS HABITADOS EM 3 REGIÕES DA CIDADE PLANALTINA BELA,


COM TIPO DE CONSTRUÇÃO (TIPO), NÚMERO DE PESSOAS POR DOMICÍLIO (Nº P) E RENDA EM SALÁRIOS
MÍNIMOS (RSM).

CASA REGIÃO TIPO Nº P RSM CASA REGIÃO TIPO Nº P RSM CASA REGIÃO TIPO Nº P RSM
1 NORTE A 3 6.5 42 NORTE B 4 4.8 83 CENTRO B 3 8.4
2 NORTE B 2 3.6 43 NORTE B 3 5.9 84 CENTRO C 3 9.4
3 NORTE C 5 4.9 44 NORTE A 3 5.7 85 CENTRO B 5 8.7
4 NORTE B 4 3.9 45 NORTE C 5 3.5 86 CENTRO B 2 6.8
5 NORTE B 5 4.0 46 NORTE B 2 3.8 87 CENTRO A 4 4.9
6 NORTE C 4 4.4 47 NORTE A 4 3.7 88 CENTRO C 6 8.7
7 NORTE C 4 3.6 48 NORTE B 6 3.9 89 CENTRO B 5 6.9
8 NORTE A 5 4.0 49 NORTE C 5 4.6 90 CENTRO A 4 5.4
9 NORTE A 3 6.6 50 CENTRO A 4 5.8 91 CENTRO B 3 11.1
10 NORTE B 5 3.1 51 CENTRO B 3 7.3 92 CENTRO A 2 10.0
11 NORTE C 4 3.5 52 CENTRO B 2 8.2 93 CENTRO B 3 9.4
12 NORTE C 2 5.0 53 CENTRO A 4 8.3 94 CENTRO A 4 9.6
13 NORTE B 3 3.9 54 CENTRO C 5 7.5 95 CENTRO B 3 6.6
14 NORTE B 4 4.7 55 CENTRO B 3 6.2 96 CENTRO C 3 7.4
15 NORTE A 3 5.4 56 CENTRO A 3 8.9 97 CENTRO B 2 7.3
16 NORTE C 3 4.0 57 CENTRO B 4 8.1 98 CENTRO B 2 8.1
17 NORTE B 2 5.4 58 CENTRO C 4 10.8 99 CENTRO A 7 5.4
18 NORTE A 2 4.0 59 CENTRO B 2 5.9 100 CENTRO C 2 8.6
19 NORTE B 7 4.5 60 CENTRO B 2 11.6 101 CENTRO B 4 5.8
20 NORTE C 2 4.6 61 CENTRO A 5 6.8 102 CENTRO A 4 9.8
21 NORTE A 4 3.4 62 CENTRO C 5 8.9 103 CENTRO C 3 10.1
22 NORTE B 4 3.2 63 CENTRO B 6 6.3 104 CENTRO B 3 5.4
23 NORTE C 3 5.4 64 CENTRO A 2 9.0 105 CENTRO B 5 6.7
24 NORTE B 3 3.1 65 CENTRO B 3 9.4 106 CENTRO C 2 10.7
25 NORTE B 5 3.4 66 CENTRO C 3 5.6 107 CENTRO C 4 7.1
26 NORTE A 2 4.6 67 CENTRO A 2 8.3 108 CENTRO A 6 8.0
27 NORTE A 4 5.0 68 CENTRO C 2 5.6 109 CENTRO A 5 3.0
28 NORTE C 6 5.9 69 CENTRO C 7 9.8 110 CENTRO B 4 7.7
29 NORTE C 5 4.5 70 CENTRO C 2 6.4 111 CENTRO C 3 7.7
30 NORTE C 4 3.6 71 CENTRO C 4 7.6 112 CENTRO C 2 6.8
31 NORTE B 3 4.3 72 CENTRO B 2 6.1 113 CENTRO B 4 8.8
32 NORTE B 2 3.8 73 CENTRO B 4 4.8 114 CENTRO B 5 8.8
33 NORTE A 3 3.7 74 CENTRO A 5 8.2 115 CENTRO A 3 9.1
34 NORTE C 4 3.7 75 CENTRO C 3 11.2 116 CENTRO C 3 8.7
35 NORTE B 3 6.4 76 CENTRO B 3 2.2 117 CENTRO B 4 5.3
36 NORTE A 3 5.0 77 CENTRO A 2 10.3 118 CENTRO A 4 10.2
37 NORTE B 2 5.1 78 CENTRO B 2 10.4 119 CENTRO B 2 9.4
38 NORTE C 2 3.1 79 CENTRO C 7 6.3 120 CENTRO C 2 5.7
39 NORTE A 7 4.2 80 CENTRO A 2 8.6 121 SUL A 5 11.4
40 NORTE C 2 6.2 81 CENTRO B 4 8.1 122 SUL B 5 10.4
41 NORTE C 4 3.5 82 CENTRO A 4 8.2 123 SUL C 6 16.9
ESTATÍSTICA DESCRITIVA – Maria Cristina Marino Calvo 55

CASA REGIÃO TIPO Nº P RSM CASA REGIÃO TIPO Nº P RSM CASA REGIÃO TIPO Nº P RSM
124 SUL B 2 18.1 153 SUL A 4 17.8 182 SUL C 4 10.9
125 SUL B 3 11.1 154 SUL C 2 11.4 183 SUL B 3 6.4
126 SUL A 3 9.9 155 SUL B 2 15.1 184 SUL B 3 6.1
127 SUL A 2 17.2 156 SUL A 5 15.0 185 SUL A 5 15.5
128 SUL C 2 7.6 157 SUL B 5 17.2 186 SUL C 2 19.8
129 SUL C 7 14.5 158 SUL C 6 15.3 187 SUL B 4 16.8
130 SUL C 2 15.7 159 SUL B 2 12.3 188 SUL A 6 12.2
131 SUL B 4 10.7 160 SUL B 3 15.3 189 SUL B 5 17.3
132 SUL B 2 12.6 161 SUL A 3 8.2 190 SUL C 4 12.2
133 SUL A 4 10.8 162 SUL C 2 10.1 191 SUL A 3 17.3
134 SUL C 7 12.7 163 SUL B 2 15.9 192 SUL B 2 10.3
135 SUL B 2 6.9 164 SUL A 7 11.6 193 SUL C 4 16.0
136 SUL A 4 13.7 165 SUL B 5 17.3 194 SUL B 5 11.9
137 SUL B 4 8.3 166 SUL C 2 12.2 195 SUL B 3 9.6
138 SUL C 3 7.0 167 SUL A 4 6.2 196 SUL A 3 17.3
139 SUL A 3 9.9 168 SUL C 6 8.6 197 SUL A 4 4.9
140 SUL C 5 10.7 169 SUL C 5 12.9 198 SUL C 4 1.0
141 SUL C 2 11.7 170 SUL C 4 11.7 199 SUL C 2 13.2
142 SUL B 4 13.8 171 SUL C 3 6.8 200 SUL C 2 8.4
143 SUL B 6 8.2 172 SUL B 2 10.7 201 SUL A 5 13.5
144 SUL A 5 12.6 173 SUL B 3 6.7 202 SUL C 5 13.1
145 SUL C 4 15.1 174 SUL A 4 13.1 203 SUL B 6 15.2
146 SUL B 3 13.9 175 SUL C 3 7.9 204 SUL A 2 13.6
147 SUL A 2 16.6 176 SUL B 3 9.1 205 SUL B 3 15.5
148 SUL B 4 11.1 177 SUL A 2 11.8 206 SUL C 3 7.4
149 SUL C 5 16.1 178 SUL B 2 10.5 207 SUL A 2 14.6
150 SUL A 3 10.9 179 SUL C 7 10.6 208 SUL C 2 8.8
151 SUL B 3 8.9 180 SUL A 2 15.4 209 SUL C 7 8.9
152 SUL B 4 6.4 181 SUL C 4 12.2 210 SUL C 2 12.1

Utilize a lista acima para construir um banco de dados em uma planilha eletrônica.

Faça as tabelas e os gráficos de distribuição unidimensional para todas as variáveis.

Faça tabelas e gráficos bidimensionais de tipo de construção e região, e renda em salários


mínimos e região.

Calcule as médias e medianas para renda e número de pessoas em cada região. Calcule as
medidas de dispersão e as medidas de amplitude quartil.

Calcule os intervalos de confiança (95%) para a renda em cada região.

S-ar putea să vă placă și