Documente Academic
Documente Profesional
Documente Cultură
Estatística Aplicada
à Veterinária
L O N D R I N A
Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x
1 Introdução 1
1.1 Aplicações da Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Amostragem 9
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3 Conceitos elementares 20
3.1 Divisão da estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5 Grácos 42
5.1 Apresentação gráca de variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . 43
5.3.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6 Medidas de Posição 64
6.1 Média Aritmética Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.5 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.8.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.8.2 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Tabela 2.1 - Dados sobre tilápias do Nilo, coletados por alunos do curso de Medicina Vete-
Tabela 3.1 - Dados dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade
Tabela 4.4 - Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça
Tabela 4.5 - Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e
Tabela 4.7 - Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012. 41
Tabela 6.1 - Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e
Londrina, em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
crescimento bacteriano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Tabela 6.3 - Tempo (em semanas) de sobrevida de ratos com câncer induzido experimental-
mente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Tabela 6.4 - Peso médio (kg) das leitegadas da raça Landrace, ao nascer. . . . . . . . . . 80
Tabela 7.2 - Desvios e desvios absolutos para pesos dos animais da raça Alaska. . . . . . . 94
Tabela 7.3 - Desvios e quadrado dos desvios para pesos dos animais da raça Alaska . . . . . 96
Tabela 9.2 - Esquema padrão de síntese dos dados para vericação da qualidade de um teste
clínico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
Tabela 9.4 - Probabilidades necessárias para o cálculo dos índices VPP e VPN. . . . . . . . 136
Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Figura 5.3 - Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Uni-
Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 5.5 - Produção pecuária dos estados do sul do Brasil no ano de 2012. . . . . . . . 47
Figura 5.6 - Produção pecuária dos estados do sul do Brasil no ano de 2008. . . . . . . . 49
Figura 5.7 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Esta-
Figura 5.8 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Esta-
Figura 5.14 - Relação entre peso e comprimento de tilápias do Nilo, do tanque de piscicultura
Figura 5.15 - Relação entre peso e comprimento de tilápias do Nilo, controladas para a variável
durante 8 semanas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Figura 6.1 - Esquema para obtenção da moda pelo método de Czuber, do número de aten-
Figura 6.3 - Frequência cardíaca dos animais atendidos no Hospital Veterinário, da Univer-
Figura 6.4 - Frequências respiratórias dos animais atendidos no Hospital Veterinário, da Uni-
Figura 10.4 - Gráco da distribuição de Poisson, cuja média (λ) é 4,0. . . . . . . . . . . . . 161
1 3
Figura 11.1 - Gráco da função f (y) = y . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4
Figura 11.2 - Gráco da Distribuição Normal. . . . . . . . . . . . . . . . . . . . . . . . . . 176
Introdução
A estatística, de uma forma geral, trata da organização, interpretação e apresentação de
dados, sejam de contagens ou mensurações. A palavra estatística está associada à idéia de coleção
de dados (números).
Mesmo sem serem estudiosos da área, as pessoas convivem com informações estatísticas
praticamente todos os dias, seja através de rádio, televisão, jornais ou relatórios técnicos das mais
diversas áreas.
Estatística é a ciência de fazer uso efetivo dos dados numéricos relativos aos grupos de
indivíduos ou de experimentos.
O pensamento estatístico será um dia tão necessário para o cidadão quanto a habilidade
estabelecendo faixas de conança para a ecácia dos tratamentos e vericando a inuência de fatores
1
2 Capítulo 1. Introdução
treamento de informações na produção animal. Este trabalho teve como objetivo comparar dois tipos
para identicar os fatores de risco para a infecção, cuja eliminação reduzirá o número de suínos
portadores de salmonela ao abate. O presente trabalho objetivou identicar esses fatores associados
com infecção por Salmonela em granjas de suínos comerciais dos estados do Rio Grande do Sul e
Santa Catarina. A identicação da infecção foi realizada através da reação sorológica de suínos na
unidades de terminação de leitões nos estados do RS e SC. Em cada granja foi aplicado um questionário
do rebanho. Foi coletado sangue de aproximadamente 40 animais uma semana antes do abate. O soro
foi submetido ao teste de Elisa polivalente para Salmonela dos sorovares Typhimurium, Choleraesuis
e Anatum. Durante a visita foram também coletadas amostras de água e ração, avaliadas quanto à
presença de coliformes pela técnica de fermentação em tubos múltiplos. A ração, além da avaliação
bacteriológica e por PCR. Os resultados destes exames e as respostas do questionário foram usadas
na análise de fatores de risco como variáveis explicativas (180 variáveis) e os resultados da prevalência
1
Brazilian Journal of Veterinary Research and Animal Science (2004) 41:327-331
2
Comunicado Técnico 309 - Embrapa Suínos - Concórdia, SC
Planejamento de uma pesquisa 3
associação entre variáveis resposta e explicativas como análise preliminar. As variáveis explicativas
associadas com a variável resposta (p ≤ 20), foram submetidas a análise de correspondência múltipla.
a nível do último terço da cauda dos leitões sobre a ocorrência de hemorragia, de diarréia, e o ganho
de peso dos leitões até os 21 dias de idade. O experimento foi conduzido no sistema de produção
Landrace, Large White e Mestiços destas raças, distribuídos nos seguintes tratamentos: Tratamento
A (TA) corte do último terço da cauda; Tratamento B (TB) esmagamento do último terço da cauda.
O corte foi realizado com o auxílio de uma tesoura e o esmagamento com uma tesoura sem o com
os referidos bordos arredondados. O corte ou o esmagamento da cauda foi sempre realizado ao nível
do último terço da cauda, nas primeiras horas da manhã do primeiro dia de vida dos leitões, no TA,
logo após o corte o restante da cauda foi mergulhada em uma solução de iodo. Os leitões foram
examinados de hora em hora durante as primeiras 10 horas após o corte ou esmagamento da cauda
com o objetivo de vericar a ocorrência de hemorragia ou diarréia para os dois tratamento. Os animais
do TB foram examinados duas vezes ao dia com o objetivo de determinar o dia da queda da cauda.
Quanto à presença ou ausência de diarréia adotou-se os seguintes critérios: ausência de diarréia (fezes
consistentes ou pastosas); e, presença de diarréia (fezes líquidas com ou sem desidratação dos leitões).
dêmicos e cientícos. Ele servirá como um roteiro para orientar o trabalho de pesquisa, denindo as
rente aos procedimentos lógicos, como também em termos de organização de tempo e cumprimento
de prazos.
1. Planejamento do problema:
3
Comunicado Técnico 173 - Embrapa Suínos - Concórdia, SC
4 Capítulo 1. Introdução
c) determinação das variáveis que serão observadas (ou coletadas) e a forma como as mesmas
revisão bibliográca.
3. Formulação de hipóteses.
4. Vericação da hipótese:
5. Parte nal:
pessoas, etc) que possuam pelo menos uma característica comum, a qual se deseja estudar.
Parâmetro - é uma medida numérica que descreve uma característica de uma população. São
b) Amostra - a amostra pode ser denida como um subconjunto da população e, a partir dela,
faz-se inferência sobre as características da população. Uma amostra tem que ser representativa
da população.
Estatística - é uma medida numérica que descreve uma característica de uma amostra.
Como exemplo, considere uma pesquisa realizada com 30 alunos do primeiro ano, do
estatura média foi de ȳ = 1, 74 m. Como essa estatura se baseia em uma amostra, trata-se de uma
estatística.
Realizou-se a mesma pesquisa com todos os alunos do primeiro ano, do curso de Me-
dicina Veterinária, da Universidade Estadual de Londrina, no ano de 2013, e a estatura média foi de
nome de variável. São exemplos de variáveis: estatura, gênero, idade, peso, renda, grau de instrução,
como:
a) custo reduzido: devido ao número de dados coletados ser menor do que o censo, o custo da
b) tempo: quando se utiliza a amostragem ao invés do censo, gasta-se menos tempo para conclusão
do estudo, pois trabalha-se com menos elementos. Por outro lado, quando o produto é perecível,
c) aprofundamento: a pesquisa amostral pode ser mais detalhada, visto que são examinados me-
nos elementos. Portanto, uma pesquisa amostral com exames clínicos e laboratoriais pode ser
mais informativa do que realizar o censo usando como instrumento de coleta de informação um
questionário.
Exercícios
yi = {y1 − y2 − y3 − y4 − y5 − y6 − y7 } .
Calcular (passo-a-passo):
∑
7 ∑
6
a) Soma de todos os tempos: yi ; c) yi ;
i=1 i=2
( )2
∑
5 ∑
7
b) Soma dos 5 primeiros tempos: yi ; d) Quadrado da soma: yi ;
i=1 i=1
∑
7
e) Soma de Quadrados: yi2 ;
i=1
∑
n
yi
i=1
f ) A média aritmética simples dos tempos: ȳ = ;
n
∑
7
g) Suponha a constante k = 15 e calcule k yi ;
i=1
∑
n
h) Soma dos desvios em relação a k: (yi − k);
i=1
∑
n
i) Soma dos desvios em relação à média: (yi − ȳ). O que você observa de diferente em relação
i=1
ao item anterior?
∑
n
(yi − ȳ)2 ;
i=1
Planejamento de uma pesquisa 7
2) Considere a variável X, tempo (s) de indução da anestesia, para as mesmas 7 tilápias, respecti-
vamente:
Calcule:
∑
n ∑
n ∑
n
a) xi yi ; b) xi yi ;
i=1 i=1 i=1
0, 2 ⊢ 0, 4 6 0,3
0, 4 ⊢ 0, 6 18 0,5
0, 6 ⊢ 0, 8 35 0,7
0, 8 ⊢ 1, 0 16 0,9
1, 0 ⊢ 1, 2 2 1,1
Total 80 80
Determine:
( k )2
∑
k
∑
a) fi , i = 1, 2, . . . , 6; c) xi fi , i = 1, 2, . . . , 6;
i=1 i=1
∑
k ∑
k
b) xi fi , i = 1, 2, . . . , 6; d) x2i fi ;
i=1 i=1
∑
k
xi fi
i=1
e) , i = 1, 2, . . . , 6. Que medida você encontrou?
∑k
fi
i=1
8 Capítulo 1. Introdução
( )2
∑
k
k xi fi
1
∑ 2 i=1
f) V = xi fi − , i = 1, 2, . . . , 6;
n−1 ∑k
i=1
fi
i=1
Amostragem
2.1 Introdução
se uma amostra (ou parte) da população em estudo e, a partir dela, tabula-se a característica (ou
variável) que está sendo avaliada. Esta característica pode ser o peso de cães, a raça dos felinos,
partir dos resultados obtidos na amostra, o pesquisador deverá estendê-los para toda a população,
A realização do censo não garante que a pesquisa esteja livre de erros. Os erros de coleta
e manuseio de um grande número de dados, em geral, são maiores do que as imprecisões a que se
está sujeito quando generaliza-se, via inferência, as conclusões de uma amostra bem selecionada.
Para que se possa fazer inferências válidas sobre a população, a partir de uma amostra,
é necessário que esta seja representativa da população. Não é tarefa simples denir uma amostra
representativa da população e, por isso, uma forma de se conseguir essa representatividade é fazer com
que o processo de escolha da amostra seja, de alguma forma, aleatório, introduzindo desta maneira o
9
10 Capítulo 2. Amostragem
cipal característica é poder ser submetido a tratamento estatístico, o que permite compensar erros
amostrais. A amostragem é não probabilística quando alguns elementos da população não tem chance
tamanho N, conhecido e nito, em que todo elemento da população tem igual probabilidade de
ser escolhido para a amostra, sendo cuidadosamente planejada para se evitar qualquer tendenciosidade.
Processo de coleta: Todos os N elementos da população devem ser enumerados. Sorteia-se, então,
n elementos para compor a amostra. Este sorteio pode ser feito com o auxílio de uma tabela de
números aleatórios, com a utilização de algum programa computacional ou utilizando-se uma urna
que recebe os números de 1 a N. Os elementos correspondentes aos números escolhidos irão compor
a amostra.
Utilização: Este tipo de amostragem é utilizado quando a população for considerada homogênea.
Exemplo 1: Proceder a um sorteio, em sala de aula, com 45 alunos, para compor uma amostra de
tamanho 5.
Solução:
Obs.: a opção replace=F quer dizer que um aluno sorteado não poderá ser sorteado novamente, ou
seja, a amostragem que está sendo realizada é sem reposição. Caso se proceda a uma amostragem
Exemplo 2: Considere um conjunto de dados com muitas variáveis e muitos indivíduos e se queira
retirar uma amostra desse conjunto para um estudo, como apresentado na Tabela 2.1 .
1
Tabela 2.1 Dados sobre tilápias do Nilo, coletados por alunos do curso de Medicina Veterinária da
Universidade Estadual de Londrina, no ano de 2005.
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
As variáveis Indução (tempo para anestesiar a tilápia) e Recup (tempo para se recuperar
da anestesia) são dadas em segundos; A variável Peso é dada em gramas; Já as variáveis Comp
(comprimento), Alt (altura) e Comp_cabeça (comprimento da cabeça) são dadas em centímetros.
Pode-se pensar, neste caso, em duas situações em que a amostragem simples ao acaso é utilizada.
I. No primeiro caso, em que uma amostra será retirada para uma variável especíca, a progra-
mação no R ca exatamente como no Exemplo 1, ou seja, para se retirar uma amostra aleatória
dados = read.table(`http://www.uel.br/pessoal/silvano/Dados/Tilapia.txt',
dec=`,', head=T)
attach(dados)
names(dados)
(amostra = sample(Comp, 15, replace=F))
1
Disponível em: http://www.uel.br/pessoal/silvano/Dados/Veter/Tilapia.txt, com apenas 40 indivíduos.
12 Capítulo 2. Amostragem
II. No segundo caso, o objetivo é retirar uma amostra de indivíduos, sendo que cada indivíduo
manterá os valores observados de cada variável. Neste caso, é necessário carregar o pacote car.
Os comandos são:
require(car)
(saida = some(dados, n=15, replace=FALSE))
utilizando-se de sua lista de chamada, poderia compor uma amostra chamando todos os alunos cujo
número na pauta terminasse em um determinado digito. Assim, o professor chamaria para compor
sua amostra, por exemplo, todos os alunos com números terminados em zero, ou seja, os números
chas em um chário, listas telefônicas, quando os elementos da população são prédios de uma rua,
etc.
Suponha que a administração da UEL quisesse fazer uma pesquisa com seus 13.000
alunos. Neste caso, poderia-se obter uma relação completa dos mesmos e selecionar um a cada 50
para compor a amostra. Esse método é simples e utilizado com frequência.
Utilização: Este tipo de amostragem é utilizado quando a população está naturalmente ordenada.
Exemplo: Considere a população formada pelos 400 alunos do curso de Medicina Veterinária da
Universidade Estadual de Londrina, no ano de 2014. O Colegiado do Curso decide realizar uma
pesquisa para saber o grau de conhecimento dos alunos quanto à prossão escolhida. Dispõe-se de
uma lista, em ordem alfabética, de todos os alunos. Uma amostra de 50 estudantes será selecionada.
Solução:
quisar, mas é possível distinguir sub-populações mais ou menos homogêneas, deve-se utilizar a amos-
tragem estraticada.
Por exemplo, se os alunos dos vários cursos da UEL são diferentes em relação ao atributo
a ser pesquisado, pode-se considerar cada curso como um estrato. Para obter uma amostra dos
alunos da UEL, seria razoável obter uma amostra dentro de cada curso e depois reunir as informações
selecionar os elementos de uma amostra entre os vários estratos em número proporcional ao tamanho
Procedimento:
n
1) calcular a fração de amostragem dada por: f= ;
N
14 Capítulo 2. Amostragem
n1 = N 1 f ; n2 = N2 f ; . . .; nj = Nj f
sendo:
N4 = 100. Se a alocação deve ser proporcional, qual o tamanho da amostra a ser extraída de cada
Solução:
Os comandos do R são:
Exemplo 2: Considere o conjunto de dados tilápia, que tem 4 estratos (Equipes: 1011, 1012, 2021,
2022), e o objetivo é retirar uma amostra de tamanho 5 para cada extrato da variável comprimento
dados = read.table(`http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt',
dec=`,', head=T)
attach(dados)
names(dados)
(Amostras = tapply(Comp, Equipe, sample, size=5))
Caso o número de amostras dentro de cada estrato seja diferente, pode-se utilizar o pacote sampling,
em que é possível determinar se as amostras retiradas dentro de cada estrato serão do tipo:
require(sampling)
amost.estrat.simples = strata(dados, c(``Equipe"), size = c(5, 7, 3, 4),
method = ``srswor")
(amostras.est.simples = getdata(dados, amost.estrat.simples))
Não importa quão bem se planeje e execute o processo de coleta de amostras, há sempre
Exemplo: escolha aleatoriamente 50 chas de cães da raça Poodle atendidos no Hospital Veterinário
da UEL e verique o peso médio (kg ) desses animais. Retirada uma outra amostra de 50 animais, é
16 Capítulo 2. Amostragem
Ocorre um erro não amostral quando os dados amostrais são coletados, registrados ou analisados
incorretamente. Tais problemas resultam em um erro que não seja uma simples utuação amostral
aleatória, como por exemplo, a escolha de uma amostra não aleatória e tendenciosa, a utilização de
Muitos desses erros são provenientes do próprio observador, devido ao grau de treina-
mento (experiência), o excesso de trabalho, seu estado físico e/ou condições ambientais.
épocas, separadas por um período de dois meses, as mesmas 1.200 radiograas de tórax, com a
foram lidas separadamente por cada radiologista e os resultados se encontram na Tabela 2.2.
A 118 139
B 69 78
C 83 88
D 96 89
E 106 92
Deve-se concluir que tais discordâncias não reetem uma variação real e sim, erros co-
ração algumas etapas para que a validação da hipótese possa ser aceita. Essas etapas são relativas
aos dados propriamente, como a unidade de medida, a unidade amostral, dentre outras. Essas etapas
são:
a) população - a população a ser trabalhada deve ser bem denida, identicando-se corretamente
Etapas de uma pesquisa 17
b) dados a serem coletados - ao se efetuar a coleta dos dados é importante vericar se todos esses
dados serão importantes para os propósitos da pesquisa, e se nenhum dado essencial está sendo
omitido;
chas, por declaração de entrevistados, por telefone, por respostas a um questionário, etc. Em
ção, deve-se escolher a melhor técnica para selecionar a amostra: amostragem simples ao acaso,
f) vericação preliminar - a vericação preliminar não pode faltar em qualquer pesquisa. Deve-se
testar em uma pequena parte da população as seguintes características: se a técnica a ser utilizada
para a coleta é a melhor possível; se a forma escolhida de registro das informações não deve ser
alterada; se os coletores estão bem treinados, enm deve-se vericar a eciência da metodologia
a ser empregada;
g) análise dos dados - apurados os resultados, os mesmos devem ser analisados estatisticamente. Os
dados podem ser apresentados em forma de tabelas ou grácos. Podem ser calculadas algumas
medidas, alguns testes estatísticos e realizadas algumas inferências. Após a análise cuidadosa,
Exercícios
1) Um pesquisador está interessado em avaliar o Peso (kg ) de animais domésticos das espécies
caninas e felinas, não importando a raça. Para isso, ele dispõe de uma lista de dados, disponível
(a) Retire uma amostra aleatória de 25 animais. Explique o processo de seleção. Quantos são
(b) É importante para o pesquisador coletar amostras de cada espécie. Sendo assim, que tipo
(c) Considerando o item 1b, retire uma amostra de tamanho 20 para a espécie canina e de
tamanho 5 para a espécie felina. Relacione as amostras retiradas. Qual o peso médio dos
Estadual de Londrina é reiniciada sempre no primeiro dia útil de cada ano. Assim, o prontuário do
primeiro animal atendido no ano de 2014 recebeu o número 1 e, assim, sucessivamente. No ano
de 2013, foram 3.756 novos prontuários. Uma pesquisa de satisfação com os proprietários cujos
animais foram atendidos em 2013 será realizada. Para isto, uma amostra de 300 proprietários será
estudada. Que tipo de amostragem você usaria e porquê? Enumere a amostra coletada.
3) Um hematologista deseja fazer uma nova vericação de uma amostra de tamanho 10 dos 854
espécimes de sangue analisados por um laboratório em determinado mês. Para isto, ele cria uma
estrutura amostral numerando como 001, 002, ..., 854. Use a tabela de números aleatórios ou
calculadora para escolher que espécimes de sangue serão selecionados? Explique como escolheu
4.000, que consiste de 3 estratos de tamanhos N1 = 2.000, N2 = 1.200, N3 = 800. Para que a
alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato?
Etapas de uma pesquisa 19
drina, quanto à posse e cuidado com os animais domésticos. Explique de que forma você planejaria
esta pesquisa. Também, elabore 10 questões relativas ao assunto que será pesquisado.
Conceitos elementares
estatística descritiva - descreve e analisa determinada população (ou amostra), sem pretender tirar
conclusões; de caráter mais genérico. Os elementos básicos para essa análise são: tabelas,
estatística indutiva ou inferência estatística - preocupa-se com a análise e interpretação dos da-
dos experimentais, e tem como objetivo tirar conclusões sobre populações com base nos resul-
dados, sejam populacionais ou amostrais. A questão então é: como obter os dados estatísticos? Que
Em relação a primeira questão, eles podem ser obtidos através de: coleta documental,
entrevista, questionário, formulário, observação, experimento, etc. É importante que a obtenção dos
A classicação dos tipos de variáveis passíveis de serem encontradas são descritos na seção 3.2.
20
Tipos de variáveis 21
matéria-prima das pesquisas estatísticas. Para simplicar seu manuseio, costuma-se representá-los
Exemplo: Foi elaborado um questionário com 34 questões para se traçar o perl dos alunos do 1o
ano do curso de Medicina Veterinária, da Universidade Estadual de Londrina, no ano de 2005. As
Tabela 3.1 Dados dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade Estadual
de Londrina, do ano de 2005.
Número de Grau de
Aluno Gênero Procedência Estatura (m)
irmãos instrução dos pais
1. Variáveis categóricas (ou qualitativas) - apresentam como possíveis realizações uma quali-
dade (ou atributo) do indivíduo pesquisado. O número de categorias pode depender do interesse
nomes, rótulos ou categorias, não existindo nenhuma ordenação nos possíveis resultados.
Exemplo: Gênero dos estudantes, estado civil, tipo sanguíneo, cor dos olhos, cor dos
social (alta, média, baixa), pressão sanguínea (baixa, normal, alta), etc.
a) variáveis numéricas discretas - são aquelas que assumem valores em pontos da reta real,
frequentemente resultam de uma contagem e não possuem unidade de medida.
acidentes, etc.
qualquer valor em certo intervalo da reta real, normalmente resultam de uma mensuração e
Exemplo: Estatura, salário, idade, peso, pressão sanguínea, temperatura, taxa de colesterol,
etc.
A importância dessa classicação justica-se porque cada tipo de variável resposta exige
3
hhhh Nominal
hh hhhhh
hh
hhhh
hhhh
Qualitativas V
q8 VVVV
qq VVVV
qqq VVVV
qq VVVV
qq VVV+
qqq
qq
qqq
Ordinal
qq
qqq
qqq
Variáveis MMM
MMM
MMM
MMM
MMM
3
MMM hhhh Discreta
MMM
hh hhhhh
MMM hh
MM& hhhh
hhhh
Quantitativas
VVVV
VVVV
VVVV
VVVV
VVV+
Contínua
Dimensionamento da amostra 23
A distinção entre variáveis contínuas e discretas é muitas vezes articial, pois depende
tempo, portanto, por denição, é uma variável aleatória contínua, porém, em muitos
casos ela é medida em anos completos (discretização da variável), o que a torna uma
variável discreta.
Portanto, poderá ocorrer situações em que uma variável contínua será tratada como uma
variável discreta.
c) Nível de conança - deve-se imaginar que, ao se apresentar um valor percentual, referente à taxa
de prevalência do fenômeno estudado na amostra observada, esse valor tem, em relação ao valor
percentual da população, uma diferença, que é, a priori, arbitrada pelo pesquisador. Esta diferença
arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95%
ou 99% de conança, ou seja, o nível de conança de que a diferença arbitrada realmente ocorra
pela letra Z, este valor é substituído na fórmula (3.1) por uma constante 1, 96 quando o nível de
conança corresponde a 95% e por 2, 58 quando o nível de conança é de 99%.
de certo fenômeno, apresenta, na literatura, resultados que se pode utilizar para a determinação
24 Capítulo 3. Conceitos elementares
Quando na literatura de referência não se encontra o valor de π, considera-se este igual a 50%,
consequentemente 1 − π = 50%.
para a taxa de prevalência de certo evento. Normalmente é esperada uma diferença em relação à
z 2 π(1 − π)
n0 = (3.1)
(π − p)2
n0
n= n0 (3.2)
1+
N
em que:
,→ n0 : amostra inicial;
,→ z : nível de conança;
,→ N : tamanho da população;
região, determine o tamanho da amostra, considerando-se N = 40.000. Para este caso, considere
z2 σ2
n0 = (3.3)
ϵ2
n0
n= n0 (3.4)
1+
N
sendo:
1
Doença rara, mas muito grave, causada, usualmente, pelo consumo de alimentos contaminados com a bactéria
Listeria monocytogenes.
26 Capítulo 3. Conceitos elementares
Obs.: Caso não se disponha de σ 2 (variância populacional), realiza-se uma pré-amostragem, retirando-
se, por exemplo, 30 observações da população e calcula-se o desvio padrão da característica a estudar;
Para populações nitas, utilizam-se as fórmulas (3.3) e (3.4) e, para populações innitas,
Exemplo: Numa pesquisa para se determinar a taxa média do teor de hemoglobina em fêmeas bovinas
da raça Aquitânica, com idade acima de 12 meses, depara-se com o problema de denir-se o tamanho
da amostra. Sem informações a priori, seleciona-se uma amostra de 30 animais e determina-se o valor
do teor de hemoglobina de cada animal e, a seguir, calcula-se a variância (capítulo 7), cujo valor, por
precisão de 0, 15 g/dl.
Solução:
Dimensionamento da amostra 27
Exercícios
1) Classique cada uma das variáveis apresentadas na Tabela 3.2 em qualitativa (nominal ou ordinal)
Tabela 3.2 Dados parciais coletados no Hospital Veterinária da Universidade Estadual de Londrina,
ano 2013.
z2 σ2 n0
2) Considerando-se as equações n0 = e n= n0 para determinação do tamanho amostral
ϵ2 1+
N
para variáveis quantitativas, mostre passo-a-passo, que o tamanho amostral para população innita
N
N ( ε )2
n= ,
1+ 2
σ z
ε = µ − x̄ n0
3,0
2,0
1,5
1,0
0,5
0,1
0,01
nanceiros, coletar 100 amostras. Qual o erro de precisão desse experimento? Demonstre os
cálculos passo-a-passo.
6) Um pesquisador está interessado em avaliar a temperatura retal (TR, em grau Celsius) de ani-
mais domésticos das espécies caninas e felinas, não importando a raça. Sabe-se, de estudos
1, 1513 o C 2 . Para isso, ele dispõe de uma lista com a relação dos animais atendidos no Hos-
http://www.uel.br/pessoal/silvano/Veter/Dados/HV.txt.
Dimensionamento da amostra 29
b) É importante para o pesquisador coletar amostras de cada espécie. Sendo assim, que tipo de
c) Relacione as amostras retiradas. Qual a temperatura retal média dos dados? E para cada um
dos estratos?
7) Suponha que um pesquisador tenha diversas gaiolas que contenham, cada uma, 6 ratos. Qual é a
8) Dada uma população de 8 elementos, estabeleça três formas distintas de se obter uma amostra
sistemática de 4 elementos.
9) Um hematologista deseja fazer uma nova vericação de uma amostra de tamanho 10 dos 854
espécimes de sangue analisados por um laboratório médico em determinado mês. Para isto,
ele cria uma estrutura amostral numerando como 001, 002, . . . , 854. Use a tabela de números
aleatórios ou a calculadora para escolher que espécimes de sangue serão selecionados? Explique
10) Deve-se retirar uma amostra estraticada de tamanho n = 60 de uma população de tamanho
4.000, que consiste de 3 estratos de tamanhos N1 = 2.000, N2 = 1.200, N3 = 800. Para que a
alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato?
números aleatórios para escolher os números das etiquetas. Explique como escolheu os números
da tabela aleatória.
Estatística Descritiva
e utilizado. Uma tabela estatística consegue expor os resultados de determinada pesquisa ou parte
dela, sinteticamente, em que se tem uma visão mais clara e fácil dos resultados obtidos. Ao dispor
os dados em linhas e colunas, distribuídos de forma ordenada, segundo regras estabelecidas, tem-se
as tabelas estatísticas.
a) Título: é uma indicação que precede a tabela estatística e que contém a designação do fenômeno
b) Cabeçalho: colocado na parte superior da tabela, tem por nalidade especicar o conteúdo das
colunas;
vertical e horizontal, informações sobre o fenômeno estudado. Chama-se casa (ou casela) ao
cruzamento de uma coluna com uma linha. As casas nunca deverão car em branco, contendo
30
Organização e apresentação de dados 31
ii) ... (três pontos), quando a informação existe mas não está disponível;
iii) 0 (zero), quando o valor numérico for menor que a metade da unidade de medida adotada
iv) X (letra x), quando o dado for omitido a m de evitar a individualização das informações, nos
d) Coluna indicadora: é a parte da tabela que tem por nalidade especicar o que contêm as linhas;
Toda tabela deverá ter identicação feita com algarismos arábicos, de modo crescente,
precedidos da palavra Tabela, podendo ser subordinada ou não a capítulos ou seções de um docu-
mento.
Tabela 4.1 Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de Londrina
(UEL), no ano de 2005.
Total 38.650
Fonte: HV da UEL.
Pequeno porte
Médio porte
Grande porte
32 Capítulo 4. Estatística Descritiva
20.650
12.300
5.700
a) Fonte: é a indicação do órgão ou entidade responsável pelo fornecimento dos dados ou pela sua
b) Notas: são informações destinadas a esclarecer ou conceituar o conteúdo das tabelas, ou indicar a
metodologia adotada na coleta ou preparo dos dados. Devem ser colocadas embaixo da indicação
da fonte;
colocada após a nota. Devem ser feitas através de algarismos arábicos escritos entre parênteses,
relativos à uma pesquisa ou experimento. Os dados foram coletados no Hospital Veterinário por
realizada em 2002.
Tabela 4.2 Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual de Lon-
drina. Londrina - Paraná, 2002.
Canina 85,00
Felina 11,07
Equina 2,50
Bovina 0,71
Lagarto 0,36
Roedor 0,36
Nota: Utilizou-se uma amostragem sistemática para selecionar as chas dos animais.
Distribuição de frequências 33
Observações:
As tabelas são constituídas por três traços horizontais paralelos, um para separar o topo, outro
para separar o cabeçalho e o terceiro para o rodapé. Não são usados traços verticais para separar
os dados;
Devem ser identicadas na parte superior iniciada com a palavra Tabela e seu número de ordem,
capítulo ou seção nas quais estão inseridas e seu número de ordem. Exemplo: vide Tabela 4.2.
No caso da tabela ter de ocupar mais de uma página, não será delimitada na parte inferior e
o cabeçalho será repetido na página seguinte. Nesse caso, usa-se no cabeçalho, ou na coluna
Quando não for possível dispor a tabela na posição normal de leitura, ela deverá ser apresentada
na construção de uma tabela a partir dos dados brutos em que se considera a frequência com que
cada observação ocorre. A interpretação dos resultados obtidos em tabelas de frequências pode ser
em forma de tabela, basta escrever em uma coluna os valores da variável discreta estudada em ordem
crescente (ou decrescente) e assinalar, em outra coluna paralela, o número de vezes que cada um
desses valores foi observado, isto é, a frequência absoluta de cada valor. Uma terceira coluna será
destinada a indicar a frequência relativa com que cada um desses valores ocorreram na amostra. A
nação articial, no Hospital Veterinário da UEL, em 2005. Os seguintes números de lhotes foram
34 Capítulo 4. Estatística Descritiva
observados:
5 4 3 4 3 1 4 4 5 3 0 1 3 2 2
Dados Brutos:
3 2 3 4 2 3 3 1 1 3 3 4 2 4 2
Quando os dados estão dispostos sem qualquer ordem lógica, recebem o nome de dados brutos.
obtemos o rol:
0 1 1 1 1 2 2 2 2 2 2 3 3 3 3
Rol:
3 3 3 3 3 3 4 4 4 4 4 4 4 5 5
A = Ls − Li = 5 − 0 = 5.
Uma tabela de distribuição de frequência pode ser construída, tanto a partir dos dados
Tabela 4.3 Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veterinário
da UEL em 2005.
0 1 3,33
1 4 13,33
2 6 20,00
3 10 33,34
4 7 23,33
5 2 6,67
Para obter-se as frequências relativas, fr , divide-se cada frequência absoluta pelo tamanho
da amostra:
fi
fr = .
n
fi
fr % = × 100.
n
Distribuição de frequências 35
Evidentemente a soma das frequências absolutas é igual ao número total das cadelas que foram
valores. Isto quer dizer que se usássemos as tabelas de frequências, como no caso das variáveis
discretas teríamos uma tabela com muitas linhas, tornando-a pouco operacional. Para contornar
este problema usa-se descrever as variáveis numéricas contínuas através de tabelas de classes de
frequências ou tabelas de intervalo.
Considere os seguintes dados, referentes aos pesos (kg) de cães das raças Fila brasileiro
Dados Brutos
5,5 19,0 28,0 30,0 33,0 40,0 40,0 40,3 40,5 12,6
12,6 14,2 14,2 17,5 17,5 18,0 19,0 19,2 21,0 21,0
27,0 27,0 27,0 27,2 28,0 28,0 30,0 30,0 39,8 13,5
O que se pode dizer sobre os cães com base nestes dados? É possível ter uma ideia clara,
apenas observando os números? O passo seguinte, optativo, poderia ser a obtenção do rol:
Rol
5,5 12,6 12,6 13,5 14,2 14,2 17,5 17,5 18,0 19,0
19,0 19,2 21,0 21,0 27,0 27,0 27,0 27,2 28,0 28,0
28,0 30,0 30,0 30,0 33,0 39,8 40,0 40,0 40,3 40,5
36 Capítulo 4. Estatística Descritiva
Qual o número de classes a ser usado? O número ideal de classes a ser utilizado em
uma tabela, pode depender mais do bom senso do pesquisador, de acordo com seus interesses e
necessidades, do que de regras pré-estabelecidas. Um exemplo disso é a Tabela 4.4 que mostra os
Tabela 4.4 Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça Holan-
dês, segundo a classicação de Gaines (1994).
0⊢ 3 0,1
4 ⊢ 17 6,3
18 ⊢ 24 44,6
25 ⊢ 35 5,8
36 ⊢ 48 16,3
> 48 27,0
Caso não haja, por parte do pesquisador, um motivo para o uso de intervalos de classes
diferentes, pode-se optar pela utilização de uma das regras para se construir os intervalos de classes.
k−1 (
∑ )
k−1
n= = (1 + 1)k−1 = 2k−1
i
i=0
1
Gaines, J.D. Proceedings for annual meeting. Kansas City: Society for Theriogenology, 1994. Analysis of repro-
ductive eciency of dairy herds : p.86-107.
2
Sturges, H. The choice of a class-interval. J. Amer. Stat. Association, 21, 6566, 1926.
Distribuição de frequências 37
log2 n = k − 1
k = 1 + log2 n
log10 n log10 n
k = 1+ =1+
log10 2 0, 301029
k = 1 + 3, 3 × log n
√
b) Critério da Raiz Quadrada - tem-se k = n.
literatura. Para o exemplo em questão, o número de classes recomendado será dado por:
k = 1 + 3, 3 × log 30
√
= 1 + 3, 3 × 1, 4771 ou k= 30 = 5, 4772.
= 5, 8745
Assim, os dados poderão ser resumidos em 6 classes de amplitude a = 6 kg como amplitude das
classes.
fechado à esquerda e portanto pertencem à classe valores iguais ao extremo inferior dessa classe.
Também estamos indicando que o intervalo é aberto à direita e portanto não pertencem à classe
Assim, tem-se:
Tabela 4.5 Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor
Alemão, coletados no Hospital Veterinário da UEL, em 2003.
Pesos (kg ) Ponto médio Frequências absolutas (fi ) Frequências relativas (fr %)
5 ⊢ 11 8 1 3,33
11 ⊢ 17 14 5 16,67
17 ⊢ 23 20 8 26,67
23 ⊢ 29 26 7 23,33
29 ⊢ 35 32 4 13,33
35 ⊢ 41 38 5 16,67
A construção da Tabela 4.5 simplicou muito a interpretação dos dados, com apenas seis
classes (linhas) conseguiu-se condensar os 30 dados. Com uma rápida olhada na tabela já se nota que
a maioria dos cães concentram-se nas classes centrais, ou seja, entre 17 e 29 quilos, havendo poucos
animais nas classes extremas. No entanto isto tem um preço, por exemplo, tudo que se sabe agora
é que apenas um valor está entre 5, 0 e 11, 0 kg , cinco valores estão entre 11, 0 e 17, 0 kg , e assim
por diante. Mas não se sabe quais são esses valores. Dessa forma, como não se conhece os dados
originais, como acontece muitas vezes em certas publicações cientícas, deve-se utilizar o ponto médio
da classe, como um valor representativo. Assim, tudo se passa como se os dados originais fossem
constituídos por um valor igual a 8 kg , por cinco valores iguais a 14, 0 kg , por oito valores iguais a
20, 0 kg , etc.
Caso queira construir a tabela da forma exata como apresentado na Tabela 4.5,
2,04 2,16 4,05 1,80 2,22 2,06 1,20 1,67 5,41 1,57
3,09 2,16 3,94 2,06 3,55 3,56 3,57 2,39 2,48 1,53
2,67 2,18 3,93 3,34 2,78 3,26 3,06 3,32 3,37 0,75
i) Encontre o número de classes para a construção de uma tabela para estes dados;
Solução:
Solução:
Solução:
40 Capítulo 4. Estatística Descritiva
Solução:
Solução:
em que os elementos da amostra ou da população são classicados de acordo com dois fatores, sendo
cada entrada relativa a um dos fatores. Exemplos são apresentados nas Tabelas 4.6 e 4.7. Os dados
apresentados na Tabela 4.7 foram obtidos na página do Instituto Brasileiro de Geograa e Estatís-
Acasalamentos
Raças
Fecundos Infecundos
Fonte: Fictícia
Tabelas de dupla entrada 41
Tabela 4.7 Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012.
Estados
Pecuária Totais
Paraná Santa Catarina Rio Grande do Sul
Para construir a Tabela 4.7, utilizando os dados diretamente do site do IBGE, bastam os seguintes
comandos do R:
pec_pr = read.csv2('http://www.ibge.gov.br/estadosat/download/pr_pecuaria2012.csv',
sep=';', head=F)
pr = data.frame(pec_pr[1:8, -3])
pec_sc = read.csv2('http://www.ibge.gov.br/estadosat/download/sc_pecuaria2012.csv',
sep=';', head=F)
sc = data.frame(pec_sc[1:8, -3])
pec_rs = read.csv2('http://www.ibge.gov.br/estadosat/download/rs_pecuaria2012.csv',
sep=';', head=F)
rs = data.frame(pec_rs[1:8, -3])
require(xtable)
xtable(pecuaria)
Capítulo 5
Grácos
O objetivo da representação gráca é apresentar de maneira clara, rápida e objetiva os
dados coletados na primeira fase do trabalho estatístico. Um gráco tem a função de transmitir uma
idéia visual do comportamento de um conjunto de valores, de forma a se poder tirar conclusões claras
de tabelas complicadas. Ele tanto serve para simplicar como pode facilmente enganar. Existem
a) toda representação gráca deve ter título, escala e fonte dos dados, de forma a dispensar qualquer
esclarecimento adicional;
c) a primeira série de variáveis deverá car no eixo das abscissas (X ). Consequentemente, a segunda
g) ao lado da escala da abscissa deve ser escrita a característica relativa à mesma. Em cima da escala
da ordenada deve constar a característica correspondente. A razão da altura para a largura pode
variar de 60% a 80% para que a gura tenha boas proporções (simetria e equilíbrio);
Existem inúmeras formas grácas interessantes, serão apresentados apenas alguns tipos
de grácos.
42
Apresentação gráca de variáveis qualitativas 43
dimensões é proporcional à magnitude a ser representada (ni ou fi ), sendo a outra arbitrária, porém
igual para todas as colunas ou barras. Essas colunas são dispostas paralelamente umas às outras,
b) a distância entre as barras deve ser constante e de preferência menor que a largura das barras.
100
80
Frequências
60
40
20
0
Pastor
Pinscher Alemão Poodle Rottweiller SRD Outros
Figura 5.1 Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina
em 2003.
O programa R para construir o gráco de colunas dos dados absolutos é dado por:
Nem sempre é interessante utilizar os dados absolutos no eixo das ordenadas. É de uso
mais frequente apresentá-la utilizando-se a porcentagem. A Figura 5.2 apresenta os mesmos dados
40
30
Percentuais (%)
20
10
0
Pastor
Pinscher Alemão Poodle Rottweiller SRD Outros
Figura 5.2 Percentual de raças caninas atendidas no Hospital Veterinário da Universidade Estadual
de Londrina em 2003.
Observe que neste caso, são fornecidos os totais observados para cada categoria. Caso
o gráco fosse construído a partir de um banco de dados, seria necessário tabular os valores de cada
categoria primeiro. Considere os dados dos pers dos alunos do curso de Medicina Veterinária do ano
de 2011. Na Figura 5.3 são apresentados os resultados para a cor dos olhos, em porcentagem.
Apresentação gráca de variáveis qualitativas 45
80
60
Percentual (%)
40
20
0
Castanhos Verdes Azuis Pretos
Figura 5.3 Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Universidade
Estadual de Londrina em 2011.
O programa R para construir o gráco de colunas percentual a partir de um banco de dados é dado
por:
rm(list=ls())
require(foreign)
perfil = read.epiinfo('http://www.uel.br/pessoal/silvano/Veter/Dados/Perfil2011.rec')
names(perfil) ; attach(perfil)
(tab.olhos = table(Q6))
names(tab.olhos) = c('Azuis','Castanhos','Pretos', 'Verdes')
barplot(tab.olhos, xlab="Cor dos olhos", ylab="Frequências", col="LightYellow", las=1)
abline(h=0, lwd=1)
#-------------------------------------
# Ordenando por valores decrescentes -
#-------------------------------------
(tab.olhos.ord = sort(tab.olhos, decreasing = T))
barplot(tab.olhos.ord, xlab="Cor dos olhos", ylab="Frequências",
col="LightYellow", las=1)
abline(h=0, lwd=1)
#----------------------------
# Utilizando os percentuais -
#----------------------------
46 Capítulo 5. Grácos
par(mai=c(1,1,.15,.2))
barplot(100*prop.table(tab.olhos.ord), ylim=c(0,80), xlab="Cor dos olhos",
ylab="Percentual (%)", col="LightYellow", las=1, space=0.7)
abline(h=0, lwd=1)
Quando os rótulos dos eixos (atributo) da variável são longos, pode-se optar pelo gráco
de barras.
Outros
SRD
Pinscher
Raças dos Cães
Pastor
Alemão
Poodle
Rottweiller
0 20 40 60 80 100 120
Frequências
Figura 5.4 Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina
em 2003.
comumente usada é através do gráco de colunas justapostas, que consiste em colocar lado-a-lado
os níveis da variáveis.
da produção pecuária dos estados do sul do Brasil, levando em consideração apenas as duas maiores
1500
Bovinos
Suínos
1000
Número de cabeças
(x 10.000)
500
0
Rio Grande do Sul Paraná Santa Catarina
Estados
Figura 5.5 Produção pecuária dos estados do sul do Brasil no ano de 2012.
48 Capítulo 5. Grácos
rm(list=ls())
cabecas=c(14140654, 9413937, 4072960,
6213316, 5518927, 7480183,
4095648, 638923, 307651,
468691, 325837, 122565,
100283, 176130, 57243,
74792, 24502, 13898,
2888, 39132, 1965,
1747, 1710, 925)/10000
(dados = matrix(cabecas, nrow=8, byrow=T))
rownames(dados) = c('Bovinos','Suínos','Ovinos','Equinos','Caprinos',
'Bubalinos','Muares','Asininos')
colnames(dados) = c('Rio Grande do Sul','Paraná','Santa Catarina')
dados
#-----------------------------
# Apenas Bovinos e Suínos -
#-----------------------------
(parte = dados[1:2, 1:3])
par(mai=c(1, 1.2, .2, .2))
ylim = range(0, 1600, by=300)
barplot(parte, beside=T, col = c("lightgreen", "lightblue"), ylim=ylim,
angle=c(90, 0), xlab="Estados", ylab='', las=1)
legend(7, 1400, angle=c(90,0), legend=rownames(parte), bty='n',
fill=c('lightgreen','lightblue'), cex=1)
mtext('Número de cabeças \n (x 10.000)', side=2, line=4)
abline(h=0)
Pode-se comparar os níveis de uma variável dentro de cada categoria em uma única
coluna. Esta forma de apresentação é através do gráco de colunas compostas apresentado na Figura
5.6.
da produção pecuária dos estados do sul do Brasil, levando em consideração apenas as duas maiores
2000
Bovinos
Suínos
1500
Número de cabeças
(x 10.000)
1000
500
0
Rio Grande do Sul Paraná Santa Catarina
Estados
Figura 5.6 Produção pecuária dos estados do sul do Brasil no ano de 2008.
relação ao total dos dados, permitindo comparações entre as categorias. Constitui-se num círculo no
qual são destacados, v setores circulares, cada qual com área proporcional à frequência do i-ésimo
n − 360o 360
=⇒ θio = fi .
f − θio n
i
Tomando-se os dados da Tabela ??, tem-se v = 3, desse modo, o círculo será dividido em três setores
circulares. Assim, o número total de observações, n = 38.650, corresponde ao total dos graus, 360o
e a frequência fi corresponde ao ângulo θio . Assim, tem-se:
360 360
θ1o = × 20.650 = 192, 34o θ2o = × 12.300 = 114, 57o
38.650 38.650
360
θ3o = × 5.700 = 53, 09o
38.650
Figura 5.7 Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de
Londrina, no ano de 2005.
Caso se queira incluir os nomes das categorias dentro do gráco, bastam os seguintes comandos:
#---------------------------------------
# Incluindo os nomes dentro do gráfico -
#---------------------------------------
par(mar=c(1, 1, 1, 1))
pie(anim, labels=`', col=c("LightYellow", "white", "green"), radius=1)
text(0, .5, "Pequeno Porte \n (68,4%)", col= "black", cex=.9)
text(0.2, -.5, "Médio Porte \n (24,2%)", col= "black", cex=.9)
text(0.7, -.15, "Grande Porte \n (7,4%)", col= "black", cex=.9)
Pequeno Porte
(68,4%)
Grande Porte
(7,4%)
Médio Porte
(24,2%)
Figura 5.8 Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de
Londrina, no ano de 2005.
52 Capítulo 5. Grácos
dados são apresentados no livro de Magalhães & Pedroso e integram as informações de um questionário
estudantil.
14 % 32 % 28 %
Feminino
Gênero
Masculino 6 % 14 %
6 %
Tolerância ao Cigarro
pedroso = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/questionario.txt",
head=T, dec=".", sep="")
attach(pedroso)
Sexo = factor(Sexo, label=c("Feminino", "Masculino"))
Toler = factor(Toler, label=c("Indiferente", "Incomoda muito", "Incomoda pouco"))
dupla.ent.p = round(100*prop.table(table(Toler, Sexo)), 2)
par(mar=c(3.1, 2.7, 1, 1), cex.lab=1.2, col.lab='black')
plot(dupla.ent.p, col="LightYellow", xlab="Tolerância ao Cigarro", ylab='Gênero',
main='', las=1, cex.axis=1.1)
text(.25, .65, paste(dupla.ent.p[1,1],'%', sep=' '), col= "red", cex=1.1)
text(.49, .65, paste(dupla.ent.p[2,1],'%', sep=' '), col= "red", cex=1.1)
text(.82, .65, paste(dupla.ent.p[3,1],'%', sep=' '), col= "red", cex=1.1)
text(.25, .12, paste(dupla.ent.p[1,2],'%', sep=' '), col= "blue", cex=1.1)
Apresentação gráca de variáveis discretas 53
o gráco de bastão.
nadas cartesianas. Na Figura 5.10 é apresentado o gráco de bastão relativo aos dados da Tabela 4.3.
10
6
Freqüências
0
0 1 2 3 4 5
Número de Filhotes
Figura 5.10 Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veteri-
nário da UEL em 2003.
Filhotes = c(5, 4, 3, 4, 3, 1, 4, 4, 5, 3, 0, 1, 3, 2, 2, 3,
2, 3, 4, 2, 3, 3, 1, 1, 3, 3, 4, 2, 4, 2)
sort(Filhotes)
(tab.cad = table(Filhotes))
par(mai=c(1,1,.2,.3),mgp=c(3, 1, 0))
54 Capítulo 5. Grácos
tabela de classes de frequências, pode ser feita através de um histograma ou polígono de frequências.
5.3.1 Histograma
É uma sequência de retângulos justapostos, em que cada retângulo tem como base a
amplitude do intervalo e como altura as respectivas frequências (absoluta ou relativa). A Figura 5.11
20
15
Frequências
10
0
12 18 24 30 36 42 48 54
Número de atendimentos
Pode-se notar que a distribuição dos dados é aproximadamente simétrica e não apresenta
grande variabilidade e, ainda, que o número de atendimentos diários mais comum está entre 30 e 36
Apresentação gráca de variáveis contínuas 55
atendimentos/dia.
atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
par(mai=c(1, 1, .2, .2))
hist(atend, breaks=c(12,18,24,30,36,42,48,54), freq=T, right=F, col="red", main="",
ylim=c(0,20), las=1, xaxt="n", xlab='', ylab='Frequências', border="blue", density=10)
mtext('Número de atendimentos', side=1, line=2) ; abline(h=0)
axis(1, at = c(12,18,24,30,36,42,48,54), line=-1)
Obs.: Caso queira acrescentar os valores observados no gráco, basta acrescentar o comando labels=T.
une-se os pontos cujas abscissas são os pontos médios das classes e as ordenadas são as respectivas frequências.
Depois para fechar o polígono unimos os extremos da gura com o eixo das abscissas, nos pontos em que
estariam os pontos médios de uma classe imediatamente inferior à primeira e de uma classe imediatamente
superior à última.
20
15
Frequências
10
0
9 15 21 27 33 39 45 51 57
Pontos Médios
Figura 5.12 Número médio de atendimentos diários, do Hospital Veterinário, da Universidade Esta-
dual de Londrina, nos últimos 50 dias.
atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
(histo = hist(atend, breaks=c(12,18,24,30,36,42,48,54), las=1, freq=T, right=F, xlab='',
ylab="Frequências", col="LightYellow", main="", ylim=c(0,20), plot=F))
(pontos.medios = c(9, histo$mids, 57))
(fr = c(0, histo$counts, 0))
par(mai=c(1,1,.2,.2))
plot(pontos.medios, fr, type="l", lwd=2, bty="l", xlab="Pontos Médios",
ylab="Frequências", col="red", main="", ylim=c(0,20),las=1, xaxt="n")
axis(1, at=c(pontos.medios))
abline(h=0)
perdido. Uma vantagem do ramo-e-folhas é que as observações individuais são preservadas, enquanto que
12 15 16 18 19 20 22 23 23 24 25 26 26 27 27 27 28 28 28 29 29 30 30 30 31
31 31 32 32 32 32 33 33 33 33 33 34 35 35 36 36 37 38 39 39 41 42 43 45 49
dados do número de atendimentos no Hospital Veterinário, a divisão foi separar a dezena da unidade,
12 ⇒ ramo = 1 e folha = 2
15 ⇒ ramo = 1 e folha = 5
16 ⇒ ramo = 1 e folha = 6
18 ⇒ ramo = 1 e folha = 8
19 ⇒ ramo = 1 e folha = 9
45 ⇒ ramo = 4 e folha = 5
49 ⇒ ramo = 4 e folha = 9
Apresentação gráca de variáveis contínuas 57
b) Escrever os ramos em ordem crescente verticalmente e passar uma linha vertical à direta deles.
1 | 2
1 | 5689
2 | 02334
2 | 56677788899
3 | 0001112222333334
3 | 55667899
4 | 123
4 | 59
atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
stem(atend)
Obs.: note que o resultado é mostrado no console do R e não em uma janela gráca.
O gráco de caixas dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes.
A posição central é dada pela mediana e a dispersão por dq . As posições relativas de q1 , q2 , q3 dão uma noção
da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos
A Figura 5.13 mostra a comparação, através do gráco de caixas, dos pesos (g) de tilápias do
nilo, coletados por quatro equipes de alunos do curso de Medicina Veterinária, no tanque de piscicultura da
500
450
400
Pesos (g) +
+ + +
350
300
250
Equipes
Figura 5.13 Comparação de pesos (g) de tilápias para quatro equipes de alunos do curso de Medicina
Veterinária da Universidade Estadual de Londrina em 2003.
A determinação dos quartis e demais valores para a construção do gráco de caixas será visto
no Capítulo 6.
tilapia = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
head=T, dec='.')
attach(tilapia)
names(tilapia)
(medias = tapply(Peso, factor(Equipe), mean))
par(mai=c(1,1,.2,.2))
boxplot(Peso~factor(Equipe), xlab='Equipes', ylab='Pesos (g)', las=1, bty='l',
col="LightYellow", pch=19, outline=F)
points(medias, pch="+", cex=1.5, col="blue")
cartesianas. O objetivo deste tipo de diagrama é vericar se existe algum tipo de associação entre as variáveis
observadas.
Apresentação gráca de variáveis contínuas 59
500
450
400
Peso (g)
350
300
250
200
22 24 26 28 30
Comprimento (cm)
Figura 5.14 Relação entre peso e comprimento de tilápias do Nilo, do tanque de piscicultura da
Universidade Estadual de Londrina, 2003.
Da Figura 5.14 nota-se uma relação linear crescente entre as variáveis Peso e Comprimento. No
Capítulo ?? será estudado como ajustar uma equação linear a um conjunto de dados.
Deve-se tomar cuidado na análise deste tipo de gráco, uma vez que as variáveis correlacionadas
tilapia = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
header=TRUE, dec=",")
attach(tilapia)
names(tilapia)
par(mai=c(1, 1, .2, .2))
plot(Peso ~ Comp, las=1, xlab="Comprimento (cm)", ylab="Peso (g)", pch=19, col="blue",
cex=1.2, bty="l")
detach(tilapia)
setores proporcionais. Ele é uma variação do gráco de dispersão, sendo que a magnitude do círculo indica a
A Figura 5.15 mostra a relação entre o peso (g) e comprimento (cm) das tilápias do Nilo,
controladas pelo tempo (s) de recuperação da anestesia. A variável Tempo de Recuperação é indicada pelo
raio de cada circunferência. Quanto maior o raio, maior o tempo que o animal levou para se recuperar da
anestesia.
500
400
Pesos (g)
300
200
22 24 26 28 30 32
Comprimento (cm)
Figura 5.15 Relação entre peso e comprimento de tilápias do Nilo, controladas para a variável tempo
de recuperação da anestesia, do tanque de piscicultura da Universidade Estadual de
Londrina, 2003.
A Figura 5.15 mostra que há tilápias que demoraram mais tempo a se recuperar da anestesia. Os comandos
tilapias = read.table('http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt',
head=T, dec=',')
attach(tilapias)
names(tilapias)
symbols(Peso~Comp, circles = Recup/500,
inches=F, bty="l", bg="LightGreen", xlab="Comprimento (cm)",
ylab="Pesos (g)", fg="blue", las=1)
Apresentação gráca de variáveis contínuas 61
longitudinais e uma representação adequada para este tipo de dados é o gráco de linhas. Consiste em colocar
no eixo horizontal do gráco a escala temporal (ano, mês, dia, etc) e no eixo vertical a variável a ser estudada
(frequência, taxa ou medida tomada). É usual unir os pontos através de segmentos de reta, daí o nome
recebido.
420
400
380
Pesos (g)
360
340
320
1 2 3 4 5 6 7 8
Semanas
Figura 5.16 Peso médio de 10 tilápias, do tanque de piscicultura da UEL, acompanhadas durante 8
semanas.
prod = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
head=T, dec=",")
(dados=data.frame(Prod=sort(prod[1:8,4]), Semanas=1:8))
attach(dados)
par(mai=c(1,1,.2,.2))
plot(Semanas, Prod, las=1, xlab="Semanas", ylab="Pesos (g)", lwd=2.5, type="b",
bty="l", col="blue", xaxt='n')
axis(1, at=c(0,1,2,3,4,5,6,7,8))
detach(prod)
Um cuidado a se ter com grácos, é com as escalas adotadas. Muitas vezes uma mudança de
escala pode dar uma impressão errônea sobre a realidade dos acontecimentos.
62 Capítulo 5. Grácos
objetiva do comportamento dos dados, muitas vezes eles são utilizados, de forma errônea, para dar uma
Para o propósito de mostrar uma aplicação gráca ilusória, considere os dados (ctícios) apre-
sentados na Tabela 5.1, referentes ao número de atendimentos realizados pelo Hospital Veterinário, da Uni-
Janeiro 410
Fevereiro 430
Março 450
Abril 408
Maio 408
Junho 405
Fonte: Fictícia
Os grácos, com escalas diferentes, para representar os dados da Tabela 5.1, são dados pelas
450 450
400
440
350
300
Número de atendimentos
Número de atendimentos
430
250
200
420
150
100
410
50
400 0
Janeiro Fevereiro Março Abril Maio Junho Janeiro Fevereiro Março Abril Maio Junho
Meses Meses
Observe que na Figura 5.17 tem-se a impressão de que houve um número muito grande de
Ilusão dos Grácos 63
atendimentos comparado aos outros meses. Perceba que a escala do gráco começa em 400 atendimentos.
Já na Figura 5.18 a escala começa no zero e percebe-se que no mês de março houve, realmente, um número
maior de atendimentos, mas que a quantidade de atendimentos a mais não é tão signicativa quanto àquela
atend = c(410,430,450,408,408,405)
names(atend) = c('Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho')
barplot(atend-400, las=1, xlab='Meses', ylab='Número de atendimentos',
col='red', yaxt='n', space=0.6, density=10)
axis(2, at=seq(0,50, by=10), lab=seq(400,450, by=10), las=1)
abline(h=0, col='black', lwd=1)
Uma grande variedade de modelos grácos, aplicados às mais diversas áreas, pode ser encontrada
Medidas de Posição
Viu-se que o resumo de dados através de grácos e tabelas de frequências fornece muitas in-
formações sobre o comportamento de uma variável. Muitas vezes, deseja-se resumir ainda mais esses dados,
dados observados da variável em estudo. Usualmente emprega-se uma das seguintes medidas de posição (ou
conjunto de dados, tabelados ou não, é a média aritmética simples, ou simplesmente média e representa-se
por ȳ . É denida como a soma das observações dividida pelo número delas.
Exemplo: Os pesos, em kg , de 10 coelhos da raça Nova Zelândia Branco foram anotados, obtendo-se os
seguintes valores:
3, 7 3, 8 4, 8 5, 1 3, 9 4, 1 4, 2 4, 0 4, 5 5, 0.
3, 7 + 3, 8 + 4, 8 + 5, 1 + 3, 9 + 4, 1 + 4, 2 + 4, 0 + 4, 5 + 5, 0
ȳ = = 4, 31 kg.
10
64
Média Aritmética Ponderada 65
1∑
n
ȳ = yi (6.1)
n i=1
Quando dados de uma amostra de determinada população são utilizados, a média aritmética
calculada será uma estimativa, pois emprega-se apenas uma fração do conjunto total.
Este é o critério denido para o cálculo da média nal para a disciplina de Estatística do curso de Medicina
P1 1
P2 1
P3 2
P4 2
T 1
em que T é a nota obtida na listas; P 1 , P2 , P3 e P4 são as notas obtidas nas provas e os respectivos pesos.
Portanto, para calcular a média nal tem-se a média ponderada, dada por:
P1 + P2 + 2 × P3 + 2 × P4 + T
ȳ =
∑5
pi
i=1
∑
5
em que o valor pi refere-se à soma dos pesos.
i=1
∑
n
yi × pi
i=1
ȳ =
∑
n
pi
i=1
66 Capítulo 6. Medidas de Posição
Exemplo: Considere que as notas de um determinado aluno, obtidas na disciplina de Estatística, foram:
P1 P2 P3 P4 P5 T
Notas 8,5 6,5 7,7 9,0 7,5 10,0
Pesos 1 1 2 2 3 1
Solução:
passa a ser:
∑
k
y i × fi
i=1
ȳ = ,
∑
k
fi
i=1
sendo yi o valor observado (ou ponto médio da classe), k o número de classes e fi as frequências observadas.
Portanto, o cálculo da média para dados agrupados, nada mais é que o cálculo de uma média ponderada em
que os pesos são dados pelas frequências observadas.
Exemplo: Considere a distribuição de frequências dos pesos de cães das raças Fila Brasileira e Pastor Alemão,
Tabela 6.1 Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor
Alemão, coletados no Hospital Veterinário da Universidade Estadual de Londrina, em
2003.
Pesos (kg) Freq. absolutas (fi ) Freq. Acum. (Fac ) Ponto médio (yi ) yi fi
5 ⊢ 11 1
11 ⊢ 17 5
17 ⊢ 23 8
23 ⊢ 29 7
29 ⊢ 35 4
35 ⊢ 41 5
Total 30
Solução:
yi = c(8,14,20,26,32,38)
fi = c(1,5,8,7,4,5)
(media = weighted.mean(yi, fi))
Obs.: A média sofre muita inuência de valores atípicos. Por outro lado, é ótima se a distribuição dos dados
representar bem o conjunto de dados. Neste caso, deve-se utilizar a média geométrica dos dados, que é
calculada por:
v
u n
√ u∏
ȳg = n y1 × y2 × . . . yn ou ȳg = t
n
yi (6.2)
i=1
A Contagem Bacteriana Total - CBT relaciona-se principalmente com práticas de higiene durante
a ordenha e limpeza do equipamento de ordenhar. Sendo assim, considere os dados apresentados na Tabela 6.2
68 Capítulo 6. Medidas de Posição
ordenha.
Tabela 6.2 Efeito da temperatura de armazenamento e tempo após a ordenha sobre o crescimento
bacteriano.
Fonte: http://www.laticinio.net/inf_tecnicas.asp?cod=62
Determine a média geométrica do número de bactérias encontrada nos três tempos apresentados
na Tabela 6.2.
Solução:
require(psych)
cbt_3 = c(9000, 10000, 18000, 30000)
cbt_9 = c(9000, 46000, 1000000,35000000)
cbt_24 = c(10000, 5000000, 57000000, 800000000)
geometric.mean(cbt_3)
geometric.mean(cbt_9)
Média Geométrica 69
geometric.mean(cbt_24)
Observe que é necessário instalar o pacote psych. No caso de se utilizar o pacote asbio, os
comandos seriam:
require(asbio)
cbt_3 = c(9000, 10000, 18000, 30000)
G.mean(cbt_3)
Pode ser necessário o uso de logaritmos para o cálculo da média geométrica. Nesta situação,
1
log ȳg = (log10 y1 + log10 y2 + · · · + log10 yn )
n
√
y1f1 × y2f2 × . . . ynfn
n
ȳg =
70 Capítulo 6. Medidas de Posição
Solução:
6.4 Mediana
A mediana, denotada por M d, é uma quantidade que, como a média, também procura caracteri-
zar o centro da distribuição de frequências quando os valores são dispostos em ordem crescente ou decrescente
de magnitude. É o valor que divide o conjunto ordenado de valores em duas partes com igual número de
elementos, ou seja, 50% das observações cam acima da mediana e 50% cam abaixo.
Para calcular a mediana deve-se, em primeiro lugar, ordenar os dados para que se possa localizar
a posição da mediana e assim encontrar seu valor. O número que indica a ordem ou posição em que se
seguir:
a) A variável em estudo é discreta e n é ímpar. Neste caso a mediana será o valor da variável que ocupa a
posição:
n+1
EM d = .
2
Exemplo: O número de pacientes atendidos no Hospital Veterinário da UEL, nos últimos 11 dias foi:
10 12 11 17 21 18 16 17 20 15 27
Determine a mediana.
Mediana 71
10 11 12 15 16 17 17 18 20 21 27.
ou seja, a mediana se encontra na sexta posição da lista ordenada de valores. Logo, a mediana neste
sort(pacientes)
b) A variável em estudo é discreta e n é par. Neste caso a mediana, por convenção, será a média aritmética
( )
n n+2
EM d = e .
2 2
Exemplo: Acrescentando-se mais um dia aos dados do número de paciente atendidos pelo Hospital Vete-
10 11 12 14 15 16 17 17 18 20 21 27.
Portanto, a mediana será a média aritmética dos valores cujos elementos são:
( )
12 12 + 2
EM d = =6 e =7 .
2 2
16 + 17
Logo, Md = = 16, 5.
2
A mediana é uma medida resistente a valores atípicos (muito grandes ou muito pequenos).
variável na distribuição de frequências distribuam-se continuamente. A mediana será, neste caso, o valor da
variável, para o qual 50% da frequência total (n/2) ca situada abaixo e outra metade acima. O elemento
mediano para dados agrupados em classes será n/2 (não importa se é par ou ímpar).
(EM d − Fac−1 )
M d = Li + × a, (6.3)
fM d
sendo:
Todos os termos utilizados na Equação (6.3) são referentes à classe mediana; logo, deve-se,
n 30
EM d = = = 15.
2 2
Portanto, a classe mediana é: 23 ⊢ 29, uma vez que, até 29, tem-se 21 observações, e até 23 apenas 14.
(15 − 14)
Md = 23 + ×6
7
Md = 23, 86 kg.
6.5 Moda
Outra medida que pode ser utilizada é a moda, representada por Mo, denida como a
Se dois valores ocorrem com a mesma frequência máxima, cada um deles será a moda, e o
conjunto se denomina bimodal. Se mais de dois valores ocorrem com a mesma frequência máxima, cada um
deles é uma moda, e o conjunto é multimodal. Quando nenhum valor é repetido, o conjunto não tem moda
(amodal). A moda pode ser obtida mesmo que a variável seja qualitativa.
Moda 73
Exemplo 1: Considere a estatura (em cm) dos alunos do curso de Medicina Veterinária:
155 161 163 163 168 168 168 169 172 175.
Logo, a altura modal entre esses alunos é M o = 168 cm, pois este valor se repetiu em maior número de vezes.
O 277
A 141
B 102
AB 37
O sangue tipo O ocorreu com maior frequência. Então a moda dessa amostra é sangue tipo O.
apresenta maior frequência, sendo este a moda. Considerando-se os dados da Tabela 6.3, determine a moda.
Tabela 6.3 Tempo (em semanas) de sobrevida de ratos com câncer induzido experimentalmente.
Sobrevida (semanas) 2 5 6 7 8 9 30
Número de ratos 2 4 10 5 4 1 1
Neste caso, a moda é 6 semanas, pois é o valor que ocorre com maior frequência.
Para dados agrupados em uma tabela de distribuição de frequências para variáveis quantita-
tivas contínuas, pode-se utilizar um dos seguintes métodos:
a) Moda bruta - é o método mais rudimentar para o cálculo da moda em tabelas de frequências, com valores
agrupados em classes. Consiste em tomar o ponto médio da classe modal (aquela que apresenta maior
frequência).
74 Capítulo 6. Medidas de Posição
b) Método de Czuber1 - O processo para cálculo da moda para dados agrupados é o geométrico, a partir do
histograma de frequências. Este método é baseado na inuência que as classes adjacentes exercem sobre
Figura 6.1 Esquema para obtenção da moda pelo método de Czuber, do número de atendimentos
do Hospital Veterinário da UEL, 2005.
Processo:
No ponto de intersecção dessas retas (E), traça-se uma perpendicular ao eixo das ordenadas, localizando
O ponto Mo divide a intervalo da classe modal (a) em duas partes, cujos comprimentos são proporci-
Por E traça-se a reta FG paralela ao eixo das abscissas, obtendo-se, assim, os segmentos EF e EG,
que representam as alturas dos triângulos ABE e CDE ;
Sendo Li o limite inferior e Ls o limite superior da classe modal e x a distância entre Li e a moda
Mo = Li + x; (6.4)
1
Emanuel Czuber: nasceu em 19/01/1851 em Praga, República Tcheca e morreu em 22/08/1925 em Gnigl, Austria.
Moda 75
Sendo os triângulos ABE e CDE semelhantes (pois possuem dois ângulos iguais), tem-se que:
EF AB
=
EG CD
x ∆1
=
a−x ∆2
x∆2 = a∆1 − x∆1
∆1
x = a (6.5)
∆1 + ∆2
∆1
M o = Li + × a, (6.6)
∆1 + ∆2
em que:
c) Fórmula de Pearson - em distribuições moderadamente assimétricas pode ser usada a fórmula de Pearson,
dada por:
Mo ∼
= 3M d − 2x̄ (6.7)
em que:
Md = o valor da mediana;
x̄ = a média amostral;
76 Capítulo 6. Medidas de Posição
Exemplo: Determinar a moda pelos métodos: moda bruta, Czuber e Pearson da seguinte distribuição:
Classes fi Fi
10 ⊢ 20 10 10
20 ⊢ 30 15 25
30 ⊢ 40 20 45
40 ⊢ 50 15 60
50 ⊢ 60 8 68
60 ⊢ 70 2 70
Total 70
a) A classe modal é 30 ⊢ 40, logo, pelo método da moda bruta, tem-se que a moda é 35;
∆1
Mo = Li + a,
∆1 + ∆2
5
Mo = 30 + 10 = 35.
5+5
Mo ∼
= 3M d − 2x̄
Mo ∼
= 3 ∗ 35 − 2 ∗ 35, 29 = 34, 42.
Observações:
a) média, mediana e moda têm interpretações diferentes, mas ajudam igualmente a representar um conjunto
de dados. A média pode ser vista como ponto de equilíbrio das observações, a mediana como o ponto
b) dados categóricos (ou qualitativos) não tem média nem mediana, mas podem ter moda.
c) se a distribuição dos dados é absolutamente simétrica em torno de um valor central, então a média, a
d) se a média for maior do que a moda, a distribuição de frequência tem assimetria positiva;
e) se a média for menor que a moda, tem-se assimetria negativa da distribuição de frequência;
Na seção 6.8, página 84, é apresentado formas de se calcular a assimetria e a curtose de uma
conjunto de dados.
Utilização das medidas de tendência central 77
ii) quando for necessário obter posteriormente outros parâmetros que podem depender da média, como
b) Escolha da mediana
c) Escolha da moda
ii) quando precisa-se apenas de uma rápida idéia sobre a tendência central dos dados.
dados são assimétricos, a mediana identica mais adequadamente o centro de um conjunto de dados. Para
entender bem uma distribuição, pode-se conhecer valores acima ou abaixo dos quais se encontra uma determi-
nada porcentagem dos dados através da medidas separatrizes. Separatriz de uma série de n termos colocados
em ordem crescente de valor, é o termo da série que a divide em duas partes quaisquer. As principais separa-
tal que (100 p)% das observações estão nele ou abaixo dele e 100(1−p)% estão nele ou acima dele (0 < p < 1).
Assim, o percentil generaliza qualquer tipo de medida separatriz. Logo, tem-se:
ii) os percentis de ordens 25, 50 e 75, representados por P25 = Q1 , P50 = Q2 e P75 = Q3 , respectivamente,
Há vários métodos para o cálculo do percentil de ordem 100 p, ou seja P100 p . No R são
Seja n o número de valores não nulos para uma variável e seja y 1 , y2 , · · · , yn representando os
valores ordenados, tal que y1 é o menor valor e yn o maior. Para um dado valor de p entre 0 e 1, o p-ésimo
percentil é o valor tal que a área a esquerda dele é p. O p-ésimo percentil é calculado como:
y +y
(i) (i+1)
, se f = 0
yp = 2
y
(i+1) , se f > 0
damento. Para obter as medidas separatrizes por este método no R, basta optar pelo type = 2.
Um outro critério, que pode ser adotado, é considerar a estatística de ordem par mais próxima.
29, 0 − 29, 5 − 29, 3 − 25, 8 − 29, 8 − 24, 3 − 27, 0 − 29, 6 − 30, 0 − 28, 5
Solução:
Os comandos do R são:
tilap = c(29.0,29.5,29.3,25.8,29.8,24.3,27.0,29.6,30.0,28.5)
quantile(tilap, probs=c(0.20,0.34,0.45), type=2)
quantile(tilap, probs=c(0.20,0.34,0.45), type=3)
Q1 , Q2 e Q3 , dividem as observações ordenadas em quatro partes iguais. O primeiro quartil separa os 25%
inferiores dos 75% superiores dos valores ordenados; o segundo quartil é a mediana e o terceiro quartil separa
Para o cálculo dos quartis, utiliza-se uma fórmula semelhante à da mediana, dada por:
( in )
− Fac−1
Qi = Li + 4 × a, (6.8)
fQi
em que:
grupos com cerca de 10% deles em cada grupo. A fórmula é dada por:
( in )
− Fac−1
Di = Li + 10 × a, (6.9)
fDi
80 Capítulo 6. Medidas de Posição
em que:
Há nalmente, 99 percentis, que dividem os dados em 100 grupos com cerca de 1% em cada
( in )
− Fac−1
Pi = Li + 100 × a, (6.10)
fPi
em que:
Exemplo: Considere a distribuição de frequências dos pesos médios (kg) das leitegadas
2 da raça Landrace,
Tabela 6.4 Peso médio (kg) das leitegadas da raça Landrace, ao nascer.
12, 0 ⊢ 12, 5 8
12, 5 ⊢ 13, 0 10
13, 0 ⊢ 13, 5 12
13, 5 ⊢ 14, 0 23
14, 0 ⊢ 14, 5 17
14, 5 ⊢ 15, 0 10
15, 0 ⊢ 15, 5 8
15, 5 ⊢ 16, 0 3
Determine:
2
Conjunto dos leitões, que nasceram de um parto
Medidas Separatrizes 81
Solução:
Solução:
c) Determine: Q1 , Q2 , Q3 , D5 , D6 , P95 ;
Solução:
82 Capítulo 6. Medidas de Posição
Uma forma direta de se determinar os valores das medidas separatrizes é utilizando o gráco de
Uma aplicação interessante para os quartis é a construção do chamado gráco de caixa (ou box
plot, box-whisker plot), que tem por nalidade a detecção de observações discrepantes e o estudo da simetria
3) calcular os limite inferior e superior. Tem-se que o limite inferior é LI = Q1 − 1, 5dq e o limite superior
dado por LS = Q3 + 1, 5dq . Traça-se uma linha a partir do centro de Q1 até o limite inferior, e procede-se
da mesma forma com o valor de Q3 , traçando-se a linha até o valor do limite superior;
4) vericar se há observações discrepantes. As observações que estiverem acima do limite superior ou abaixo
do limite inferior serão consideradas discrepantes do restante dos dados. São, em geral, representadas por
Na Figura 6.2 são apresentados os quartis, bem como os limites inferior e superior, além da
média e de outliers.
Medidas Separatrizes 83
Exemplo: Na Figura 6.3 é apresentado as frequências cardíacas dos animais atendidos no Hospital Veterinário,
200
Freqüência Cardíaca
150
100
50
Fêmeas Machos
Figura 6.3 Frequência cardíaca dos animais atendidos no Hospital Veterinário, da Universidade Es-
tadual de Londrina, em 2003.
Pelo gráco, observa-se que as fêmeas têm batimentos cardíacos mais homogêneos que os ma-
84 Capítulo 6. Medidas de Posição
chos, embora haja alguns animais com batimentos discrepantes em relação ao seu grupo. Em termos médios,
percebe-se que a média de batimentos cardíacos para machos e fêmeas é aproximadamente igual.
afasta da posição simétrica, possibilitando analisar uma distribuição de acordo com as relações entre suas
Uma distribuição é dita simétrica quando apresenta o mesmo valor para a moda, a média e a mediana,
ou seja,
ȳ = M d = M o.
Quando a cauda da curva da distribuição declina para direita, tem-se uma distribuição com curva assi-
métrica positiva:
ȳ > M d > M o.
Analogamente, quando a cauda da curva da distribuição declina para esquerda, tem-se uma distribuição
Gracamente, tem-se um eixo de referência ou eixo de simetria, que é traçado sobre o valor
da média da distribuição. Sempre que a curva da distribuição se afastar do referido eixo, será considerada
como tendo um certo grau de afastamento, que é considerado como uma assimetria da distribuição. Ou seja,
assimetria é o grau de afastamento que uma distribuição apresenta do seu eixo de simetria.
ȳ − M o
As =
s
Quando a distribuição for quase simétrica ou moderadamente assimétrica, pode-se calcular o grau de
assimetria substituindo-se a moda pela mediana, segundo a relação empírica proposta por Pearson:
3(ȳ − M d)
As =
s
c) o coeciente quartil de assimetria que, em seu cálculo, recorre apenas aos quartis.
Trata-se de uma medida muito útil quando não for possível empregar o desvio-padrão como medida de
de assimetria, calculado com base nos momentos centrados da segunda e terceira ordem, denido por:
m3
Asm = (√ )3
m2
em que:
∑
n ∑
n
(yi − ȳ)3 fi (yi − ȳ)2 fi
i=1 i=1
m3 = e m2 =
n n
As = 0, é simétrica;
então a distribuição
6.8.2 Curtose
A curtose é uma medida de dispersão que indica até que ponto a curva de frequências de uma
distribuição se apresenta mais alada ou mais achatada do que uma curva-padrão, denominada curva normal.
Para avaliar o grau de curtose de uma curva ou distribuição de frequências, pode-se adotar dois
tipos de medidas:
É denido por:
dq
kp =
2 × (D9 − D1 )
em que, dq é a distância interquartílica; D9 é o nono decil e D1 é o primeiro decil. Neste caso, tem-se que:
No caso da distribuição normal padrão, o valor da curtose é k = 0, 263, caracterizando uma curva meso-
cúrtica.
m4 m4
km = ou, ainda, km =
m22 (s2 )2
A interpretação da curtose é:
Se o valor da curtose for km = 3, então tem o mesmo achatamento que a distribuição normal. Chama-se
Se o valor é km > 3 então a distribuição em questão é mais alta (afunilada) e concentrada que a
distribuição normal. Diz-se desta função probabilidade que é leptocúrtica, ou que a distribuição tem
caudas pesadas (o signicado é que é relativamente fácil obter valores que se afastam da média a vários
Se o valor é km < 3 então a função de distribuição é mais achatada que a distribuição normal.
Chama-se-lhe platicúrtica.
Exemplo: Na Figura 6.4 são apresentadas as frequências respiratórias dos animais atendidos no Hospital
0.020
0.015
Densidade de Probabilidade
0.010
0.005
0.000
0 20 40 60 80 100 120 140 160 180 200
Frequência Respiratória
Figura 6.4 Frequências respiratórias dos animais atendidos no Hospital Veterinário, da Universidade
Estadual de Londrina, em 2003.
Pelo gráco, observa-se que a moda (M o = 32) é menor que a média (ȳ = 53, 8), caracterizando
uma distribuição assimétrica positiva.
1) Em uma pesquisa sobre diabetes mellitus, foram coletados os seguintes valores de glicemia em jejum:
a) Agrupar os dados em classes e calcular a média aritmética, a moda (bruta e Czuber) e a mediana;
b) Determine, sem agrupar os dados em classes (dados brutos): a média aritmética, a moda e a mediana.
Utilize-se do R e de calculadora.
2) Em um estudo sobre instituições de atendimento médico, foram obtidos dados da disponibilidade de leitos
de 50 dessas instituições:
48 53 58 62 64 66 69 71 77 81
49 54 58 62 64 67 69 72 77 82
50 55 59 63 65 67 70 73 78 83
52 56 60 64 65 67 70 74 78 86
52 57 61 64 66 68 71 76 80 90
a) Determine a média e a mediana dos dados e, também, determine o terceiro quartil e interprete-o;
b) Construa o histograma;
3) Os dados abaixo representam a largura máxima de amostras de crânios de animais machos. Calcule a
131 119 138 125 129 126 131 132 126 128 128 131
qual deverá ser o limite inferior e o ponto médio da 5a classe, se o limite superior da 1a classe é igual a
35?
Assimetria e Curtose 89
5) Os níveis de ácido úrico, em (mg/100 ml), encontrados nos exames bioquímicos de sangue de 10 pacientes
de um laboratório, são os seguintes:
5, 1 4, 0 6, 4 5, 0 5, 5 9, 0 5, 5 5, 5 6, 0 8, 0
c) a média harmônica;
7) Qual o tipo mais comum de suicídio apresentado na Tabela 6.5? A esse tipo de medida estatística, qual o
Alcoolismo 263
Outras 217
Total 1983
Qual a probabilidade de um indivíduo que se suicidou, tê-lo feito por desilusão amorosa?
1 4 7 9 10 13 15 17 17 18 19 21
9) Com base nos dados da Tabela 6.6, calcule o peso médio dos ratos em cada idade. Usando o R, construa o
gráco de caixas para a variável peso, considerando-se cada rato (apenas um gráco com todos os ratos).
Idades
Número do rato
30 34 38 42 46
10) Trinta pessoas foram consultadas sobre sua cor favorita. Suas respostas foram:
Construa uma tabela de frequências para os dados. Qual a escolha modal e a frequência relativa (ou
11) Calcule para a tabela de frequências abaixo sua respectiva média e mediana.
Xi 2 3 4 5 6
Fi 3 9 19 25 28
12) Determinar o quarto decil, o primeiro quartil e o septuagésimo segundo percentil da seguinte distribuição:
Classes fi Fi
4⊢ 9 8
9 ⊢ 14 12
14 ⊢ 19 17
19 ⊢ 24 3
Assimetria e Curtose 91
Medidas de dispersão ou
variabilidade
As medidas de dispersão servem para indicar o quanto os dados se apresentam dispersos em
relação ao seu valor médio. Considere os dados referentes aos pesos de cinco animais, de quatro raças de
Analisando-se os resultados da Tabela 7.1, verica-se que a média de pesos para as quatro raças é
a mesma, ou seja, quatro quilos. Embora o valor médio seja o mesmo, a variável peso tem um comportamento
diferente dentro de cada raça. Assim, para a raça Alaska, o peso varia de 3,0 a 5,0 quilos; para a raça Beliê,
a variação é de 3,8 a 4,2 quilos; para a Califórnia, de 3,0 a 5,0 quilos; para a Chinchila, não há variação. Em
o maior e o menor valor observado em um conjunto de dados. Essa diferença é a amplitude total, denotada
92
Desvio Absoluto Médio 93
por At .
Para os dados apresentados na Tabela 7.1, a amplitude total será:
Alaska At = 5, 0 − 3, 0 = 2, 0 kg
Beliê At = 4, 2 − 3, 8 = 0, 4 kg
Califórnia At = 5, 0 − 3, 0 = 2, 0 kg
Chinchila At = 4, 0 − 4, 0 = 0, 0 kg
O problema em se considerar a amplitude total como medida de dispersão dos dados, é o fato
dela levar em consideração em seu cálculo, apenas os valores extremos e não todos os valores. Assim, dois
conjuntos de dados podem apresentar a mesma amplitude total, mesmo que tenham dispersão muito diferente.
Embora fácil de calcular e de interpretar, não deve ser usada normalmente como medida de dispersão.
vações em relação a um ponto especíco na distribuição, em geral, a média. Claro que poderia-se pensar em
calcular os desvios em relação a, por exemplo, mediana. À distância entre os valores observados e a média ou
Desvio = yi − ȳ ou Desvio = yi − M d
94 Capítulo 7. Medidas de dispersão ou variabilidade
Considere os pesos dos animais da raça Alaska, apresentados na Tabela 7.1 e calcule os desvios em torno da
Tabela 7.2 Desvios e desvios absolutos para pesos dos animais da raça Alaska.
Observe que a soma dos desvios em relação à média é sempre zero, logo, ela não é informativa a
respeito da variabilidade dos dados, portanto, é melhor utilizar a soma dos valores absolutos dos desvios, que
será sempre positiva. A soma dos valores absolutos será tanto maior quanto maior o número de observações
(n).
1∑
n
dy = |yi − ȳ|
n i=1
3, 0
Para a raça Alaska, o desvio absoluto médio é: dy = = 0, 6 kg .
5
Caso os dados estejam agrupados em uma tabela de distribuição de frequências, o cálculo do
Para o cálculo do desvio absoluto médio dos dados, independentemente de raça, tem-se:
Variância 95
n = length(coelhosd)
desvio_medio = (1/n)*(sum(abs(coelhosd - mean(coelhosd))))
7.3 Variância
A medida de variabilidade mais utilizada é a variância, que é simplesmente a soma dos quadrados
dos desvios, divididos pelo total de observações menos um. Pode-se calcular a variância para dados provenientes
∑
n
(yi − µ)2
i=1
σ2 = . (7.1)
N
∑
n
(yi − ȳ)2
i=1
s2 = . (7.2)
n−1
Considere os dados da Tabela 7.1 e calcule a variância para os pesos dos animais da raça Alaska. Na Tabela
Tabela 7.3 Desvios e quadrado dos desvios para pesos dos animais da raça Alaska.
3 4, 5 − 4, 0 = 0, 5 (4, 5 − 4, 0)2 = 0, 25
4 4, 0 − 4, 0 = 0, 0 (4, 0 − 4, 0)2 = 0, 00
5 5, 0 − 4, 0 = 1, 0 (5, 0 − 4, 0)2 = 1, 00
∑n ∑n
Soma (yi − ȳ) = 0 (yi − ȳ)2 = 2, 5
i=1 i=1
Uma forma computacionalmente mais eciente, para o cálculo da variância, é obtida quando se
∑
n ∑
n
(yi − ȳ)2 = (yi2 − 2yi ȳ + ȳ 2 )
i=1 i=1
∑
n ∑
n
= yi2 − 2ȳ yi + nȳ 2
i=1 i=1
2
∑
n
∑ yi
2∑ ∑ i=1
n n n
= yi2 − yi yi + n
n
i=1
n i=1 i=1
(∑
n )2
yi
∑
n
i=1
= yi2 − . (7.3)
i=1
n
( )2
∑
n
n yi
∑
1 i=1
s2 = y2 − . (7.4)
n − 1 i=1 i n
O cálculo da variância dos pesos para cada raça, usando o R é dado por:
Variância 97
Para o cálculo da variância dos pesos de todos os coelhos, sem levar em consideração a raça, é:
ou, simplesmente
var(coelhosd)
Quando os dados estão dispostos em uma tabela de fequências, para se calcular a variância basta
levar-se em consideração as frequências de cada classe. Logo, multiplica-se o numerador da equação 7.2 por
fi e obtém-se:
∑
n
(yi − ȳ)2 fi
i=1
s2 = .
n−1
(∑
n )2
n yi fi
∑
1 i=1
s2 = y 2 fi − . (7.5)
n − 1 i=1 i n
( )2
16.340
1
2
s = 3.214.200 − =⇒ s2 = 1.289, 411765 kg2
86 − 1 86
fi = c(8,12,15,17,14,11,9)
xi = c(130,150,170,190,210,230,250)
nc = sum(fi) ; nc
xifi = sum(xi*fi)
xi2fi = sum(xi^2*fi)
var_carcaça = 1/(nc-1) * (xi2fi - xifi^2/nc)
tuitos como o R, se o pesquisador dispõe dos dados brutos, é recomendável que as estatísticas sejam baseadas
neles. As distribuições de frequências servem, neste caso, apenas para apresentar as informações de forma
resumida.
a) somar (ou subtrair) um valor constante e arbitrário c a cada elemento de um conjunto de números não
altera a variância;
b) multiplicar (ou dividir) por um valor constante e arbitrário c cada elemento de um conjunto de números,
Exemplo: Considere uma constante c=4 e os seguintes valores observados para a variável Y:
Solução:
Solução:
Solução:
Solução:
Solução:
Solução:
ca elevada ao quadrado, gerando escalas sem sentido prático. Assim, caso a unidade de mensuração seja
servados é, simplesmente, extrair a raiz quadrada da variância, obtendo-se o desvio padrão. Ele é representado
por s. Logo,
√
s= s2 .
Para os dados dos coelhos da raça Alaska, a variância calculada foi s2 = 0, 625 kg 2 . Portanto,
√
s = s2
√
s = 0, 625 kg 2
s = 0, 790569415 kg.
No R, basta extrair a raiz quadrada das variâncias de cada raça calculadas anteriormente.
sd1 = sqrt(var1) ; sd2 = sqrt(var2)
sd3 = sqrt(var3) ; sd4 = sqrt(var4)
cbind(sd1, sd2, sd3, sd4)
sd(coelhosd)
um desvio padrão de 10 pode ser insignicante se os valores típicos observados forem em torno de 10.000,
mas pode ser muito signicativo para um conjunto de dados cuja observação típica seja 100.
Coeciente de Variação 101
Logo, pode ser conveniente expressar a variabilidade dos dados de uma variável de modo inde-
pendente da sua unidade de medida utilizada, tirando a inuência da ordem de grandeza da variável. Tal
resultado é multiplicado por 100, para que o coeciente de variação seja dado em porcentagem. É dado por:
s
CV = × 100
ȳ
Sua utilidade está em fornecer uma medida para a homogeneidade de um conjunto de dados.
Quanto menor o coeciente de variação, mais homogêneo é o conjunto de dados. Esta medida pode ser
bastante útil na comparação de duas variáveis ou dois grupos que, a princípio, não são comparáveis.
Em geral, considera-se:
espera-se que o coeciente de variação seja baixo, ou seja, menor que 10%.
102 Capítulo 7. Medidas de dispersão ou variabilidade
Exemplo: Calcular a média, a variância, o desvio padrão e o coeciente de variação para as variáveis Estatura
Estatura (cm) = 177 − 162 − 188 − 157 − 166 − 153 − 158 − 176 − 168 − 163
Peso (kg) = 68, 0 − 83, 0 − 72, 0 − 99, 9 − 51, 0 − 52, 0 − 52, 0 − 66, 5 − 80, 0 − 48, 0
Idade (anos) = 18, 0 − 20, 1 − 20, 5 − 17, 7 − 19, 2 − 18, 9 − 26, 9 − 20, 1 − 20, 7 − 19, 3
Solução:
Coeciente de Variação 103
Quando procedemos a uma investigação cientíca em que utilizamos dados de uma fração repre-
Se outras amostras fossem retiradas da população, apresentariam médias aritméticas que te-
riam outros afastamentos em relação à média populacional. Para se determinar a média destes
s
sx̄ = √
n
1) Embora os gastroenterologistas infantis reconhecessem a utilidade diagnóstica do teor de gordura fecal, até
1984 não existia um padrão de referência desta medida para crianças brasileiras. Para preencher esta lacuna,
o Prof. Francisco Penna, titular da Pediatria da UFMG, examinou 43 crianças sadias que produziram os
3,7 1,6 2,5 3,0 3,9 1,9 3,8 1,5 1,1 1,8 1,4 2,7 2,4 2,1
2,1 3,3 3,2 2,3 2,3 2,4 0,8 3,1 1,8 1,0 2,0 2,0 1,3 2,7
2,9 3,2 1,9 1,6 2,9 2,0 1,0 2,7 3,0 1,3 1,5 4,6 2,1 2,8 1,9
e) determine o erro-padrão.
2) Em uma granja foi observada a distribuição dos frangos em relação ao peso, apresentada na Tabela 7.6.
104 Capítulo 7. Medidas de dispersão ou variabilidade
960 ⊢ 980 60
980 ⊢ 1000 160
1000 ⊢ 1020 280
1020 ⊢ 1040 260
1040 ⊢ 1060 160
1060 ⊢ 1080 80
3) Uma das características da gota, distúrbio hereditário que ocorre especialmente em homens, é a hiperurice-
mia (excesso de ácido úrico no sangue). Embora nem todos os indivíduos com hiperuricemia desenvolvam
manifestações clínicas de gota, há muito tempo tem-se reconhecido que o componente hereditário da do-
ença está ligado a uma tendência para hiperuricemia. A Tabela 7.7 apresenta a distribuição de frequências
3, 0 ⊢ 3, 5 2
3, 5 ⊢ 4, 0 15
4, 0 ⊢ 4, 5 33
4, 5 ⊢ 5, 0 40
5, 0 ⊢ 5, 5 54
5, 5 ⊢ 6, 0 47
6, 0 ⊢ 6, 5 38
6, 5 ⊢ 7, 0 16
7, 0 ⊢ 7, 5 15
7, 5 ⊢ 8, 0 3
8, 0 ⊢ 8, 5 1
8, 5 ⊢ 9, 0 3
Total 267
Pede-se:
Coeciente de Variação 105
a) calcule a média;
4) Em trabalho laboratorial realizado no Jockey Club Brasileiro, vericou-se que os animais apresentaram
no Jockey Club de Porto Alegre apresentou valor médio de hematócrito igual a 38% e variância de 25%.
5) Calcular a média aritmética e desvio padrão dos seguintes dados relativos à dosagem de hemoglobina
15 14 13 11 13 14 13,5 12 16 14,5 12 9.
6) Em 25 pessoas adultas do sexo masculino, observou-se em relação ao teor de hemoglobina um valor médio
igual a 13, 7 mg . O erro padrão da média foi igual a 0, 45 mg . Determinar o CV e opinar sobre o seu
valor.
7) Na Tabela 7.8 apresenta-se a distribuição de frequências quanto ao número de acidentes por dia, durante
Número de acidentes 0 1 2 3 4 5
Número de dias 21 16 12 9 8 4
8) O efeito da castração sobre a espessura (em mm) de toucinho de leitões foi avaliado em um experimento,
http://www2.uel.br/pessoal/silvano/Dados/Toucinho.txt.
Usando o R:
a) Construa o histograma;
b) Faça o gráco de caixas considerando apenas um grupo. Refaça o gráco para comparar a espessura
c) Calcule a média, o desvio-padrão e o coeciente de variação das espessuras para cada tipo. Interprete.
1
Hematócrito (ou Ht ou Htc) é a percentagem ocupada pelos glóbulos vermelhos ou hemácias no volume total de
sangue.
106 Capítulo 7. Medidas de dispersão ou variabilidade
d) Repita os cálculo efetuados no item (8c) para todos os animais e compare os resultados.
clínica foi registrado. Os dados ordenados são apresentados a seguir, separadamente para machos (M) e
fêmeas (F):
2 2 3 4 4 4 4 7 7 7 8 9
Machos
9 10 12 15 15 15 16 18 18 22 22 24
2 2 3 3 4 4 5 5 6 6 7 7
Fêmeas
7 7 8 8 8 8 10 10 11 11 12 18
c) Repita os cálculo efetuados no item (9b) para todos os 48 pacientes. Compare os resultados.
2
Remissão completa é o termo utilizado em Medicina para designar a fase da doença aonde não há sinais de atividade
da mesma mas não é possível concluir como cura.
3
Recidiva (popularmente conhecido como recaída) é o retorno da atividade de uma doença.
Capítulo 8
Análise Combinatória
A Análise Combinatória é a parte da Matemática em que se estuda as técnicas de contagem
de agrupamentos que podem ser feitos com elementos de um dado conjunto. São basicamente dois tipos
de agrupamentos que se pode formar: um em que se leva em conta a ordem dos elementos dentro do
explicado a seguir.
8.1 Fatoriais
Indica-se por 5! (leia-se: cinco fatorial) o produto dos cinco primeiros naturais positivos:
5! = 5 × 4 × 3 × 2 × 1
portanto, 5! = 120.
Tem-se também:
4! = 4 × 3 × 2 × 1 = 24
7! = 7 × 6 × 5 × 4 × 3 × 2 × 1 = 5.040
n! = n × (n − 1) × (n − 2) · · · × 3 × 2 × 1
1! = 1 e 0! = 1
107
108 Capítulo 8. Análise Combinatória
Note que:
0! = 1
1! = 1
2! = 2×1=2
3! = 3×2×1=6
4! = 4 × 3 × 2 × 1 = 24
5! = 5 × 4 × 3 × 2 × 1 = 5 × 4! = 120
| {z }
6! = 6 × 5 × 4 × 3 × 2 × 1 = 6 × 5! = 720
| {z }
e assim por diante. Ao desenvolver um fatorial, colocando-se os fatores em ordem decrescente, pode-se parar
Calcule:
a) 9! 5!15!
i)
13!7!
b) 10! j) 6! + 5!
c) 11! k) 4 × 5! − 6 × 3!
10!
d)
9! l) 30 + 0! − 3 × 1!
10! 13! 5!
e) m) 5× + 13 ×
12! 3!10! 3!2!
6! n!
f) n)
8! (n − 1)!
10! (n + 1)!
g)
4!6! o)
n!
12!
h) p) Calcule n na equação n! = 12 × (n − 2)!
10!2!
factorial(9)
factorial(10)/factorial(9)
R1
A1
R2
R1
A2
R2
R1
A3
R2
Assim, cada animal poderia ser atendido por um dos dois residentes, gerando as seguintes
serem atendidos.
se realizar a ação é m × n.
Exercícios:
1) Com os algarismos 1, 2, 3, 4 e 5 quantos números naturais de três algarismos podem ser escritos? Destes
2) Quantas placas de licença de automóveis podem ser formadas por 3 letras e 4 algarismos sendo as letras
3) Uma sorveteria oferece uma taça de sorvete que pode vir coberto com calda de chocolate ou de morango
ou de caramelo. Se o sorvete pode ser escolhido entre 10 sabores diferentes, quantas são as opções para
4) Uma moeda será lançada 6 vezes e a cada vez será anotado o resultado obtido, cara ou coroa, formando
assim uma sequência de 6 resultados. Quantas sequências diferentes podem ser formadas?
110 Capítulo 8. Análise Combinatória
5) Dez alunos da UEL cadastraram-se para adotar animais do Hospital Veterinário. Sabe se que há duas
espécies de animais para serem adotadas: Canina e Felina. Da espécie Felina há 3 raças e da canina 5
8.3 Permutações
Com os seguintes símbolos ⋆, N, pode-se formar as seguintes sucessões:
Denomina-se permutação de n elementos dados a toda sucessão de n termos formada com os n elementos
dados.
Duas permutações dos mesmos objetos são diferentes se a ordem dos objetos numa delas é
Exemplos:
1) Formar os anagramas da palavra UEL.
Solução:
No R, tem-se
require(combinat)
U = c(`U',`E',`L')
permn(U)
Solução:
No R, tem-se
require(combinat)
L = c(`L',`I',`L',`I')
permn(L)
Permutações 111
Solução:
No R, tem-se
require(combinat)
R = c(`I',`M',`A')
permn(R)
M = c('R','I','A')
permn(M)
Exercícios:
1) Forme todas as permutações dos algarismos 1, 2 e 3.
4) Forme todos os anagramas da palavra PAPAI que começam e terminam por vogal.
minados elementos. Para determinar esse número, tem-se que considerar duas situações possíveis:
(⃝, ⃝, ⃝, ⃝, ⃝)
2a etapa: escolher a 2a letra da permutação. Tem-se 4 possibilidades para esta etapa, uma vez que uma das
P5 = 5! = 120.
Assim, racionando da mesma forma, conclui-se que o número de permutações de n elementos distintos é dado
por:
Pn = n!
require(combinat)
nsamp(n=5, k=5, replace=FALSE, ordered=TRUE)
Exemplos:
1) Quantos são os anagramas da palavra BRASIL?
Solução:
require(combinat)
nsamp(n=6, k=6, replace=FALSE, ordered=TRUE)
DD = c('B','R','A','S','I','L')
Perm = unlist(permn(DD))
t(array(Perm, dim = c(6, gamma(7))))
Permutações 113
2) Com os algarismos 1, 3, 4, 6, 7 e 9, quantos números pares de seis algarismos distintos podem ser escritos?
Solução:
Para formar um número par deve-se primeiro escolher o algarismo da casa das unidades, que pode ser o 4 ou 6.
Como são algarismos distintos, a quantidade de números pares que se pode formar é:
2 × P5 = 2 × 5! = 2 × 120 = 240.
elementos tiver 2 elementos repetidos, este número ca dividido por 2! (que é o número de permutações dos
2 elementos se eles forem considerados distintos). Indica-se o número de permutações de 3 elementos sendo
Quando se tem n elementos, dos quais n1 são repetidos de um tipo, n2 são repetidos de outro tipo, n3 são
repetidos de outro tipo e assim por diante, o número de permutações que se pode formar é dado por:
n!
Pnn1 ,n2 ,n3 ,··· ,nk = , (n1 + n2 + n3 + · · · + nk = n)
n1 !n2 !n3 ! · · · nk !
Exemplos:
1) Quantos são os anagramas da palavra ELEGER?
Solução:
ELEGER → 6 letras, sendo 3 E, 1 L, 1 G, 1 R. O número de anagramas é:
6! 6 × 5 × 4 × 3!
P63 = = = 120
3! 3!
114 Capítulo 8. Análise Combinatória
Solução:
ESTATÍSTICA → 11 letras, sendo 1 E, 2 S, 3 T, 2 A, 2 I, 1 C. O número de anagramas é:
3,2,2,2 11!
P11 = = 831.600
3!2!2!2!
Solução:
VETERINÁRIA → 11 letras, sendo 1 V, 2 E, 1 T, 2 R, 2 I, 1 N, 2 A. O número de anagramas é:
2,2,2,2 11!
P11 = = 2.494.800
2!2!2!2!
Exercícios:
1) Quantos números pares são obtidos permutando-se os algarismos 1, 2, 2, 3, 3, 3 e 4?
2) Determine o número de permutações que podem ser feitas com as letras de cada palavra:
a) ORDEM c) AMAZONAS
b) DOMINAR d) MANADA
3) Sete atletas participam de uma prova de atletismo. Não ocorrendo nenhum empate, quantas são as
4) De quantas formas 5 sinais +, 3 sinais - e 2 sinais × podem ser colocados em sequência?
5) Numa mesa de bilhar há 4 bolas vermelhas, 3 bolas brancas, 2 amarelas e uma verde, encostadas umas
nas outras, em linha reta. De quantas maneiras pode-se dispor estas bolas obtendo coloridos diferentes?
interessadas, Andressa, Fernanda, Herick e Igor, será realizado um sorteio. Os alunos sorteados poderão ser:
Cada uma dessas possibilidades é um agrupamento das 4 pessoas tomadas 2 a 2. Em cada um destes
agrupamentos, a ordem citada dos elementos não importa. Note, por exemplo, que sortear Andressa e
Quando se agrupam elementos em que a ordem do agrupamento não importa, estes são
chamados de combinações. As combinações são conjuntos cujos elementos são escolhidos entre os elementos
dados.
Observe que duas combinações são diferentes apenas quando têm elementos diferentes.
8.4.2 Arranjos
Suponha que os animais a serem adotados são de espécies diferentes: um canino e um felino.
Assim, a 1a pessoa sorteada adotará o cão e a 2a pessoa sorteada adotará o gato. Neste caso, se as pessoas
sorteadas fossem Andressa e Fernanda, nesta ordem, Andressa caria com o cão e a Fernanda com o gato.
Mas, se os sorteados fossem Fernanda e Andressa, nesta ordem, Fernanda caria com o cão e Andressa com
o gato.
Quando se agrupam elementos de modo que em cada agrupamento importa a ordem dos
Observe que dois arranjos são diferentes se tiverem elementos diferentes, ou se tiverem os mesmo elementos
Exemplos:
1) Formar as combinações dos algarismos 1, 3, 5, 7 e 9 tomados 2 a 2.
Solução:
As combinações são os conjuntos de dois algarismos escolhidos entre os algarismos dados:
{1, 3}, {1, 5}, {1, 7}, {1, 9}, {3, 5}, {3, 7}, {3, 9}, {5, 7}, {5, 9}, {7, 9}
Solução:
Os arranjos são as sucessões de três algarismos distintos escolhidos entre os algarismos dados:
(1, 3, 5), (1, 3, 7), (1, 5, 7), (1, 5, 3), (1, 7, 3), (1, 7, 5)
(3, 1, 5), (3, 1, 7), (3, 5, 1), (3, 5, 7), (3, 7, 1), (3, 7, 5)
(7, 1, 3), (7, 1, 5), (7, 3, 1), (7, 3, 5), (7, 5, 1), (7, 5, 3)
Exercícios:
1) Forme as combinações das letras a, b, c e d tomadas duas a duas.
b) Cada uma destas possibilidades corresponde a um arranjo ou a uma combinação das equipes tomadas
três a três?
Quantidade de Arranjos 117
4) Cesar, Diego, Maisa, Nara e Sabrina entregaram o trabalho relativo à pesquisa feita no Hospital Veterinário
da UEL e dois deles serão escolhidos para uma apresentação perante a classe.
a) Escreva todas as possibilidades de escolha dos dois que farão a apresentação do trabalho.
b) Cada uma destas possibilidades corresponde a um arranjo ou a uma combinação dos 5 alunos tomados
dois a dois?
Akn ).
Para determinar esta quantidade de arranjos, deve-se formar uma sucessão de k termos escolhidos
entre os n elementos dados:
( )
1o , 2o , 3o , . . ., ko
O 1o termo pode ser qualquer um dos n elementos dados; há, portanto, n possibilidades para
ele.
Para cada uma destas possibilidades, o 2o termo do arranjo poderá ser qualquer um dos (n − 1)
elementos restantes, excluído aquele já escolhido. Há, portanto, (n − 1) possibilidades para o 2o termo.
Para cada par de elementos já escolhidos, o 3o termo poderá ser qualquer um dos (n − 2)
elementos restantes. Há, portanto, (n − 2) possibilidades para o 3o termo.
( )
Arranjo 1o , 2o , 3o , . . ., ko
↓ ↓ ↓ ↓
possibilidades n (n − 1) (n − 2) n − (k − 1)
Pelo princípio fundamental da contagem, conclui-se que a quantidade de arranjos que podem ser
formados é:
n!
An,k =
(n − k)!
Exemplos:
1) Quantos são os arranjos de 6 elementos, tomados 3 a 3?
118 Capítulo 8. Análise Combinatória
Solução:
n! 6!
An,k = ⇒ A6,3 = ⇒ A6,3 = 120
(n − k)! (6 − 3)!
2) Vinte equipes cursos disputam o campeonato interno da UEL de futebol de salão. Quantas são as possi-
Solução:
n! 20!
An,k = ⇒ A20,2 = ⇒ A20,2 = 380
(n − k)! (20 − 2)!
Exercícios:
1) Calcule os números
a) A5,2 c) A10,4
b) A8,5 d) A12,3
2) Numa corrida de fórmula 1 há 24 pilotos participando e apenas os dez primeiros colocados ganham pontos.
3) Com as letras da palavra FLAMENGO, quantas palavras distintas formadas de 5 letras distintas podem
ser escritas? (As palavras não precisam ter sentido na linguagem comum).
4) Serão eleitas duas pessoas para representarem os alunos do curso Medicina Veterinária. Uma será o
representante principal e a outra será suplente. Dez alunos estão interessados. Quantos são os possíveis
resultados da eleição.
símbolo Cnk . Para determinar esta quantidade de combinações deve-se lembrar que com k elementos distintos:
a1 , a2 , a3 , · · · , ak
Quantidade de Combinações 119
Isto signica que a partir de uma combinação pode-se obter k! arranjos dos n elementos tomados k a k.
Então, o número de combinações é igual ao número de arranjos dividido por k!:
An,k
Cn,k =
k!
Logo
n!
Cn,k =
k!(n − k)!
Exemplos:
1) Quantas são as combinações de 6 elementos tomados 2 a 2?
Solução:
n! 6!
Cn,k = ⇒ C6,2 = ⇒ C6,2 = 15
k!(n − k)! 2!(6 − 2)!
em condições homogêneas e que podem ser utilizados no experimento. De quantos modos diferentes o
Solução: Como são 15 camundongos e apenas 5 serão utilizados no experimento, basta calcular o número de
combinações possíveis.
n! 15!
Cn,k = ⇒ C15,5 = ⇒ C15,5 = 3.003
k!(n − k)! 5!(15 − 5)!
Exercícios:
1) Calcule os números:
120 Capítulo 8. Análise Combinatória
a) C8,6 c) C7,4
b) C12,3 d) C100,2
3) Numa festa compareceram 36 pessoas. Se cada uma delas cumprimentou todas as outras ao chegar,
4) Numa urna há 12 etiquetas numeradas, 6 com números positivos e 6 com números negativos. De quantos
modos pode-se escolher 4 etiquetas diferentes tal que o produto dos números nelas marcados seja positivo?
Capítulo 9
em que os resultados possíveis são conhecidos, mas não se pode saber a priori qual deles ocorrerá.
Caso os fenômenos estudados, repetidos sob as mesmas condições iniciais, levem sempre ao
O R tem um pacote chamado prob, muito interessante, para cálculo de probabilidades. Tal
> require(prob)
resultados. Os resultados não serão previsíveis, serão diferentes mesmo que as condições iniciais sejam sempre
as mesmas.
Exemplos:
a) o lançamento de uma moeda;
e) colocar 20 sementes em um germinador e observar, após um certo período de tempo, o número de sementes
germinadas;
121
122 Capítulo 9. Noções sobre a teoria das probabilidades
Quando se tem um experimento aleatório, não se pode prever com certeza o resultado. Pode-se,
> tosscoin(1);
> tosscoin(3);
Ω = {1, 2, 3, 4, 5, 6};
> rolldie(1)
Ω = {P ositivo, N egativo};
e) colocar 20 sementes em um germinador e observar, após um certo período de tempo, o número de sementes
germinadas:
Ω = {0, 1, 2, . . . , 20}
9.1.3 Evento
É qualquer subconjunto do espaço amostral. Os eventos são geralmente representados por letras
maiúsculas, como A, B, C, . . .. Dentre os eventos a considerar, deve-se incluir o próprio espaço amostral
cura de certa doença. Para tanto, três doentes foram tratados com a referida droga. O espaço amostral Ω é
dado por:
O conceito clássico surgiu no século XVII a partir dos jogos de azar e dene a probabilidade de
a) Ímpar?
b) Menor que 3?
c) Primo?
Observe que as três primeiras linhas são formas diferentes de se obter as probabilidades dos
É importante notar que a denição clássica exige que os resultados tenham todos a mesma
chance. Se os resultados não têm a mesma chance, deve-se apelar para a estimativa pela frequência relativa.
a) Uma pessoa que fuma um pacote de cigarros por dia desenvolver câncer;
Um casal planeja ter lhos até terem uma menina e no máximo quatro lhos. Qual a probabilidade de este
1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9
1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9
M F M F M M M F M F M M F F F M F M M M
3) Agrupe os números de acordo com planejamento do casal para simular as diferentes possibilidades de lhos.
1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9
M F M F M M M F M F M M F F F M F M M M
Número de ocorrências de A 8
P (A) = =⇒ P (A) = = 1.
Número de repetições 8
b) Será que se for selecionado um outro conjunto de 20 números aleatórios obter-se-á a mesma probabili-
dade?
Para responder às questões anteriores, repete-se a simulação com vários grupos. Assim, tem-se:
Grupo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
No de
Famílias
No de
Famílias com
Filhas
Número de tentativas
Probabilidades
1 2 3 4
F 0, 5 = 0,5
M F 0, 5 × 0, 5 = 0,25
M M F 0, 5 × 0, 5 × 0, 5 = 0,125
M M M F 0, 5 × 0, 5 × 0, 5 × 0, 5 = 0,0625
0, 9375
Exemplo:
1) Dentre 10.878 partos sucessivos que ocorreram em uma maternidade de São Paulo, e que resultaram em
crianças vivas, 100 foram de gêmeos. Qual a probabilidade (em porcentagem) de nascimento de um par de
gêmeos entre os recém-nascidos vivos que podem ser estimados a partir desses dados? Considere o evento
utilizado, clássico ou frequentista, o modelo de probabilidade em Bioestatística terá sempre uma coerência
interna que resulta dos axiomas de probabilidade:
0 ≤ P (A) ≤ 1
P (Ω) = 1
P (ϕ) = 0
Diz-se ocorre A ou B .
∪
Notação: A B
> union(A, B)
Diagramas de Venn 127
> intersect(A, B)
9.4.1.3 Sub-Conjuntos:
B
A
S
deles impossibilita a ocorrência do outro. Os dois eventos não têm elementos em comum.
128 Capítulo 9. Noções sobre a teoria das probabilidades
B
A
S
∩
Notação: A B=ϕ
9.4.1.5 Complemento:
É o evento que consiste de todos os elementos do espaço amostral que não estão contidos em
A, ou seja, é a negação de A.
Notação: Ac .
Ac ∪ A = S
A ⇒
c
Ac ∩ A = ϕ
A
Sc
> setdi(A, B)
P (A ∪ B) = P (A) + P (B)
Diagramas de Venn 129
a) A = sair o número 3;
Obs.: Pode-se determinar a probabilidade da união de três ou mais eventos, usando a teoria de conjuntos.
Assim, se considerarmos três eventos, A, B e C, a probabilidade da união dos três eventos é dada por:
P (A ∪ B ∪ C) = P [(A ∪ B) ∪ C]
= P (A ∪ B) + P (C) − P [(A ∪ B) ∩ C]
P (A ∪ B) = P (A) + P (B)
(∞ ) ∞
∪ ∑
P Ai = P (Ai ).
i=1 i=1
Exemplo: No lançamento de duas moedas temos: A = pelo menos uma cara, B = duas coroas. Qual a
Solução:
P (A ∪ Ac ) = P (S)
P (A) + P (Ac ) = 1
P (Ac ) = 1 − P (A).
Probabilidade Condicional 131
Solução:
outro evento. Por exemplo, a chance de um paciente com alguma doença sobreviver o próximo ano depende,
P (A ∩ B)
P (A|B) = , se P (B) > 0
P (B)
ou, ainda,
P (A ∩ B)
P (B|A) = , se P (A) > 0
P (A)
outro evento.
Exemplo: Em uma pesquisa realizada no Hospital Veterinário da Universidade Estadual de Londrina, no ano
de 2010, foram coletadas diversas informações e, entre elas, o Porte do animal e o Sexo do mesmo, conforme
Porte
Sexo Total
Pequeno Médio Grande
Considerando-se que o animal escolhido é de médio porte, qual a probabilidade de ser fêmea? Dado que o
Solução:
Exemplo: Um número é sorteado ao acaso entre os inteiros 1, 2, . . . , 15. Se o número sorteado for ímpar,
Solução:
Probabilidade Condicional 133
Para resolver o problema com a utilização do R, basta simular o lançamento de um dado com
de forma que pode-se resumir essa relação entre parecer e ser em uma tabela da seguinte forma:
Ser
Mente
+ -
Parecer
+ As coisas são o que parecem ser Não são mas parecem ser
- São mas não parecem ser Não são e nem parecem ser
Da mesma forma, pode-se pensar na relação entre uma doença e o teste para detectá-la. Pode-se
1
http://epiclcn.blogspot.com.br/ em 14/06/2012.
134 Capítulo 9. Noções sobre a teoria das probabilidades
Doença
Relação
+ -
Teste
+ Verdadeiro positivo Falso positivo
Portanto, o bom uso de um teste diagnóstico requer, além de considerações clínicas, o conhe-
cimento de medidas que caracterizam a sua qualidade: a sensibilidade, a especicidade e os parâmetros que
reetem a sua capacidade de produzir decisões clínicas corretas: valor da predição positiva (VPP) e o valor
s = P (T+ |D+ ),
ou seja, a probabilidade de o teste ser positivo sabendo-se que o paciente que está sendo examinado é doente.
e = P (T− |D− ),
ou seja, a probabilidade de o teste ser negativo sabendo-se que o paciente examinado não é portador da
doença. Logo, a especicidade mede a capacidade de não reação do teste em pacientes não portadores da
doença.
pesquisador utiliza-o primeiramente em dois grupos muito especícos de pessoas: um de portadores da doença
e outro de pacientes sem a doença em questão. Os resultados desta etapa da pesquisa podem ser resumidos
Tabela 9.2 Esquema padrão de síntese dos dados para vericação da qualidade de um teste clínico.
Teste
Doença Total
Positivo Negativo
Presente a b a+b
Ausente c d c+d
Total a+c b+d n
Para denir os índices que descrevem o grau de conabilidade de um teste, precisamos trabalhar
Usando a notação da Tabela 9.2 e a denição de probabilidade condicional, têm que a sensibili-
Sensibilidade Especicidade
a d
s= e=
a+b c+d
Exemplo: Linder & Singer
1 estudaram a qualidade da tomograa computadorizada para o diagnóstico de
Presente (D+ ) 52 15 67
Ausente (D− ) 9 74 83
Total 61 89 150
Sensibilidade Especidade
a d
s= e=
a+b c+d
52 74
s= = 0, 776 e= = 0, 892
67 83
Existem alguns pacotes no R que calculam a sensibilidade e especicidade do teste. Entre eles
> require(DiagnosisMed)
> diagnosis(52, 15, 9, 74)
> require(epibasix)
> dados = cbind(c(52,15), c(9,74))
> sensSpec(dados)
1
Diagnosing liver metastases: a Bayesian analysis. Journal of Clinical Oncology, v.3, p.379-88, 1986
136 Capítulo 9. Noções sobre a teoria das probabilidades
qualidades gerais de um teste, têm uma limitação séria: não ajudam a decisão da equipe médica que, recebendo
um paciente com resultado positivo do teste, precisa avaliar se o paciente está ou não doente. Não se pode
depender apenas da sensibilidade e a especicidade, pois estes índices são provenientes de uma situação em
que há certeza total sobre o diagnóstico, o que não acontece no consultório médico. Daí a necessidade destes
dois outros índices que reetem melhor a realidade prática. Neste momento, interessa mais conhecer os
seguintes índices denominados valor da predição positiva (VPP) e valor da predição negativa (VPN), denidos
respectivamente por:
Valor da predição positiva (VPP) é a probabilidade do paciente estar realmente doente quando
a
V P P = P (D+ |T+ ) =
a+c
Valor da predição negativa (VPN) é a probabilidade do paciente não estar doente quando o
d
V P N = P (D− |T− ) =
b+d
Estes valores são probabilidade condicionantes, tal que o evento condicionante é o resultado do
1
é através da Tabela 9.4, sugerida por Vecchio . Seja p a prevalência
2 da doença na população de interesse,
Tabela 9.4 Probabilidades necessárias para o cálculo dos índices VPP e VPN.
Doente p ps p(1-s)
Sadia 1 - p (1 - p) (1 - e) (1 - p)e
1
Predictive value of a single diagnostic test in unselected populations. The New England Journal of Medicine,
v.274, p.1171-3, 1966
2
É a contagem do número de casos que existe em uma população de pacientes em um momento especíco no
tempo.
Probabilidade Condicional 137
ps
V P P = P (D+ |T+ ) = .
ps + (1 − p)(1 − e)
(1 − p)e
V P N = P (D− |T− ) = .
p(1 − s) + (1 − p)e
Para o exemplo da Tabela 9.3, considere que a prevalência de metástase de carcinoma de fígado
ps 0, 02 × 0, 776
V PP = =
ps + (1 − p)(1 − e) 0, 02 × 0, 776 + (1 − 0, 02)(1 − 0, 8916)
V PP = 0, 1275.
Portanto, o valor de predição positiva é baixo enquanto que o valor de predição negativa é
bastante alto. Se o resultado da tomograa computadorizada é negativo, a chance de não haver metástase é
a d
V PP = e V PN =
a+c b+d
P (A ∩ B)
P (A|B) = ⇒ P (A ∩ B) = P (B) P (A|B)
P (B)
ou, ainda.
P (A ∩ B)
P (B|A) = ⇒ P (A ∩ B) = P (A) P (B|A)
P (A)
Exemplo: Considere os seguintes eventos: A = retirar uma carta de copas do baralho e B = retirar um às
Solução:
> require(MASS)
> CC = cards(makespace=TRUE)
> (A = subset(CC, suit == "Heart"))
> (B = subset(CC, rank == "A"))
> (B = subset(CC, rank %in% "A"))
> prob(A)*prob(B, given=A)
> fractions(prob(A)*prob(B, given=A))
Pede-se:
b) Construir o espaço amostral e indicar as probabilidades associadas a cada um dos pontos amostrais.
Calcular as probabilidades:
Probabilidade Condicional 139
c) de ter saído bola preta na primeira extração sabendo-se que (dado que) saiu bola branca na segunda
extração;
d) de ter saído bola preta na primeira extração sabendo-se que (dado que) saiu bola preta na segunda extração.
da 2a bola.
Construir o espaço amostral e indicar as probabilidades associadas a cada um dos pontos amostrais.
Calcular as probabilidades:
a) P (B2 );
b) P (P2 );
c) P (B2 |B1 );
d) P (B2 |P1 );
e) P (P2 |B1 );
f) P (P2 |P1 );
Independência de Eventos
Dois eventos são considerados independentes quando a ocorrência de um deles não depende da
ocorrência do outro, isto é, P (A|B) = P (A) e P (B|A) = P (B). Logo, o teorema do produto para dois
P (A ∩ B) = P (A) · P (B)
Exemplo 1: Efeitos colaterais com o uso de certa droga ocorrem em 10% de todos os pacientes que a tomam.
Solução:
Solução:
Exemplo 2: Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%, ser A é 30% e ser
B é 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e que o fator independe do tipo sanguíneo.
Nestas condições, qual a probabilidade de uma pessoa tomada ao acaso da população ser:
a) O e Rh+ ?
Solução:
b) AB e Rh− ?
Solução:
Probabilidade Condicional 141
que suas probabilidades sejam conhecidas. Assim, se B é um evento qualquer, tem-se o seguinte teorema:
P (Ai ) P (B|Ai )
P (Ai |B) = i = 1, · · · , k.
∑
k
P (Ai )P (B|Ai )
i=1
Exemplo: Sabe-se que dos animais atendidos pelo Hospital Veterinário da Universidade Estadual de Londrina,
40% são provenientes da região norte, 15% da região sul, 20% da região leste, 15% da região oeste da cidade
de Londrina e os 10% restantes são provenientes de outras cidades. Observou-se, ainda, que 5% dos animais
da região norte foram submetidos a algum procedimento cirúrgico, enquanto que para as outras regiões os
percentuais foram: 3% para a região sul, 8% para a região leste, 4% para a região oeste e 15% para outras
cidades. Uma cha escolhida aleatoriamente acusou que o animal foi submetido a um procedimento cirúrgico.
Solução:
142 Capítulo 9. Noções sobre a teoria das probabilidades
Exercícios - Probabilidades
1) Para cada um dos casos abaixo, escreva o espaço amostral correspondente e conte seus elementos.
c) Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões rigorosamente iguais. Três bolas são
d) Em uma cidade, famílias com 3 crianças são selecionadas ao acaso, anotando-se o gênero de cada uma.
Tipos Pessoas
A 85
B 193
O 252
Sorteando-se uma pessoa ao acaso, qual a probabilidade da mesma ser do tipo sangüíneo AB?
3) Uma urna contém duas bolas brancas (B ) e três bolas vermelhas (V ). Retira-se uma bola ao acaso da
urna. Se for branca, lança-se uma moeda; se for vermelha, ela é devolvida à urna e retira-se outra. Dê o
4) Lance um dado até que a face 5 apareça pela primeira vez. Enumere os resultados possíveis desse experi-
mento.
5) Dentre seis números positivos e oito negativos, dois números são escolhidos ao acaso e multiplicados. Qual
6) Um casal pretende ter lhos. Admitindo probabilidades iguais para ambos os sexos, qual a probabilidade
7) Num grupo de 30 animais, 12 estão com parasitose intestinal. Três animais são escolhidos ao acaso, um
após o outro, sem reposição. Qual é a probabilidade de pelo menos 2 deles não estarem infectados?
9) Uma universidade tem 10 mil alunos dos quais 4 mil são considerados esportistas. Temos ainda que 500
alunos são do curso de biologia diurno, 700 da biologia noturno, 100 são esportistas e da biologia diurno
e 200 são esportistas e da biologia noturno. Um aluno é escolhido ao acaso e pergunta-se a probabilidade
de:
a) ser esportista;
10) Uma fazenda contém quatro bezerros Nelore, cinco Gir e seis Guzerá. Outra fazenda contém cinco bezerros
Nelore, seis Gir e dois Guzerá. Sorteia-se um bezerro de cada fazenda. Qual a probabilidade de que ambos
11) Num cruzamento de galos de pescoço pelado com galinhas do mesmo tipo, temos a probabilidade de 1/4
para obter um lho de pescoço coberto. Numa ninhada de seis pintos, qual a probabilidade de que nenhum
12) Sabendo-se que 2% dos exames clínicos feitos por um laboratório apresentam falha humana, 1% falha
técnica e 2,5% pelo menos uma das duas falhas, qual a probabilidade de um exame ter as duas falhas?
13) Uma fazenda é composta de 70% de animais machos e 30% de fêmeas. Sabe-se que 40% dos machos e
60% das fêmeas são da raça Nelore. Qual a probabilidade de que escolhido um animal da raça Nelore, ele
seja macho?
14) Uma escola do ensino médio do interior de São Paulo tem 40% de estudantes do gênero masculino. Entre
estes, 20% nunca viram o mar, ao passo que, entre as meninas, essa porcentagem é de 50%. Qual a
15) O Londrina Esporte Clube ganha com probabilidade 0, 7 se chove e com 0, 8 se não chove. Em agosto
a probabilidade de chuva é de 0, 3. O Londrina Esporte Clube ganhou uma partida em agosto, qual a
16) Dos animais de uma fazenda, 60% são castrados. Se não for castrado, a probabilidade de ter tido um distúr-
bio hormonal é de 10%, enquanto que para os demais essa probabilidade aumenta para 30%. Pergunta-se:
144 Capítulo 9. Noções sobre a teoria das probabilidades
b) Se o animal sorteado tiver distúrbio hormonal, qual a probabilidade de não ser castrado?
17) Uma urna contém 10 bolas verdes, 8 vermelhas, 4 amarelas, 4 pretas e cinco brancas, todas de mesmo
raio. Uma bola é retirada ao acaso. Qual a probabilidade de a bola escolhida ser:
18) Uma urna contém 15 cartões enumerados de 1 a 15. Um cartão é retirado aleatoriamente. Qual a
20) Uma carta é retirada de um baralho comum de 52 cartas. Qual a probabilidade de:
21) Um número inteiro é escolhido ao acaso dentre os números 1, 2, 3, . . . , 30. Qual a probabilidade de:
22) Uma moeda é viciada, de maneira que as caras são 3 vezes mais prováveis de aparecer do que as coroas.
Se esta moeda é lançada duas vezes. Qual a probabilidade de ocorrer cara apenas uma vez?
Probabilidade Condicional 145
23) Das 8 alunas de uma classe, 3 têm olhos azuis. Se duas delas são escolhidas aleatoriamente, qual é a
probabilidade de:
24) De 120 estudantes, 70 estudam matemática, 80 estudam português e 40, matemática e português. Se um
25) Em uma prova caíram dois problemas. Sabe-se que 132 alunos acertaram o primeiro problema, 86 erraram
o segundo, 120 acertaram os dois e 54 acertaram apenas um problema. Qual a probabilidade de que um
26) Um professor de probabilidade propôs a seus alunos o seguinte problema: São dadas duas moedas, uma
perfeita (probabilidade de cara igual 1/2), e outra com duas caras. Uma moeda é escolhida ao acaso e
60% de sucesso. Um fazendeiro resolveu aplicar esta nova técnica em seus animais. Para isso ele selecionou
c) Considerar Y o número de animais prenhes e associar um valor y a cada um dos elementos do espaço
amostral.
146
Conceitos Iniciais 147
/
<E EEE 0,216 3
yyy
yy
yy
E
E EEEE
EE
E"
Ē / EE Ē 0,144 2
E J 33
33
33
33
33 <E
/ E ĒE 0,144 2
33 yyy
yy
yy
Ē EE
EE
EE
E"
Ē / E Ē Ē 0,096 1
•(
((
((
(( /
(( <E ĒEE 0,144 2
yyy
(( yy
(( yy
E
((
E EE
EE
(( EE
(( E"
(( Ē / ĒE Ē 0,096 1
((
Ē3
33
33
33
33 /
<E Ē ĒE 0,096 1
33 yyy
3 yy
yy
Ē EE
EE
EE
E"
Ē / Ē Ē Ē 0,064 0
{ }
Ω = EEE, EE Ē, E ĒE, E Ē Ē, ĒEE, ĒE Ē, Ē ĒE, Ē Ē Ē
yi P (Y = yi )
0 0,064
1 0,288
2 0,432
3 0,216
0.40
0.35
0.30
Probabilidades
0.25
0.20
0.15
0.10
0.05
0 1 2 3
Número de Sucessos
vacas = 0:3
prob_suc = 0.6
prenhez = data.frame(Pr = dbinom(vacas, 3, prob_suc))
rownames(prenhez) = 0:3
prenhez
plot(vacas, dbinom(vacas, size=3, prob=prob_suc), xlab="Número de Sucessos",
ylab="Probabilidades", main=`', axes=F, type="h", col=`blue')
points(vacas, dbinom(vacas, size=3, prob=prob_suc), pch=16, , col=`blue')
axis(1, vacas)
axis(2, seq(0, 0.45, .05), las=1)
abline(h=0, col="gray", cex=2.5, lwd=2)
box(bty=`l')
( )
3
P (Y = y) = 0, 6y (1 − 0, 6)3−y , y = 0, . . . , 3.
y
(3) 3!
em que = .
y y!(3 − y)!
interpretar o resultado.
Solução:
150 Capítulo 10. Variáveis aleatórias discretas
∑
n
µY = E(Y ) = yi P (yi ) (10.1)
i=1
yi P (Y = yi ) yi × P (Y = yi )
0 0,064
1 0,288
2 0,432
3 0,216
Total 1,000
da esperança matemática:
a) E(k) = k
Variável Aleatória Discreta 151
b) E(kX) = kE(X)
d) E(X ± k) = E(X) ± k
10.2.4 Variância de Y
Dada a variável aleatória Y, chamamos de variância de Y, ao valor:
n [
∑ ]2
σY2 = V (Y ) = yi − E(Y ) P (yi ). (10.2)
i=1
Portanto, V (Y ) = 0, 72. Assim, o desvio padrão e o coeciente de variação são dados, respectivamente, por:
√ σY
σY = V (Y ) = 0, 8485281 e CV = × 100 = 47, 14%.
µY
2
σY2 = V (Y ) = E(Y 2 ) − [E(Y )]
em que
∑
n
E(Y 2 ) = yi2 P (Y = yi ).
i=1
Logo,
152 Capítulo 10. Variáveis aleatórias discretas
y P (Y = y) y × P (Y = y) yi2 yi2 × P (Y = y)
0 0,064 0,000 0 0,000
Assim,
[ ]2
V (Y ) = E(Y 2 ) − E(Y )
( )2
V (Y ) = 3, 96 − 1, 8
V (Y ) = 0, 72.
Propriedades da Variância
Supondo k uma constante e X e Y variáveis aleatórias, pode-se denir as seguintes propriedades
para a variância:
a) V (k) = 0
b) V (kX) = k 2 V (X)
e) V (X ± k) = V (X)
f ) Se X e Y são variáveis aleatórias independentes, então: COV (XY ) = E(XY ) − E(X) E(Y ) = 0.
yi P (Y = yi ) F(Y) = P (Y ≤ yi )
0 0,064
1 0,288
2 0,432
3 0,216
1.0
0.8
Probabilidades
0.6
0.4
0.2
Número de Sucessos
Exercícios:
1) Considere um pasto com 3 vacas da raça Holandesa e 5 vacas da raça Gir. Serão retirados do pasto 3
animais, através de sorteio e sem reposição. Dena a variável Y como sendo o número de animais da
a) obter uma tabela contendo todos os possíveis resultados desse experimento e as probabilidades associ-
2) Seja Y a variável aleatória discreta número de óbitos observados mensalmente no Hospital Veterinário,
y 0 1 2 3 4 5
Pede-se:
a) obter a função de distribuição acumulada F (y) para a variável aleatória Y e um gráco que a represente;
3) Em um experimento com chocadeira automática são colocados 5 ovos e observado o número de ovos
que a represente;
c) a esperança e a variância de Y.
síveis: sucesso (resultado de interesse) ou fracasso (resultado pelo qual não estamos interessados).
Exemplos:
1
Jakob Bernoulli (Nascido em 27/12/1654 em Basel, Suíça e falecido em 16/08/1705), também conhecido como
Jacob, Jacques ou James Bernoulli.
Principais Distribuições de Probabilidades 155
< S (Sucesso) p 1
xx
xxx
xx
• FF
FF
FF
F"
F (F racasso) 1−p 0
A distribuição de probabilidade de Y com distribuição de Bernoulli, com parâmetro p é dada
por:
y P (Y = y)
0 1−p
1 p
Total 1
∑
n
µY = E(Y ) = yi P (Y = yi )
i=1
µY = E(Y ) = 0 × (1 − p) + 1 × p
µY = E(Y ) = p
n [
∑ ]2
V (Y ) = yi − E(Y ) P (Y = yi ) V (Y ) = E(Y 2 ) − [E(Y )]2
i=1
[ ]
V (Y ) = (0 − p)2 (1 − p) + (1 − p)2 p ou V (Y ) = 02 × (1 − p) + 12 × p − [p]2
V (Y ) = p2 (1 − p) + p(1 − p)2 V (Y ) = p − p2
V (Y ) = p(1 − p) V (Y ) = p × (1 − p)
Portanto,
E(Y ) = p V (Y ) = p(1 − p)
e
Notação: Y ∼ Be(p).
Função de Probabilidades: A função de probabilidades de uma distribuição de Bernoulli é dada por:
156 Capítulo 10. Variáveis aleatórias discretas
P (Y = y) = py (1 − p)1−y , y = 0, 1.
cálculo das probabilidades ser feito usando termos da expansão do binômio de Newton. O teorema do binômio
n ( )
∑
n n
(x + y) = xn−k y k
k
k=0
( ) ( ) ( ) ( )
n n−0 0 n n−1 1 n n−2 2 n n−n n
= x y + x y + x y + ... + x y
0 1 2 n
( ) ( )
n n n−1 1 n n−2 2 n n−3 3
(x + y) = x + nx y + x y + x y + . . . + yn
2 3
( )
n n!
em que = .
k k!(n − k)!
as seguintes condições:
a) supor uma série de n realizações independentes (o resultado de um experimento não é afetado pelo
Então diz-se que a variável aleatória Y = {número de sucessos} nos n ensaios tem distribuição binomial
com parâmetros n e p.
Notação: Y ∼ Bin(n, p).
Função de Probabilidades: A função de probabilidades de uma variável Y com distribuição binomial
( )
n y
P (Y = y) = p (1 − p)n−y , y = 0, 1, . . . , n.
y
Principais Distribuições de Probabilidades 157
( )
n n!
em que = ; p é a probabilidade de sucesso e (1 − p) é a probabilidade de fracasso.
y y!(n − y)!
Considere uma variável aleatória com distribuição binomial Bin(10; 0, 3), ou seja, o estudo de
uma variável, cujo número de ensaios será igual a 10 realizações e a probabilidade de sucesso é igual a 30%.
O gráco desta situação é apresentado na Figura 10.3.
0.25
0.20
Probabilidades
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10
Número de Sucessos
Figura 10.3 Gráco da distribuição Binomial, para n = 10 ensaios com probabilidade de sucesso
p = 0, 30.
Se o interesse for apenas nos valores das probabilidades, os mesmos podem ser obtidos com:
A esperança e a variância de uma variável aleatória Y com distribuição binomial Bin(n, p) são
E(Y ) = n p V (Y ) = n p (1 − p)
e
Exemplo 1: Uma moeda é lançada dez vezes. Qual a probabilidade de se obter duas caras? Determine a
esperança e a variância.
Solução:
require(distrEx)
Y = DiscreteDistribution(supp=moeda, prob=proba)
E(Y) ; var(Y) ; sd(Y)
plot(proba ~ moeda, las=1, type="h", col=`blue',
xlab="Número de Sucessos", ylab="Probabilidades", main=`')
abline(h=0, col=`gray')
axis(1, at=c(0:10))
Exemplo 2: Uma infecção experimental em camundongos determina morte de 30% dos animais a ela subme-
tidos. Qual a probabilidade de obter num lote de 10 animais, uma mortalidade de, no máximo 20%?
Solução:
Principais Distribuições de Probabilidades 159
Exemplo 3: Você leva sua cadela ao veterinário e descobre através de um exame de ultrasonograa que ela
Solução:
Solução:
Solução:
160 Capítulo 10. Variáveis aleatórias discretas
rências (sucessos) de um evento de interesse, por unidade de tempo, comprimento, área ou volume. É também
Exemplos:
d) Número de pacientes que chegam a um pronto atendimento de uma pequena cidade durante a madrugada;
Note que os possíveis valores que as variáveis descritas podem assumir são: 0, 1, . . . ,.
O comportamento dessas variáveis pode ser descrito pela chamada distribuição de Poisson.
Função de Probabilidades: A função de probabilidades de uma variável Y com distribuição Poisson P oi(λ)
é dada por:
e−λ λy
P (Y = y) = , y = 0, 1, . . .
y!
em que λ é igual ao número médio de ocorrências do evento de interesse por unidade de tempo, distância ou
área.
Notação: Y ∼ P oi(λ).
O gráco gerado pela função de probabilidades de uma distribuição de Poisson, para λ = 4, é
1
Siméon-Denis Poisson, matemático Francês, 17811840.
Principais Distribuições de Probabilidades 161
0.20
0.15
Probabilidades
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12
Obs.: Para valores de Y maiores que 12, com λ = 4, as probabilidades tendem a zero.
1) as condições permanecem estáveis no decorrer do tempo, isto é, a taxa média de ocorrências (λ) é constante
ao longo do tempo;
2) intervalos de tempo disjuntos são independentes, isto é, a informação sobre o número de ocorrências em
A esperança e a variância de uma variável aleatória Y com distribuição Poisson P oi(λ) são
E(Y ) = λ V (Y ) = λ
e
Exemplo 1: Um pesquisador está interessado no número de ovos depositados por uma espécie de pássaro.
Na primavera, ele procura e encontra 80 ninhos. O número médio de ovos por ninho foi 3,8 e a variância foi
3,1. Porque a variância é aproximadamente igual á média, ele acha que pode ser razoável descrever o número
de ovos por ninho como tendo uma distribuição Poisson com média 3,8.
b) Se esta realmente representa a distribuição populacional, qual seria a probabilidade de não encontrar ovo
num ninho?
Solução:
dpois(0, lambda=3.8)
Solução:
1 - ppois(5, lambda=3.8)
Solução:
dpois(3:6, 3.8)
sum(dpois(3:6, 3.8))
Exemplo 2: Uma vacina contra a febre aftosa tem probabilidade igual a 0, 001 de não imunizar um animal.
Se forem vacinados cinco mil animais, qual a probabilidade de não carem imunes:
a) três animais;
Principais Distribuições de Probabilidades 163
Solução:
dpois(3, lambda=5)
Solução:
1 - ppois(1, lambda=5)
um número nito. Uma aproximação, que simplica a especicação de sua distribuição, é supor que pode
tomar qualquer valor do conjunto {0, 1, 2, . . . }. Em um plano de saúde com 5.694 liados, ao m de um
ano, foram realizadas 13.098 consultas, de acordo com os dados apresentados na Tabela 10.3.
0 589 5 304
1 1.274 6 126
2 1.542 7 39
3 1.144 8 10
4 663 9 3
Pede-se:
Solução:
164 Capítulo 10. Variáveis aleatórias discretas
Solução:
ncons = c(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
Obs = c(589, 1274, 1542, 1144, 663, 304, 126, 39, 10, 3)
(saude = data.frame(ncons, Obs)) ; attach(saude)
(media = weighted.mean(ncons, Obs))
dpois(0:9, lambda=media)
1 - ppois(6, lambda=media)
Solução:
Exemplo: Seja Y a variável aleatória efeito colateral a um medicamento. De acordo com o fabricante do
Solução:
n = 10000
p = 0.0005
lambda = n*p
dpois(0, lambda)
Solução:
1 - dpois(0, lambda)
c) a probabilidade do número de animais com efeitos colaterais estar entre 3 e 5 animais, inclusive.
Solução:
independentes de um mesmo experimento aleatório até que apareça o 1º sucesso. Assim, se designarmos S
como sucesso e F como fracasso, e realizarmos n ensaios até que ocorra o primeiro sucesso, o espaço amostral
deste experimento será o conjunto:
Ω = {S, F S, F F S, . . . , F F F · · · S, . . .}
166 Capítulo 10. Variáveis aleatórias discretas
Logo, um elemento típico desse espaço amostral é uma sequência de comprimento n em que nas
primeiras n−1 posições temos F, ou seja, ocorrência de fracassos e na n-ésima ocorre o sucesso S.
A distribuição geométrica apresenta duas parametrizações importantes, que tem interpretações
distintas. Uma das parametrizações da função geométrica conta o número de ensaios de Bernoulli necessário
para se obter um sucesso. Assim neste tipo de parametrização não é possível se ter o zero, portanto nesta
parametrização da geométrica o domínio será o conjunto dos números naturais sem o zero.
P (X = x) = p × (1 − p)x−1 x = 1, 2, . . .
A segunda parametrização da geométrica conta o número de falhas até que ocorra o primeiro
sucesso. Note que neste tipo de parametrização pode-se incluir o zero como sendo um possível resultado, pois
pode-se ter sucesso já no primeiro ensaio de Bernoulli. É esta parametrização que é usada como padrão pelo
P (Y = y) = p × (1 − p)y y = 0, 1, 2, . . .
Notação: Y ∼ G(p).
Exemplo: A probabilidade de se encontrar aberto o sinal de trânsito numa esquina é 0, 20. Qual a probabilidade
de que seja necessário passar pelo local 5 vezes para encontrar o sinal aberto pela primeira vez?
Solução:
dgeom(4, prob=0.20)
Principais Distribuições de Probabilidades 167
Exemplo: Um casal com problemas para engravidar, recorreu a uma técnica de inseminação articial no
intuito de conseguir o primeiro lho. A eciência da referida técnica é de 0, 40. Qual a probabilidade de que
Solução:
dgeom(2, prob=0.40)
168 Capítulo 10. Variáveis aleatórias discretas
1) Uma seguradora paga R$ 30.000, 00 em caso de acidente de carro e cobra uma taxa de R$ 1.000, 00.
Sabe-se que a probabilidade de que um carro sofra acidente é de 3%. Quanto espera a seguradora ganhar
2) Suponha que um número seja sorteado de 1 a 10, inteiros positivos. Seja Y o número de divisores do
número sorteado. Calcular o número médio de divisores do número sorteado. Resp: E(Y ) = 2, 7.
3) Seja Y uma variável com distribuição binomial com parâmetros Y ∼ Bin(n, 0, 20). Utilizando o R, faça
os grácos da distribuição de Y, para os valores de n = 5, 10, 15, 20, 30, 50. O que você nota à medida
4) Num jogo de dados, A paga R$ 20, 00 a B e lança 3 dados. Se sair face 1 em um dos dados apenas, A
ganha R$ 20, 00. Se sair face 1 em dois dados apenas, A ganha R$ 50, 00, e se sair 1 nos três dados, A
ganha R$ 80, 00. Calcular o lucro líquido médio de A em uma jogada. Resp: E(Y ) = −R$ 9, 21.
5) As probabilidades de que haja 1, 2, 3, 4 ou 5 pessoas em cada carro que vá ao litoral num sábado são,
respectivamente: 0, 05, 0, 20, 0, 40, 0, 25 e 0, 10. Qual o número médio de pessoas por carro? Se chegam
no litoral 4.000 carros por hora, qual o número esperado de pessoas, em 10 horas de contagem? Resp:
6) Uma urna contém 6 bolas numeradas de 1 a 6. Uma pessoa paga R$ 600, 00 e retira aleatoriamente uma
bola. Se retirar a bola 6 recebe R$ 1.500, 00; se retirar as bolas 2, 3, 4 ou 5 nada recebe; e se retirar a bola
1 irá escolher outra bola, sem repor a primeira, e se esta segunda for a bola 6, recebe R$3.600, 00; caso
contrário, nada recebe. Calcular quanto a pessoa que está jogando espera lucrar. Resp: −R$ = 230, 00.
7) Uma moeda é lançada 20 vezes. Qual a probabilidade de saírem 8 caras? Calcule a esperança e variância.
8) Sabe-se que 20% dos animais submetidos a um certo tratamento não sobrevivem. Se esse tratamento foi
9) Em 30 bezerros nascidos, 60% foi do sexo feminino. Calcular o valor esperado (esperança) e o desvio
11) Sabe-se que 10% das vacinas de um determinado laboratório tem validade vencida. Retiram-se, casual-
12) Suponha que é sabido que 30% de uma certa população são imunes a alguma doença. Se uma amostra
13) Em uma grande população, 16% dos membros são canhotos. Em uma amostra aleatória de tamanho 10,
encontre:
14) Suponha que a probabilidade de recuperação para uma certa doença seja conhecida e igual a 0,4. Se 15
contraem a doença (assuma como sendo uma amostra aleatória), qual é a probabilidade que:
15) Considerando que a probabilidade de nascer uma criança do sexo feminino é de 47%, qual a probabilidade
de que uma família de 6 lhos seja constituída por seis crianças do sexo feminino? Resp: 0,01077922
16) Um administrador de hospital, que tem estudado as admissões ao setor de emergências diariamente, por
um período de alguns anos, chegou a conclusão que elas são distribuídas de acordo com a distribuição
de Poisson. Os registros do hospital revelam que as admissões ao setor de emergências são, em média,
três por dia, durante este período. Dado que o administrador está correto em assumir uma distribuição de
a) exatamente duas admissões ao setor de emergências ocorrerão em um dado dia; Resp: 0,2240
c) ocorram três ou quatro admissões ao setor de emergências em um dado dia. Resp: 0,3920
17) Em um estudo sobre um certo organismo aquático, um grande número de amostras foram coletados de
um tanque, e o número de organismos em cada amostra foi contado. O número médio de organismos por
amostra foi encontrado como sendo dois. Assumindo o número de organismos tendo uma distribuição de
18) Um contador eletrônico de bactérias registra, em média, 5 bactérias por cm3 de um líquido. Admitindo-se
3
b) Encontre a probabilidade de que pelo menos duas bactérias ocorram num volume de líquido de 1cm .
Resp: 0,9596
Principais Distribuições de Probabilidades 171
19) Se a probabilidade de um indivíduo sofrer uma reação nociva, resultante da infecção de um determinado
20) Num livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que uma página contenha
21) Seja X a variável aleatória número de plantas com mutação, em um total de n plantas irradiadas, e
p = 0, 0004 a probabilidade de uma planta irradiada apresentar mutação. Calcular, usando a distribuição
a) a probabilidade de não aparecer nenhuma planta com mutação em 900 plantas irradiadas; Resp: 0,69768
b) a probabilidade de aparecer ao menos uma planta com mutação em 900 plantas irradiadas; Resp:
0,30232
22) Seja X o número de árvores de castanha-jarana (Lecythis lurida) por hectare numa oresta tropical. Su-
ponha que X tem distribuição de Poisson (essa espécie distribui-se aleatoriamente pela região) com média
a) Calcular a probabilidade de se encontrar no máximo uma árvore dessa espécie, ao se observar 1 hectare
ser associados a mensurações em uma escala contínua e as probabilidades necessárias ao seu estudo são
calculadas como a área abaixo da curva da distribuição, chamada de função densidade de probabilidade.
Denição: Uma variável aleatória contínua Y é contínua em ℜ, se existir uma função f (y), tal que:
a) f (y) ≥ 0, ∀ y ∈ ℜ;
∫ +∞
f (y) dy = 1.
−∞
Observa-se que:
[ ] ∫ b
P a≤Y ≤b = f (y)dy, (11.1)
a
[ ] [ ] [ ] [ ]
P a<Y <b =P a≤Y <b =P a<Y ≤b =P a≤Y ≤b .
y ≤ 0;
0, se
f (y) = ay 3 , se 0 < y ≤ 2;
0, se y>2
172
173
em que a é uma constante. Obter a de modo que f (y) seja uma função densidade de probabilidade de uma
Solução:
2.0
1.5
f(x)
1.0
0.5
0.0
0.0 0.5 1.0 2.0
1 3
Figura 11.1 Gráco da função f (y) = y .
4
A esperança matemática (ou valor médio) e a variância de uma variável aleatória contínua Y,
são dadas, respectivamente, por:
∫ ∞
µY = E(Y ) = y f (y)dy
−∞
( ) 2
σY2 = V (Y ) = E Y 2 − [E(Y )]
∫ ∞
em que,
2
E(Y ) = y 2 f (y)dy .
−∞
174 Capítulo 11. Variáveis aleatórias contínuas
Exercício: Seja Y uma variável aleatória contínua com função de probabilidade dada por:
0 se y < 0;
f (y) = 2y se 0 ≤ y ≤ 1;
0 se y > 1;
Solução:
Solução:
Solução:
Solução:
Distribuição Normal 175
Se Y é uma variável aleatória contínua com função densidade de probabilidade f (y) dene-se a
∫ y
F (y) = P (Y ≤ y) = f (t)dt.
∞
mais utilizada é a distribuição normal. As principais razões que fazem a distribuição Normal o modelo mais
1) Muitas variáveis biométricas tendem a ter distribuição Normal. Isto ocorre principalmente quando a variável
é inuenciada por um grande número de fatores que atuam de modo independente e aditivo;
2) A distribuição das médias amostrais de uma variável qualquer tendem a ter distribuição Normal, mesmo
3) Muitos testes e modelos estatísticos têm como pressuposição a normalidade dos dados, isto é, que os
Karl F. Gauss (1777-1855), brilhante matemático e físico alemão, que a desenvolveu no início do século XIX.
Entretanto, Abraham de Moivre (1667-1754) foi o primeiro a anunciar a equação da distribuição em 1733 e
Pierre-Simon Marquis de Laplace (1749-1827), famoso matemático e físico francês, a redescobriu na mesma
época que Gauss. Para evitar uma questão internacional de originalidade o famoso estatístico inglês Karl
A função densidade de probabilidade de uma variável aleatória contínua Y, seguindo uma distri-
( )2
1 y−µ
1 −
f (y) = √ e 2 σ , para − ∞ < Y < ∞, (11.2)
2πσ 2
em que:
0.4 0.4
0.3 0.3
f(x)
f(x)
0.2 0.2
0.1 0.1
0.0 0.0
a b
60 80 100 120 140
X X
Figura 11.2 Gráco da Distribuição Normal. Figura 11.3 Probabilidade entre as áreas a e b.
Esta distribuição é apropriada para modelar variáveis aleatórias contínuas, que assumem valores
em algum subconjunto dos números reais. Neste caso, só faz sentido falar na probabilidade da variável
pertencer a um certo intervalo [a; b] que é dada pela área sob a curva e dentro deste intervalo.
Para se calcular a probabilidade da variável aleatória Y assumir valores entre a e b basta calcular
a área compreendida entre estes intervalos usando a Equação 11.2. Assim:
( )2
∫ 1 y−µ
b
1 −
P (a ≤ Y ≤ b) = √ e 2 σ dy
a 2πσ 2
2) é denida por dois parâmetros: a média (µ) e o desvio padrão (σ ), sendo que a média controla a localização
do centro da distribuição (é o ponto de simetria), já o desvio padrão controla a dispersão da curva ao redor
da média;
5) Unidades padrões: o desvio padrão dene unidades padrões na distribuição a partir da média, isto é, a
dispersão dos dados é controlada pelas unidades de desvio padrão, como mostrado na Figura 11.7.
µ−σ µ µ+σ X µ − 2σ µ µ + 2σ X µ − 3σ µ µ + 3σ X
6) Notação: Y ∼ N (µ, σ 2 ).
Exemplo: Suponha que os pesos de animais adultos da raça pastor alemão possam ser descritos por uma
distribuição normal, com média 34 kg e desvio padrão 4 kg . Neste caso, a proporção dos cães têm pesos entre
26 kg e 42 kg , por exemplo, é a proporção da área sob a curva normal entre 26 e 42. Então neste exemplo,
cerca de 95% dos cães tem pesos entre 26 e 42 kg . Em termos probabilísticos, se a variável aleatória Y
representa o peso dos cães e se um cão for selecionado ao acaso então
avançado e, mesmo assim, dada a forma da função densidade, não é um processo muito elementar. Por isso,
elas foram tabeladas, permitindo-nos obter diretamente o valor da probabilidade desejada. Note-se, entretanto,
que a função densidade da normal depende de dois parâmetros, µ e σ, de modo que se as probabilidades
fossem tabeladas diretamente a partir dessa função, seriam necessárias tabelas de dupla entrada, complicando
consideravelmente as coisas.
178 Capítulo 11. Variáveis aleatórias contínuas
espalhamento como interpretação, é de se esperar que uma distribuição normal com desvio padrão 2 seja
mais espalhada que uma distribuição normal com um desvio padrão 1. A Figura 11.8(a) mostra as curvas
1
com mesma média e desvios variando de
2 a 3.
Se xado o desvio padrão para a distribuição e variando-se as médias, tem-se um deslocamento da
média ao longo do eixo Y. Quanto maior for a média mais deslocada à direita estará a curva. A Figura 11.8(b)
ilustra o fato.
0.6 0.3
f(x)
f(y)
0.4 0.2
0.2 0.1
0.0 0.0
−5 0 5 −2 0 2 4 6 8 10
y x
(a) Relação entre os desvios xada a média da distri- (b) Relação entre as médias da distribuição, xado o des-
buição. vio padrão.
metros, recorre-se a uma mudança de variável, transformando a variável aleatória Y na variável aleatória Z.
Essa nova variável chama-se variável normal padronizada, ou reduzida.
são formulados em termos da variável normal original Y, com média µY e desvio-padrão σY . é preciso então,
antes de passarmos à sua resolução, padronizar ou reduzir a variável aleatória normal Y, transformando-a na
Distribuição Normal Padrão 179
variável aleatória Z.
O resultado da padronização é a obtenção de uma escala de distribuição denominada escala
reduzida, escala Z ou escore Z, que mede o afastamento das variáveis em relação à média em número de
desvios-padrão. Assim,
y−µ
Z= ,
σ
em que:
# µ = média da população;
# σ = desvio padrão populacional.
Logo, substituindo-se esses valores na equação (11.2), tem-se a função densidade padrão da
distribuição normal:
1
1 − z2
f (z) = √ e 2 , para − ∞ < Z < ∞.
2π
−1 0 1 Z −2 0 2 Z −3 0 3 Z
[ ]
Y −µ
V (Z) = V
σ
1
= × V (Y − µ)
σ2
1
= × σ2 ⇒ V (Z) = 1.
σ2
Normal:
Z ≈ N (0, 1) ⇒ Y = σZ + µ ⇒ Y ≈ N (µ, σ 2 ).
Para encontrar as probabilidades dos itens do exemplo 1, basta usar a função acumulada do R, cuja sintaxe é
pnorm(q, mean = 0, sd = 1). Sendo a média igual a 0 e o desvio igual a 1, não é necessário especicá-los
pnorm(1.57) - pnorm(0)
Exemplo 2: Sabendo-se que Z ∼ N (0; 1) e usando a tabela da distribuição normal padrão, obter z tal que:
Uso da Tabela da Distribuição Normal Padrão 181
Para encontrar as probabilidades dos itens do exemplo 2, basta usar a função qnorm do R, cuja sintaxe
desvio igual a 1, não é necessário especicá-los na função. Assim, para os itens (a) e (c), por exemplo, o
cálculo ca:
qnorm(0.5 + 0.43699)
qnorm(0.5 - 0.35314)
Para encontrar as probabilidades dos itens do exemplo 3, basta usar a função pnorm do R. Como a média é
igual a 4 e o desvio-padrão igual a 1, é necessário especicá-los na função. Assim, para os itens (a) e (b), por
pnorm(4, 4, 1)
pnorm(5, 4, 1) - pnorm(4, 4, 1)
Exemplo 4: Seja Y ∼ N (3, 16), ou seja, a variável Y tem média igual a µ=3 e variância σ 2 = 16. Faça o
Solução:
182 Capítulo 11. Variáveis aleatórias contínuas
Exemplo 5: A estatura média dos alunos da UEL é de µ = 1, 75m e desvio padrão σ = 0, 15m. Assumindo-se
que a variável estatura (Y) seja normalmente distribuída, calcule a probabilidade de um aluno aleatoriamente
Solução:
Especíca A 16 2,5 40
3 80 52,319 15,814 676,2
Especíca B 16 2,5 40
Uso da Tabela da Distribuição Normal Padrão 183
Classicação Pontuação
1 2.150,2
60 1.899,3
184 Capítulo 11. Variáveis aleatórias contínuas
Distribuição Normal
p
0 zt Z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,1 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,2 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,3 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,4 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,5 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,6 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,7 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,8 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,9 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1,0 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
1,1 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,2 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,3 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,4 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,5 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,6 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449
1,7 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327
1,8 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062
1,9 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670
2,0 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169
2,1 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574
2,2 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899
2,3 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158
2,4 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361
2,5 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520
2,6 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643
2,7 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736
2,8 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807
2,9 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861
3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900
3,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965
3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
3,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
3,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
Uso da Tabela da Distribuição Normal Padrão 185
Exercícios
a) Construa o gráco de Y;
c) Calcule:
i) P (Y ≥ 9, 5); Esta probabilidade pode ser calculada usando o R, através do seguindo comando:
ii) P (6 ≤ Y ≤ 10). Esta probabilidade pode ser calculada usando o R, através do seguindo comando:
2) Em uma população de indivíduos adultos de sexo masculino, a estatura média é 1, 70 m e desvio padrão
de 0, 08 m.
3) Na curva gaussiana padrão obtenha o valor de z0 tal que a área entre a média da curva e z0 seja 0, 40.
qnorm(c(.1, .9))
4) Um teste de aptidão para o exercício de certa prossão exige uma sequência de operações a serem execu-
tadas rapidamente uma após outra. Para passar no teste, o candidato deve completá-lo em 80 minutos no
máximo. Admita que o tempo para completar o teste seja uma variável aleatória N(90, 400).
b) Os melhores 5% receberão um certicado especial. Qual o tempo máximo para fazer jus a tal certicado?
5) É sabido que, para adultos do sexo masculino, gozando de boa saúde, em uma certa população, a tempe-
ratura corporal segue distribuição gaussiana com média de 36,8 graus e desvio-padrão de 0,15 graus.
a) Se considerarmos 1.000 dessas pessoas, quantas se esperariam com temperatura entre 36,8 e 37,2
graus?
b) Em qual intervalo de temperaturas estão 98% dos adultos masculinos sadios desta população?
6) Um pesquisador deseja criar um padrão para identicar presença de infecção bacteriana (Pseudomonas sp)
no trato respiratório através de cultura de escarro. Para isto, coletaram-se dados de pessoas sabidamente
sadias e determinou-se o número de colônias encontradas em cada cultura. Foram encontrados os seguintes
resultados:
17 22 23 23 23 23 24 24 24
24 24 24 25 25 25 25 25 25
25 26 28 28 29 30 30 31 31
35 35 35 36 40 41 41 41 42
51 54 56 56 56 58 60 68 79
Uso da Tabela da Distribuição Normal Padrão 187
Determine uma faixa de normalidade de 95% para o número de colônias de bactérias no trato respiratório
escarro = c(17, 22, 23, 23, 23, 23, 24, 24, 24, 24, 24, 24, 25, 25, 25, 25, 25, 25,
25, 26, 28, 28, 29, 30, 30, 31, 31, 35, 35, 35, 36, 40, 41, 41, 41, 42,
51, 54, 56, 56, 56, 58, 60, 68, 79)
(n = length(escarro))
(média = mean(escarro))
(var.amostra = var(escarro))
(var.pop = ((n-1)/n) * variância)
# ou,
(var.pop = sum((escarro - mean(escarro))^2) / n)
qnorm(c(.025, .975), mean=média, sd=sqrt(var.pop))
7) As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, com média 170 cm
e desvio-padrão 5 cm.
b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos?
8) O peso da carcaça de um animal segue uma distribuição N (50kg ; 4kg 2 ). Se o peso de uma carcaça
é inferior a um desvio-padrão abaixo da média, ela é vendida a R$ 60, 00, caso contrário, por R$ 80, 00.
Qual o preço médio de venda de uma carcaça?
9) Mensurações de pesos foram realizadas in vivo em 142 fêmeas de bovinos da raça Nelore. A média e
desvio padrão obtidos foram: µ = 390, 19 kg e σ = 45, 23 kg . Assumindo-se que os pesos seguem uma
distribuição normal:
f ) Se 25% dos animais com menor peso forem abatidos, qual o peso mínimo dos animais remanescentes?
g) Qual o peso mínimo para um animal estar entre os 5% com maior peso?
10) Uma amostra de 120 suínos mestiços, com seis meses de idade, apresenta quanto ao peso (em kg):
µ = 80kg e σ = 12kg.
11) A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representado por uma
N (3, 50kg ; 0, 36kg 2 . Um abatedouro comprará 10.000 coelhos dessa granja e os classicará de acordo
com o peso, da seguinte forma: 20% dos mais leves como pequenos, os 40% seguintes como médios,
os 30% seguintes como grandes e os 10% restantes como extras. Quais os limites de peso para cada
classicação?
12) Dada a função abaixo, vericar para que valor de K pode ser considerada uma função densidade de
13) Suponha que o peso de animais recém-nascidos (em kg) pode ser considerado uma variável aleatória com
a seguinte densidade:
1 1
0 ≤ x ≤ 2;
x+ se
10 10
−3 9
f (x) =
x+ se 2 < x ≤ 6;
40 20
0, caso contrário.
a) inferior a 3 kg ;
190 Capítulo 11. Variáveis aleatórias contínuas
p = 0,6625
b) entre 1 e 4 kg ;
p = 0,25
Leonardo da Vinci.
Capítulo 12
as ocorrências. Na prática, frequentemente o pesquisador tem alguma idéia sobre a forma da distribuição, mas
Exemplo: Suponha que a distribuição das estaturas dos alunos da UEL possa ser representada por um modelo
gaussiano e que os parâmetros populacionais, média e variância, fossem conhecidos e iguais, respectivamente,
por:
1 1 y−µ 2
f (y) = √ e− 2 ( σ ) , −∞ < Y < +∞
σ 2π
∫ 1,75
1 1 y−1,72 2
∴ P (1, 65 ≤ Y ≤ 1, 75) = √ e− 2 ( 0,15 ) dy = 0, 2589
1,65 0, 15 2π
Nessa situação (parâmetros populacionais conhecidos), não haveria necessidade de usar a inferência estatística.
Raramente se consegue obter a distribuição exata de alguma variável, ou por que isso é muito dispendioso, ou
191
192 Capítulo 12. Introdução à inferência estatística
tem-se:
Parâmetro Estatística
Média µ ȳ
Variância σ2 s2
Desvio padrão σ s
Proporção π p
Considere:
∑
n
yi
Ȳ =
i=1
n
em que que:
Ȳ é chamado estimador e
a) Obter a distribuição de Y.
y P(Y=y)
1 1/5
1/5
Total 1
[ ]2
b) Calcular a média µY = E(Y ) e a variância σ 2 = E(Y 2 ) − E(Y ) .
Distribuição Amostral da Média 193
Solução:
c) Considerar todas as possíveis amostras de tamanho n = 2, com reposição, dessa população. Seja Y1 a
a a
variável aleatória número selecionado na 1 extração e Y2 , a variável aleatória número selecionado na 2
Y1 + Y2
extração. Obter a distribuição amostral da estatística Ȳ = (média).
2
Y1 + Y2 Y1 + Y2
Amostra Ȳ = Probabilidade Amostra Ȳ = Probabilidade
2 2
(1;1) 1/25 (5;1) 1/25
(1;3) 1/25 (5;3) 1/25
(1;5) 1/25 (5;5) 1/25
(1;5) 1/25 (5;5) 1/25
(1;7) 1/25 (5;7) 1/25
(3;1) 1/25 (7;1) 1/25
(3;3) 1/25 (7;3) 1/25
(3;5) 1/25 (7;5) 1/25
(3;5) 1/25 (7;5) 1/25
(3;7) 1/25 (7;7) 1/25
(5;1) 1/25
(5;3) 1/25
(5;5) 1/25
(5;5) 1/25
(5;7) 1/25
0.25
Ȳ P (Ȳ = ȳ)
1 1/25 0.15
Probabilidades
2 2/25
0.10
4
0.05
7 1/25
0.00
1 2 3 4 5 6 7
Total 1
Médias
[ ]2
Calcular a média µȲ = E(Ȳ ) e a variância σȲ2 = E(Ȳ 2 ) − E(Ȳ ) .
Solução:
y = 1:7
probab=c(1, 2, 5, 6, 6, 4, 1)/25
require(distrEx)
Y = DiscreteDistribution(supp=y, prob=probab)
E(Y) ; var(Y) ; sd(Y)
par(mai=c(1, 1, .2, .5))
plot(probab~y, las=1, type="h", bty="l", col="blue",
xlab="Médias", ylab="Probabilidades")
points(y, prob, pch=19, col="blue")
Distribuição Amostral da Média 195
Para se retirar uma amostra de tamanho n de uma população de tamanho N, basta usar o R.
Para o exemplo dado, pode-se retirar uma amostra usando os seguintes comandos:
popul = c(1, 3, 5, 5, 7)
(amostra = sample(popul, 2, replace=T))
# ou
tilapia = read.table('http://www.uel.br/pessoal/silvano/Dados/Tilapia.txt', head=T)
attach(tilapia)
(amostra.tila = sample(Peso, 20, replace=F))
variância de uma população é necessário denir uma função para efetuar tal cálculo, dada por:
Teorema: Seja Y uma variável aleatória com média µ e variância σ2 , e seja (Y1 , Y2 , . . . , Yn ) uma amostra
σ2
µȲ = E(Ȳ ) = µ σȲ2 = V (Ȳ ) = .
n
tribuição amostral de Ȳ aproxima-se cada vez mais de uma distribuição normal. Esse resultado, fundamental
Teorema: Para amostras aleatórias simples (Y1 , Y2 , . . . , Yn ), retiradas de uma população com média µ e
variância σ2 , a distribuição amostral da média Ȳ aproxima-se, para n grande, de uma distribuição normal,
2
σ
com média µ e variância , ou seja,
n
( )
σ2
Ȳ ∼ N µ, . (12.1)
n
Se a população for normal, então Ȳ terá distribuição exata normal. Aceita-se que para amostras com mais
Ȳ − µ a
Z= σ ∼ N (0, 1), (12.2)
√
n
a
em que ∼ signica aproximadamente distribuído. A diferença entre a estatística Ȳ e o parâmetro µ, isto é,
no R são:
require(TeachingDemos)
clt.examp(n = 50, reps = 10000, nclass =16)
Distribuição Amostral da Média 197
Exemplo 1: Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo normal com
média µ = 1, 69 m e variância igual a 0, 01 m2 . Uma amostra de dez animais foi sorteada aleatoriamente.
Solução:
Exemplo 2: Os camarões machos da espécie Farfantepenaeus paulensis, para serem considerados adultos,
devem apresentar um comprimento total maior ou igual a 22 mm. Suponha que numa população de camarões
machos adultos a média dos comprimentos seja igual a µ = 27, 3 mm e o desvio padrão é σ = 7, 8 mm.
a) Qual a probabilidade de que numa amostra de n = 35 camarões, obtenha-se uma média Ȳ < 22 mm?
Solução:
b) Qual deve ser o valor para a média do comprimento total, µ, a m de que P rob(Ȳ ≤ 22) = 0, 05?
Solução:
198 Capítulo 12. Introdução à inferência estatística
1, se Xi > 1, 69 m
Yi =
0, se Xi ≤ 1, 69 m
Logo, Yi será 1 para jacarés adultos e 0 para jacarés jovens. As quantidades Y1 , Y2 , · · · , Y10 também são
variáveis aleatórias, uma vez que elas assumem o valor 0 ou 1 dependendo do valor assumido Xi , que também
é uma variável aleatória. Considere os seguintes dados:
i 1 2 3 4 5 6 7 8 9 10
Xi 1,58 1,63 1,72 1,75 1,69 1,68 1,70 1,64 1,77 1,74
Yi 0 0 1 1 0 0 1 0 1 1
Portanto, a proporção π de jacarés adultos será estimada pela proporção de comprimentos maiores que 1, 69 m
encontrada na amostra, p. A estimativa obtida foi:
Y1 + Y2 + · · · + Y10 0 + 0 + 1 + ··· + 1
p= = = 0, 5
10 10
Denição: Seja π a proporção das unidades de uma população que possuem uma determinada característica
(proporção de sucessos). A população pode ser denida como uma variável Y tal que:
1, se o elemento da população tem a característica;
Y =
0, se o elemento da população não tem a característica,
sendo P (Y = 1) = π e P (Y = 0) = 1 − π.
Se amostras aleatórias de tamanho n forem tomadas de uma população com proporção π , então,
a distribuição amostral de p tem as seguintes propriedades:
Distribuição Amostral da Proporção 199
( )
∑
n
Yi
1) E(p) = µp = E = π =⇒ p é um estimador sem viés de π ;
n i=1
( n ) √
∑ Yi π(1 − π) π(1 − π)
2) V ar(p) = σp2 = V ar = =⇒ σp = .
i=1
n n n
Se o tamanho da amostra cresce, o desvio padrão da proporção amostral decresce;
3) Se a população original tem uma distribuição qualquer, para n sucientemente grande (n > 30), p terá
[ ]
a π(1 − π) p−π
p ∼ N π, , ⇒ z=√ ∼ N (0, 1)
n π(1−π)
n
a
em que ∼ signica aproximadamente distribuído.
y
Quando π é desconhecida e a amostra com reposição é grande, determina-se p= , estimativa
n
de π. Logo,
√
p(1 − p)
σp = .
n
Exemplo 1: Deseja-se saber qual a proporção de pessoas da população portadoras de determinada doença.
Retira-se uma amostra de 400 pessoas, obtendo-se 8 portadores da doença. Determine a proporção estimada
Solução:
Exemplo 2: Um fabricante arma que sua vacina contra gripe imuniza 80% dos casos. Uma amostra de 25
indivíduos que tomaram a vacina foi sorteada e testes foram feitos para vericar a imunização ou não desses
indivíduos. Se o fabricante estiver correto, qual é a probabilidade da proporção de imunizados na amostra ser
Solução: