Apostila Estatística Veterinária PDF

Universidade Estadual de Londrina
Centro de Ciências Exatas

Departamento de Estatística
Estatística Aplicada
à Veterinária
Prof. Silvano Cesar da Costa
L O N D R I N A
Estado do Paraná - Brasil

Sumário
Página
Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x
1 Introdução 1
1.1 Aplicações da Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Planejamento de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Vantagens da amostragem sobre o censo . . . . . . . . . . . . . . . . . . . . 5
2 Amostragem 9
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Técnicas de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Amostragem simples ao acaso ou amostragem aleatória simples . . . . . . . . 10
2.2.2 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Amostragem estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Etapas de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Conceitos elementares 20
3.1 Divisão da estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Tipos de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Dimensionamento da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.1 Determinação do tamanho amostral para variáveis qualitativas . . . . . . . . 24
3.3.2 Determinação do tamanho amostral para variáveis quantitativas . . . . . . . 25

4 Estatística Descritiva 30
4.1 Organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1.1 Elementos essenciais de uma tabela . . . . . . . . . . . . . . . . . . . . . . . 30
4.1.2 Elementos complementares de uma tabela . . . . . . . . . . . . . . . . . . . 32
4.2 Distribuição de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2.1 Construção de uma distribuição de frequência de variáveis discretas . . . . . . 33
4.2.2 Construção de uma distribuição de frequência para variáveis contínuas . . . . 35
4.3 Tabelas de dupla entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5 Grácos 42
5.1 Apresentação gráca de variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . 43
5.1.1 Gráco em colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1.2 Gráco em barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.3 Gráco em colunas justapostas . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.4 Gráco em colunas compostas . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.5 Gráco em setores circulares . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.6 Gráco em setores retangulares . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Apresentação gráca de variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1 Gráco em bastão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Apresentação gráca de variáveis contínuas . . . . . . . . . . . . . . . . . . . . . . . 54
5.3.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3.2 Polígono de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.3 Gráco de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.3.1 Construção de um gráco ramo-e-folhas . . . . . . . . . . . . . . . 56
5.3.4 Gráco de Caixas (ou Box Plot ) . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.5 Gráco de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3.6 Gráco de Setores Proporcionais . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3.7 Gráco de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Ilusão dos Grácos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6 Medidas de Posição 64
6.1 Média Aritmética Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2 Média Aritmética Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.3 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.4.1 Determinação da mediana de valores não tabulados . . . . . . . . . . . . . . 70
6.4.2 Mediana de dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 72
6.5 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.5.1 Moda para dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 73
6.6 Utilização das medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . 77
6.7 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.7.1 Separatrizes de dados não agrupados . . . . . . . . . . . . . . . . . . . . . . 77
6.7.2 Separatrizes de dados agrupados . . . . . . . . . . . . . . . . . . . . . . . . 79
6.7.3 Gráco de caixa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.8 Assimetria e Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.8.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.8.2 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7 Medidas de dispersão ou variabilidade 92

7.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2 Desvio Absoluto Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.3.1 Variância de Dados Brutos Populacionais . . . . . . . . . . . . . . . . . . . . 95
7.3.2 Variância de Dados Brutos Amostrais . . . . . . . . . . . . . . . . . . . . . . 95
7.3.3 Variância de Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.3.4 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.5 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8 Análise Combinatória 107

8.1 Fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2 Princípio Fundamental da Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.3 Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.3.1 Quantidade de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.4 Arranjos e Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
8.4.1 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.4.2 Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.5 Quantidade de Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.6 Quantidade de Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
9 Noções sobre a teoria das probabilidades 121

9.1 Conceitos Básicos em Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.1.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.1.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
9.1.3 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
9.2 Conceito de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.2.1 Conceito Clássico ou a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.3 Propriedades da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.4 Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.4.1 Operações com Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.4.1.1 União de Eventos: . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.4.1.2 Interseção de Eventos: . . . . . . . . . . . . . . . . . . . . . . . . 127
9.4.1.3 Sub-Conjuntos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
9.4.1.4 Eventos Disjuntos: . . . . . . . . . . . . . . . . . . . . . . . . . . 127
9.4.1.5 Complemento: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9.4.2 Regras de Cálculo de Probabilidades . . . . . . . . . . . . . . . . . . . . . . 128
9.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.5.1 Probabilidade Condicional no Diagrama de Venn . . . . . . . . . . . . . . . . 132
9.5.2 Aplicação da Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . 133
9.5.3 Valor das Predições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
9.5.4 Probabilidade da Intersecção de Dois Eventos . . . . . . . . . . . . . . . . . 137
9.5.5 Amostragem Sem Reposição . . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.5.6 Amostragem com Reposição . . . . . . . . . . . . . . . . . . . . . . . . . . 139
9.5.7 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10 Variáveis aleatórias discretas 146

10.1 Conceitos Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
10.2 Variável Aleatória Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
10.2.1 Distribuição de uma Variável Aleatória . . . . . . . . . . . . . . . . . . . . . 148

10.2.2 Função de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
10.2.3 Valor médio ou Esperança Matemática de Y . . . . . . . . . . . . . . . . . . 150
10.2.4 Variância de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10.2.5 Distribuição acumulada de uma variável aleatória . . . . . . . . . . . . . . . 152
10.3 Principais Distribuições de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . 154
10.3.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
10.3.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
10.3.3 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
10.3.4 Aproximação da Distribuição Binomial pela Distribuição de Poisson . . . . . . 164
10.3.5 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
11 Variáveis aleatórias contínuas 172

11.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
11.1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
11.1.2 Propriedades da Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . 176
11.2 Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
11.3 Uso da Tabela da Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . . . . 180
12 Introdução à inferência estatística 191

12.1 Distribuição Amostral da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
12.2 Distribuição Amostral da Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . 198

Lista de Tabelas
Página
Tabela 1.1 - Ácido arcórbico, em mg/100 ml. . . . . . . . . . . . . . . . . . . . . . . . . 7
Tabela 2.1 - Dados sobre tilápias do Nilo, coletados por alunos do curso de Medicina Vete-
rinária da Universidade Estadual de Londrina, no ano de 2005. . . . . . . . . 11
Tabela 2.2 - Diagnósticos de radiograas de tórax . . . . . . . . . . . . . . . . . . . . . . 16
Tabela 3.1 - Dados dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade
Estadual de Londrina, do ano de 2005. . . . . . . . . . . . . . . . . . . . . . 21
Tabela 3.2 - Dados parciais coletados no Hospital Veterinária da Universidade Estadual de
Londrina, ano 2013. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Tabela 3.3 - Tamanho amostral e erro de precisão. . . . . . . . . . . . . . . . . . . . . . 28
Tabela 4.1 - Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de
Londrina (UEL), no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . . 31
Tabela 4.2 - Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual
de Londrina. Londrina - Paraná, 2002. . . . . . . . . . . . . . . . . . . . . . 32
Tabela 4.3 - Número de lhotes de cadelas submetidas a inseminação articial no Hospital
Veterinário da UEL em 2005. . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Tabela 4.4 - Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça
Holandês, segundo a classicação de Gaines (1994). . . . . . . . . . . . . . . 36
Tabela 4.5 - Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e
Pastor Alemão, coletados no Hospital Veterinário da UEL, em 2003. . . . . . 38

Tabela 4.6 - Acasalamentos fecundos e infecundos por raça. . . . . . . . . . . . . . . . . . 40
Tabela 4.7 - Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012. 41
Tabela 5.1 - Número de atendimentos no Hospital Veterinário, da Universidade Estadual de
Londrina, no primeiro semestre de 2003. . . . . . . . . . . . . . . . . . . . . 62
Tabela 6.1 - Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e
Pastor Alemão, coletados no Hospital Veterinário da Universidade Estadual de
Londrina, em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Tabela 6.2 - Efeito da temperatura de armazenamento e tempo após a ordenha sobre o
crescimento bacteriano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Tabela 6.3 - Tempo (em semanas) de sobrevida de ratos com câncer induzido experimental-
mente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Tabela 6.4 - Peso médio (kg) das leitegadas da raça Landrace, ao nascer. . . . . . . . . . 80
Tabela 6.5 - Suicídios ocorridos no Brasil em 1986, segundo a causa atribuída. . . . . . . . 89
Tabela 6.6 - Peso médio em ratos por idade. . . . . . . . . . . . . . . . . . . . . . . . . . 90
Tabela 7.1 - Pesos de cinco coelhos de quatro raças distintas. . . . . . . . . . . . . . . . . 92
Tabela 7.2 - Desvios e desvios absolutos para pesos dos animais da raça Alaska. . . . . . . 94
Tabela 7.3 - Desvios e quadrado dos desvios para pesos dos animais da raça Alaska . . . . . 96
Tabela 7.4 - Pesos das carcaças de bovinos. . . . . . . . . . . . . . . . . . . . . . . . . . 98
Tabela 7.5 - Teor de gordura (g/24 horas) em 43 crianças. . . . . . . . . . . . . . . . . . 103
Tabela 7.6 - Pesos dos frangos de uma granja. . . . . . . . . . . . . . . . . . . . . . . . . 104
Tabela 7.7 - Distribuição de frequência da dosagem de ácido úrico. . . . . . . . . . . . . . 104
Tabela 7.8 - Número de acidentes na rodovia X. . . . . . . . . . . . . . . . . . . . . . . . 105
Tabela 9.1 - Distribuição dos animais quanto ao Porte e Sexo. . . . . . . . . . . . . . . . 132
Tabela 9.2 - Esquema padrão de síntese dos dados para vericação da qualidade de um teste
clínico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
Tabela 9.3 - Resultados da tomograa computadorizada em 67 pacientes com metástase e
83 sem metástase do carcinoma hepático. . . . . . . . . . . . . . . . . . . . . 135
Tabela 9.4 - Probabilidades necessárias para o cálculo dos índices VPP e VPN. . . . . . . . 136
Tabela 10.1 - Distribuição da variável aleatória Y. . . . . . . . . . . . . . . . . . . . . . . 148
Tabela 10.2 - Distribuição da variável aleatória Y de Bernoulli. . . . . . . . . . . . . . . . . 155

Tabela 10.3 - Número de consultas realizadas pelos liados ao plano de saúde. . . . . . . . 163
Tabela 12.1 - Distribuição das Médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

Lista de Figuras
Página
Figura 5.1 - Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de
Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Figura 5.2 - Percentual de raças caninas atendidas no Hospital Veterinário da Universidade
Estadual de Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . 44
Figura 5.3 - Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Uni-
versidade Estadual de Londrina em 2011. . . . . . . . . . . . . . . . . . . . . 45
Figura 5.4 - Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de
Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 5.5 - Produção pecuária dos estados do sul do Brasil no ano de 2012. . . . . . . . 47
Figura 5.6 - Produção pecuária dos estados do sul do Brasil no ano de 2008. . . . . . . . 49
Figura 5.7 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Esta-
dual de Londrina, no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . 50
Figura 5.8 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Esta-
dual de Londrina, no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . 51
Figura 5.9 - Relação entre tolerância ao cigarro e gênero dos estudantes. . . . . . . . . . 52
Figura 5.10 - Número de lhotes de cadelas submetidas a inseminação articial no Hospital
Veterinário da UEL em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Figura 5.11 - Número de atendimentos diários, do Hospital Veterinário, da Universidade Es-
tadual de Londrina, nos últimos 50 dias. . . . . . . . . . . . . . . . . . . . . 54
Figura 5.12 - Número médio de atendimentos diários, do Hospital Veterinário, da Universidade
Estadual de Londrina, nos últimos 50 dias. . . . . . . . . . . . . . . . . . . . 55

Figura 5.13 - Comparação de pesos (g) de tilápias para quatro equipes de alunos do curso de
Medicina Veterinária da Universidade Estadual de Londrina em 2003. . . . . . 58
Figura 5.14 - Relação entre peso e comprimento de tilápias do Nilo, do tanque de piscicultura
da Universidade Estadual de Londrina, 2003. . . . . . . . . . . . . . . . . . . 59
Figura 5.15 - Relação entre peso e comprimento de tilápias do Nilo, controladas para a variável
tempo de recuperação da anestesia, do tanque de piscicultura da Universidade
Estadual de Londrina, 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Figura 5.16 - Peso médio de 10 tilápias, do tanque de piscicultura da UEL, acompanhadas
durante 8 semanas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Figura 5.17 - Gráco distorcido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Figura 5.18 - Gráco Correto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Figura 6.1 - Esquema para obtenção da moda pelo método de Czuber, do número de aten-
dimentos do Hospital Veterinário da UEL, 2005. . . . . . . . . . . . . . . . . 74
Figura 6.2 - Esboço do gráco de caixas. . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Figura 6.3 - Frequência cardíaca dos animais atendidos no Hospital Veterinário, da Univer-
sidade Estadual de Londrina, em 2003. . . . . . . . . . . . . . . . . . . . . . 83
Figura 6.4 - Frequências respiratórias dos animais atendidos no Hospital Veterinário, da Uni-
versidade Estadual de Londrina, em 2003. . . . . . . . . . . . . . . . . . . . 87
Figura 10.1 - Gráco das probabilidades de prenhez dos animais. . . . . . . . . . . . . . . . 148
Figura 10.2 - Distribuição acumulada da prenhez dos animais. . . . . . . . . . . . . . . . . 153
Figura 10.3 - Gráco da distribuição Binomial, para n = 10 ensaios com probabilidade de
sucesso p = 0, 30. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Figura 10.4 - Gráco da distribuição de Poisson, cuja média (λ) é 4,0. . . . . . . . . . . . . 161
1 3
Figura 11.1 - Gráco da função f (y) = y . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4
Figura 11.2 - Gráco da Distribuição Normal. . . . . . . . . . . . . . . . . . . . . . . . . . 176
Figura 11.3 - Probabilidade entre as áreas a e b. . . . . . . . . . . . . . . . . . . . . . . . . 176
Figura 11.4 - ±1 desvio da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Figura 11.5 - ±2 desvios da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Figura 11.6 - ±3 desvios da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Figura 11.7 - Áreas sob a curva normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Figura 11.8 - Relação entre médias e desvios da distribuição normal. . . . . . . . . . . . . . 178

Figura 11.9 - Áreas sob a curva normal padrão. . . . . . . . . . . . . . . . . . . . . . . . . 179
Capítulo 1
Introdução
A estatística, de uma forma geral, trata da organização, interpretação e apresentação de
dados, sejam de contagens ou mensurações. A palavra estatística está associada à idéia de coleção
de dados (números).
Mesmo sem serem estudiosos da área, as pessoas convivem com informações estatísticas
praticamente todos os dias, seja através de rádio, televisão, jornais ou relatórios técnicos das mais
diversas áreas.
Várias denições são dadas à estatística, entre elas:
Estatística é a arte e ciência de coletar, analisar e interpretar dados.
A estatística é uma ciência da tomada de decisão diante de incertezas.
Estatística é a ciência de fazer uso efetivo dos dados numéricos relativos aos grupos de
indivíduos ou de experimentos.
O pensamento estatístico será um dia tão necessário para o cidadão quanto a habilidade
de ler e escrever. (Wells, H. G., 1993)
A estatística preocupa-se com a compreensão do mundo real através da informação que
nós extraímos da classicação e mensuração. Sua característica distintiva é lidar com a
variabilidade e a incerteza, que estão em toda parte. (Bartholomew, 1995)
Ao conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências
médicas e biológicas, convencionou-se chamar de Bioestatística.

A Bioestatística fornece métodos para se tomar decisões ótimas na presença de incerteza,
estabelecendo faixas de conança para a ecácia dos tratamentos e vericando a inuência de fatores
de risco no aparecimento de doenças.
1
2 Capítulo 1. Introdução
1.1 Aplicações da Estatística

As aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente todo
campo de estudo se benecia da utilização de métodos estatísticos. Alguns exemplos da aplicabilidade
da estatística na Medicina Veterinária são:
Exemplo 1: Comparação do uso de rastreabilidade para suínos em grupo e individual1

Com o acréscimo da demanda do mercado consumidor nacional e internacional por pro-
dutos rastreados, urge o desenvolvimento de conhecimento sobre processos de identicação e ras-
treamento de informações na produção animal. Este trabalho teve como objetivo comparar dois tipos
de rastreabilidade em suínos: individual e de grupo, utilizando o sistema de identicação e registro de
dados eletronicamente. Os 50 leitões foram identicados ao nascer e as variáveis peso e conversão

alimentar serviram de base para comparação entre os dois sistemas. Uma amostra foi considerada
a partir do erro admissível, estabelecido pelo produtor.
Exemplo 2: Fatores de Risco Associados com a Prevalência Sorológica de Salmonela em

Granjas Comerciais de Suínos do Sul do Brasil2 .
Devido a complexa ecologia da Salmonela, estudos epidemiológicos têm sido realizados
para identicar os fatores de risco para a infecção, cuja eliminação reduzirá o número de suínos
portadores de salmonela ao abate. O presente trabalho objetivou identicar esses fatores associados
com infecção por Salmonela em granjas de suínos comerciais dos estados do Rio Grande do Sul e
Santa Catarina. A identicação da infecção foi realizada através da reação sorológica de suínos na
terminação. O estudo conduzido foi observacional transversal em 33 granjas de ciclo completo e 32
unidades de terminação de leitões nos estados do RS e SC. Em cada granja foi aplicado um questionário
que contemplava informações sobre manejo, alimentação, ambiência e condições higiênico-sanitárias
do rebanho. Foi coletado sangue de aproximadamente 40 animais uma semana antes do abate. O soro
foi submetido ao teste de Elisa polivalente para Salmonela dos sorovares Typhimurium, Choleraesuis
e Anatum. Durante a visita foram também coletadas amostras de água e ração, avaliadas quanto à
presença de coliformes pela técnica de fermentação em tubos múltiplos. A ração, além da avaliação
da granulometria, foi submetida a contagem de coliformes e pesquisa de Salmonela pela técnica
bacteriológica e por PCR. Os resultados destes exames e as respostas do questionário foram usadas
na análise de fatores de risco como variáveis explicativas (180 variáveis) e os resultados da prevalência
1
Brazilian Journal of Veterinary Research and Animal Science (2004) 41:327-331
2
Comunicado Técnico 309 - Embrapa Suínos - Concórdia, SC
Planejamento de uma pesquisa 3
sorológica constituíram a variável resposta. Inicialmente, através de teste de χ2 , foi estudada a
associação entre variáveis resposta e explicativas como análise preliminar. As variáveis explicativas
associadas com a variável resposta (p ≤ 20), foram submetidas a análise de correspondência múltipla.
Exemplo 3: Corte da cauda em leitões: estudo comparativo de dois métodos3 .

O objetivo deste trabalho foi de avaliar a inuência do corte e do esmagamento da cauda,
a nível do último terço da cauda dos leitões sobre a ocorrência de hemorragia, de diarréia, e o ganho
de peso dos leitões até os 21 dias de idade. O experimento foi conduzido no sistema de produção
de suínos da EMBRAPACNPSA, em Concórdia/SC, envolvendo um total de 251 leitões das raças
Landrace, Large White e Mestiços destas raças, distribuídos nos seguintes tratamentos: Tratamento
A (TA) corte do último terço da cauda; Tratamento B (TB) esmagamento do último terço da cauda.
O corte foi realizado com o auxílio de uma tesoura e o esmagamento com uma tesoura sem o com
os referidos bordos arredondados. O corte ou o esmagamento da cauda foi sempre realizado ao nível
do último terço da cauda, nas primeiras horas da manhã do primeiro dia de vida dos leitões, no TA,
logo após o corte o restante da cauda foi mergulhada em uma solução de iodo. Os leitões foram
examinados de hora em hora durante as primeiras 10 horas após o corte ou esmagamento da cauda
com o objetivo de vericar a ocorrência de hemorragia ou diarréia para os dois tratamento. Os animais
do TB foram examinados duas vezes ao dia com o objetivo de determinar o dia da queda da cauda.
Quanto à presença ou ausência de diarréia adotou-se os seguintes critérios: ausência de diarréia (fezes
consistentes ou pastosas); e, presença de diarréia (fezes líquidas com ou sem desidratação dos leitões).
Todos os leitões foram pesados no dia do nascimento e aos 21 dias de idade.
1.2 Planejamento de uma pesquisa

O planejamento de uma pesquisa é essencial para o desenvolvimento de trabalhos aca-
dêmicos e cientícos. Ele servirá como um roteiro para orientar o trabalho de pesquisa, denindo as
etapas a serem realizadas, os instrumentos de avaliação e a metodologia a ser usada.
O planejamento possibilita ao pesquisador seguir uma disciplina de trabalho não só refe-
rente aos procedimentos lógicos, como também em termos de organização de tempo e cumprimento
de prazos.
Alguns pontos importantes para o planejamento de uma pesquisa são:
1. Planejamento do problema:
3
Comunicado Técnico 173 - Embrapa Suínos - Concórdia, SC
a) denição da importância do problema que se pretende estudar;
b) determinação do objetivo e nalidade do estudo;
c) determinação das variáveis que serão observadas (ou coletadas) e a forma como as mesmas
serão obtidas (mensuração, contagem, questionário, etc.).
2. Avaliação da informação existente:
revisão bibliográca.
3. Formulação de hipóteses.
Em toda pesquisa, exceto naquelas meramente descritivas ou exploratórias, a formulação de
uma hipótese estatística é necessária para sua comprovação ou rejeição.
4. Vericação da hipótese:
consiste da coleta de dados, análise estatística e apresentação dos resultados.
5. Parte nal:
conclusão ou discussão, bibliograa, anexos, apêndices.
Alguns termos técnicos são bastante comuns na estatística, tais como:
a) População - dene-se como população ao conjunto de todos os elementos (animais, plantas,
pessoas, etc) que possuam pelo menos uma característica comum, a qual se deseja estudar.
Parâmetro - é uma medida numérica que descreve uma característica de uma população. São
valores xos, geralmente desconhecidos e usualmente representados por caracteres gregos.
Exemplos: µ (média populacional), σ2 (variância populacional), σ (desvio-padrão po-
pulacional), π (proporção populacional), N (tamanho populacional), etc.
b) Amostra - a amostra pode ser denida como um subconjunto da população e, a partir dela,
faz-se inferência sobre as características da população. Uma amostra tem que ser representativa
da população.
Estatística - é uma medida numérica que descreve uma característica de uma amostra.
Representada por caracteres latinos.
Exemplos: ȳ (média amostral), s2 (variância amostral), s (desvio padrão amostral), p

(proporção amostral), n (tamanho da amostra), etc.
Como exemplo, considere uma pesquisa realizada com 30 alunos do primeiro ano, do
curso de Medicina Veterinária, da Universidade Estadual de Londrina, no ano de 2013, em que a
estatura média foi de ȳ = 1, 74 m. Como essa estatura se baseia em uma amostra, trata-se de uma
estatística.
Realizou-se a mesma pesquisa com todos os alunos do primeiro ano, do curso de Me-
dicina Veterinária, da Universidade Estadual de Londrina, no ano de 2013, e a estatura média foi de
µ = 1, 75 m. Neste caso, µ é um parâmetro, pois baseia-se em toda a população de alunos do
primeiro ano do curso de Medicina Veterinária, da UEL, ano de 2013.
O aspecto a ser estudado, observado ou medido em cada elemento da população recebe o
nome de variável. São exemplos de variáveis: estatura, gênero, idade, peso, renda, grau de instrução,
número de animais eutanasiados, número de animais capturados, etc.
Não havendo condições de se trabalhar com todos os elementos da população ( censo),

retira-se uma amostra representativa ( amostragem) da população para o estudo.
1.2.1 Vantagens da amostragem sobre o censo

Um levantamento por amostragem apresenta algumas vantagens sobre o censo, tais
como:
a) custo reduzido: devido ao número de dados coletados ser menor do que o censo, o custo da
pesquisa ca reduzido;
b) tempo: quando se utiliza a amostragem ao invés do censo, gasta-se menos tempo para conclusão
do estudo, pois trabalha-se com menos elementos. Por outro lado, quando o produto é perecível,
a amostragem é a única solução;
c) aprofundamento: a pesquisa amostral pode ser mais detalhada, visto que são examinados me-
nos elementos. Portanto, uma pesquisa amostral com exames clínicos e laboratoriais pode ser
mais informativa do que realizar o censo usando como instrumento de coleta de informação um
questionário.
Algumas técnicas amostrais podem ser utilizadas para a obtenção da amostra.

Exercícios
1) Seja Y a variável tempo, em segundos, de recuperação da anestesia de tilápias, com 7 observações:
yi = {y1 − y2 − y3 − y4 − y5 − y6 − y7 } .
yi = {17, 0 − 8, 9 − 28, 7 − 20, 5 − 8, 9 − 26, 1 − 43, 9} .
Calcular (passo-a-passo):
∑
7 ∑
6
a) Soma de todos os tempos: yi ; c) yi ;
i=1 i=2
( )2
∑
5 ∑
7
b) Soma dos 5 primeiros tempos: yi ; d) Quadrado da soma: yi ;
i=1 i=1
∑
7
e) Soma de Quadrados: yi2 ;
i=1
∑
n
yi
i=1
f ) A média aritmética simples dos tempos: ȳ = ;
n
∑
7
g) Suponha a constante k = 15 e calcule k yi ;
i=1
∑
n
h) Soma dos desvios em relação a k: (yi − k);
i=1
∑
n
i) Soma dos desvios em relação à média: (yi − ȳ). O que você observa de diferente em relação
i=1
ao item anterior?
j) Demonstre algebricamente o resultado encontrado no item anterior;
k) Soma de quadrado dos desvios:

∑
n
(yi − ȳ)2 ;
i=1
l) Considerando-se ȳ como uma constante, desenvolva algebricamente o seguinte quadrado:
∑
n
(yi − ȳ)2 ;
i=1
2) Considere a variável X, tempo (s) de indução da anestesia, para as mesmas 7 tilápias, respecti-
vamente:
xi = {165 − 183 − 161 − 147 − 146 − 152 − 174}
Calcule:
∑
n ∑
n ∑
n
a) xi yi ; b) xi yi ;
i=1 i=1 i=1
3) As quantidades de ácido ascórbico, em miligramas por 100 mililitros, presentes em 80 exames
químicos de plasma humano, estão indicadas na Tabela 1.1:
Tabela 1.1 Ácido arcórbico, em mg/100 ml.
Ácido ascórbico (em mg/100ml) Frequências (fi ) Ponto Médio (xi )

0, 0 ⊢ 0, 2 3 0,1
0, 2 ⊢ 0, 4 6 0,3
0, 4 ⊢ 0, 6 18 0,5
0, 6 ⊢ 0, 8 35 0,7
0, 8 ⊢ 1, 0 16 0,9
1, 0 ⊢ 1, 2 2 1,1
Total 80 80
Determine:
( k )2
∑
k
∑
a) fi , i = 1, 2, . . . , 6; c) xi fi , i = 1, 2, . . . , 6;
i=1 i=1
∑
k ∑
k
b) xi fi , i = 1, 2, . . . , 6; d) x2i fi ;
i=1 i=1
∑
k
xi fi
i=1
e) , i = 1, 2, . . . , 6. Que medida você encontrou?
∑k
fi
i=1
 ( )2 
∑
k
 k xi fi 
1 
∑ 2 i=1


f) V =  xi fi − , i = 1, 2, . . . , 6;
n−1 ∑k 
 i=1
fi 
i=1
“Nem sempre podemos construir o futuro para nossa

juventude, mas podemos construir nossa juventude
para o futuro.”
Capítulo 2
Amostragem
2.1 Introdução
Usualmente trabalha-se com apenas uma amostra da população. Em geral, seleciona-
se uma amostra (ou parte) da população em estudo e, a partir dela, tabula-se a característica (ou
variável) que está sendo avaliada. Esta característica pode ser o peso de cães, a raça dos felinos,
se o animal é vacinado ou não, gastos com medicamentos ou quaisquer outras características. A
partir dos resultados obtidos na amostra, o pesquisador deverá estendê-los para toda a população,
estabelecendo inclusive as margens de erro e acerto nas previsões.
A realização do censo não garante que a pesquisa esteja livre de erros. Os erros de coleta
e manuseio de um grande número de dados, em geral, são maiores do que as imprecisões a que se
está sujeito quando generaliza-se, via inferência, as conclusões de uma amostra bem selecionada.
Para que se possa fazer inferências válidas sobre a população, a partir de uma amostra,
é necessário que esta seja representativa da população. Não é tarefa simples denir uma amostra
representativa da população e, por isso, uma forma de se conseguir essa representatividade é fazer com
que o processo de escolha da amostra seja, de alguma forma, aleatório, introduzindo desta maneira o
conceito de amostra probabilística, conforme discutido em Bolfarine & Bussab, 2005.
Denida a população, é preciso estabelecer a técnica de amostragem, isto é, o proce-

dimento que será adotado para escolher os elementos que irão compor a amostra.
9
10 Capítulo 2. Amostragem
2.2 Técnicas de Amostragem

Os tipos de amostragem que serão apresentados são probabilísticos sendo que sua prin-
cipal característica é poder ser submetido a tratamento estatístico, o que permite compensar erros
amostrais. A amostragem é não probabilística quando alguns elementos da população não tem chance
de pertencer a amostra, como por exemplo, amostras intencionais, a esmo ou de voluntários.
2.2.1 Amostragem simples ao acaso ou amostragem aleatória simples

É um método de selecionar, sem reposição, n elementos de uma população de
tamanho N, conhecido e nito, em que todo elemento da população tem igual probabilidade de
ser escolhido para a amostra, sendo cuidadosamente planejada para se evitar qualquer tendenciosidade.
Processo de coleta: Todos os N elementos da população devem ser enumerados. Sorteia-se, então,
n elementos para compor a amostra. Este sorteio pode ser feito com o auxílio de uma tabela de
números aleatórios, com a utilização de algum programa computacional ou utilizando-se uma urna
que recebe os números de 1 a N. Os elementos correspondentes aos números escolhidos irão compor
a amostra.
Utilização: Este tipo de amostragem é utilizado quando a população for considerada homogênea.
Exemplo 1: Proceder a um sorteio, em sala de aula, com 45 alunos, para compor uma amostra de
tamanho 5.
Solução:
Para selecionar a amostra usando o R, basta utilizar o comando:

sala = 1:45
sample(sala, 5, replace=F)
# ou, simplesmente,
sample(45, 5, replace=F)
Técnicas de Amostragem 11
Obs.: a opção replace=F quer dizer que um aluno sorteado não poderá ser sorteado novamente, ou
seja, a amostragem que está sendo realizada é sem reposição. Caso se proceda a uma amostragem
com reposição, basta trocar o F (false ) por T (true ): replace=T.
Exemplo 2: Considere um conjunto de dados com muitas variáveis e muitos indivíduos e se queira
retirar uma amostra desse conjunto para um estudo, como apresentado na Tabela 2.1 .
1
Tabela 2.1 Dados sobre tilápias do Nilo, coletados por alunos do curso de Medicina Veterinária da
Universidade Estadual de Londrina, no ano de 2005.
Tilápia Turma Equipe Indução Peso Comp Alt Comp_cabeça Recup
1 2000 2021 165 408,5 29,0 7,3 7,8 17,0
2 2000 2021 183 400,0 29,5 9,0 7,3 8,9
3 2000 2021 161 397,2 29,3 8,7 8,0 28,7
4 2000 2021 108 431,6 29,5 9,1 7,6 115,0
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
500 2000 2021 147 309,4 25,8 8,1 6,7 20,5
As variáveis Indução (tempo para anestesiar a tilápia) e Recup (tempo para se recuperar
da anestesia) são dadas em segundos; A variável Peso é dada em gramas; Já as variáveis Comp
(comprimento), Alt (altura) e Comp_cabeça (comprimento da cabeça) são dadas em centímetros.
Pode-se pensar, neste caso, em duas situações em que a amostragem simples ao acaso é utilizada.
I. No primeiro caso, em que uma amostra será retirada para uma variável especíca, a progra-
mação no R ca exatamente como no Exemplo 1, ou seja, para se retirar uma amostra aleatória
de tamanho 15 para a variável comprimento (cm), tem-se
dados = read.table(`http://www.uel.br/pessoal/silvano/Dados/Tilapia.txt',
dec=`,', head=T)
attach(dados)
names(dados)
(amostra = sample(Comp, 15, replace=F))
1
Disponível em: http://www.uel.br/pessoal/silvano/Dados/Veter/Tilapia.txt, com apenas 40 indivíduos.
II. No segundo caso, o objetivo é retirar uma amostra de indivíduos, sendo que cada indivíduo
manterá os valores observados de cada variável. Neste caso, é necessário carregar o pacote car.
Os comandos são:
require(car)
(saida = some(dados, n=15, replace=FALSE))
2.2.2 Amostragem sistemática

Os elementos são escolhidos utilizando-se algum tipo de sistema. Um professor,
utilizando-se de sua lista de chamada, poderia compor uma amostra chamando todos os alunos cujo
número na pauta terminasse em um determinado digito. Assim, o professor chamaria para compor
sua amostra, por exemplo, todos os alunos com números terminados em zero, ou seja, os números
10, 20, 30, 40 e assim por diante.
Esta amostragem é utilizada quando a população está naturalmente ordenada, como
chas em um chário, listas telefônicas, quando os elementos da população são prédios de uma rua,
etc.
Suponha que a administração da UEL quisesse fazer uma pesquisa com seus 13.000
alunos. Neste caso, poderia-se obter uma relação completa dos mesmos e selecionar um a cada 50
para compor a amostra. Esse método é simples e utilizado com frequência.
Processo de coleta: seja N o tamanho da população e n o tamanho da amostra, então calcula-se

N
o intervalo de amostragem k= . Sorteia-se um número x entre 1 e k, formando a amostra dos
n
elementos correspondentes aos números: x, x + k, x + 2k, . . ..
Utilização: Este tipo de amostragem é utilizado quando a população está naturalmente ordenada.
Exemplo: Considere a população formada pelos 400 alunos do curso de Medicina Veterinária da
Universidade Estadual de Londrina, no ano de 2014. O Colegiado do Curso decide realizar uma
pesquisa para saber o grau de conhecimento dos alunos quanto à prossão escolhida. Dispõe-se de
uma lista, em ordem alfabética, de todos os alunos. Uma amostra de 50 estudantes será selecionada.
Proceda à escolha desta amostra.

Solução:
Para selecionar a amostra usando o R, basta utilizar o comando:

n = 50 ; N = 400 ; k = N/n
(amostra = sample(k, 1))
(amostras = seq(amostra, N, k))
2.2.3 Amostragem estraticada
Se uma população é considerada heterogênea em relação ao atributo que se quer pes-
quisar, mas é possível distinguir sub-populações mais ou menos homogêneas, deve-se utilizar a amos-
tragem estraticada.
Por exemplo, se os alunos dos vários cursos da UEL são diferentes em relação ao atributo
a ser pesquisado, pode-se considerar cada curso como um estrato. Para obter uma amostra dos
alunos da UEL, seria razoável obter uma amostra dentro de cada curso e depois reunir as informações
numa única amostra, que seria representativa dos alunos da UEL.
Processo de coleta: deve-se dividir as N unidades da população em N1 , N2 , . . . , Nj estratos
disjuntos e homogêneos e selecionar, ao acaso, amostras de tamanhos n1 , n2 , . . . , nj , de modo que
o tamanho da amostra seja n = n1 + n2 + . . . + nj .

O tipo de amostragem estraticada mais comum é a proporcional, que consiste em
selecionar os elementos de uma amostra entre os vários estratos em número proporcional ao tamanho
de cada um dos estratos.
Procedimento:
n
1) calcular a fração de amostragem dada por: f= ;
N
2) calcular o número de elementos a ser sorteado em cada estrato:
n1 = N 1 f ; n2 = N2 f ; . . .; nj = Nj f
sendo:
N (número de elementos da população);
Nj (número de elementos do estrato j );
n (tamanho da amostra a ser selecionada).
Exemplo 1: Deve-se extrair uma amostra de tamanho n = 80 de uma população de tamanho
N = 2.000, que consiste de 4 estratos de tamanhos N1 = 500, N2 = 1.200, N3 = 200 e
N4 = 100. Se a alocação deve ser proporcional, qual o tamanho da amostra a ser extraída de cada
um dos quatro estratos?
Solução:
Os comandos do R são:
n = 80 ; N1 = 500 ; N2 = 1200 ; N3 = 200 ; N4 = 100

N = N1 + N2 + N3 + N4 ; f = n / N
n1 = f*N1 ; n2 = f*N2 ; n3 = f*N3 ; n4 = f*N4
(amostras = cbind(n1, n2, n3, n4))
(amostra.1 = sample(N1, n1, replace=F))
Exemplo 2: Considere o conjunto de dados tilápia, que tem 4 estratos (Equipes: 1011, 1012, 2021,
2022), e o objetivo é retirar uma amostra de tamanho 5 para cada extrato da variável comprimento
(Comp). Os comandos são

dados = read.table(`http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt',
dec=`,', head=T)
attach(dados)
names(dados)
(Amostras = tapply(Comp, Equipe, sample, size=5))
Caso o número de amostras dentro de cada estrato seja diferente, pode-se utilizar o pacote sampling,
em que é possível determinar se as amostras retiradas dentro de cada estrato serão do tipo:
I amostragem aleatória simples
require(sampling)
amost.estrat.simples = strata(dados, c(`Èquipe"), size = c(5, 7, 3, 4),
method = ``srswor")
(amostras.est.simples = getdata(dados, amost.estrat.simples))
Observe a coluna Stratum, no arquivo de saída do R.

I amostragem sistemática
amost.estrat.sist = strata(dados, c(`Èquipe"), size = c(5, 7, 3, 4),

method = ``systematic", pik=Equipe)
(amostras.est.sist = getdata(dados, amost.estrat.sist))
Pode-se citar, ainda, a amostragem por conglomerado e a amostragem por conveniência.
Não importa quão bem se planeje e execute o processo de coleta de amostras, há sempre
a possibilidade de um erro nos resultados.
Erro amostral: é a diferença entre um resultado amostral e o verdadeiro resultado populacional.
Tais erros resultam de utuações amostrais aleatórias.
Exemplo: escolha aleatoriamente 50 chas de cães da raça Poodle atendidos no Hospital Veterinário
da UEL e verique o peso médio (kg ) desses animais. Retirada uma outra amostra de 50 animais, é
provável que se obtenha um peso médio (kg ) diferente.
Ocorre um erro não amostral quando os dados amostrais são coletados, registrados ou analisados
incorretamente. Tais problemas resultam em um erro que não seja uma simples utuação amostral
aleatória, como por exemplo, a escolha de uma amostra não aleatória e tendenciosa, a utilização de
um instrumento de mensuração defeituoso, uma questão formulada de modo tendencioso, um grande
número de recusas de resposta ou a cópia incorreta dos dados amostrais.
Muitos desses erros são provenientes do próprio observador, devido ao grau de treina-
mento (experiência), o excesso de trabalho, seu estado físico e/ou condições ambientais.
Como exemplo, cita-se o caso de cinco radiologistas que examinaram, em diferentes
épocas, separadas por um período de dois meses, as mesmas 1.200 radiograas de tórax, com a
nalidade de diagnosticar a existência de tuberculose pulmonar. As radiograas de tamanho-padrão
foram lidas separadamente por cada radiologista e os resultados se encontram na Tabela 2.2.
Tabela 2.2 Diagnósticos de radiograas de tórax.
Número de radiograas consideradas positivas

Radiologista
1a Leitura 2a Leitura
A 118 139
B 69 78
C 83 88
D 96 89
E 106 92
Deve-se concluir que tais discordâncias não reetem uma variação real e sim, erros co-
metidos por quem procedeu à leitura do material radiográco.
2.3 Etapas de uma pesquisa

Considerando-se que as fases do planejamento foram seguidas, deve-se levar em conside-
ração algumas etapas para que a validação da hipótese possa ser aceita. Essas etapas são relativas
aos dados propriamente, como a unidade de medida, a unidade amostral, dentre outras. Essas etapas
são:
a) população - a população a ser trabalhada deve ser bem denida, identicando-se corretamente
Etapas de uma pesquisa 17
os seus elementos para que a amostra coletada represente os dados da população;
b) dados a serem coletados - ao se efetuar a coleta dos dados é importante vericar se todos esses
dados serão importantes para os propósitos da pesquisa, e se nenhum dado essencial está sendo
omitido;
c) métodos de medidas - antes de se coletar os dados é necessário e importante que a metodologia

de sua coleta seja estruturada. Deve-se decidir preliminarmente se os dados serão coletados por
chas, por declaração de entrevistados, por telefone, por respostas a um questionário, etc. Em
qualquer das alternativas, há necessidade de um perfeito treinamento em toda a equipe de trabalho,
a m de que haja um critério único de registro;
d) unidade de amostragem - se a pesquisa for realizada através de levantamento por amostragem,

deve-se denir qual é a unidade de amostragem, que pode ser: uma pessoa, uma família, uma
empresa, um quarteirão, uma planta, um animal, etc.;
e) escolha do tipo de amostragem - de acordo com o objetivo da pesquisa e do tipo de popula-
ção, deve-se escolher a melhor técnica para selecionar a amostra: amostragem simples ao acaso,
amostragem estraticada, etc.;
f) vericação preliminar - a vericação preliminar não pode faltar em qualquer pesquisa. Deve-se
testar em uma pequena parte da população as seguintes características: se a técnica a ser utilizada
para a coleta é a melhor possível; se a forma escolhida de registro das informações não deve ser
alterada; se os coletores estão bem treinados, enm deve-se vericar a eciência da metodologia
a ser empregada;
g) análise dos dados - apurados os resultados, os mesmos devem ser analisados estatisticamente. Os
dados podem ser apresentados em forma de tabelas ou grácos. Podem ser calculadas algumas
medidas, alguns testes estatísticos e realizadas algumas inferências. Após a análise cuidadosa,
deve-se elaborar um relatório completo contendo os objetivos da pesquisa, a metodologia utilizada,
a análise de todos os resultados, suas conclusões, a bibliograa e, se necessário os anexos, como
por exemplo, cópia do questionário.

Exercícios
1) Um pesquisador está interessado em avaliar o Peso (kg ) de animais domésticos das espécies
caninas e felinas, não importando a raça. Para isso, ele dispõe de uma lista de dados, disponível
em http://www.uel.br/pessoal/silvano/Veter/Dados/HV.txt, com a relação dos animais
atendidos no Hospital Veterinário da Universidade Estadual de Londrina, durante um certo período.
(a) Retire uma amostra aleatória de 25 animais. Explique o processo de seleção. Quantos são
da espécie canina e felina?
(b) É importante para o pesquisador coletar amostras de cada espécie. Sendo assim, que tipo
de amostragem ele deve utilizar?
(c) Considerando o item 1b, retire uma amostra de tamanho 20 para a espécie canina e de
tamanho 5 para a espécie felina. Relacione as amostras retiradas. Qual o peso médio dos
dados? E para cada um dos estratos?
2) A enumeração dos prontuários de animais atendidos pelo Hospital Veterinário da Universidade
Estadual de Londrina é reiniciada sempre no primeiro dia útil de cada ano. Assim, o prontuário do
primeiro animal atendido no ano de 2014 recebeu o número 1 e, assim, sucessivamente. No ano
de 2013, foram 3.756 novos prontuários. Uma pesquisa de satisfação com os proprietários cujos
animais foram atendidos em 2013 será realizada. Para isto, uma amostra de 300 proprietários será
estudada. Que tipo de amostragem você usaria e porquê? Enumere a amostra coletada.
3) Um hematologista deseja fazer uma nova vericação de uma amostra de tamanho 10 dos 854
espécimes de sangue analisados por um laboratório em determinado mês. Para isto, ele cria uma
estrutura amostral numerando como 001, 002, ..., 854. Use a tabela de números aleatórios ou
calculadora para escolher que espécimes de sangue serão selecionados? Explique como escolheu
os números da tabela aleatória.
4) Deve-se retirar uma amostra estraticada de tamanho n = 60 de uma população de tamanho
4.000, que consiste de 3 estratos de tamanhos N1 = 2.000, N2 = 1.200, N3 = 800. Para que a
alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato?
Etapas de uma pesquisa 19
5) Deseja-se realizar um estudo, junto à comunidade universitária da Universidade Estadual de Lon-
drina, quanto à posse e cuidado com os animais domésticos. Explique de que forma você planejaria
esta pesquisa. Também, elabore 10 questões relativas ao assunto que será pesquisado.
“Nem tudo o que pode ser contado conta, e nem tudo

que conta pode ser contado.”
(George Gallup).
Capítulo 3
Conceitos elementares
3.1 Divisão da estatística
A estatística é uma ciência dividida basicamente em duas partes:
estatística descritiva - descreve e analisa determinada população (ou amostra), sem pretender tirar
conclusões; de caráter mais genérico. Os elementos básicos para essa análise são: tabelas,
grácos e medidas numéricas como a média, moda e mediana.
estatística indutiva ou inferência estatística - preocupa-se com a análise e interpretação dos da-
dos experimentais, e tem como objetivo tirar conclusões sobre populações com base nos resul-
tados observados em amostras extraídas dessas populações.
Tanto a estatística descritiva quanto a indutiva são realizadas em função da coleta de
dados, sejam populacionais ou amostrais. A questão então é: como obter os dados estatísticos? Que
tipo de variáveis são obtidas?
Em relação a primeira questão, eles podem ser obtidos através de: coleta documental,
entrevista, questionário, formulário, observação, experimento, etc. É importante que a obtenção dos
dados seja realizada utilizando-se da metodologia apresentada no Capítulo 2.
Os tipos de variáveis encontradas dependerão, obviamente, do tipo de estudo realizado.
A classicação dos tipos de variáveis passíveis de serem encontradas são descritos na seção 3.2.
20
Tipos de variáveis 21
3.2 Tipos de variáveis

Em estatística é usual a manipulação de grandes conjuntos de dados, que constituem a
matéria-prima das pesquisas estatísticas. Para simplicar seu manuseio, costuma-se representá-los
através de variáveis, usando-se as expressões variáveis qualitativas e variáveis quantitativas para

distingui-los.
Exemplo: Foi elaborado um questionário com 34 questões para se traçar o perl dos alunos do 1o
ano do curso de Medicina Veterinária, da Universidade Estadual de Londrina, no ano de 2005. As
variáveis analisadas, entre outras, são apresentadas na Tabela 3.1.
Tabela 3.1 Dados dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade Estadual
de Londrina, do ano de 2005.
Número de Grau de
Aluno Gênero Procedência Estatura (m)
irmãos instrução dos pais
1 Masculino Londrina 1 1,73 Superior incompleto
2 Masculino Londrina 0 1,71 Segundo grau
3 Feminino Campinas 3 1,65 Superior completo

. . . . . .
. . . . . .
. . . . . .
27 Feminino São Paulo 1 1,68 Primeiro grau
28 Masculino Londrina 2 1,76 Primeiro grau
29 Feminino Arapongas 2 1,58 Superior completo
Algumas respostas são numéricas e outras em forma de atributo ou qualidade. Assim,
pode-se classicar as variáveis como:
1. Variáveis categóricas (ou qualitativas) - apresentam como possíveis realizações uma quali-
dade (ou atributo) do indivíduo pesquisado. O número de categorias pode depender do interesse
do estudo. Elas se dividem em:
a) variáveis categóricas nominais - É caracterizado por dados que consistem apenas em
nomes, rótulos ou categorias, não existindo nenhuma ordenação nos possíveis resultados.
Exemplo: Gênero dos estudantes, estado civil, tipo sanguíneo, cor dos olhos, cor dos
cabelos, raça, respostas do tipo sim, não, etc.

22 Capítulo 3. Conceitos elementares
b) variáveis categóricas ordinais - os dados possuem uma ordenação natural.

Exemplo: Grau de instrução (Ensino Fundamental, Ensino Médio, Ensino Superior), classe
social (alta, média, baixa), pressão sanguínea (baixa, normal, alta), etc.
2. Variáveis numéricas (ou quantitativas) - apresentam como possíveis realizações, números
resultantes de uma contagem ou mensuração (medida). Elas se dividem em:
a) variáveis numéricas discretas - são aquelas que assumem valores em pontos da reta real,
frequentemente resultam de uma contagem e não possuem unidade de medida.
Exemplo: Número de lhotes, número de animais eutanasiados, número de pulgões em
plantas, número de animais hidratados, número de bactérias em uma lâmina, número de
consultas médicas em um determinado período, número de erros em um livro, número de
acidentes, etc.
b) variáveis numéricas contínuas - os possíveis resultados podem assumir, teoricamente,
qualquer valor em certo intervalo da reta real, normalmente resultam de uma mensuração e
apresentam unidade de medida.
Exemplo: Estatura, salário, idade, peso, pressão sanguínea, temperatura, taxa de colesterol,
etc.
A importância dessa classicação justica-se porque cada tipo de variável resposta exige
um método de análise estatística especíco. Esquematicamente, tem-se:
3
hhhh Nominal
hh hhhhh
hh
hhhh
hhhh
Qualitativas V
q8 VVVV
qq VVVV
qqq VVVV
qq VVVV
qq VVV+
qqq
qq
qqq
Ordinal
qq
qqq
qqq
Variáveis MMM
MMM
MMM
MMM
MMM
3
MMM hhhh Discreta
MMM
hh hhhhh
MMM hh
MM& hhhh
hhhh
Quantitativas
VVVV
VVVV
VVVV
VVVV
VVV+
Contínua
Dimensionamento da amostra 23
De acordo com Ogliari e Andrade (2005),
A distinção entre variáveis contínuas e discretas é muitas vezes articial, pois depende
da aproximação (precisão) utilizada. Por exemplo, idade é uma variável de medida de
tempo, portanto, por denição, é uma variável aleatória contínua, porém, em muitos
casos ela é medida em anos completos (discretização da variável), o que a torna uma
variável discreta.
Portanto, poderá ocorrer situações em que uma variável contínua será tratada como uma
variável discreta.
3.3 Dimensionamento da amostra

É muito comum ao pesquisador indagar sobre o número de elementos para uma amostra
quando pretende realizar uma pesquisa de campo, laboratório ou um simples levantamento.
A determinação do tamanho da amostra depende de alguns fatores:
a) Tamanho da população-alvo - quanto ao número de elementos que a compõe, pode-se classicar

em nitas e innitas. Na obtenção do tamanho amostral será importante esta informação.
b) Variância ou percentual - em alguns estudos são empregadas características que apresentam
determinada variabilidade. Em outros casos, observa-se a porcentagem de certas características
em um conjunto. Dependendo do tipo de pesquisa, usa-se a variância ou a porcentagem.
c) Nível de conança - deve-se imaginar que, ao se apresentar um valor percentual, referente à taxa
de prevalência do fenômeno estudado na amostra observada, esse valor tem, em relação ao valor
percentual da população, uma diferença, que é, a priori, arbitrada pelo pesquisador. Esta diferença
arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95%
ou 99% de conança, ou seja, o nível de conança de que a diferença arbitrada realmente ocorra
até o limite de diferença proposto.
Os níveis de conança propostos rotineiramente são de 95% e 99% de conança. Simbolizado
pela letra Z, este valor é substituído na fórmula (3.1) por uma constante 1, 96 quando o nível de
conança corresponde a 95% e por 2, 58 quando o nível de conança é de 99%.
d) Informação de literatura - toda pesquisa a realizar, em que o objetivo é a taxa de prevalência
de certo fenômeno, apresenta, na literatura, resultados que se pode utilizar para a determinação
do valor de n em relação ao valor de π. Chama-se 1−π ao valor complementar de π para 100%,

ou seja, π + (1 − π) = 100%.
Quando na literatura de referência não se encontra o valor de π, considera-se este igual a 50%,
consequentemente 1 − π = 50%.
e) Erro de amostragem ou precisão - ao proceder-se às técnicas de amostragem para determinação

do tamanho amostral (n), entende-se que a amostra obtida representará um determinado valor
para a taxa de prevalência de certo evento. Normalmente é esperada uma diferença em relação à
taxa de prevalência da população-alvo. A esta diferença chama-se erro de amostragem ou precisão,
a qual, geralmente, é arbitrada pelo pesquisador.
3.3.1 Determinação do tamanho amostral para variáveis qualitativas
Quando se dispõe de variáveis nominais ou ordinais, utiliza-se as seguintes fórmulas:
z 2 π(1 − π)
n0 = (3.1)
(π − p)2
n0
n= n0 (3.2)
1+
N
em que:
,→ n0 : amostra inicial;
,→ z : nível de conança;
,→ π : valor obtido de trabalhos anteriores (literatura);
,→ N : tamanho da população;
,→ ϵ = π − p: é o erro de precisão arbitrado pelo pesquisador.
Em populações nitas são utilizadas as fórmulas (3.1) e (3.2). Para populações
innitas, apenas a fórmula (3.1) deve ser utilizada.

Exemplo: Com o objetivo de se vericar a incidência de listeriose

1 em uma população de certa
região, determine o tamanho da amostra, considerando-se N = 40.000. Para este caso, considere
uma prevalência (π) de 2%, z = 1, 96 e um erro de precisão de 4%.

Solução:
3.3.2 Determinação do tamanho amostral para variáveis quantitativas
Para variáveis quantitativas, tem-se:
z2 σ2
n0 = (3.3)
ϵ2
n0
n= n0 (3.4)
1+
N
sendo:
,→ σ 2 a variância obtida de trabalhos anteriores.
,→ ϵ = µ − x̄: é o erro de precisão arbitrado pelo pesquisador.
1
Doença rara, mas muito grave, causada, usualmente, pelo consumo de alimentos contaminados com a bactéria
Listeria monocytogenes.
Obs.: Caso não se disponha de σ 2 (variância populacional), realiza-se uma pré-amostragem, retirando-
se, por exemplo, 30 observações da população e calcula-se o desvio padrão da característica a estudar;
Para populações nitas, utilizam-se as fórmulas (3.3) e (3.4) e, para populações innitas,
apenas a fórmula (3.3) é utilizada.
Exemplo: Numa pesquisa para se determinar a taxa média do teor de hemoglobina em fêmeas bovinas
da raça Aquitânica, com idade acima de 12 meses, depara-se com o problema de denir-se o tamanho
da amostra. Sem informações a priori, seleciona-se uma amostra de 30 animais e determina-se o valor
do teor de hemoglobina de cada animal e, a seguir, calcula-se a variância (capítulo 7), cujo valor, por
exemplo, é de 1, 72 (g/dl)2 . Determine o tamanho da amostra, considerando-se z = 1, 96 e uma
precisão de 0, 15 g/dl.
Solução:
Exercícios
1) Classique cada uma das variáveis apresentadas na Tabela 3.2 em qualitativa (nominal ou ordinal)
ou quantitativa (discreta ou contínua).
Tabela 3.2 Dados parciais coletados no Hospital Veterinária da Universidade Estadual de Londrina,
ano 2013.
Sexo Castrado Espécie Peso (kg ) Cidade Irmãos EN TR FC FR
M Não Canina 20,0 Londrina 2 Magro 38,3 124 .
M Não Canina 20,0 Londrina 4 Normal . 28 .
M Não Canina 13,0 Londrina 3 Normal 39,5 100 80
F Não Canina 2,5 Londrina 3 Magro 35,1 132 .
F Não Canina 11,2 Londrina 3 Magro 38,9 144 120
F Não Canina 11,0 Cambé 2 Magro 39,2 100 40
F Não Canina 10,2 Londrina 3 Normal 38,4 208 .
F Não Canina 10,2 Londrina 2 Caquético 39,5 100 32
F Não Canina 10,0 Londrina 3 Normal 39,6 96 32
F Não Canina 10,0 Cambé 2 Obeso 39,7 156 36
M Não Felina 3,3 Cambé 4 Normal 39,0 220 48
F Sim Felina 2,2 Londrina 2 Normal 39,6 . 72
F Não Felina 3,5 Londrina 2 Normal 39,4 208 64
F Sim Felina 2,7 Londrina 2 Magro 39,2 126 28
M Não Felina 6,5 Londrina 8 Magro 38,6 220 0
M Não Felina 6,5 Londrina 8 Normal 38,9 184 60
M Sim Felina 5,4 Londrina 2 Magro 38,8 168 32
M Não Felina 5,3 Londrina 8 . 38,2 176 68
M Não Felina 4,5 Londrina 2 Magro 38,2 148 60
M Não Felina 3,1 Cambé 3 Obeso 39,7 200 40
F Não Felina 2,9 Rolândia . Normal 36,5 172 88
F Não Felina . Londrina 4 Normal 37,5 120 56
Considere: TR - temperatura retal (

◦ C ); FC - frequência cardíaca (bpm); FR - frequência respi-
ratória (mpm); EN - estado nutricional.

z2 σ2 n0
2) Considerando-se as equações n0 = e n= n0 para determinação do tamanho amostral
ϵ2 1+
N
para variáveis quantitativas, mostre passo-a-passo, que o tamanho amostral para população innita
pode ser expresso pela seguinte equação:
N
N ( ε )2
n= ,
1+ 2
σ z
em que ε representa o erro de precisão.
3) Fixe z = 1, 96, s2 = 4 e considere a população innita. Complete a Tabela 3.3 do tamanho
amostral (n0 ) em função do erro de precisão (ε).
Tabela 3.3 Tamanho amostral e erro de precisão.
ε = µ − x̄ n0
3,0
2,0
1,5
1,0
0,5
0,1
0,01
O que você pode observar da relação acima?
4) Considere os seguintes valores: π = 0, 3 e z = 1, 96. O pesquisador só poderá, por problemas
nanceiros, coletar 100 amostras. Qual o erro de precisão desse experimento? Demonstre os
cálculos passo-a-passo.
5) Refaça o item anterior, considerando-se uma população de tamanho N = 1.000.
6) Um pesquisador está interessado em avaliar a temperatura retal (TR, em grau Celsius) de ani-
mais domésticos das espécies caninas e felinas, não importando a raça. Sabe-se, de estudos
anteriores, que a variância da temperatura retal nestas duas espécies é de aproximadamente
1, 1513 o C 2 . Para isso, ele dispõe de uma lista com a relação dos animais atendidos no Hos-
pital Veterinária da Universidade Estadual de Londrina, durante um certo período, disponível em
http://www.uel.br/pessoal/silvano/Veter/Dados/HV.txt.
a) Considerando-se z = 1, 96 e um erro de precisão de 0, 3 o C , quantas amostras são necessárias
para a realização do estudo?
b) É importante para o pesquisador coletar amostras de cada espécie. Sendo assim, que tipo de
amostragem ele deve utilizar?
c) Relacione as amostras retiradas. Qual a temperatura retal média dos dados? E para cada um
dos estratos?
7) Suponha que um pesquisador tenha diversas gaiolas que contenham, cada uma, 6 ratos. Qual é a
maneira de selecionar 2 ratos de cada gaiola, para uma amostra?
8) Dada uma população de 8 elementos, estabeleça três formas distintas de se obter uma amostra
sistemática de 4 elementos.
9) Um hematologista deseja fazer uma nova vericação de uma amostra de tamanho 10 dos 854
espécimes de sangue analisados por um laboratório médico em determinado mês. Para isto,
ele cria uma estrutura amostral numerando como 001, 002, . . . , 854. Use a tabela de números
aleatórios ou a calculadora para escolher que espécimes de sangue serão selecionados? Explique
como selecionou a amostra.
10) Deve-se retirar uma amostra estraticada de tamanho n = 60 de uma população de tamanho
4.000, que consiste de 3 estratos de tamanhos N1 = 2.000, N2 = 1.200, N3 = 800. Para que a
alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato?
11) Os empregados de um hospital têm etiquetas de identicação numeradas consecutivamente de 101

a 563. Deve-se escolher um comitê de 10 pessoas, selecionadas aleatoriamente. Use a tabela de
números aleatórios para escolher os números das etiquetas. Explique como escolheu os números
da tabela aleatória.
“Quando todos pensam igual, é porque

ninguém está pensando.”
(Walt Lippman).
Capítulo 4
Estatística Descritiva
4.1 Organização e apresentação de dados

A apresentação de dados na forma de tabela é um dos métodos estatísticos mais simples
e utilizado. Uma tabela estatística consegue expor os resultados de determinada pesquisa ou parte
dela, sinteticamente, em que se tem uma visão mais clara e fácil dos resultados obtidos. Ao dispor
os dados em linhas e colunas, distribuídos de forma ordenada, segundo regras estabelecidas, tem-se
as tabelas estatísticas.
4.1.1 Elementos essenciais de uma tabela

O objetivo de se construir tabelas é obter uma visão geral do que ocorre com os dados
observados, condensando as informações. Os elementos essenciais de uma tabela são:
a) Título: é uma indicação que precede a tabela estatística e que contém a designação do fenômeno
observado, o local e a época em que ocorreu;
b) Cabeçalho: colocado na parte superior da tabela, tem por nalidade especicar o conteúdo das
colunas;
c) Corpo: corresponde ao conjunto de colunas e de linhas que contêm, respectivamente, em ordem
vertical e horizontal, informações sobre o fenômeno estudado. Chama-se casa (ou casela) ao
cruzamento de uma coluna com uma linha. As casas nunca deverão car em branco, contendo
sempre um número ou um sinal convencional:
i) (traço), quando o dado não existe;
30
Organização e apresentação de dados 31
ii) ... (três pontos), quando a informação existe mas não está disponível;
iii) 0 (zero), quando o valor numérico for menor que a metade da unidade de medida adotada
para expressar os dados;
iv) X (letra x), quando o dado for omitido a m de evitar a individualização das informações, nos
casos onde existe apenas um ou dois informantes.
d) Coluna indicadora: é a parte da tabela que tem por nalidade especicar o que contêm as linhas;
Toda tabela deverá ter identicação feita com algarismos arábicos, de modo crescente,
precedidos da palavra Tabela, podendo ser subordinada ou não a capítulos ou seções de um docu-
mento.
A Tabela 4.1 é um exemplo sobre a maneira de se resumir e apresentar dados coletados,
relativos à uma pesquisa ou experimento.
Tabela 4.1 Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de Londrina
(UEL), no ano de 2005.
Categoria dos animais Frequências
Pequeno porte 20.650
Médio porte 12.300
Pequeno porte 5.700
Total 38.650
Fonte: HV da UEL.
Na Tabela 4.1, o título é:
Animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina, no ano

de 2005.
O cabeçalho é constituído por:
Categorias dos animais Frequências
A coluna indicadora contêm as especicações:
Pequeno porte
Médio porte
Grande porte
32 Capítulo 4. Estatística Descritiva
O corpo da tabela é formado por:
20.650
12.300
5.700
4.1.2 Elementos complementares de uma tabela

Os elementos complementares de uma tabela estatística são os seguintes: fonte, notas e
chamadas, que de preferência são colocados no rodapé.
a) Fonte: é a indicação do órgão ou entidade responsável pelo fornecimento dos dados ou pela sua
elaboração. É colocada no rodapé da tabela;
b) Notas: são informações destinadas a esclarecer ou conceituar o conteúdo das tabelas, ou indicar a
metodologia adotada na coleta ou preparo dos dados. Devem ser colocadas embaixo da indicação
da fonte;
c) Chamadas: são informações de natureza especíca referindo-se a um item especíco da tabela,
colocada após a nota. Devem ser feitas através de algarismos arábicos escritos entre parênteses,
e colocados à direita da coluna;
A Tabela 4.2 é um exemplo sobre a maneira de se resumir e apresentar dados coletados,
relativos à uma pesquisa ou experimento. Os dados foram coletados no Hospital Veterinário por
alunos do 1o ano do curso de Medicina Veterinária da Universidade Estadual de Londrina, em pesquisa
realizada em 2002.
Tabela 4.2 Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual de Lon-
drina. Londrina - Paraná, 2002.
Espécies Percentual (%)
Canina 85,00
Felina 11,07
Equina 2,50
Bovina 0,71
Lagarto 0,36
Roedor 0,36
Fonte: Hospital Veterinário da Universidade Estadual de Londrina.
Nota: Utilizou-se uma amostragem sistemática para selecionar as chas dos animais.
Distribuição de frequências 33
Observações:
As tabelas são constituídas por três traços horizontais paralelos, um para separar o topo, outro
para separar o cabeçalho e o terceiro para o rodapé. Não são usados traços verticais para separar
os dados;
Devem ser identicadas na parte superior iniciada com a palavra Tabela e seu número de ordem,
em algarismos arábicos seguidos de hífen, separando o título.
As tabelas devem ser numeradas consecutivamente ou identicadas com números relacionados ao
capítulo ou seção nas quais estão inseridas e seu número de ordem. Exemplo: vide Tabela 4.2.
No caso da tabela ter de ocupar mais de uma página, não será delimitada na parte inferior e
o cabeçalho será repetido na página seguinte. Nesse caso, usa-se no cabeçalho, ou na coluna
indicadora, a expressão continua ou conclusão, conforme o caso.
Quando não for possível dispor a tabela na posição normal de leitura, ela deverá ser apresentada
de forma que a rotação se efetue no sentido horário.
4.2 Distribuição de frequências

Uma maneira de sintetizar os dados é através de distribuição de frequências, que consiste
na construção de uma tabela a partir dos dados brutos em que se considera a frequência com que
cada observação ocorre. A interpretação dos resultados obtidos em tabelas de frequências pode ser
auxiliada pela análise gráca.
4.2.1 Construção de uma distribuição de frequência de variáveis discretas

Quando a variável resposta é do tipo quantitativa discreta, para se apresentar os dados
em forma de tabela, basta escrever em uma coluna os valores da variável discreta estudada em ordem
crescente (ou decrescente) e assinalar, em outra coluna paralela, o número de vezes que cada um
desses valores foi observado, isto é, a frequência absoluta de cada valor. Uma terceira coluna será
destinada a indicar a frequência relativa com que cada um desses valores ocorreram na amostra. A
tabela assim obtida é denominada tabela de distribuição de frequências.
Exemplo 1 - Os dados a seguir referem-se ao número de lhotes de cadelas submetidas à insemi-
nação articial, no Hospital Veterinário da UEL, em 2005. Os seguintes números de lhotes foram
observados:
5 4 3 4 3 1 4 4 5 3 0 1 3 2 2
Dados Brutos:
3 2 3 4 2 3 3 1 1 3 3 4 2 4 2
Quando os dados estão dispostos sem qualquer ordem lógica, recebem o nome de dados brutos.
Ao organizarmos os dados brutos, em ordem crescente ou decrescente de grandeza,
obtemos o rol:
0 1 1 1 1 2 2 2 2 2 2 3 3 3 3
Rol:
3 3 3 3 3 3 4 4 4 4 4 4 4 5 5
Pode-se obter como informações pelo rol:
Li : limite inferior do rol, Li = 0;

Ls : limite superior do rol, Ls = 5;
A: amplitude total dos dados, que é a diferença entre o maior e o menor valor do rol
A = Ls − Li = 5 − 0 = 5.
Uma tabela de distribuição de frequência pode ser construída, tanto a partir dos dados
brutos como do rol. Para o exemplo em questão, tem-se:
Tabela 4.3 Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veterinário
da UEL em 2005.
Número de Filhotes Frequência Absoluta (fi ) Frequência relativa (fr %)
0 1 3,33
1 4 13,33
2 6 20,00
3 10 33,34
4 7 23,33
5 2 6,67
Fonte: Hospital Veterinário da UEL.
Para obter-se as frequências relativas, fr , divide-se cada frequência absoluta pelo tamanho
da amostra:
fi
fr = .
n
Essas frequências relativas costumam ser expressas em porcentagens:
fi
fr % = × 100.
n
Evidentemente a soma das frequências absolutas é igual ao número total das cadelas que foram
submetidas à inseminação articial.
Para se construir a Tabela 4.3, usando o R, os comandos são:

Filhotes = c(5,4,3,4,3,1,4,4,5,3,0,1,3,2,2,3,2,3,4,2,3,3,1,1,3,3,4,2,4,2)
(filhotes.caes = table(Filhotes))
(percentual.caes = round(100*prop.table(filhotes.caes), dig=2))
(tabela.filhotes = cbind(filhotes.caes, percentual.caes))
colnames(tabela.filhotes) = c(`Freq. Absoluta', `Percentual')
tabela.filhotes
4.2.2 Construção de uma distribuição de frequência para variáveis contínuas

Ao contrário das variáveis discretas, as variáveis contínuas assumem, em geral, muitos
valores. Isto quer dizer que se usássemos as tabelas de frequências, como no caso das variáveis
discretas teríamos uma tabela com muitas linhas, tornando-a pouco operacional. Para contornar
este problema usa-se descrever as variáveis numéricas contínuas através de tabelas de classes de
frequências ou tabelas de intervalo.
Considere os seguintes dados, referentes aos pesos (kg) de cães das raças Fila brasileiro
e Pastor Alemão, coletados no Hospital Veterinário da UEL em 2003.
Dados Brutos
5,5 19,0 28,0 30,0 33,0 40,0 40,0 40,3 40,5 12,6
12,6 14,2 14,2 17,5 17,5 18,0 19,0 19,2 21,0 21,0
27,0 27,0 27,0 27,2 28,0 28,0 30,0 30,0 39,8 13,5
O que se pode dizer sobre os cães com base nestes dados? É possível ter uma ideia clara,
apenas observando os números? O passo seguinte, optativo, poderia ser a obtenção do rol:
Rol
5,5 12,6 12,6 13,5 14,2 14,2 17,5 17,5 18,0 19,0
19,0 19,2 21,0 21,0 27,0 27,0 27,0 27,2 28,0 28,0
28,0 30,0 30,0 30,0 33,0 39,8 40,0 40,0 40,3 40,5
Qual o número de classes a ser usado? O número ideal de classes a ser utilizado em
uma tabela, pode depender mais do bom senso do pesquisador, de acordo com seus interesses e
necessidades, do que de regras pré-estabelecidas. Um exemplo disso é a Tabela 4.4 que mostra os
cios observados, segundo a classicação de Gaines .

1
Tabela 4.4 Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça Holan-
dês, segundo a classicação de Gaines (1994).
Intervalos entre cios (dias) Percentual (%)
0⊢ 3 0,1
4 ⊢ 17 6,3
18 ⊢ 24 44,6
25 ⊢ 35 5,8
36 ⊢ 48 16,3
> 48 27,0
Caso não haja, por parte do pesquisador, um motivo para o uso de intervalos de classes
diferentes, pode-se optar pela utilização de uma das regras para se construir os intervalos de classes.
Dentre as várias regras existentes, duas tem sido adotadas:
a) Critério de Sturges - Herbert Sturges2 considera um histograma de frequências idealizado com k

(k−1)
divisões, sendo que a i-ésima divisão é dada pelo coeciente binomial
i , i = 0, 1, . . . , k − 1.
Quando k aumenta, este histograma se aproxima da forma de uma densidade normal. O tamanho
amostral total é dado por:
k−1 (
∑ )
k−1
n= = (1 + 1)k−1 = 2k−1
i
i=0
1
Gaines, J.D. Proceedings for annual meeting. Kansas City: Society for Theriogenology, 1994. Analysis of repro-
ductive eciency of dairy herds : p.86-107.
2
Sturges, H. The choice of a class-interval. J. Amer. Stat. Association, 21, 6566, 1926.
Aplicando-se logaritmos em ambos os membros, tem-se:
log2 n = log2 2k−1
log2 n = k − 1
k = 1 + log2 n
e, fazendo-se transformação da base logarítmica, chega-se a:
log10 n log10 n
k = 1+ =1+
log10 2 0, 301029
k = 1 + 3, 3 × log n
que é o número de classes sugeridas, por este critério;
√
b) Critério da Raiz Quadrada - tem-se k = n.
Outras regras para escolha do número de classes de um histograma são sugeridas na
literatura. Para o exemplo em questão, o número de classes recomendado será dado por:
k = 1 + 3, 3 × log 30
√
= 1 + 3, 3 × 1, 4771 ou k= 30 = 5, 4772.
= 5, 8745
Logo, serão utilizadas, aproximadamente, k=6 classes ou intervalos para representar a
distribuição dos dados. A amplitude de cada intervalo será:
amplitude total 40, 5 − 5, 5

a = = = 5, 9579.
número de classes 5, 8745
Assim, os dados poderão ser resumidos em 6 classes de amplitude a = 6 kg como amplitude das
classes.
A primeira classe de frequências é um intervalo do tipo l ⊢ (l + a), a segunda (l + a) ⊢

(l + 2a) e assim sucessivamente. Com este tipo de notação estamos indicando que o intervalo é
fechado à esquerda e portanto pertencem à classe valores iguais ao extremo inferior dessa classe.
Também estamos indicando que o intervalo é aberto à direita e portanto não pertencem à classe
valores iguais ao extremo superior.

Assim, tem-se:
Tabela 4.5 Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor
Alemão, coletados no Hospital Veterinário da UEL, em 2003.
Pesos (kg ) Ponto médio Frequências absolutas (fi ) Frequências relativas (fr %)
5 ⊢ 11 8 1 3,33
11 ⊢ 17 14 5 16,67
17 ⊢ 23 20 8 26,67
23 ⊢ 29 26 7 23,33
29 ⊢ 35 32 4 13,33
35 ⊢ 41 38 5 16,67
Fonte: Hospital Veterinário da UEL
A construção da Tabela 4.5 simplicou muito a interpretação dos dados, com apenas seis
classes (linhas) conseguiu-se condensar os 30 dados. Com uma rápida olhada na tabela já se nota que
a maioria dos cães concentram-se nas classes centrais, ou seja, entre 17 e 29 quilos, havendo poucos
animais nas classes extremas. No entanto isto tem um preço, por exemplo, tudo que se sabe agora
é que apenas um valor está entre 5, 0 e 11, 0 kg , cinco valores estão entre 11, 0 e 17, 0 kg , e assim
por diante. Mas não se sabe quais são esses valores. Dessa forma, como não se conhece os dados
originais, como acontece muitas vezes em certas publicações cientícas, deve-se utilizar o ponto médio
da classe, como um valor representativo. Assim, tudo se passa como se os dados originais fossem
constituídos por um valor igual a 8 kg , por cinco valores iguais a 14, 0 kg , por oito valores iguais a
20, 0 kg , etc.
Para estruturar a tabela de frequências usando o R, basta utilizar o comando:

caes = c(5.5,19.0,28.0,30.0,33.0,40.0,40.0,40.3,40.5,12.6,
12.6,14.2,14.2,17.5,17.5,18.0,19.0,19.2,21.0,21.0,
27.0,27.0,27.0,27.2,28.0,28.0,30.0,30.0,39.8,13.5)
hist(caes, plot=F, breaks=c(5,11,17,23,29,35,41), right=F)
Caso queira construir a tabela da forma exata como apresentado na Tabela 4.5,
acrescente os seguintes comandos:

histo = hist(caes, plot=F, breaks=c(5,11,17,23,29,35,41), right=F)

histo.caes = cbind(c(histo$counts))
(prop = 100*round(prop.table(histo.caes), 4))
tab.caes = cbind(histo.caes, prop)
colnames(tab.caes) = c('fi', 'Percentual')
rownames(tab.caes) = c('5|-11','11|-17','17|-23','23|-29','29|-35','35|-41')
tab.caes
Exemplo: Dados brutos de ração (kg) utilizada em 40 dias em uma granja.
Dados Brutos (kg )

0,71 2,63 3,63 1,94 3,69 2,77 1,42 2,48 3,77 2,75
2,04 2,16 4,05 1,80 2,22 2,06 1,20 1,67 5,41 1,57
3,09 2,16 3,94 2,06 3,55 3,56 3,57 2,39 2,48 1,53
2,67 2,18 3,93 3,34 2,78 3,26 3,06 3,32 3,37 0,75
i) Encontre o número de classes para a construção de uma tabela para estes dados;
Solução:
ii) Encontre a amplitude total dos dados;
Solução:
iii) Encontre a amplitude das classes;
Solução:
iv) Dena os limites inferior e superior de cada classe:
Solução:
v) Construa a tabela com as frequências simples e acumuladas.
Solução:
4.3 Tabelas de dupla entrada

Um tipo de tabela muito importante e bastante utilizada é a tabela de dupla entrada,
em que os elementos da amostra ou da população são classicados de acordo com dois fatores, sendo
cada entrada relativa a um dos fatores. Exemplos são apresentados nas Tabelas 4.6 e 4.7. Os dados
apresentados na Tabela 4.7 foram obtidos na página do Instituto Brasileiro de Geograa e Estatís-
tica - IBGE, http://www.ibge.gov.br/estadosat/temas.php?sigla=rs&tema=pecuaria2012,

acessada em 05 de fevereiro de 2014.
Tabela 4.6 Acasalamentos fecundos e infecundos por raça.
Acasalamentos
Raças
Fecundos Infecundos
Charolesa 606 394
Indubrasil 508 632
Nelore 394 406
Fonte: Fictícia
Tabelas de dupla entrada 41
Tabela 4.7 Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012.
Estados
Pecuária Totais
Paraná Santa Catarina Rio Grande do Sul
Bovinos 9.413.937 4.072.960 14.140.654 27.627.551
Suínos 5.518.927 7.480.183 6.213.316 19.212.426
Ovinos 638.923 307.651 4.095.648 5.042.222
Equinos 325.837 122.565 468.691 917.093
Caprinos 176.130 57.243 100.283 333.656
Bubalinos 24.502 13.898 74.792 113.192
Muares 39.132 1.965 2.888 43.985
Asininos 1.710 925 1.747 4.382
Totais 16.139.098 12.057.390 25.098.019 53.294.507
Fonte: IBGE - 2012.
Para construir a Tabela 4.7, utilizando os dados diretamente do site do IBGE, bastam os seguintes
comandos do R:
pec_pr = read.csv2('http://www.ibge.gov.br/estadosat/download/pr_pecuaria2012.csv',
sep=';', head=F)
pr = data.frame(pec_pr[1:8, -3])
pec_sc = read.csv2('http://www.ibge.gov.br/estadosat/download/sc_pecuaria2012.csv',
sep=';', head=F)
sc = data.frame(pec_sc[1:8, -3])
pec_rs = read.csv2('http://www.ibge.gov.br/estadosat/download/rs_pecuaria2012.csv',
sep=';', head=F)
rs = data.frame(pec_rs[1:8, -3])
rebanhos = data.frame(PR=pr, SC=sc[ , 2], RS=rs[ , 2])

pecuaria = data.frame(rebanhos[with(rebanhos, order(-RS)), ])
names(pecuaria) = c('Pecuária', 'Paraná', 'Santa Catarina', 'Rio Grande do Sul')
require(xtable)
xtable(pecuaria)
Capítulo 5
Grácos
O objetivo da representação gráca é apresentar de maneira clara, rápida e objetiva os
dados coletados na primeira fase do trabalho estatístico. Um gráco tem a função de transmitir uma
idéia visual do comportamento de um conjunto de valores, de forma a se poder tirar conclusões claras
de tabelas complicadas. Ele tanto serve para simplicar como pode facilmente enganar. Existem
algumas regras para a confecção de grácos, dadas a seguir:
a) toda representação gráca deve ter título, escala e fonte dos dados, de forma a dispensar qualquer
esclarecimento adicional;
b) a numeração dos grácos é feita utilizando-se algarismos arábicos;
c) a primeira série de variáveis deverá car no eixo das abscissas (X ). Consequentemente, a segunda
no eixo das ordenadas (Y );
d) as escalas devem crescer da esquerda para a direita e de baixo para cima;
e) as legendas explicativas devem ser colocadas, de preferência, à direita do gráco.
f ) as distâncias que indicam as unidades de escala devem ser rigorosamente uniformes;
g) ao lado da escala da abscissa deve ser escrita a característica relativa à mesma. Em cima da escala
da ordenada deve constar a característica correspondente. A razão da altura para a largura pode
variar de 60% a 80% para que a gura tenha boas proporções (simetria e equilíbrio);
Existem inúmeras formas grácas interessantes, serão apresentados apenas alguns tipos
de grácos.
42
Apresentação gráca de variáveis qualitativas 43
5.1 Apresentação gráca de variáveis qualitativas

5.1.1 Gráco em colunas
O gráco em colunas e em barras consistem em construir retângulos, em que uma das
dimensões é proporcional à magnitude a ser representada (ni ou fi ), sendo a outra arbitrária, porém
igual para todas as colunas ou barras. Essas colunas são dispostas paralelamente umas às outras,
horizontal ou verticalmente. Além do título e fonte de referências devemos observar o seguinte:
a) as barras devem ter todas a mesma largura;
b) a distância entre as barras deve ser constante e de preferência menor que a largura das barras.
Considere o gráco em colunas apresentado na Figura 5.1:

120
100
80
Frequências
60
40
20
0
Pastor
Pinscher Alemão Poodle Rottweiller SRD Outros
Raças dos Cães
Figura 5.1 Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina
em 2003.
O programa R para construir o gráco de colunas dos dados absolutos é dado por:
caes = c(37, 20, 19, 16, 75, 103)

names(caes) = c("Pinscher","Pastor \n Alemão","Poodle","Rottweiller","SRD","Outros")
par(mai=c(1,1,.2,.2))
barplot(caes, ylim=c(0, 120), space=0.6, xlab="Raças dos Cães", ylab="Frequências",
col="LightYellow", las=1, cex.axis=1, cex.names=1, cex.lab=1)
abline(h=0, lwd=1)
44 Capítulo 5. Grácos
Nem sempre é interessante utilizar os dados absolutos no eixo das ordenadas. É de uso
mais frequente apresentá-la utilizando-se a porcentagem. A Figura 5.2 apresenta os mesmos dados
utilizados na Figura 5.1, só que transformando os valores absolutos em porcentagem.
40
30
Percentuais (%)
20
10
0
Pastor
Pinscher Alemão Poodle Rottweiller SRD Outros
Raças dos Cães
Figura 5.2 Percentual de raças caninas atendidas no Hospital Veterinário da Universidade Estadual
de Londrina em 2003.
Observe o cálculo das porcentagens nos comandos do R:
caes = c(37, 20, 19, 16, 75, 103)

names(caes) = c("Pinscher","Pastor \n Alemão","Poodle","Rottweiller","SRD","Outros")
caes.prop = round(100*prop.table(caes), 2)
par(mai=c(1,1,.2,.2))
barplot(caes.prop, ylim=c(0, 40), space=0.6, las=1, xlab="Raças dos Cães",
ylab="Percentuais (%)", col="LightYellow", cex.axis=1, cex.names=1, cex.lab=1)
abline(h=0, lwd=1)
Observe que neste caso, são fornecidos os totais observados para cada categoria. Caso
o gráco fosse construído a partir de um banco de dados, seria necessário tabular os valores de cada
categoria primeiro. Considere os dados dos pers dos alunos do curso de Medicina Veterinária do ano
de 2011. Na Figura 5.3 são apresentados os resultados para a cor dos olhos, em porcentagem.
80
60
Percentual (%)
40
20
0
Castanhos Verdes Azuis Pretos
Cor dos olhos
Figura 5.3 Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Universidade
Estadual de Londrina em 2011.
O programa R para construir o gráco de colunas percentual a partir de um banco de dados é dado
por:
rm(list=ls())
require(foreign)
perfil = read.epiinfo('http://www.uel.br/pessoal/silvano/Veter/Dados/Perfil2011.rec')
names(perfil) ; attach(perfil)
(tab.olhos = table(Q6))
names(tab.olhos) = c('Azuis','Castanhos','Pretos', 'Verdes')
barplot(tab.olhos, xlab="Cor dos olhos", ylab="Frequências", col="LightYellow", las=1)
abline(h=0, lwd=1)
#-------------------------------------
# Ordenando por valores decrescentes -
#-------------------------------------
(tab.olhos.ord = sort(tab.olhos, decreasing = T))
barplot(tab.olhos.ord, xlab="Cor dos olhos", ylab="Frequências",
col="LightYellow", las=1)
abline(h=0, lwd=1)
#----------------------------
# Utilizando os percentuais -
#----------------------------
par(mai=c(1,1,.15,.2))
barplot(100*prop.table(tab.olhos.ord), ylim=c(0,80), xlab="Cor dos olhos",
ylab="Percentual (%)", col="LightYellow", las=1, space=0.7)
abline(h=0, lwd=1)
Quando os rótulos dos eixos (atributo) da variável são longos, pode-se optar pelo gráco
de barras.
5.1.2 Gráco em barras

Considerando o mesmo conjunto de dados dos cães, utilizados na construção do gráco
de colunas, pode-se construir o gráco em barras que é apresentado na Figura 5.4.
Outros
SRD
Pinscher
Raças dos Cães
Pastor
Alemão
Poodle
Rottweiller
0 20 40 60 80 100 120
Frequências
Figura 5.4 Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina
em 2003.
Observar que, em termos de programação R, o que diferencia o gráco de colunas do
gráco de barras é o comando horiz=T e a denição dos limites para o eixo X.

caes = c(37, 20, 19, 16, 75, 103)

names(caes) = c("Pinscher", "Pastor \n Alemão", "Poodle", "Rottweiller", "SRD", "Outros")
(caess = sort(caes, decreasing=F))
names(caess) = c('Rottweiller','Poodle','Pastor \n Alemão',
'Pinscher','SRD','Outros')
par(mar=c(4.5, 6.7, 1, 1), mgp=c(5.5, .5, 0))
barplot(caess, las=1, horiz=T, space=.7, col="LightYellow", ylab="Raças dos Cães",
xlab="", bty='l', xlim=c(0,120), cex.axis=1, cex.names=1)
mtext("Frequências", side=1, line=2)
abline(v=0)
5.1.3 Gráco em colunas justapostas

Quando uma das variáveis qualitativas tem mais de um nível, uma forma de apresentação
comumente usada é através do gráco de colunas justapostas, que consiste em colocar lado-a-lado
os níveis da variáveis.
Considere os dados apresentados na Tabela 4.7. Vamos comparar o número de cabeças
da produção pecuária dos estados do sul do Brasil, levando em consideração apenas as duas maiores
produções, que são os bovinos e suínos. A comparação é apresentada na Figura 5.5.
1500
Bovinos
Suínos
1000
Número de cabeças
(x 10.000)
500
0
Rio Grande do Sul Paraná Santa Catarina
Estados
Figura 5.5 Produção pecuária dos estados do sul do Brasil no ano de 2012.
Os comandos do R para construção do gráco de colunas justapostas são dados por:
rm(list=ls())
cabecas=c(14140654, 9413937, 4072960,
6213316, 5518927, 7480183,
4095648, 638923, 307651,
468691, 325837, 122565,
100283, 176130, 57243,
74792, 24502, 13898,
2888, 39132, 1965,
1747, 1710, 925)/10000
(dados = matrix(cabecas, nrow=8, byrow=T))
rownames(dados) = c('Bovinos','Suínos','Ovinos','Equinos','Caprinos',
'Bubalinos','Muares','Asininos')
colnames(dados) = c('Rio Grande do Sul','Paraná','Santa Catarina')
dados
#-----------------------------
# Apenas Bovinos e Suínos -
#-----------------------------
(parte = dados[1:2, 1:3])
par(mai=c(1, 1.2, .2, .2))
ylim = range(0, 1600, by=300)
barplot(parte, beside=T, col = c("lightgreen", "lightblue"), ylim=ylim,
angle=c(90, 0), xlab="Estados", ylab='', las=1)
legend(7, 1400, angle=c(90,0), legend=rownames(parte), bty='n',
fill=c('lightgreen','lightblue'), cex=1)
mtext('Número de cabeças \n (x 10.000)', side=2, line=4)
abline(h=0)
5.1.4 Gráco em colunas compostas
Pode-se comparar os níveis de uma variável dentro de cada categoria em uma única
coluna. Esta forma de apresentação é através do gráco de colunas compostas apresentado na Figura
5.6.
Considere os dados apresentados na Tabela 4.7. Vamos comparar o número de cabeças
da produção pecuária dos estados do sul do Brasil, levando em consideração apenas as duas maiores
produções, que são os bovinos e suínos. A comparação é apresentada na Figura 5.6.

2000
Bovinos
Suínos
1500
Número de cabeças
(x 10.000)
1000
500
0
Rio Grande do Sul Paraná Santa Catarina
Estados
Figura 5.6 Produção pecuária dos estados do sul do Brasil no ano de 2008.
Os comandos do R para construção do gráco de colunas compostas são dados por:
cabecas=c(14115643, 9585600, 3864724, 5320252, 4631600, 7846398, 4009938, 579764,

4009938, 579764, 256965, 454938, 393544, 101943, 94545, 167382, 55995,
70868, 27918, 23295, 3867, 44684, 2182, 1600, 1988, 708)/10000
(dados = matrix(cabecas, nrow=8, byrow=T))
rownames(dados) = c('Bovinos', 'Suínos', 'Ovinos', 'Equinos', 'Caprinos',
'Bubalinos', 'Muares', 'Asininos')
colnames(dados) = c('Rio Grande do Sul','Paraná','Santa Catarina')
(parte = dados[1:2,1:3])
par(mai=c(1,1,.2,.2))
ylim = range(0, 2000, by=200)
barplot(parte, beside=F, las=1, col=c("green", "blue"), ylim=ylim, angle=c(90,0),
density=c(15,15), xlab="Estados", ylab="Número de cabeças \n (x 10.000)")
legend(2.8, 2000, angle=c(90,0), legend=rownames(parte), bty='n', density=c(20,20),
fill=c('green','blue'), cex=1)
abline(h=0)
5.1.5 Gráco em setores circulares

É uma forma adequada de se visualizar a proporção que cada categoria representa em
relação ao total dos dados, permitindo comparações entre as categorias. Constitui-se num círculo no
qual são destacados, v setores circulares, cada qual com área proporcional à frequência do i-ésimo
valor assumido pela variável.

 n − 360o 360
=⇒ θio = fi .
 f − θio n
i
Tomando-se os dados da Tabela ??, tem-se v = 3, desse modo, o círculo será dividido em três setores
circulares. Assim, o número total de observações, n = 38.650, corresponde ao total dos graus, 360o
e a frequência fi corresponde ao ângulo θio . Assim, tem-se:
360 360
θ1o = × 20.650 = 192, 34o θ2o = × 12.300 = 114, 57o
38.650 38.650
360
θ3o = × 5.700 = 53, 09o
38.650
Figura 5.7 Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de
Londrina, no ano de 2005.
O programa R para construção do gráco de setores é dado por:
anim = c(650, 230, 70)

names(anim) = paste(c("Pequeno Porte", "Médio Porte", "Grande Porte"),
round(100*anim/sum(anim), dig=1), "%")

pie(anim, col=c("LightYellow","white", "green"),
cex=1.3, border="red", clockwise=F)
Caso se queira incluir os nomes das categorias dentro do gráco, bastam os seguintes comandos:
#---------------------------------------
# Incluindo os nomes dentro do gráfico -
#---------------------------------------
par(mar=c(1, 1, 1, 1))
pie(anim, labels=`', col=c("LightYellow", "white", "green"), radius=1)
text(0, .5, "Pequeno Porte \n (68,4%)", col= "black", cex=.9)
text(0.2, -.5, "Médio Porte \n (24,2%)", col= "black", cex=.9)
text(0.7, -.15, "Grande Porte \n (7,4%)", col= "black", cex=.9)
O resultado é apresentado na Figura 5.8.
Pequeno Porte
(68,4%)
Grande Porte
(7,4%)
Médio Porte
(24,2%)
Figura 5.8 Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de
Londrina, no ano de 2005.
5.1.6 Gráco em setores retangulares

Uma forma interessante de apresentação gráca do relacionamento entre duas variáveis
qualitativas é utilizando o gráco de setores retangulares.
A Figura 5.9 mostra o sentimento das pessoas em relação à tolerância ao cigarro. Os
dados são apresentados no livro de Magalhães & Pedroso e integram as informações de um questionário
estudantil.
Indiferente Incomoda muito Incomoda pouco
14 % 32 % 28 %
Feminino
Gênero
Masculino 6 % 14 %
6 %
Tolerância ao Cigarro
Figura 5.9 Relação entre tolerância ao cigarro e gênero dos estudantes.
O programa R para construção do gráco de setores é dado por:
pedroso = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/questionario.txt",
head=T, dec=".", sep="")
attach(pedroso)
Sexo = factor(Sexo, label=c("Feminino", "Masculino"))
Toler = factor(Toler, label=c("Indiferente", "Incomoda muito", "Incomoda pouco"))
dupla.ent.p = round(100*prop.table(table(Toler, Sexo)), 2)
par(mar=c(3.1, 2.7, 1, 1), cex.lab=1.2, col.lab='black')
plot(dupla.ent.p, col="LightYellow", xlab="Tolerância ao Cigarro", ylab='Gênero',
main='', las=1, cex.axis=1.1)
text(.25, .65, paste(dupla.ent.p[1,1],'%', sep=' '), col= "red", cex=1.1)
text(.25, .12, paste(dupla.ent.p[1,2],'%', sep=' '), col= "blue", cex=1.1)
Apresentação gráca de variáveis discretas 53

5.2 Apresentação gráca de variáveis discretas

Para variáveis quantitativas discretas, a representação gráca pode ser feita utilizando-se
o gráco de bastão.
5.2.1 Gráco em bastão

Este gráco é constituído de linhas verticais ou horizontais traçadas num eixo de coorde-
nadas cartesianas. Na Figura 5.10 é apresentado o gráco de bastão relativo aos dados da Tabela 4.3.
10
6
Freqüências
0
0 1 2 3 4 5
Número de Filhotes
Figura 5.10 Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veteri-
nário da UEL em 2003.
O programa R para construção do gráco de bastão é dado por:
Filhotes = c(5, 4, 3, 4, 3, 1, 4, 4, 5, 3, 0, 1, 3, 2, 2, 3,
2, 3, 4, 2, 3, 3, 1, 1, 3, 3, 4, 2, 4, 2)
sort(Filhotes)
(tab.cad = table(Filhotes))
par(mai=c(1,1,.2,.3),mgp=c(3, 1, 0))
plot(tab.cad, xlab="Número de Filhotes", ylab="Frequências",

col="red", lwd=2, type="h", bty="l", cex.axis=1.3, las=1)
abline(h=0)
5.3 Apresentação gráca de variáveis contínuas

A representação gráca de dados relativos a uma variável contínua, dispostos em uma
tabela de classes de frequências, pode ser feita através de um histograma ou polígono de frequências.
5.3.1 Histograma
É uma sequência de retângulos justapostos, em que cada retângulo tem como base a
amplitude do intervalo e como altura as respectivas frequências (absoluta ou relativa). A Figura 5.11
mostra a distribuição do número de atendimentos diários, do Hospital Veterinário, da Universidade
Estadual de Londrina, nos últimos 50 dias.
20
15
Frequências
10
0
12 18 24 30 36 42 48 54
Número de atendimentos
Figura 5.11 Número de atendimentos diários, do Hospital Veterinário, da Universidade Estadual de

Londrina, nos últimos 50 dias.
Pode-se notar que a distribuição dos dados é aproximadamente simétrica e não apresenta
grande variabilidade e, ainda, que o número de atendimentos diários mais comum está entre 30 e 36
Apresentação gráca de variáveis contínuas 55
atendimentos/dia.
O programa R para construção do gráco de bastão é dado por:
atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
par(mai=c(1, 1, .2, .2))
hist(atend, breaks=c(12,18,24,30,36,42,48,54), freq=T, right=F, col="red", main="",
ylim=c(0,20), las=1, xaxt="n", xlab='', ylab='Frequências', border="blue", density=10)
mtext('Número de atendimentos', side=1, line=2) ; abline(h=0)
axis(1, at = c(12,18,24,30,36,42,48,54), line=-1)
Obs.: Caso queira acrescentar os valores observados no gráco, basta acrescentar o comando labels=T.
5.3.2 Polígono de frequências

Pode ser usado como alternativa para o histograma. Para se traçar o polígono de frequências,
une-se os pontos cujas abscissas são os pontos médios das classes e as ordenadas são as respectivas frequências.
Depois para fechar o polígono unimos os extremos da gura com o eixo das abscissas, nos pontos em que
estariam os pontos médios de uma classe imediatamente inferior à primeira e de uma classe imediatamente
superior à última.
20
15
Frequências
10
0
9 15 21 27 33 39 45 51 57
Pontos Médios
Figura 5.12 Número médio de atendimentos diários, do Hospital Veterinário, da Universidade Esta-
dual de Londrina, nos últimos 50 dias.
Os comandos do R para construção do polígono de frequências são dados por:

atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
(histo = hist(atend, breaks=c(12,18,24,30,36,42,48,54), las=1, freq=T, right=F, xlab='',
ylab="Frequências", col="LightYellow", main="", ylim=c(0,20), plot=F))
(pontos.medios = c(9, histo$mids, 57))
(fr = c(0, histo$counts, 0))
par(mai=c(1,1,.2,.2))
plot(pontos.medios, fr, type="l", lwd=2, bty="l", xlab="Pontos Médios",
ylab="Frequências", col="red", main="", ylim=c(0,20),las=1, xaxt="n")
axis(1, at=c(pontos.medios))
abline(h=0)
5.3.3 Gráco de ramo-e-folhas

Agrupar os dados em classes condensa os dados originais e, como resultado, algum detalhe é
perdido. Uma vantagem do ramo-e-folhas é que as observações individuais são preservadas, enquanto que
no histograma elas são perdidas.
Considere os dados relativos ao número de atendimentos diários, do Hospital Veterinário, da
Universidade Estadual de Londrina, nos últimos 50 dias.
12 15 16 18 19 20 22 23 23 24 25 26 26 27 27 27 28 28 28 29 29 30 30 30 31
31 31 32 32 32 32 33 33 33 33 33 34 35 35 36 36 37 38 39 39 41 42 43 45 49
5.3.3.1 Construção de um gráco ramo-e-folhas

a) Denir a unidade de medida que dividirá cada valor em duas partes: ramo e folha. Para o conjunto de
dados do número de atendimentos no Hospital Veterinário, a divisão foi separar a dezena da unidade,
considerando-se que os dados pertencentes ao intervalo 0 a 4, cam em um ramo e de 5 a 9 em outro:
12 ⇒ ramo = 1 e folha = 2
b) Escrever os ramos em ordem crescente verticalmente e passar uma linha vertical à direta deles.
c) Associar cada folha ao respectivo ramo.
d) Ordenar, em cada ramo, as folhas em ordem crescente da esquerda para a direita.
Assim, o gráco de ramos-e-folhas para os dados do número de atendimentos é:
1 | 2
1 | 5689
2 | 02334
2 | 56677788899
3 | 0001112222333334
3 | 55667899
4 | 123
4 | 59
Os comandos do R para construção do polígono de frequências são dados por:
atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
stem(atend)
Obs.: note que o resultado é mostrado no console do R e não em uma janela gráca.
5.3.4 Gráco de Caixas (ou Box Plot )

O chamado gráco de caixa (ou box plot, box-whisker plot ), tem por nalidade a detecção de
observações discrepantes e o estudo da simetria da distribuição.
O gráco de caixas dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes.
A posição central é dada pela mediana e a dispersão por dq . As posições relativas de q1 , q2 , q3 dão uma noção
da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos
valores remotos e pelos pontos atípicos (Bussab & Morettin, 2003).
A Figura 5.13 mostra a comparação, através do gráco de caixas, dos pesos (g) de tilápias do
nilo, coletados por quatro equipes de alunos do curso de Medicina Veterinária, no tanque de piscicultura da
Universidade Estadual de Londrina, no ano de 2003.

500
450
400
Pesos (g) +
+ + +
350
300
250
1011 1012 2021 2022
Equipes
Figura 5.13 Comparação de pesos (g) de tilápias para quatro equipes de alunos do curso de Medicina
Veterinária da Universidade Estadual de Londrina em 2003.
A determinação dos quartis e demais valores para a construção do gráco de caixas será visto
no Capítulo 6.
Os comandos do R para construção do gráco de caixas são dados por:
tilapia = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
head=T, dec='.')
attach(tilapia)
names(tilapia)
(medias = tapply(Peso, factor(Equipe), mean))
par(mai=c(1,1,.2,.2))
boxplot(Peso~factor(Equipe), xlab='Equipes', ylab='Pesos (g)', las=1, bty='l',
col="LightYellow", pch=19, outline=F)
points(medias, pch="+", cex=1.5, col="blue")
5.3.5 Gráco de dispersão

É aquele em que cada dado é representado por um ponto (X, Y ) do sistema de coordenadas
cartesianas. O objetivo deste tipo de diagrama é vericar se existe algum tipo de associação entre as variáveis
observadas.
500
450
400
Peso (g)
350
300
250
200
22 24 26 28 30
Comprimento (cm)
Figura 5.14 Relação entre peso e comprimento de tilápias do Nilo, do tanque de piscicultura da
Universidade Estadual de Londrina, 2003.
Da Figura 5.14 nota-se uma relação linear crescente entre as variáveis Peso e Comprimento. No
Capítulo ?? será estudado como ajustar uma equação linear a um conjunto de dados.
Deve-se tomar cuidado na análise deste tipo de gráco, uma vez que as variáveis correlacionadas
não necessariamente estão sujeitas a uma relação de causa e efeito.
Os comandos do R para construção do gráco de dispersão são dados por:
tilapia = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
header=TRUE, dec=",")
attach(tilapia)
names(tilapia)
par(mai=c(1, 1, .2, .2))
plot(Peso ~ Comp, las=1, xlab="Comprimento (cm)", ylab="Peso (g)", pch=19, col="blue",
cex=1.2, bty="l")
detach(tilapia)
5.3.6 Gráco de Setores Proporcionais

Uma forma interessante de apresentar a relação entre três variáveis é através do gráco de
setores proporcionais. Ele é uma variação do gráco de dispersão, sendo que a magnitude do círculo indica a
contribuição de uma terceira variável.

A Figura 5.15 mostra a relação entre o peso (g) e comprimento (cm) das tilápias do Nilo,
controladas pelo tempo (s) de recuperação da anestesia. A variável Tempo de Recuperação é indicada pelo
raio de cada circunferência. Quanto maior o raio, maior o tempo que o animal levou para se recuperar da
anestesia.
500
400
Pesos (g)
300
200
22 24 26 28 30 32
Comprimento (cm)
Figura 5.15 Relação entre peso e comprimento de tilápias do Nilo, controladas para a variável tempo
de recuperação da anestesia, do tanque de piscicultura da Universidade Estadual de
Londrina, 2003.
A Figura 5.15 mostra que há tilápias que demoraram mais tempo a se recuperar da anestesia. Os comandos
do R para construção do gráco de setores proporcionais são dados por:
tilapias = read.table('http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt',
head=T, dec=',')
attach(tilapias)
names(tilapias)
symbols(Peso~Comp, circles = Recup/500,
inches=F, bty="l", bg="LightGreen", xlab="Comprimento (cm)",
ylab="Pesos (g)", fg="blue", las=1)
5.3.7 Gráco de Linhas

Quando as observações são feitas ao longo do tempo, os dados são denominados temporais ou
longitudinais e uma representação adequada para este tipo de dados é o gráco de linhas. Consiste em colocar
no eixo horizontal do gráco a escala temporal (ano, mês, dia, etc) e no eixo vertical a variável a ser estudada
(frequência, taxa ou medida tomada). É usual unir os pontos através de segmentos de reta, daí o nome
recebido.
420
400
380
Pesos (g)
360
340
320
1 2 3 4 5 6 7 8
Semanas
Figura 5.16 Peso médio de 10 tilápias, do tanque de piscicultura da UEL, acompanhadas durante 8
semanas.
Os comandos do R para construção do gráco de linhas são dados por:
prod = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
head=T, dec=",")
(dados=data.frame(Prod=sort(prod[1:8,4]), Semanas=1:8))
attach(dados)
par(mai=c(1,1,.2,.2))
plot(Semanas, Prod, las=1, xlab="Semanas", ylab="Pesos (g)", lwd=2.5, type="b",
bty="l", col="blue", xaxt='n')
axis(1, at=c(0,1,2,3,4,5,6,7,8))
detach(prod)
Um cuidado a se ter com grácos, é com as escalas adotadas. Muitas vezes uma mudança de
escala pode dar uma impressão errônea sobre a realidade dos acontecimentos.
5.4 Ilusão dos Grácos

Embora os grácos sejam utilizados para que se tenha uma visualização mais rápida, clara e
objetiva do comportamento dos dados, muitas vezes eles são utilizados, de forma errônea, para dar uma
impressão que não condiz com a realidade.
Para o propósito de mostrar uma aplicação gráca ilusória, considere os dados (ctícios) apre-
sentados na Tabela 5.1, referentes ao número de atendimentos realizados pelo Hospital Veterinário, da Uni-
versidade Estadual de Londrina, no primeiro semestre de 2003.
Tabela 5.1 Número de atendimentos no Hospital Veterinário, da Universidade Estadual de Londrina,

no primeiro semestre de 2003.
Meses Número de atendimentos
Janeiro 410
Fevereiro 430
Março 450
Abril 408
Maio 408
Junho 405
Fonte: Fictícia
Os grácos, com escalas diferentes, para representar os dados da Tabela 5.1, são dados pelas
Figuras 5.17 e 5.18.
450 450
400
440
350
300
430
250
200
420
150
100
410
50
400 0
Janeiro Fevereiro Março Abril Maio Junho Janeiro Fevereiro Março Abril Maio Junho
Meses Meses
Figura 5.17 Gráco distorcido. Figura 5.18 Gráco Correto.
Observe que na Figura 5.17 tem-se a impressão de que houve um número muito grande de
Ilusão dos Grácos 63
atendimentos comparado aos outros meses. Perceba que a escala do gráco começa em 400 atendimentos.
Já na Figura 5.18 a escala começa no zero e percebe-se que no mês de março houve, realmente, um número
maior de atendimentos, mas que a quantidade de atendimentos a mais não é tão signicativa quanto àquela
apresentada na Figura 5.17. Logo, cuidado ao analisar grácos, seja crítico.
Os comandos do R para construção desses grácos são dados por:
atend = c(410,430,450,408,408,405)
names(atend) = c('Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho')
barplot(atend-400, las=1, xlab='Meses', ylab='Número de atendimentos',
col='red', yaxt='n', space=0.6, density=10)
axis(2, at=seq(0,50, by=10), lab=seq(400,450, by=10), las=1)
abline(h=0, col='black', lwd=1)
barplot(atend, las=1, xlab='Meses', ylab='Número de atendimentos',

col='red', yaxt='n', space=0.6, density=10)
axis(2, at=seq(0,450, by=50), las=1)
abline(h=0, col='black', lwd=1)
Uma grande variedade de modelos grácos, aplicados às mais diversas áreas, pode ser encontrada
na seguinte página: http://bm2.genes.nig.ac.jp/RGM2/index.php?clear=all.

Capítulo 6
Medidas de Posição
Viu-se que o resumo de dados através de grácos e tabelas de frequências fornece muitas in-
formações sobre o comportamento de uma variável. Muitas vezes, deseja-se resumir ainda mais esses dados,
apresentando um ou alguns valores que sejam representativos do conjunto em estudo.
As medidas de posição são utilizadas para sintetizar, em um único número, o conjunto de
dados observados da variável em estudo. Usualmente emprega-se uma das seguintes medidas de posição (ou
localização) central: média, mediana ou moda.
6.1 Média Aritmética Simples

A medida de tendência central mais comumente usada para descrever resumidamente um
conjunto de dados, tabelados ou não, é a média aritmética simples, ou simplesmente média e representa-se
por ȳ . É denida como a soma das observações dividida pelo número delas.
Exemplo: Os pesos, em kg , de 10 coelhos da raça Nova Zelândia Branco foram anotados, obtendo-se os
seguintes valores:
3, 7 3, 8 4, 8 5, 1 3, 9 4, 1 4, 2 4, 0 4, 5 5, 0.
Logo, a média será:
3, 7 + 3, 8 + 4, 8 + 5, 1 + 3, 9 + 4, 1 + 4, 2 + 4, 0 + 4, 5 + 5, 0
ȳ = = 4, 31 kg.
10
Os comandos do R para o cálculo da média são dados por:

pesos = c(3.7, 3.8, 4.8, 5.1, 3.9, 4.1, 4.2, 4.0, 4.5, 5.0)
mean(pesos)
64
Média Aritmética Ponderada 65
Genericamente, seja y1 , y2 , . . . , yn os n valores da variável Y, obtidos pelo pesquisador. A
média aritmética pode ser escrita como:
1∑
n
ȳ = yi (6.1)
n i=1
sendo yi o valor observado do i-ésimo indivíduo e n o total de observações.
Quando dados de uma amostra de determinada população são utilizados, a média aritmética
calculada será uma estimativa, pois emprega-se apenas uma fração do conjunto total.
6.2 Média Aritmética Ponderada

A média aritmética é considerada ponderada se os valores observados tiverem pesos diferentes.
Este é o critério denido para o cálculo da média nal para a disciplina de Estatística do curso de Medicina
Veterinária, cujos pesos são:
Prova Peso (pi )
P1 1
P2 1
P3 2
P4 2
T 1
em que T é a nota obtida na listas; P 1 , P2 , P3 e P4 são as notas obtidas nas provas e os respectivos pesos.
Portanto, para calcular a média nal tem-se a média ponderada, dada por:
P1 + P2 + 2 × P3 + 2 × P4 + T
ȳ =
∑5
pi
i=1
∑
5
em que o valor pi refere-se à soma dos pesos.
i=1
De forma genérica, tem-se:
∑
n
yi × pi
i=1
ȳ =
∑
n
pi
i=1
66 Capítulo 6. Medidas de Posição
sendo yi o valor que a variável recebe e pi seu respectivo peso.
Exemplo: Considere que as notas de um determinado aluno, obtidas na disciplina de Estatística, foram:
P1 P2 P3 P4 P5 T
Notas 8,5 6,5 7,7 9,0 7,5 10,0
Pesos 1 1 2 2 3 1
Calcule a média nal.
Solução:
Os comandos do R para o cálculo da média ponderada são:
Provas = c(8.5, 6.5, 7.7, 9.0, 7.5, 10.0)

pesos = c(1, 1, 2, 2, 3, 1)
(MF = weighted.mean(Provas, pesos))
Caso as observações estejam agrupadas em distribuições de frequências, o cálculo da média
passa a ser:
∑
k
y i × fi
i=1
ȳ = ,
∑
k
fi
i=1
sendo yi o valor observado (ou ponto médio da classe), k o número de classes e fi as frequências observadas.
Portanto, o cálculo da média para dados agrupados, nada mais é que o cálculo de uma média ponderada em
que os pesos são dados pelas frequências observadas.
Exemplo: Considere a distribuição de frequências dos pesos de cães das raças Fila Brasileira e Pastor Alemão,
atendidos no Hospital Veterinário da UEL em 2003 e apresentado na Tabela 6.1.

Média Geométrica 67
Tabela 6.1 Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor
Alemão, coletados no Hospital Veterinário da Universidade Estadual de Londrina, em
2003.
Pesos (kg) Freq. absolutas (fi ) Freq. Acum. (Fac ) Ponto médio (yi ) yi fi
5 ⊢ 11 1
11 ⊢ 17 5
17 ⊢ 23 8
23 ⊢ 29 7
29 ⊢ 35 4
35 ⊢ 41 5
Total 30
Fonte: Hospital Veterinário da UEL
Calcule a média de pesos dos animais.
Solução:
Os comandos do R para o cálculo da média para dados agrupados são:
yi = c(8,14,20,26,32,38)
fi = c(1,5,8,7,4,5)
(media = weighted.mean(yi, fi))
Obs.: A média sofre muita inuência de valores atípicos. Por outro lado, é ótima se a distribuição dos dados
for aproximadamente normal.
6.3 Média Geométrica

Quando os valores observados crescem de forma exponencial, a média aritmética pode não
representar bem o conjunto de dados. Neste caso, deve-se utilizar a média geométrica dos dados, que é
calculada por:
v
u n
√ u∏
ȳg = n y1 × y2 × . . . yn ou ȳg = t
n
yi (6.2)
i=1
A Contagem Bacteriana Total - CBT relaciona-se principalmente com práticas de higiene durante
a ordenha e limpeza do equipamento de ordenhar. Sendo assim, considere os dados apresentados na Tabela 6.2
referentes a CBT encontrada no leite, considerando-se a temperatura de armazenamento e o tempo após a
ordenha.
Tabela 6.2 Efeito da temperatura de armazenamento e tempo após a ordenha sobre o crescimento
bacteriano.
Temperatura de Tempo de armazenamento
armazenamento (o C) 3 horas 9 horas 24 horas
4 9.000 9.000 10.000
15 10.000 46.000 5.000.000
25 18.000 1.000.000 57.000.000
35 30.000 35.000.000 800.000.000
Fonte: http://www.laticinio.net/inf_tecnicas.asp?cod=62
Obs.: O leite deve atingir a temperatura de 4 oC em no máximo 2 horas após a ordenha.
Determine a média geométrica do número de bactérias encontrada nos três tempos apresentados
na Tabela 6.2.
Solução:
Os comandos do R para o cálculo da média geométrica, entre outros, são:
require(psych)
cbt_3 = c(9000, 10000, 18000, 30000)
cbt_9 = c(9000, 46000, 1000000,35000000)
cbt_24 = c(10000, 5000000, 57000000, 800000000)
geometric.mean(cbt_3)
Média Geométrica 69
Observe que é necessário instalar o pacote psych. No caso de se utilizar o pacote asbio, os
comandos seriam:
require(asbio)
cbt_3 = c(9000, 10000, 18000, 30000)
G.mean(cbt_3)
Pode ser necessário o uso de logaritmos para o cálculo da média geométrica. Nesta situação,
aplica-se o logaritmo ao segundo termo da Equação (6.2), obtendo-se:
1
log ȳg = (log10 y1 + log10 y2 + · · · + log10 yn )
n
log10 y1 + log10 y2 + · · · + log10 yn

ȳg = 10 n
Caso as observações estejam agrupadas em distribuições de frequências, a média geométrica

ponderada passa a ser:
√
y1f1 × y2f2 × . . . ynfn
n
ȳg =
Exemplo: Determine a média geométrica para os dados da Tabela (6.1).
Solução:
6.4 Mediana
A mediana, denotada por M d, é uma quantidade que, como a média, também procura caracteri-
zar o centro da distribuição de frequências quando os valores são dispostos em ordem crescente ou decrescente
de magnitude. É o valor que divide o conjunto ordenado de valores em duas partes com igual número de
elementos, ou seja, 50% das observações cam acima da mediana e 50% cam abaixo.
Para calcular a mediana deve-se, em primeiro lugar, ordenar os dados para que se possa localizar
a posição da mediana e assim encontrar seu valor. O número que indica a ordem ou posição em que se
encontra o valor correspondente à mediana é denominado elemento mediano (EM d ).
6.4.1 Determinação da mediana de valores não tabulados

Para determinar a mediana é preciso ordenar os dados; em seguida aplique um dos processos a
seguir:
a) A variável em estudo é discreta e n é ímpar. Neste caso a mediana será o valor da variável que ocupa a
posição:
n+1
EM d = .
2
Exemplo: O número de pacientes atendidos no Hospital Veterinário da UEL, nos últimos 11 dias foi:
10 12 11 17 21 18 16 17 20 15 27
Determine a mediana.
Mediana 71
Ordenados os valores, têm-se:
10 11 12 15 16 17 17 18 20 21 27.
Portanto, o elemento mediano será:

11 + 1
EM d = = 6,
2
ou seja, a mediana se encontra na sexta posição da lista ordenada de valores. Logo, a mediana neste
caso será: 17 pacientes.
Os comandos do R para cálculo da mediana são:

pacientes = c(10, 12, 11, 17, 21, 18, 16, 17, 20, 15, 27)
median(pacientes)
Obs.: Caso queira ordenar os elementos, o comando é:
sort(pacientes)
b) A variável em estudo é discreta e n é par. Neste caso a mediana, por convenção, será a média aritmética
dos valores que ocupam as posições:
( )
n n+2
EM d = e .
2 2
Exemplo: Acrescentando-se mais um dia aos dados do número de paciente atendidos pelo Hospital Vete-
rinário da UEL, tem-se:
10 11 12 14 15 16 17 17 18 20 21 27.
Portanto, a mediana será a média aritmética dos valores cujos elementos são:
( )
12 12 + 2
EM d = =6 e =7 .
2 2
16 + 17
Logo, Md = = 16, 5.
2
A mediana é uma medida resistente a valores atípicos (muito grandes ou muito pequenos).
Os comandos do R para cálculo da mediana são:

pac = c(10, 11, 12, 14, 15, 16, 17, 17, 18, 20, 21, 27)
median(pac)
6.4.2 Mediana de dados agrupados em classes

Quando os valores da variável estiverem agrupados em classes, admite-se que os valores da
variável na distribuição de frequências distribuam-se continuamente. A mediana será, neste caso, o valor da
variável, para o qual 50% da frequência total (n/2) ca situada abaixo e outra metade acima. O elemento
mediano para dados agrupados em classes será n/2 (não importa se é par ou ímpar).
Para determinação da mediana aplica-se a seguinte fórmula:
(EM d − Fac−1 )
M d = Li + × a, (6.3)
fM d
sendo:
,→ Li = limite inferior da classe mediana;
,→ a = amplitude do intervalo de classe mediana;
,→ fM d = frequência simples (absoluta) da classe mediana;
,→ Fac−1 = frequência acumulada anterior à classe mediana;
Exemplo: Determinar a mediana dos dados da Tabela 6.1.
Todos os termos utilizados na Equação (6.3) são referentes à classe mediana; logo, deve-se,
primeiramente, determinar a classe mediana encontrando-se o elemento mediano, dado por:
n 30
EM d = = = 15.
2 2
Portanto, a classe mediana é: 23 ⊢ 29, uma vez que, até 29, tem-se 21 observações, e até 23 apenas 14.
Logo, substituindo-se os termos na expressão 6.3, tem-se:
(15 − 14)
Md = 23 + ×6
7
Md = 23, 86 kg.
6.5 Moda
Outra medida que pode ser utilizada é a moda, representada por Mo, denida como a
realização mais frequente do conjunto de valores observados.
Se dois valores ocorrem com a mesma frequência máxima, cada um deles será a moda, e o
conjunto se denomina bimodal. Se mais de dois valores ocorrem com a mesma frequência máxima, cada um
deles é uma moda, e o conjunto é multimodal. Quando nenhum valor é repetido, o conjunto não tem moda
(amodal). A moda pode ser obtida mesmo que a variável seja qualitativa.
Moda 73
Exemplo 1: Considere a estatura (em cm) dos alunos do curso de Medicina Veterinária:
155 161 163 163 168 168 168 169 172 175.
Logo, a altura modal entre esses alunos é M o = 168 cm, pois este valor se repetiu em maior número de vezes.
Os comandos do R para o cálculo da moda são dados por:

estat = c(155, 161, 163, 163, 168, 168, 168, 169, 172, 175)
tab.est = table(estat)
estat.mo = names(tab.est)[tab.est == max(tab.est)]
estat.mo
Exemplo 2: O conjunto de números 1, 2, 3, 4 e 5 não tem moda (Amodal).
Exemplo 3: O conjunto de números 1, 2, 2, 3, 4, 4 e 5 tem duas modas (bimodal), 2 e 4.
Exemplo 4: Considere os seguintes dados:
Tipo Sanguíneo Frequência
O 277
A 141
B 102
AB 37
O sangue tipo O ocorreu com maior frequência. Então a moda dessa amostra é sangue tipo O.
6.5.1 Moda para dados agrupados em classes

Para dados agrupados em uma tabela de distribuição de frequências para variáveis quantita-
tivas discretas, a determinação da moda é imediata, bastando, para isso, consultar na tabela, o valor que
apresenta maior frequência, sendo este a moda. Considerando-se os dados da Tabela 6.3, determine a moda.
Tabela 6.3 Tempo (em semanas) de sobrevida de ratos com câncer induzido experimentalmente.
Sobrevida (semanas) 2 5 6 7 8 9 30
Número de ratos 2 4 10 5 4 1 1
Neste caso, a moda é 6 semanas, pois é o valor que ocorre com maior frequência.
Para dados agrupados em uma tabela de distribuição de frequências para variáveis quantita-
tivas contínuas, pode-se utilizar um dos seguintes métodos:
a) Moda bruta - é o método mais rudimentar para o cálculo da moda em tabelas de frequências, com valores
agrupados em classes. Consiste em tomar o ponto médio da classe modal (aquela que apresenta maior
frequência).
b) Método de Czuber1 - O processo para cálculo da moda para dados agrupados é o geométrico, a partir do
histograma de frequências. Este método é baseado na inuência que as classes adjacentes exercem sobre
a moda, deslocando-a no sentido da classe de maior frequência. Considere a Figura 6.1.
Figura 6.1 Esquema para obtenção da moda pelo método de Czuber, do número de atendimentos
do Hospital Veterinário da UEL, 2005.
Processo:
Na Figura 6.1, marca-se, na classe modal, os vértices A, B, C e D;
Traça-se retas AC e BD;
No ponto de intersecção dessas retas (E), traça-se uma perpendicular ao eixo das ordenadas, localizando
o ponto Mo , valor da moda;
O ponto Mo divide a intervalo da classe modal (a) em duas partes, cujos comprimentos são proporci-
onais a ∆1 e ∆2 , sendo ∆1 a diferença entre a frequência da classe modal e da classe imediatamente
anterior e ∆2 a diferença entre as frequências da classe modal e da imediatamente posterior;
Por E traça-se a reta FG paralela ao eixo das abscissas, obtendo-se, assim, os segmentos EF e EG,
que representam as alturas dos triângulos ABE e CDE ;
Sendo Li o limite inferior e Ls o limite superior da classe modal e x a distância entre Li e a moda
(Mo ), verica-se, da Figura 6.1 que:
Mo = Li + x; (6.4)
1
Emanuel Czuber: nasceu em 19/01/1851 em Praga, República Tcheca e morreu em 22/08/1925 em Gnigl, Austria.
Moda 75
Sendo os triângulos ABE e CDE semelhantes (pois possuem dois ângulos iguais), tem-se que:
EF AB
=
EG CD
x ∆1
=
a−x ∆2
x∆2 = a∆1 − x∆1
∆1
x = a (6.5)
∆1 + ∆2
Substituindo-se (6.5) em (6.4), tem-se:
∆1
M o = Li + × a, (6.6)
∆1 + ∆2
em que:
Li = limite inferior da classe modal;
a = amplitude do intervalo da classe modal;
∆1 = diferença entre a frequência da classe modal e a imediatamente anterior;
∆2 = diferença entre a frequência da classe modal e a imediatamente posterior;
c) Fórmula de Pearson - em distribuições moderadamente assimétricas pode ser usada a fórmula de Pearson,
dada por:
Mo ∼
= 3M d − 2x̄ (6.7)
em que:
Md = o valor da mediana;
x̄ = a média amostral;
Exemplo: Determinar a moda pelos métodos: moda bruta, Czuber e Pearson da seguinte distribuição:
Classes fi Fi
10 ⊢ 20 10 10
20 ⊢ 30 15 25
30 ⊢ 40 20 45
40 ⊢ 50 15 60
50 ⊢ 60 8 68
60 ⊢ 70 2 70
Total 70
a) A classe modal é 30 ⊢ 40, logo, pelo método da moda bruta, tem-se que a moda é 35;
b) Pelo método de Czuber, tem-se:
∆1
Mo = Li + a,
∆1 + ∆2
5
Mo = 30 + 10 = 35.
5+5
c) Pelo método de Pearson, tem-se:
Mo ∼
= 3M d − 2x̄
Mo ∼
= 3 ∗ 35 − 2 ∗ 35, 29 = 34, 42.
Observações:
a) média, mediana e moda têm interpretações diferentes, mas ajudam igualmente a representar um conjunto
de dados. A média pode ser vista como ponto de equilíbrio das observações, a mediana como o ponto
médio e a moda como o ponto de máxima frequência;
b) dados categóricos (ou qualitativos) não tem média nem mediana, mas podem ter moda.
c) se a distribuição dos dados é absolutamente simétrica em torno de um valor central, então a média, a
mediana e a moda coincidem;
d) se a média for maior do que a moda, a distribuição de frequência tem assimetria positiva;
e) se a média for menor que a moda, tem-se assimetria negativa da distribuição de frequência;
Na seção 6.8, página 84, é apresentado formas de se calcular a assimetria e a curtose de uma
conjunto de dados.
Utilização das medidas de tendência central 77
6.6 Utilização das medidas de tendência central

a) Escolha da média:
i) quando a distribuição dos dados é pelo menos aproximadamente simétrica;
ii) quando for necessário obter posteriormente outros parâmetros que podem depender da média, como
por exemplo a variância, o desvio padrão, etc.
b) Escolha da mediana
i) quando há valores extremos;
ii) quando deseja-se conhecer o ponto central da distribuição;
iii) quando a distribuição dos dados é muito assimétrica.
c) Escolha da moda
i) quando a medida de interesse é o ponto mais típico ou popular dos dados;
ii) quando precisa-se apenas de uma rápida idéia sobre a tendência central dos dados.
6.7 Medidas Separatrizes

Dados simétricos são adequadamente descritos pela média e pelo desvio-padrão. Quando os
dados são assimétricos, a mediana identica mais adequadamente o centro de um conjunto de dados. Para
entender bem uma distribuição, pode-se conhecer valores acima ou abaixo dos quais se encontra uma determi-
nada porcentagem dos dados através da medidas separatrizes. Separatriz de uma série de n termos colocados
em ordem crescente de valor, é o termo da série que a divide em duas partes quaisquer. As principais separa-
trizes são a mediana, os quartis, os decis e os percentis.
6.7.1 Separatrizes de dados não agrupados

O percentil de ordem 100 p de um conjunto de valores dispostos em ordem crescente é um valor
tal que (100 p)% das observações estão nele ou abaixo dele e 100(1−p)% estão nele ou acima dele (0 < p < 1).
Assim, o percentil generaliza qualquer tipo de medida separatriz. Logo, tem-se:
i) o percentil de ordem 50 (P50 ) é a mediana;
ii) os percentis de ordens 25, 50 e 75, representados por P25 = Q1 , P50 = Q2 e P75 = Q3 , respectivamente,
são chamados quartis (inferior, mediano e superior).
Há vários métodos para o cálculo do percentil de ordem 100 p, ou seja P100 p . No R são
apresentados 9 métodos diferentes.

Seja n o número de valores não nulos para uma variável e seja y 1 , y2 , · · · , yn representando os
valores ordenados, tal que y1 é o menor valor e yn o maior. Para um dado valor de p entre 0 e 1, o p-ésimo
percentil é o valor tal que a área a esquerda dele é p. O p-ésimo percentil é calculado como:
 y +y
 (i) (i+1)
, se f = 0
yp = 2
 y
(i+1) , se f > 0
em que i é a parte inteira e f é a parte fracionária de np = i + f . Aplicam-se aqui os critérios de arrendon-
damento. Para obter as medidas separatrizes por este método no R, basta optar pelo type = 2.
Um outro critério, que pode ser adotado, é considerar a estatística de ordem par mais próxima.
Neste caso, no R, basta escolher a opção type = 3.
Exemplo: Considere os seguintes comprimentos (cm) de tilápias do nilo:
29, 0 − 29, 5 − 29, 3 − 25, 8 − 29, 8 − 24, 3 − 27, 0 − 29, 6 − 30, 0 − 28, 5
Determinar os percentis: 0, 20 − 0, 34 − 0, 45.

Medidas Separatrizes 79
Solução:
Os comandos do R são:
tilap = c(29.0,29.5,29.3,25.8,29.8,24.3,27.0,29.6,30.0,28.5)
quantile(tilap, probs=c(0.20,0.34,0.45), type=2)
quantile(tilap, probs=c(0.20,0.34,0.45), type=3)
6.7.2 Separatrizes de dados agrupados

Assim como a mediana divide os dados em duas partes iguais, os três quartis, denotados por
Q1 , Q2 e Q3 , dividem as observações ordenadas em quatro partes iguais. O primeiro quartil separa os 25%
inferiores dos 75% superiores dos valores ordenados; o segundo quartil é a mediana e o terceiro quartil separa
os 75% inferiores dos 25% superiores dos dados.
Para o cálculo dos quartis, utiliza-se uma fórmula semelhante à da mediana, dada por:
( in )
− Fac−1
Qi = Li + 4 × a, (6.8)
fQi
em que:
Li = limite inferior da classe quartílica;
a = amplitude do intervalo da classe quartílica;
fQi = frequência simples (absoluta) da classe quartílica;
Fac−1 = frequência acumulada anterior à classe quartílica;
Analogamente, há nove decis, denotados por D 1 , D 2 , D3 , . . . , D 9 que dividem os dados em 10
grupos com cerca de 10% deles em cada grupo. A fórmula é dada por:
( in )
− Fac−1
Di = Li + 10 × a, (6.9)
fDi
em que:
Li = limite inferior da classe decil;
a = amplitude do intervalo da classe decil;
fDi = frequência simples (absoluta) da classe decil;
Fac−1 = frequência acumulada anterior à classe decil;
Há nalmente, 99 percentis, que dividem os dados em 100 grupos com cerca de 1% em cada
grupo. A fórmula é dada por:
( in )
− Fac−1
Pi = Li + 100 × a, (6.10)
fPi
em que:
Li = limite inferior da classe percentil;
a = amplitude do intervalo da classe percentil;
fPi = frequência simples (absoluta) da classe percentil;
Fac−1 = frequência acumulada anterior à classe percentil;
Exemplo: Considere a distribuição de frequências dos pesos médios (kg) das leitegadas
2 da raça Landrace,
ao nascer, apresentada na Tabela 6.4.
Tabela 6.4 Peso médio (kg) das leitegadas da raça Landrace, ao nascer.
Pesos médios (kg) Frequências
12, 0 ⊢ 12, 5 8
12, 5 ⊢ 13, 0 10
13, 0 ⊢ 13, 5 12
13, 5 ⊢ 14, 0 23
14, 0 ⊢ 14, 5 17
14, 5 ⊢ 15, 0 10
15, 0 ⊢ 15, 5 8
15, 5 ⊢ 16, 0 3
Determine:
2
Conjunto dos leitões, que nasceram de um parto
a) a média, a mediana e a moda;
Solução:
b) a distribuição é simétrica? Se não, que tipo de assimetria?
Solução:
c) Determine: Q1 , Q2 , Q3 , D5 , D6 , P95 ;
Solução:
Uma forma direta de se determinar os valores das medidas separatrizes é utilizando o gráco de
frequências acumuladas percentuais (conhecida como Ogiva de Galton).
6.7.3 Gráco de caixa
Uma aplicação interessante para os quartis é a construção do chamado gráco de caixa (ou box
plot, box-whisker plot), que tem por nalidade a detecção de observações discrepantes e o estudo da simetria
da distribuição. Tal gráco foi apresentado no Capítulo 5, na página 57.
Para a construção de um gráco de caixa é necessário:
1) calcular o primeiro quartil (Q1 ), a mediana (Md) e o terceiro quartil (Q3 );
2) calcular a amplitude interquartílica (ou distância interquartílica), dada por d q = Q3 − Q1 ;
3) calcular os limite inferior e superior. Tem-se que o limite inferior é LI = Q1 − 1, 5dq e o limite superior
dado por LS = Q3 + 1, 5dq . Traça-se uma linha a partir do centro de Q1 até o limite inferior, e procede-se
da mesma forma com o valor de Q3 , traçando-se a linha até o valor do limite superior;
4) vericar se há observações discrepantes. As observações que estiverem acima do limite superior ou abaixo
do limite inferior serão consideradas discrepantes do restante dos dados. São, em geral, representadas por
um asterisco (*) ou (•).
Na Figura 6.2 são apresentados os quartis, bem como os limites inferior e superior, além da
média e de outliers.
Figura 6.2 Esboço do gráco de caixas.
Exemplo: Na Figura 6.3 é apresentado as frequências cardíacas dos animais atendidos no Hospital Veterinário,
da Universidade Estadual de Londrina, em 2003, por sexo.
200
Freqüência Cardíaca
150
100
50
Fêmeas Machos
Sexo dos Animais
Figura 6.3 Frequência cardíaca dos animais atendidos no Hospital Veterinário, da Universidade Es-
tadual de Londrina, em 2003.
Pelo gráco, observa-se que as fêmeas têm batimentos cardíacos mais homogêneos que os ma-
chos, embora haja alguns animais com batimentos discrepantes em relação ao seu grupo. Em termos médios,
percebe-se que a média de batimentos cardíacos para machos e fêmeas é aproximadamente igual.
Para construção do gráco, os comandos do R são:

dados = read.table("http://www2.uel.br/pessoal/silvano/Dados/Dados_HV.txt", sep="\t",
header=T, dec=",")
attach(dados)
names(dados)
medias = by(FC, Sexo, mean, na.rm=TRUE)
boxplot(FC~Sexo, xlab="Sexo dos Animais", names=c("Fêmeas", "Machos"),
ylab="Frequência Cardíaca", col="LightYellow", las=1)
# Opções: border="red")
points(medias, pch="+", cex=1.5, col="red")
detach(dados)
6.8 Assimetria e Curtose

6.8.1 Assimetria
Numa distribuição estatística, a assimetria é o quanto sua curva de frequência se desvia ou se
afasta da posição simétrica, possibilitando analisar uma distribuição de acordo com as relações entre suas
medidas de moda, média e mediana. Pode-se caracterizar a distribuição de frequência em:
a) Assimetria nula ou simétrica.
Uma distribuição é dita simétrica quando apresenta o mesmo valor para a moda, a média e a mediana,
ou seja,
ȳ = M d = M o.
b) Assimétrica à direita ou positiva.
Quando a cauda da curva da distribuição declina para direita, tem-se uma distribuição com curva assi-
métrica positiva:
ȳ > M d > M o.
c) Assimétrica à esquerda ou negativa;
Analogamente, quando a cauda da curva da distribuição declina para esquerda, tem-se uma distribuição
com curva assimétrica negativa:

ȳ < M d < M o.
Assimetria e Curtose 85
Gracamente, tem-se um eixo de referência ou eixo de simetria, que é traçado sobre o valor
da média da distribuição. Sempre que a curva da distribuição se afastar do referido eixo, será considerada
como tendo um certo grau de afastamento, que é considerado como uma assimetria da distribuição. Ou seja,
assimetria é o grau de afastamento que uma distribuição apresenta do seu eixo de simetria.
Existem diversos métodos para o cálculo da medida de assimetria e, entre eles:
a) o 1o coeciente de assimetria de Pearson, que é dado por:
ȳ − M o
As =
s
para dados amostrais.
b) o 2o coeciente de assimetria de Pearson.
Quando a distribuição for quase simétrica ou moderadamente assimétrica, pode-se calcular o grau de
assimetria substituindo-se a moda pela mediana, segundo a relação empírica proposta por Pearson:
3(ȳ − M d)
As =
s
c) o coeciente quartil de assimetria que, em seu cálculo, recorre apenas aos quartis.
Trata-se de uma medida muito útil quando não for possível empregar o desvio-padrão como medida de
dispersão. É denido por:

Q3 − 2 × M d + Q1
Asq =
Q3 − Q1
d) o coeciente momento de assimetria.

Outra medida utilizada para avaliar a assimetria de uma distribuição de frequências é o coeciente momento
de assimetria, calculado com base nos momentos centrados da segunda e terceira ordem, denido por:
m3
Asm = (√ )3
m2
em que:
∑
n ∑
n
(yi − ȳ)3 fi (yi − ȳ)2 fi
i=1 i=1
m3 = e m2 =
n n
Obs.: A assimetria calculada usando o R é baseada no coecente momento de assimetria.
A interpretação do coeciente de assimetria, em qualquer dos casos é:
As = 0, é simétrica;
então a distribuição
As > 0 a distribuição é assimétrica positiva;

As < 0 a distribuição é assimetrica negativa.
6.8.2 Curtose
A curtose é uma medida de dispersão que indica até que ponto a curva de frequências de uma
distribuição se apresenta mais alada ou mais achatada do que uma curva-padrão, denominada curva normal.
Para avaliar o grau de curtose de uma curva ou distribuição de frequências, pode-se adotar dois
tipos de medidas:
a) coeciente percentílico de curtose.

É a medida mais elementar usada para avaliar o grau de curtose de uma distribuição ou curva de frequências.
É denido por:
dq
kp =
2 × (D9 − D1 )
em que, dq é a distância interquartílica; D9 é o nono decil e D1 é o primeiro decil. Neste caso, tem-se que:
se k = 0, 263, a curva ou distribuição é mesocúrtica;
se k > 0, 263, a curva ou distribuição é platicúrtica;
se k < 0, 263, a curva ou distribuição é leptocúrtica;
No caso da distribuição normal padrão, o valor da curtose é k = 0, 263, caracterizando uma curva meso-
cúrtica.
b) coeciente momento de curtose.

Utiliza-se do quociente entre o momento centrado de quarta ordem e o quadrado do momento centrado
de segunda ordem, dado por:
m4 m4
km = ou, ainda, km =
m22 (s2 )2
em que m4 é o quarto momento central e s2 é a variância.
A interpretação da curtose é:
Se o valor da curtose for km = 3, então tem o mesmo achatamento que a distribuição normal. Chama-se
a estas funções de mesocúrticas ;
Se o valor é km > 3 então a distribuição em questão é mais alta (afunilada) e concentrada que a
distribuição normal. Diz-se desta função probabilidade que é leptocúrtica, ou que a distribuição tem
caudas pesadas (o signicado é que é relativamente fácil obter valores que se afastam da média a vários
múltiplos do desvio padrão);
Se o valor é km < 3 então a função de distribuição é mais achatada que a distribuição normal.
Chama-se-lhe platicúrtica.
Obs.: A curtose calculada usando o R é baseada no coecente momento de curtose.

Exemplo: Na Figura 6.4 são apresentadas as frequências respiratórias dos animais atendidos no Hospital
Veterinário, da Universidade Estadual de Londrina, em 2003.
0.020
0.015
Densidade de Probabilidade
0.010
0.005
0.000
0 20 40 60 80 100 120 140 160 180 200
Frequência Respiratória
Figura 6.4 Frequências respiratórias dos animais atendidos no Hospital Veterinário, da Universidade
Estadual de Londrina, em 2003.
Pelo gráco, observa-se que a moda (M o = 32) é menor que a média (ȳ = 53, 8), caracterizando
uma distribuição assimétrica positiva.
Para construção do histograma e das medidas de assimetria e curtose, os comandos do R são:

rm(list=ls())
dados = read.table("http://www2.uel.br/pessoal/silvano/Dados/Dados_HV.txt", sep="\t",
header=T, dec=",")
attach(dados) ; names(dados)
(media = mean(FR, na.rm=T)) ; (desvio = sd(FR, na.rm=T)) ;
(minimo = min(FR, na.rm=T)) ; (maximo = max(FR, na.rm=T))
tab.est = table(FR) ; (moda = names(tab.est)[tab.est == max(tab.est)])
par(mai=c(1,1,.2,.2))
hist(FR, breaks=c(0, 20, 40, 60,80, 100, 120, 140, 160, 180, 200), freq=F, right=F, xlab=`',
ylab=`', col=`LightYellow', main=`', ylim=c(0,.02), las=1, xaxt="n", border="blue", labels=F)
mtext(`Frequência Respiratória', side=1, line=1.5)
mtext(`Densidade de Probabilidade', side=2, line=4)
abline(h=0) ; abline(v=media, col=`red', lwd=2, lty=2)
axis(1, at = c(0, 20, 40, 60,80, 100, 120, 140, 160, 180, 200), line=-1.2)
y = seq(minimo-10, maximo, 0.01)
lines(y, dnorm(y, media, desvio), col="red", lwd=1.5)
require(moments) ; skewness(FR, na.rm=T) ; kurtosis(FR, na.rm=T)
Exercícios - Medidas de Posição
1) Em uma pesquisa sobre diabetes mellitus, foram coletados os seguintes valores de glicemia em jejum:
80 85 86 90 95 96 99 100 101 103

103 103 104 105 108 108 109 110 110 110
a) Agrupar os dados em classes e calcular a média aritmética, a moda (bruta e Czuber) e a mediana;
b) Determine, sem agrupar os dados em classes (dados brutos): a média aritmética, a moda e a mediana.
Utilize-se do R e de calculadora.
2) Em um estudo sobre instituições de atendimento médico, foram obtidos dados da disponibilidade de leitos
de 50 dessas instituições:
48 53 58 62 64 66 69 71 77 81
49 54 58 62 64 67 69 72 77 82
50 55 59 63 65 67 70 73 78 83
52 56 60 64 65 67 70 74 78 86
52 57 61 64 66 68 71 76 80 90
a) Determine a média e a mediana dos dados e, também, determine o terceiro quartil e interprete-o;
b) Construa o histograma;
c) Construa o gráco de caixas (box plot ).
d) Agora, utilizando o R, refaça os cálculos anteriores.

e) Agrupar os dados em classes (Sturges) e calcular a média, a moda (bruta e Czuber) e a mediana.
Compare os resultados obtidos e discuta-os.
3) Os dados abaixo representam a largura máxima de amostras de crânios de animais machos. Calcule a
média, a mediana e a moda. Conrme os resultados utilizando-se do R.
131 119 138 125 129 126 131 132 126 128 128 131
4) A amplitude total de um conjunto de números é 500. Se a distribuição de frequências apresenta 20 classes,
qual deverá ser o limite inferior e o ponto médio da 5a classe, se o limite superior da 1a classe é igual a
35?
5) Os níveis de ácido úrico, em (mg/100 ml), encontrados nos exames bioquímicos de sangue de 10 pacientes
de um laboratório, são os seguintes:
5, 1 4, 0 6, 4 5, 0 5, 5 9, 0 5, 5 5, 5 6, 0 8, 0
Com base nessas informações, calcular:
a) a média aritmética simples; d) a mediana;
b) a média geométrica; e) a moda.
c) a média harmônica;
Conrme os cálculos utilizando-se do R ou da sua calculadora.

6) Com base nos dados apresentados na Tabela 1.1, página 7, calcular a média aritmética simples, a média
geométrica, a média harmônica, a mediana e moda de ácido ascórbico no plasma.
7) Qual o tipo mais comum de suicídio apresentado na Tabela 6.5? A esse tipo de medida estatística, qual o
nome que se dá?
Tabela 6.5 Suicídios ocorridos no Brasil em 1986, segundo a causa atribuída.
Causa atribuída Frequências
Alcoolismo 263
Diculdade nanceira 198
Doenca mental 700
Outro tipo de doença 189
Desilusão amorosa 416
Outras 217
Total 1983
Fonte: IBGE (1988)
Qual a probabilidade de um indivíduo que se suicidou, tê-lo feito por desilusão amorosa?
8) Consideremos 12 observações (ordenadas) do tempo de internação (dias) de animais de pequeno porte do
Hospital Veterinário da UEL:
1 4 7 9 10 13 15 17 17 18 19 21
Obtenha os quartis e interprete estes valores. Construa o gráco de caixas usando o R.

9) Com base nos dados da Tabela 6.6, calcule o peso médio dos ratos em cada idade. Usando o R, construa o
gráco de caixas para a variável peso, considerando-se cada rato (apenas um gráco com todos os ratos).
Compare os resultados e comente.
Tabela 6.6 Peso médio em ratos por idade.
Idades
Número do rato
30 34 38 42 46
1 76,2 95,5 99, 2 122,7 134,6
2 81,5 90,0 101,2 125,9 136,2
3 50,0 60,0 62, 3 72, 2 85, 3

4 47,5 50,0 57, 5 72, 3 84, 0
5 63,5 79,2 82, 1 94, 7 110,0
6 65,1 75,7 79, 3 88, 5 98, 7

7 63,2 74,8 79, 0 88, 1 100,0
8 64,5 74,1 92, 6 96, 0 98, 3
10) Trinta pessoas foram consultadas sobre sua cor favorita. Suas respostas foram:
Vermelho Azul Azul Roxo Preto Preto
Azul Marrom Vermelho Azul Amarelo Azul
Verde Amarelo Preto Amarelo Azul Verde
Azul Verde Azul Preto Preto Azul
Azul Azul Laranja Vermelho Verde Vermelho
Construa uma tabela de frequências para os dados. Qual a escolha modal e a frequência relativa (ou
porcentagem) desta cor?
11) Calcule para a tabela de frequências abaixo sua respectiva média e mediana.
Xi 2 3 4 5 6
Fi 3 9 19 25 28
12) Determinar o quarto decil, o primeiro quartil e o septuagésimo segundo percentil da seguinte distribuição:
Classes fi Fi
4⊢ 9 8
9 ⊢ 14 12
14 ⊢ 19 17
19 ⊢ 24 3
“Se você seguir apenas por caminhos tra-

çados, chegará onde todos poderiam che-
gar”.
Alexandre Graham Bell

Capítulo 7
Medidas de dispersão ou
variabilidade
As medidas de dispersão servem para indicar o quanto os dados se apresentam dispersos em
relação ao seu valor médio. Considere os dados referentes aos pesos de cinco animais, de quatro raças de
coelhos: Alaska, Beliê, Califórnia e Chinchila, apresentados na Tabela 7.1.
Tabela 7.1 Pesos de cinco coelhos de quatro raças distintas.
Pesos (em kg)

Raças dos coelhos Médias
Animal 1 Animal 2 Animal 3 Animal 4 Animal 5
Alaska 3,0 3,5 4,5 4,0 5,0 4,0
Beliê 4,2 3,8 4,1 3,9 4,0 4,0
Califórnia 3,0 3,0 4,0 5,0 5,0 4,0
Chinchila 4,0 4,0 4,0 4,0 4,0 4,0
Analisando-se os resultados da Tabela 7.1, verica-se que a média de pesos para as quatro raças é
a mesma, ou seja, quatro quilos. Embora o valor médio seja o mesmo, a variável peso tem um comportamento
diferente dentro de cada raça. Assim, para a raça Alaska, o peso varia de 3,0 a 5,0 quilos; para a raça Beliê,
a variação é de 3,8 a 4,2 quilos; para a Califórnia, de 3,0 a 5,0 quilos; para a Chinchila, não há variação. Em
geral, um alto grau de uniformidade ou pequena dispersão é desejável.
7.1 Amplitude Total

A maneira mais simples de se medir a variabilidade de uma variável é através da distância entre
o maior e o menor valor observado em um conjunto de dados. Essa diferença é a amplitude total, denotada
92
Desvio Absoluto Médio 93
por At .
Para os dados apresentados na Tabela 7.1, a amplitude total será:
Raça dos coelhos Amplitude total
Alaska At = 5, 0 − 3, 0 = 2, 0 kg
Beliê At = 4, 2 − 3, 8 = 0, 4 kg
Califórnia At = 5, 0 − 3, 0 = 2, 0 kg
Chinchila At = 4, 0 − 4, 0 = 0, 0 kg
O problema em se considerar a amplitude total como medida de dispersão dos dados, é o fato
dela levar em consideração em seu cálculo, apenas os valores extremos e não todos os valores. Assim, dois
conjuntos de dados podem apresentar a mesma amplitude total, mesmo que tenham dispersão muito diferente.
Embora fácil de calcular e de interpretar, não deve ser usada normalmente como medida de dispersão.
Uma forma de se calcular as amplitudes usando os comandos do R é:

coelhosd = c(3.0,3.5,4.5,4.0,5.0,4.2,3.8,4.1,3.9,4.0,
3.0,3.0,4.0,5.0,5.0,4.0,4.0,4.0,4.0,4.0)
coelhos = matrix(coelhosd, 4,5, byrow=T)
colnames(coelhos) = c('Animal1','Animal2','Animal3','Animal4','Animal5')
rownames(coelhos) = c('Alaska', 'Beliê','Califórnia','Chinchila')
coelhos
alaska = range(coelhos[1,]) ; diff(alaska)

belie = range(coelhos[2,]) ; diff(belie)
california = range(coelhos[3,]) ; diff(california)
chinchila = range(coelhos[4,]) ; diff(chinchila)
7.2 Desvio Absoluto Médio

Outra forma de se medir a variabilidade de uma variável é quanticando a dispersão das obser-
vações em relação a um ponto especíco na distribuição, em geral, a média. Claro que poderia-se pensar em
calcular os desvios em relação a, por exemplo, mediana. À distância entre os valores observados e a média ou
mediana, dá-se o nome de desvio, logo
Desvio = yi − ȳ ou Desvio = yi − M d
94 Capítulo 7. Medidas de dispersão ou variabilidade
Considere os pesos dos animais da raça Alaska, apresentados na Tabela 7.1 e calcule os desvios em torno da
média. Esses cálculos são apresentados na Tabela 7.2.
Tabela 7.2 Desvios e desvios absolutos para pesos dos animais da raça Alaska.
Animais Desvios: (yi − ȳ) Desvios absolutos: |yi − ȳ|

1 3, 0 − 4, 0 = −1, 0 |3, 0 − 4, 0| = 1, 0
2 3, 5 − 4, 0 = −0, 5 |3, 5 − 4, 0| = 0, 5
3 4, 5 − 4, 0 = 0, 5 |4, 5 − 4, 0| = 0, 5
4 4, 0 − 4, 0 = 0, 0 |4, 0 − 4, 0| = 0, 0
5 5, 0 − 4, 0 = 1, 0 |5, 0 − 4, 0| = 1, 0
∑
n ∑
n
Soma (yi − ȳ) = 0 |yi − ȳ| = 3, 0
i=1 i=1
Observe que a soma dos desvios em relação à média é sempre zero, logo, ela não é informativa a
respeito da variabilidade dos dados, portanto, é melhor utilizar a soma dos valores absolutos dos desvios, que
será sempre positiva. A soma dos valores absolutos será tanto maior quanto maior o número de observações
(n).
O desvio absoluto médio pode ser calculado como:
1∑
n
dy = |yi − ȳ|
n i=1
3, 0
Para a raça Alaska, o desvio absoluto médio é: dy = = 0, 6 kg .
5
Caso os dados estejam agrupados em uma tabela de distribuição de frequências, o cálculo do
desvio médio será calculado por:

1∑
n
dy = |yi − ȳ|fi
n i=1
No R o cálculo dos desvios absolutos médios, por raça, é:

n1 = length(coelhos[1,]) ; (dm1 = (1/n1)*(sum(abs(coelhos[1,] - mean(coelhos[1,])))))
desvios_medios = cbind(dm1, dm2, dm3, dm4) ; desvios_medios
Para o cálculo do desvio absoluto médio dos dados, independentemente de raça, tem-se:
Variância 95
n = length(coelhosd)
desvio_medio = (1/n)*(sum(abs(coelhosd - mean(coelhosd))))
7.3 Variância
A medida de variabilidade mais utilizada é a variância, que é simplesmente a soma dos quadrados
dos desvios, divididos pelo total de observações menos um. Pode-se calcular a variância para dados provenientes
de uma população ou amostra e de dados brutos ou agrupados em classes.
7.3.1 Variância de Dados Brutos Populacionais
Quando se coleta dados de toda população-alvo ou simplesmente população, o cálculo da vari-
ância se dá da seguinte forma:
∑
n
(yi − µ)2
i=1
σ2 = . (7.1)
N
7.3.2 Variância de Dados Brutos Amostrais
Se as informações coletadas são provenientes de uma amostra da população, então a variância
é calculada da seguinte maneira:
∑
n
(yi − ȳ)2
i=1
s2 = . (7.2)
n−1
Considere os dados da Tabela 7.1 e calcule a variância para os pesos dos animais da raça Alaska. Na Tabela
7.3 são apresentados os desvios calculados.

Tabela 7.3 Desvios e quadrado dos desvios para pesos dos animais da raça Alaska.
Animais Desvios: (yi − ȳ) Quadrado dos desvios: (yi − ȳ)2
1 3, 0 − 4, 0 = −1, 0 (3, 0 − 4, 0)2 = 1, 00
2 3, 5 − 4, 0 = −0, 5 (3, 5 − 4, 0)2 = 0, 25
3 4, 5 − 4, 0 = 0, 5 (4, 5 − 4, 0)2 = 0, 25
4 4, 0 − 4, 0 = 0, 0 (4, 0 − 4, 0)2 = 0, 00
5 5, 0 − 4, 0 = 1, 0 (5, 0 − 4, 0)2 = 1, 00
∑n ∑n
Soma (yi − ȳ) = 0 (yi − ȳ)2 = 2, 5
i=1 i=1
Logo, a variância será:

∑
n
(yi − ȳ)2
i=1 2, 5
s2 = = = 0, 625 kg 2 .
n−1 5−1
Uma forma computacionalmente mais eciente, para o cálculo da variância, é obtida quando se
desenvolve a soma de quadrados dos desvios, da seguinte maneira:
∑
n ∑
n
(yi − ȳ)2 = (yi2 − 2yi ȳ + ȳ 2 )
i=1 i=1
∑
n ∑
n
= yi2 − 2ȳ yi + nȳ 2
i=1 i=1
 2
∑
n
∑  yi 
2∑ ∑  i=1 
n n n
= yi2 − yi yi + n
 n 

i=1
n i=1 i=1  
(∑
n )2
yi
∑
n
i=1
= yi2 − . (7.3)
i=1
n
Substituindo-se 7.3 em 7.2, tem-se:
 ( )2 
∑
n
 n yi 
∑ 
1  i=1 
s2 =  y2 − . (7.4)
n − 1  i=1 i n 
 
O cálculo da variância dos pesos para cada raça, usando o R é dado por:
Variância 97
var1 = (1/(n1-1))*(sum((coelhos[1,] - mean(coelhos[1,]))^2))

cbind(var1, var2, var3, var4)
Para o cálculo da variância dos pesos de todos os coelhos, sem levar em consideração a raça, é:
media = mean(coelhosd) ; media

n = length(coelhosd) ; n
variancia = (1/(n-1))*sum((coelhosd - media)^2)
variancia
ou, simplesmente
var(coelhosd)
7.3.3 Variância de Dados Agrupados
Quando os dados estão dispostos em uma tabela de fequências, para se calcular a variância basta
levar-se em consideração as frequências de cada classe. Logo, multiplica-se o numerador da equação 7.2 por
fi e obtém-se:
∑
n
(yi − ȳ)2 fi
i=1
s2 = .
n−1
Desenvolvendo-se o quadrado dos desvios, chega-se a:
 
(∑
n )2
 n yi fi 
∑ 
1  i=1 
s2 =  y 2 fi − . (7.5)
n − 1  i=1 i n 
 
Exemplo: Considere a distribuição de fequência da Tabela 7.4. Determine a variância.

Tabela 7.4 Pesos das carcaças de bovinos.
Pesos (kg) Frequências (fi ) Ponto médio (yi )
120 ⊢ 140 8 130
140 ⊢ 160 12 150
160 ⊢ 180 15 170
180 ⊢ 200 17 190
200 ⊢ 220 14 210
220 ⊢ 240 11 230
240 ⊢ 260 9 250
Usando-se a fórmula (7.5), tem-se:
 ( )2 
 16.340 
1  


2
s = 3.214.200 −  =⇒ s2 = 1.289, 411765 kg2
86 − 1  86 
 
fi = c(8,12,15,17,14,11,9)
xi = c(130,150,170,190,210,230,250)
nc = sum(fi) ; nc
xifi = sum(xi*fi)
xi2fi = sum(xi^2*fi)
var_carcaça = 1/(nc-1) * (xi2fi - xifi^2/nc)
É claro que, com a facilidade computacional e a disponibilidade de programas estatísticos gra-
tuitos como o R, se o pesquisador dispõe dos dados brutos, é recomendável que as estatísticas sejam baseadas
neles. As distribuições de frequências servem, neste caso, apenas para apresentar as informações de forma
resumida.
7.3.4 Propriedades da variância

As propriedades da variâncias são:
a) somar (ou subtrair) um valor constante e arbitrário c a cada elemento de um conjunto de números não
altera a variância;
b) multiplicar (ou dividir) por um valor constante e arbitrário c cada elemento de um conjunto de números,
a variância ca multiplicada (ou dividida) pelo quadrado da constante.

Variância 99
Exemplo: Considere uma constante c=4 e os seguintes valores observados para a variável Y:
Y = {2, 4, 5, 8, 10, 12}
a) Calcule a variância dos dados;
Solução:
b) Acrescente a constante a cada valor de Y e calcule a variância;
Solução:
c) Subtraia a constante de cada valor de Y e determine a variância;
Solução:
d) Multiplique cada valor de Y pela constante e calcule a variância;
Solução:
e) Divida cada valor de Y pela constante e calcule a variância;
Solução:
f ) O que se observou dos resultados obtidos?

Solução:
7.4 Desvio Padrão

Observe que, devido ao fato de se elevar os desvios ao quadrado, a unidade de medida também
ca elevada ao quadrado, gerando escalas sem sentido prático. Assim, caso a unidade de mensuração seja
metros (m), a unidade de medida da variância será m2 .

Uma forma de se obter uma medida de dispersão com a mesma unidade de medida dos dados ob-
servados é, simplesmente, extrair a raiz quadrada da variância, obtendo-se o desvio padrão. Ele é representado
por s. Logo,
√
s= s2 .
Para os dados dos coelhos da raça Alaska, a variância calculada foi s2 = 0, 625 kg 2 . Portanto,
o desvio padrão é dado por:
√
s = s2
√
s = 0, 625 kg 2
s = 0, 790569415 kg.
No R, basta extrair a raiz quadrada das variâncias de cada raça calculadas anteriormente.
sd1 = sqrt(var1) ; sd2 = sqrt(var2)
sd3 = sqrt(var3) ; sd4 = sqrt(var4)
cbind(sd1, sd2, sd3, sd4)
ou, se de forma direta:
sd(coelhosd)
7.5 Coeciente de Variação

A interpretação do desvio padrão depende da ordem de grandeza da variável em estudo. Assim,
um desvio padrão de 10 pode ser insignicante se os valores típicos observados forem em torno de 10.000,
mas pode ser muito signicativo para um conjunto de dados cuja observação típica seja 100.
Coeciente de Variação 101
Logo, pode ser conveniente expressar a variabilidade dos dados de uma variável de modo inde-
pendente da sua unidade de medida utilizada, tirando a inuência da ordem de grandeza da variável. Tal
medida é denominada coeciente de variação.
O coeciente de variação de Pearson é a razão entre o desvio padrão e a média. Em geral, o
resultado é multiplicado por 100, para que o coeciente de variação seja dado em porcentagem. É dado por:
s
CV = × 100
ȳ
Sua utilidade está em fornecer uma medida para a homogeneidade de um conjunto de dados.
Quanto menor o coeciente de variação, mais homogêneo é o conjunto de dados. Esta medida pode ser
bastante útil na comparação de duas variáveis ou dois grupos que, a princípio, não são comparáveis.
Em geral, considera-se:
a) Baixa dispersão: CV < 15%;
b) Média dispersão: 15% < CV < 30%
c) Alta dispersão: CV > 30%
Em experimentos realizados em laboratório, em que todas as condições podem ser controladas,
espera-se que o coeciente de variação seja baixo, ou seja, menor que 10%.
Exemplo: Calcular a média, a variância, o desvio padrão e o coeciente de variação para as variáveis Estatura
(cm), Peso (kg ) e Idade (anos) de dez alunos aleatoriamente selecionados:
Estatura (cm) = 177 − 162 − 188 − 157 − 166 − 153 − 158 − 176 − 168 − 163
Peso (kg) = 68, 0 − 83, 0 − 72, 0 − 99, 9 − 51, 0 − 52, 0 − 52, 0 − 66, 5 − 80, 0 − 48, 0
Idade (anos) = 18, 0 − 20, 1 − 20, 5 − 17, 7 − 19, 2 − 18, 9 − 26, 9 − 20, 1 − 20, 7 − 19, 3
Qual variável apresenta maior variabilidade?
Solução:
Exercícios - Medidas de Dispersão
Quando procedemos a uma investigação cientíca em que utilizamos dados de uma fração repre-
sentativa de uma população (amostra), a média aritmética determinada apresentará, em relação
à média populacional, um afastamento.
Se outras amostras fossem retiradas da população, apresentariam médias aritméticas que te-
riam outros afastamentos em relação à média populacional. Para se determinar a média destes
afastamentos utilizamos o erro-padrão da média, cujo cálculo é expresso pela fórmula:
s
sx̄ = √
n
1) Embora os gastroenterologistas infantis reconhecessem a utilidade diagnóstica do teor de gordura fecal, até
1984 não existia um padrão de referência desta medida para crianças brasileiras. Para preencher esta lacuna,
o Prof. Francisco Penna, titular da Pediatria da UFMG, examinou 43 crianças sadias que produziram os
valores da Tabela 7.5 expressos em g/24 horas.
Tabela 7.5 Teor de gordura (g/24 horas) em 43 crianças.
3,7 1,6 2,5 3,0 3,9 1,9 3,8 1,5 1,1 1,8 1,4 2,7 2,4 2,1
2,1 3,3 3,2 2,3 2,3 2,4 0,8 3,1 1,8 1,0 2,0 2,0 1,3 2,7
2,9 3,2 1,9 1,6 2,9 2,0 1,0 2,7 3,0 1,3 1,5 4,6 2,1 2,8 1,9
Baseando-se nos dados brutos, pede-se:
a) faça o histograma, o gráco de caixas e discuta-os;
b) determine o teor médio de gordura;
c) determine a variância dos dados;
d) determine o desvio padrão e interprete-o;
e) determine o erro-padrão.
2) Em uma granja foi observada a distribuição dos frangos em relação ao peso, apresentada na Tabela 7.6.
Tabela 7.6 Pesos dos frangos de uma granja.
Peso (gramas) Frequência absoluta
960 ⊢ 980 60
980 ⊢ 1000 160
1000 ⊢ 1020 280
1020 ⊢ 1040 260
1040 ⊢ 1060 160
1060 ⊢ 1080 80
a) Qual a média da distribuição?
b) Determine o desvio padrão dos dados.
c) Determine o erro-padrão dos dados.
d) Qual o inconveniente de se usar a variância como medida de variabilidade?
3) Uma das características da gota, distúrbio hereditário que ocorre especialmente em homens, é a hiperurice-
mia (excesso de ácido úrico no sangue). Embora nem todos os indivíduos com hiperuricemia desenvolvam
manifestações clínicas de gota, há muito tempo tem-se reconhecido que o componente hereditário da do-
ença está ligado a uma tendência para hiperuricemia. A Tabela 7.7 apresenta a distribuição de frequências
das dosagens de ácido úrico sérico em 267 homens sadios.
Tabela 7.7 Distribuição de frequência da dosagem de ácido úrico.
Ácido úrico (mg/dL) Frequência absoluta
3, 0 ⊢ 3, 5 2
3, 5 ⊢ 4, 0 15
4, 0 ⊢ 4, 5 33
4, 5 ⊢ 5, 0 40
5, 0 ⊢ 5, 5 54
5, 5 ⊢ 6, 0 47
6, 0 ⊢ 6, 5 38
6, 5 ⊢ 7, 0 16
7, 0 ⊢ 7, 5 15
7, 5 ⊢ 8, 0 3
8, 0 ⊢ 8, 5 1
8, 5 ⊢ 9, 0 3
Total 267
Pede-se:
a) calcule a média;
b) determine a variância dos dados;
c) determine o desvio padrão e interprete-o.
4) Em trabalho laboratorial realizado no Jockey Club Brasileiro, vericou-se que os animais apresentaram
um valor médio de hematócrito

1 em torno de 42% e desvio padrão de 5%. O mesmo trabalho realizado
no Jockey Club de Porto Alegre apresentou valor médio de hematócrito igual a 38% e variância de 25%.
Opinar sobre os Coecientes de Variação (CV).
5) Calcular a média aritmética e desvio padrão dos seguintes dados relativos à dosagem de hemoglobina
vericada em 12 animais bovinos(mg ):
15 14 13 11 13 14 13,5 12 16 14,5 12 9.
6) Em 25 pessoas adultas do sexo masculino, observou-se em relação ao teor de hemoglobina um valor médio
igual a 13, 7 mg . O erro padrão da média foi igual a 0, 45 mg . Determinar o CV e opinar sobre o seu
valor.
7) Na Tabela 7.8 apresenta-se a distribuição de frequências quanto ao número de acidentes por dia, durante
setenta dias, na rodovia X. Determinar a média aritmética e o desvio padrão.
Tabela 7.8 Número de acidentes na rodovia X.
Número de acidentes 0 1 2 3 4 5
Número de dias 21 16 12 9 8 4
8) O efeito da castração sobre a espessura (em mm) de toucinho de leitões foi avaliado em um experimento,
cujos resultados estão disponível na página:
http://www2.uel.br/pessoal/silvano/Dados/Toucinho.txt.
Usando o R:
a) Construa o histograma;
b) Faça o gráco de caixas considerando apenas um grupo. Refaça o gráco para comparar a espessura
entre tipos; Discuta os resultados observados;
c) Calcule a média, o desvio-padrão e o coeciente de variação das espessuras para cada tipo. Interprete.
1
Hematócrito (ou Ht ou Htc) é a percentagem ocupada pelos glóbulos vermelhos ou hemácias no volume total de
sangue.
d) Repita os cálculo efetuados no item (8c) para todos os animais e compare os resultados.
9) O tempo (em meses) entre a remissão

2 de uma doença e a recidiva3 de 48 pacientes de uma determinada
clínica foi registrado. Os dados ordenados são apresentados a seguir, separadamente para machos (M) e
fêmeas (F):
2 2 3 4 4 4 4 7 7 7 8 9
Machos
9 10 12 15 15 15 16 18 18 22 22 24
2 2 3 3 4 4 5 5 6 6 7 7
Fêmeas
7 7 8 8 8 8 10 10 11 11 12 18
a) Faça o gráco de caixas para comparar o tempo entre machos e fêmeas;
b) Calcule a média, o desvio-padrão e o coeciente de variação para cada gênero. Interprete.
c) Repita os cálculo efetuados no item (9b) para todos os 48 pacientes. Compare os resultados.
“A diferença entre as pessoas que

têm sucesso e as que fracassam, é
que as primeiras nunca desistem.”
2
Remissão completa é o termo utilizado em Medicina para designar a fase da doença aonde não há sinais de atividade
da mesma mas não é possível concluir como cura.
3
Recidiva (popularmente conhecido como recaída) é o retorno da atividade de uma doença.
Capítulo 8
Análise Combinatória
A Análise Combinatória é a parte da Matemática em que se estuda as técnicas de contagem
de agrupamentos que podem ser feitos com elementos de um dado conjunto. São basicamente dois tipos
de agrupamentos que se pode formar: um em que se leva em conta a ordem dos elementos dentro do
agrupamento e outro em que a ordem dos elementos é irrelevante.

Um requisito básico à simplicação das fórmulas da Análise Combinatória é o fatorial, que será
explicado a seguir.
8.1 Fatoriais
Indica-se por 5! (leia-se: cinco fatorial) o produto dos cinco primeiros naturais positivos:
5! = 5 × 4 × 3 × 2 × 1
portanto, 5! = 120.
Tem-se também:
4! = 4 × 3 × 2 × 1 = 24
7! = 7 × 6 × 5 × 4 × 3 × 2 × 1 = 5.040
Dado um número natural qualquer n, sendo n > 1, dene-se:
n! = n × (n − 1) × (n − 2) · · · × 3 × 2 × 1
e os seguintes casos particulares:
1! = 1 e 0! = 1
107
108 Capítulo 8. Análise Combinatória
Note que:
0! = 1
1! = 1
2! = 2×1=2
3! = 3×2×1=6
4! = 4 × 3 × 2 × 1 = 24
5! = 5 × 4 × 3 × 2 × 1 = 5 × 4! = 120
| {z }
6! = 6 × 5 × 4 × 3 × 2 × 1 = 6 × 5! = 720
| {z }
e assim por diante. Ao desenvolver um fatorial, colocando-se os fatores em ordem decrescente, pode-se parar
onde for conveniente, indicando os últimos fatores também na notação fatorial.
Calcule:
a) 9! 5!15!
i)
13!7!
b) 10! j) 6! + 5!
c) 11! k) 4 × 5! − 6 × 3!
10!
d)
9! l) 30 + 0! − 3 × 1!
10! 13! 5!
e) m) 5× + 13 ×
12! 3!10! 3!2!
6! n!
f) n)
8! (n − 1)!
10! (n + 1)!
g)
4!6! o)
n!
12!
h) p) Calcule n na equação n! = 12 × (n − 2)!
10!2!
Para o cálculo de fatoriais, no R, basta
factorial(9)
factorial(10)/factorial(9)
8.2 Princípio Fundamental da Contagem

Imagine que há apenas dois residentes (R1 e R2 ) no Hospital Veterinário da UEL de plantão e
chegam, simultaneamente, 3 animais (A1 , A2 e A3 ) para serem atendidos.

Princípio Fundamental da Contagem 109
Pode-se pensar nas seguintes possibilidades de atendimento:
R1
A1
R2
R1
A2
R2
R1
A3
R2
Assim, cada animal poderia ser atendido por um dos dois residentes, gerando as seguintes
possibilidades: A1 R1 , A1 R2 , A2 R1 , A2 R2 , A3 R1 , A3 R2 . Portanto, há seis maneiras diferentes dos animais
serem atendidos.
Princípio Fundamental da Contagem:

Se uma ação é composta de duas etapas sucessivas, sendo que a primeira pode ser realizada de m maneiras
e, para cada uma destas, a segunda pode ser realizada de n maneiras, então, o número de maneiras de
se realizar a ação é m × n.
Exercícios:
1) Com os algarismos 1, 2, 3, 4 e 5 quantos números naturais de três algarismos podem ser escritos? Destes
números, quantos são formados por algarismos diferentes?
2) Quantas placas de licença de automóveis podem ser formadas por 3 letras e 4 algarismos sendo as letras
apenas vogais e sendo os algarismos distintos?
3) Uma sorveteria oferece uma taça de sorvete que pode vir coberto com calda de chocolate ou de morango
ou de caramelo. Se o sorvete pode ser escolhido entre 10 sabores diferentes, quantas são as opções para
um cliente escolher a taça com a cobertura?
4) Uma moeda será lançada 6 vezes e a cada vez será anotado o resultado obtido, cara ou coroa, formando
assim uma sequência de 6 resultados. Quantas sequências diferentes podem ser formadas?
5) Dez alunos da UEL cadastraram-se para adotar animais do Hospital Veterinário. Sabe se que há duas
espécies de animais para serem adotadas: Canina e Felina. Da espécie Felina há 3 raças e da canina 5
raças. De quantas maneiras os animais poderão ser adotados?
8.3 Permutações
Com os seguintes símbolos ⋆, N, pode-se formar as seguintes sucessões:
(⋆N), (⋆N), (N⋆), (N⋆), (N⋆), (⋆N).
Cada uma dessas sucessões é chamada de permutação dos três símbolos.
Denomina-se permutação de n elementos dados a toda sucessão de n termos formada com os n elementos
dados.
Duas permutações dos mesmos objetos são diferentes se a ordem dos objetos numa delas é
diferente da ordem em que os objetos estão colocados na outra.
Exemplos:
1) Formar os anagramas da palavra UEL.
Solução:
No R, tem-se
require(combinat)
U = c(Ù',È',`L')
permn(U)
2) Formar os anagramas da palavra LILI.
Solução:
No R, tem-se
require(combinat)
L = c(`L',Ì',`L',Ì')
permn(L)
Permutações 111
3) Forme todos os anagramas da palavra RIMA que começam com consoante.
Solução:
No R, tem-se
require(combinat)
R = c(Ì',`M',À')
permn(R)
M = c('R','I','A')
permn(M)
Exercícios:
1) Forme todas as permutações dos algarismos 1, 2 e 3.
2) Forme todas as permutações das letras a, b, c e d.
3) Forme todos os anagramas da palavra AZUL que começam pela letra Z.
4) Forme todos os anagramas da palavra PAPAI que começam e terminam por vogal.
8.3.1 Quantidade de Permutações

Geralmente se está interessado no número de permutações que podem ser feitas com deter-
minados elementos. Para determinar esse número, tem-se que considerar duas situações possíveis:
I permutações com elementos distintos;
I permutações com elementos repetidos.
Permutações de elementos distintos
Quantas permutações podem ser formadas com as letras A, B, C, D e E?
(⃝, ⃝, ⃝, ⃝, ⃝)
1a etapa: escolher a 1a letra da permutação. Ela pode ser A ou B ou C ou D ou E. Há, portanto, 5
possibilidades para esta etapa.

2a etapa: escolher a 2a letra da permutação. Tem-se 4 possibilidades para esta etapa, uma vez que uma das
letras já terá sido eliminada.
3a etapa: escolher a 3a letra da permutação. Tem-se 3 possibilidades para esta etapa.
4a etapa: escolher a 4a letra da permutação. Tem-se 2 possibilidades para esta etapa.
5a etapa: escolher a 5a letra da permutação. Tem-se 1 possibilidade para esta etapa.
Pelo princípio fundamental da contagem, conclui-se que é possível formar 5×4×3×2×1 =

5! = 120 permutações diferentes. Indica-se o número de permutações de cinco elementos diferentes por P5 .
Assim, tem-se:
P5 = 5! = 120.
Assim, racionando da mesma forma, conclui-se que o número de permutações de n elementos distintos é dado
por:
Pn = n!
A solução no R, para o número de permutações possíveis, é dada por:
require(combinat)
nsamp(n=5, k=5, replace=FALSE, ordered=TRUE)
Exemplos:
1) Quantos são os anagramas da palavra BRASIL?
Solução:
Os comandos a seguir, no R, calculam o número de permutações e quais são elas.
require(combinat)
nsamp(n=6, k=6, replace=FALSE, ordered=TRUE)
DD = c('B','R','A','S','I','L')
Perm = unlist(permn(DD))
t(array(Perm, dim = c(6, gamma(7))))
Permutações 113
2) Com os algarismos 1, 3, 4, 6, 7 e 9, quantos números pares de seis algarismos distintos podem ser escritos?
Solução:
Para formar um número par deve-se primeiro escolher o algarismo da casa das unidades, que pode ser o 4 ou 6.
Como são algarismos distintos, a quantidade de números pares que se pode formar é:
2 × P5 = 2 × 5! = 2 × 120 = 240.
Permutações com elementos repetidos

Quantas permutações podem ser formadas com elementos não distintos? Por exemplo, com as
letras A, A, e B, há apenas 3 permutações:
(A, A, B), (A, B, A) e (B, A, A)
Se as letras A e A fossem distintas (por exemplo A1 e A2 , então as permutações seriam:
(A1 , A2 , B), (A2 , A1 , B), (A1 , B, A2 ), (A2 , B, A1 ), (B, A1 , A2 ) e (B, A2 , A1 )
Sabe-se que o número de permutações de 3 elementos distintos é P3 = 3! = 6. Vê-se que se entre os 3
elementos tiver 2 elementos repetidos, este número ca dividido por 2! (que é o número de permutações dos
2 elementos se eles forem considerados distintos). Indica-se o número de permutações de 3 elementos sendo
2 repetidos por P32 . Tem-se:

3! 6
P32 = = = 3.
2! 2
Quando se tem n elementos, dos quais n1 são repetidos de um tipo, n2 são repetidos de outro tipo, n3 são
repetidos de outro tipo e assim por diante, o número de permutações que se pode formar é dado por:
n!
Pnn1 ,n2 ,n3 ,··· ,nk = , (n1 + n2 + n3 + · · · + nk = n)
n1 !n2 !n3 ! · · · nk !
Exemplos:
1) Quantos são os anagramas da palavra ELEGER?
Solução:
ELEGER → 6 letras, sendo 3 E, 1 L, 1 G, 1 R. O número de anagramas é:
6! 6 × 5 × 4 × 3!
P63 = = = 120
3! 3!
2) Quantos são os anagramas da palavra ESTATÍSTICA?
Solução:
ESTATÍSTICA → 11 letras, sendo 1 E, 2 S, 3 T, 2 A, 2 I, 1 C. O número de anagramas é:
3,2,2,2 11!
P11 = = 831.600
3!2!2!2!
3) Quantos são os anagramas da palavra VETERINÁRIA?
Solução:
VETERINÁRIA → 11 letras, sendo 1 V, 2 E, 1 T, 2 R, 2 I, 1 N, 2 A. O número de anagramas é:
2,2,2,2 11!
P11 = = 2.494.800
2!2!2!2!
Exercícios:
1) Quantos números pares são obtidos permutando-se os algarismos 1, 2, 2, 3, 3, 3 e 4?
2) Determine o número de permutações que podem ser feitas com as letras de cada palavra:
a) ORDEM c) AMAZONAS
b) DOMINAR d) MANADA
3) Sete atletas participam de uma prova de atletismo. Não ocorrendo nenhum empate, quantas são as
classicações possíveis nesta prova?
4) De quantas formas 5 sinais +, 3 sinais - e 2 sinais × podem ser colocados em sequência?
5) Numa mesa de bilhar há 4 bolas vermelhas, 3 bolas brancas, 2 amarelas e uma verde, encostadas umas
nas outras, em linha reta. De quantas maneiras pode-se dispor estas bolas obtendo coloridos diferentes?
8.4 Arranjos e Combinações

8.4.1 Combinações
Há no Hospital Veterinário da UEL dois animais para serem adotados. Como há quatro pessoas
interessadas, Andressa, Fernanda, Herick e Igor, será realizado um sorteio. Os alunos sorteados poderão ser:
Andressa e Fernanda ou Andressa e Herick ou Andressa e Igor
Fernanda e Herick ou Fernanda e Igor ou Herick e Igor

Arranjos e Combinações 115
Cada uma dessas possibilidades é um agrupamento das 4 pessoas tomadas 2 a 2. Em cada um destes
agrupamentos, a ordem citada dos elementos não importa. Note, por exemplo, que sortear Andressa e
Fernanda ou Fernanda e Andressa é exatamente a mesma coisa.
Quando se agrupam elementos em que a ordem do agrupamento não importa, estes são
chamados de combinações. As combinações são conjuntos cujos elementos são escolhidos entre os elementos
dados.
Denominam-se combinações de n elementos distintos tomados k a k aos conjuntos formados de k

elementos distintos escolhidos entre os n elementos dados.
No exemplo citado, considerando-se os elementos
Andressa, Fernanda, Herick e Igor
as combinações destes 4 elementos tomados 2 a 2 são:
{Andressa e Fernanda} {Andressa e Herick} {Andressa e Igor}
{Fernanda e Herick} {Fernanda e Igor} {Herick e Igor}
Observe que duas combinações são diferentes apenas quando têm elementos diferentes.
8.4.2 Arranjos
Suponha que os animais a serem adotados são de espécies diferentes: um canino e um felino.
Assim, a 1a pessoa sorteada adotará o cão e a 2a pessoa sorteada adotará o gato. Neste caso, se as pessoas
sorteadas fossem Andressa e Fernanda, nesta ordem, Andressa caria com o cão e a Fernanda com o gato.
Mas, se os sorteados fossem Fernanda e Andressa, nesta ordem, Fernanda caria com o cão e Andressa com
o gato.
Tem, neste caso, uma situação em que os agrupamentos:
Andressa e Fernanda Fernanda e Andressa
são considerados agrupamentos diferentes.
Quando se agrupam elementos de modo que em cada agrupamento importa a ordem dos
elementos, estes agrupamentos são chamados arranjos.
Denominam-se arranjos de n elementos distintos tomados k a k às sucessões formadas de k termos
distintos escolhidos entre os n elementos dados.
No exemplo citado, considerando-se os elementos

Andressa, Fernanda, Herick e Igor
os arranjos destes 4 elementos tomados 2 a 2 são:
(Andressa, Fernanda) (Andressa, Herick) (Andressa, Igor)
(Fernanda, Andressa) (Fernanda, Herick) (Fernanda, Igor)
(Herick, Andressa) (Herick, Fernanda) (Herick, Igor)
(Igor, Andressa) (Igor, Fernanda) (Igor, Herick)
Observe que dois arranjos são diferentes se tiverem elementos diferentes, ou se tiverem os mesmo elementos
porém em ordens diferentes.
Exemplos:
1) Formar as combinações dos algarismos 1, 3, 5, 7 e 9 tomados 2 a 2.
Solução:
As combinações são os conjuntos de dois algarismos escolhidos entre os algarismos dados:
{1, 3}, {1, 5}, {1, 7}, {1, 9}, {3, 5}, {3, 7}, {3, 9}, {5, 7}, {5, 9}, {7, 9}
2) Formar os arranjos dos algarismos 1, 3, 5 e 7 tomados 3 a 3.
Solução:
Os arranjos são as sucessões de três algarismos distintos escolhidos entre os algarismos dados:
(1, 3, 5), (1, 3, 7), (1, 5, 7), (1, 5, 3), (1, 7, 3), (1, 7, 5)
(3, 1, 5), (3, 1, 7), (3, 5, 1), (3, 5, 7), (3, 7, 1), (3, 7, 5)
(7, 1, 3), (7, 1, 5), (7, 3, 1), (7, 3, 5), (7, 5, 1), (7, 5, 3)
Exercícios:
1) Forme as combinações das letras a, b, c e d tomadas duas a duas.
2) Forme os arranjos das letras a, b, c e d tomadas duas a duas.
3) Quatro equipes, A, B, C e D, estão classicadas para o quadrangular nal de um campeonato em que as
três primeiras colocadas serão premiadas (com prêmios diferentes).
a) Escreva todas as possibilidades para as três primeiras colocações no campeonato.
b) Cada uma destas possibilidades corresponde a um arranjo ou a uma combinação das equipes tomadas
três a três?
Quantidade de Arranjos 117
4) Cesar, Diego, Maisa, Nara e Sabrina entregaram o trabalho relativo à pesquisa feita no Hospital Veterinário
da UEL e dois deles serão escolhidos para uma apresentação perante a classe.
a) Escreva todas as possibilidades de escolha dos dois que farão a apresentação do trabalho.
b) Cada uma destas possibilidades corresponde a um arranjo ou a uma combinação dos 5 alunos tomados
dois a dois?
8.5 Quantidade de Arranjos

O número de arranjos de n elementos tomados k a k será denotado por An,k (ou pelo símbolo
Akn ).
Para determinar esta quantidade de arranjos, deve-se formar uma sucessão de k termos escolhidos
entre os n elementos dados:
( )
1o , 2o , 3o , . . ., ko
O 1o termo pode ser qualquer um dos n elementos dados; há, portanto, n possibilidades para
ele.
Para cada uma destas possibilidades, o 2o termo do arranjo poderá ser qualquer um dos (n − 1)
elementos restantes, excluído aquele já escolhido. Há, portanto, (n − 1) possibilidades para o 2o termo.
Para cada par de elementos já escolhidos, o 3o termo poderá ser qualquer um dos (n − 2)
elementos restantes. Há, portanto, (n − 2) possibilidades para o 3o termo.
E assim por diante.
( )
Arranjo 1o , 2o , 3o , . . ., ko
↓ ↓ ↓ ↓
possibilidades n (n − 1) (n − 2) n − (k − 1)
Pelo princípio fundamental da contagem, conclui-se que a quantidade de arranjos que podem ser
formados é:
n!
An,k =
(n − k)!
Exemplos:
1) Quantos são os arranjos de 6 elementos, tomados 3 a 3?
Solução:
n! 6!
An,k = ⇒ A6,3 = ⇒ A6,3 = 120
(n − k)! (6 − 3)!
2) Vinte equipes cursos disputam o campeonato interno da UEL de futebol de salão. Quantas são as possi-
bilidades de classicação nos dois primeiros lugares (campeão e vice-campeão)?
Solução:
n! 20!
An,k = ⇒ A20,2 = ⇒ A20,2 = 380
(n − k)! (20 − 2)!
Exercícios:
1) Calcule os números
a) A5,2 c) A10,4
b) A8,5 d) A12,3
2) Numa corrida de fórmula 1 há 24 pilotos participando e apenas os dez primeiros colocados ganham pontos.
Quantas são as possibilidades de classicação nos 10 primeiros lugares?
3) Com as letras da palavra FLAMENGO, quantas palavras distintas formadas de 5 letras distintas podem
ser escritas? (As palavras não precisam ter sentido na linguagem comum).
4) Serão eleitas duas pessoas para representarem os alunos do curso Medicina Veterinária. Uma será o
representante principal e a outra será suplente. Dez alunos estão interessados. Quantos são os possíveis
resultados da eleição.
8.6 Quantidade de Combinações

O número de combinações de n elementos tomados k a k será denotado por Cn,k (ou pelo
símbolo Cnk . Para determinar esta quantidade de combinações deve-se lembrar que com k elementos distintos:
a1 , a2 , a3 , · · · , ak
Quantidade de Combinações 119
podem ser obtidas k! permutações:
(a1 , a2 , a3 , · · · , ak ), (a2 , a1 , a3 , · · · , ak ), (a3 , a1 , a2 , · · · , ak ), etc
Isto signica que a partir de uma combinação pode-se obter k! arranjos dos n elementos tomados k a k.
Então, o número de combinações é igual ao número de arranjos dividido por k!:
An,k
Cn,k =
k!
Logo
n!
Cn,k =
k!(n − k)!
Exemplos:
1) Quantas são as combinações de 6 elementos tomados 2 a 2?
Solução:
n! 6!
Cn,k = ⇒ C6,2 = ⇒ C6,2 = 15
k!(n − k)! 2!(6 − 2)!
2) Em um experimento com camundongos serão utilizados 5 deles. No laboratório há 15 camundongos
em condições homogêneas e que podem ser utilizados no experimento. De quantos modos diferentes o
experimento pode ser realizado?
Solução: Como são 15 camundongos e apenas 5 serão utilizados no experimento, basta calcular o número de
combinações possíveis.
n! 15!
Cn,k = ⇒ C15,5 = ⇒ C15,5 = 3.003
k!(n − k)! 5!(15 − 5)!
Exercícios:
1) Calcule os números:
a) C8,6 c) C7,4
b) C12,3 d) C100,2
2) Calcule o valor de n na equação Cn,2 = n + 2.
3) Numa festa compareceram 36 pessoas. Se cada uma delas cumprimentou todas as outras ao chegar,
quantos cumprimentos foram realizados?
4) Numa urna há 12 etiquetas numeradas, 6 com números positivos e 6 com números negativos. De quantos
modos pode-se escolher 4 etiquetas diferentes tal que o produto dos números nelas marcados seja positivo?
Capítulo 9
Noções sobre a teoria das

probabilidades
Conceitos probabilísticos são necessários para se estudar fenômenos aleatórios, isto é, situações
em que os resultados possíveis são conhecidos, mas não se pode saber a priori qual deles ocorrerá.
Caso os fenômenos estudados, repetidos sob as mesmas condições iniciais, levem sempre ao
mesmo resultado, eles são chamados de determinísticos.
O R tem um pacote chamado prob, muito interessante, para cálculo de probabilidades. Tal
pacote será utilizado neste capítulo, para tanto carregue o pacote:
> require(prob)
9.1 Conceitos Básicos em Probabilidade

9.1.1 Experimento Aleatório
É um processo de coleta de dados relativo a um fenômeno que acusa variabilidade em seus
resultados. Os resultados não serão previsíveis, serão diferentes mesmo que as condições iniciais sejam sempre
as mesmas.
Exemplos:
a) o lançamento de uma moeda;
b) lançar três moedas justas e observar as faces voltadas para cima;
c) lançar um dado e observar a face voltada para cima;
d) anotar o resultado de um exame de gravidez;
e) colocar 20 sementes em um germinador e observar, após um certo período de tempo, o número de sementes
germinadas;
121
122 Capítulo 9. Noções sobre a teoria das probabilidades
Quando se tem um experimento aleatório, não se pode prever com certeza o resultado. Pode-se,
no entanto, descrever todos os possíveis resultados deste experimento.
9.1.2 Espaço Amostral

O conjunto de todos os resultados possíveis de um experimento aleatório é chamado de espaço
amostral. Vamos representá-lo por Ω.
Exemplos:
a) o lançamento de uma moeda:
Ω = {C, K}, em que: C = cara e K = coroa;
> tosscoin(1);
> urnsamples(1:2, x = c(`C',`K'), size=1, replace=TRUE, ordered=TRUE)
b) lançar três moedas justas e observar as faces voltadas para cima:
Ω = {CCC, CCK, CKC, CKK, KCC, KKC, KCK, KKK};
> tosscoin(3);
> urnsamples(1:2, x = c(`C',`K'), size=3, replace=TRUE, ordered=TRUE)
c) lançar um dado e observar a face voltada para cima;
Ω = {1, 2, 3, 4, 5, 6};
> rolldie(1)
d) anotar o resultado de um exame de gravidez;
Ω = {P ositivo, N egativo};
> urnsamples(1:2, x = c(`Positivo',`Negativo'), size=1, replace=TRUE, ordered=TRUE)
e) colocar 20 sementes em um germinador e observar, após um certo período de tempo, o número de sementes
germinadas:
Ω = {0, 1, 2, . . . , 20}
> urnsamples(1:20, x = c(0:20), size=1, replace=T, ordered=TRUE)
9.1.3 Evento
É qualquer subconjunto do espaço amostral. Os eventos são geralmente representados por letras
maiúsculas, como A, B, C, . . .. Dentre os eventos a considerar, deve-se incluir o próprio espaço amostral
(evento certo) e o conjunto vazio (evento impossível).

Conceito de Probabilidade 123
Exemplo: Um experimento foi conduzido com a nalidade de se conhecer a eciência de um tratamento na
cura de certa doença. Para tanto, três doentes foram tratados com a referida droga. O espaço amostral Ω é
dado por:
Ω = {CCC; CCC; CCC; CC C; C CC; CCC; CCC, C C C}
em que: C = cura e C = não cura.
O espaço amostral, construindo no R, será dado por:
> (Tr = urnsamples(1:2, x = c('C','NC'), size=3, replace=T, ordered=TRUE))
Considere os seguintes eventos:
A = {Obter duas curas} B = {Obter quatro curas}
A = {CCC; CCC; CCC} B=ϕ
>A = Tr[c(2,3,5),] O evento B é denominado evento impossível.
9.2 Conceito de Probabilidade

9.2.1 Conceito Clássico ou a priori
Pelo conceito clássico, tem-se que:
a) a probabilidade é denida com base em dados do experimento aleatório;
b) a probabilidade é obtida antes de o experimento ser realizado e, daí, o nome a priori;
O conceito clássico surgiu no século XVII a partir dos jogos de azar e dene a probabilidade de
o evento A ocorrer como sendo:
Número de resultados favoráveis a A

P (A) =
Número de resultados possíveis
Exemplo: No lançamento de um dado honesto, qual é a probabilidade de o resultado ser um número:
a) Ímpar?
b) Menor que 3?
c) Primo?
Assim, para o cálculo de probabilidades de modelo igualmente prováveis usando o R, tem-se:

(S.dado = round(rolldie(1, makespace=TRUE), 4))

probspace(1:6)
iidspace(c(`1',`2',`3',`4',`5',`6'), ntrials = 1, probs = c(1/6,1/6,1/6,1/6,1/6,1/6))
> I = sum(S.dado[c(1,3,5),2]) ; I
> M = sum(S.dado[c(1,2),2]) ; M
> P = sum(S.dado[c(2,3,5),2]) ; P
Observe que as três primeiras linhas são formas diferentes de se obter as probabilidades dos
valores observados do lançamento de um dado.
É importante notar que a denição clássica exige que os resultados tenham todos a mesma
chance. Se os resultados não têm a mesma chance, deve-se apelar para a estimativa pela frequência relativa.
Mas como podemos calcular as probabilidades a priori nas seguintes situações:
a) Uma pessoa que fuma um pacote de cigarros por dia desenvolver câncer;
b) Ocorrer uma geada no próximo inverno;
c) Haver uma explosão na população de desfolhadores presentes numa oresta de eucalipto;
d) Encontrar uma árvore de mogno num parcela de 1 ha numa oresta nativa;
e) A produção média de uma oresta superar 400 m3 /ha.
Exemplo: Planejamento Familiar
Um casal planeja ter lhos até terem uma menina e no máximo quatro lhos. Qual a probabilidade de este
casal ter uma lha?
Esta questão pode ser respondida com o uso de simulação:
1) Utilize a tabela de números aleatórios e selecione 20 números:
1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9
2) Os números pares representam meninas (F) e os ímpares, meninos (M):
1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9
M F M F M M M F M F M M F F F M F M M M
3) Agrupe os números de acordo com planejamento do casal para simular as diferentes possibilidades de lhos.
Numere cada simulação como uma família:
1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9
M F M F M M M F M F M M F F F M F M M M
Observe que 8 famílias foram geradas por simulação.

Conceito de Probabilidade 125
4) Calcule a probabilidade de ocorrência do evento A= {o casal ter uma lha}:
Número de ocorrências de A 8
P (A) = =⇒ P (A) = = 1.
Número de repetições 8
a) Será que a probabilidade é de 100%?
b) Será que se for selecionado um outro conjunto de 20 números aleatórios obter-se-á a mesma probabili-
dade?
Para responder às questões anteriores, repete-se a simulação com vários grupos. Assim, tem-se:
Grupo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
No de
Famílias
No de
Famílias com
Filhas
O cálculo da probabilidade, por simulação, é:
Total de famílias com lhas

P (A) = =⇒ P (A) = = .
Número total de famílias
O cálculo da probabilidade pode ser efetuado da seguinte forma:
Número de tentativas
Probabilidades
1 2 3 4
F 0, 5 = 0,5
M F 0, 5 × 0, 5 = 0,25
M M F 0, 5 × 0, 5 × 0, 5 = 0,125
M M M F 0, 5 × 0, 5 × 0, 5 × 0, 5 = 0,0625
0, 9375
Que é uma aplicação do modelo geométrico.
Exemplo:
1) Dentre 10.878 partos sucessivos que ocorreram em uma maternidade de São Paulo, e que resultaram em
crianças vivas, 100 foram de gêmeos. Qual a probabilidade (em porcentagem) de nascimento de um par de
gêmeos entre os recém-nascidos vivos que podem ser estimados a partir desses dados? Considere o evento
A como sendo nascimento de um par de gêmeos.

9.3 Propriedades da Probabilidade

As probabilidades sempre se referem a ocorrência de eventos e, independentemente do conceito
utilizado, clássico ou frequentista, o modelo de probabilidade em Bioestatística terá sempre uma coerência
interna que resulta dos axiomas de probabilidade:
0 ≤ P (A) ≤ 1
P (Ω) = 1
P (ϕ) = 0
Obs.: Se Ā for o evento complementar de A, então P (Ā) = 1 − P (A).
9.4 Diagramas de Venn

9.4.1 Operações com Eventos
Em muitos problemas de probabilidade

interessam-nos eventos que podem ser expressos
em termos de dois ou mais eventos, formando
uniões, interseções e complementos. Os espaços
amostrais e os eventos, especialmente as relações
di-
entre os eventos, costumam ser ilustrados por
agramas de Venn, que auxiliam na visualização
dos conceitos básicos de probabilidade.
9.4.1.1 União de Eventos:

O evento união de A e B equivale à ocorrência de A, ou de B, ou ambos. Contém os elementos
do espaço amostral que estão em pelo menos um dos dois conjuntos.
Diz-se ocorre A ou B .
∪
Notação: A B
> union(A, B)
Diagramas de Venn 127
9.4.1.2 Interseção de Eventos:
A interseção de dois eventos A e B, é o evento que consiste de todos os elementos contidos
simultaneamente em A e em B. Contém todos os pontos comuns a A e B.

∩
Notação: A B
> intersect(A, B)
9.4.1.3 Sub-Conjuntos:
Diz-se: B é sub-conjunto de A ou B implica em A.

Notação: 
 B ∪A = A
B⊂A⇒
 B ∩A = B
B
A
S
9.4.1.4 Eventos Disjuntos:
Dois eventos A e B, dizem-se disjuntos ou mutuamente exclusivos, quando a ocorrência de um
deles impossibilita a ocorrência do outro. Os dois eventos não têm elementos em comum.
B
A
S
∩
Notação: A B=ϕ
9.4.1.5 Complemento:
É o evento que consiste de todos os elementos do espaço amostral que não estão contidos em
A, ou seja, é a negação de A.
Notação: Ac . 
 Ac ∪ A = S
A ⇒
c
 Ac ∩ A = ϕ
A
Sc
> setdi(A, B)
9.4.2 Regras de Cálculo de Probabilidades

Utilizando os diagramas de Venn torna-se mais fácil compreender algumas regras que surgem
naturalmente no cálculo de probabilidades.
Regra 1: Probabilidade da união de eventos

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Se A e B forem mutuamente exclusivos, têm-se P (A ∩ B) = 0, e o teorema ca sendo:
P (A ∪ B) = P (A) + P (B)
Diagramas de Venn 129
Exemplo: Considere o experimento lançamento de um dado e os seguintes eventos:
a) A = sair o número 3;
b) B = sair número par, e
c) C = sair número ímpar.
Determinar: P (A); P (B); P (C); P (A ∪ B); P (A ∪ C) e P (Ac ).

Solução:
Obs.: Pode-se determinar a probabilidade da união de três ou mais eventos, usando a teoria de conjuntos.
Assim, se considerarmos três eventos, A, B e C, a probabilidade da união dos três eventos é dada por:
P (A ∪ B ∪ C) = P [(A ∪ B) ∪ C]
= P (A ∪ B) + P (C) − P [(A ∪ B) ∩ C]
= P (A) + P (B) − P (A ∩ B) + P (C) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
> (S = rolldie(1, makespace=TRUE))

> (A = subset(S, X1 == "3"))
> (B = subset(S, X1 %in% c(2,4,6)))
> (C = subset(S, X1 %in% c(1,3,5)))
> prob(A) ; prob(B) ; prob(C)
> union(A, B) ; prob(union(A,B))
> union(A, C) ; prob(union(A,C))
> setdiff(S, A) ; prob(setdiff(S, A))
Regra 1B: Probabilidade da união de eventos disjuntos

Se A e B são disjuntos ⇒ A∩B =ϕ ⇒ P (A ∩ B) = 0.
Portanto, a probabilidade da união de eventos disjuntos ca:
P (A ∪ B) = P (A) + P (B)
Regra 2: Probabilidade da união de uma sequência de eventos disjuntos

Se A1 , A2 , A3 , . . . , formam uma sequência de eventos disjuntos, então:
(∞ ) ∞
∪ ∑
P Ai = P (Ai ).
i=1 i=1
Exemplo: No lançamento de duas moedas temos: A = pelo menos uma cara, B = duas coroas. Qual a
probabilidade de duas coroas ou pelo menos uma cara?
Solução:
> (L = tosscoin(2, makespace=TRUE))

> A1 = subset(L, toss1=="H") ; A2 = subset(L, toss2=="H")
> (A = union(A1, A2))
> (B = subset(L, toss1=='T' & toss2=='T'))
> prob(union(A,B))
Regra 3: Probabilidade do complemento

Do diagrama de Venn, têm-se que A ∪ Ac = S ⇒ P (A ∪ Ac ) = P (S). Mas, sabe-se que:
P (S) = 1, e que A ∪ Ac = ϕ sendo P (ϕ) = 0, logo:
P (A ∪ Ac ) = P (S)
P (A) + P (Ac ) = 1
P (Ac ) = 1 − P (A).
Probabilidade Condicional 131
Exemplo: Um dado é lançado 10 vezes, qual a probabilidade de A = pelo menos um 6?
Solução:
9.5 Probabilidade Condicional

Algumas vezes a chance de um particular evento acontecer depende do resultado de algum
outro evento. Por exemplo, a chance de um paciente com alguma doença sobreviver o próximo ano depende,
naturalmente, de ter sobrevivido no presente período.
A probabilidade do evento A, quando se sabe que o evento B ocorreu, é chamada probabilidade

condicional de A dado B, denota-se por P (A|B). Pode ser determinada dividindo-se a probabilidade de
ocorrência de ambos os eventos A e B pela probabilidade do evento B, como se mostra a seguir:
P (A ∩ B)
P (A|B) = , se P (B) > 0
P (B)
> prob(A, given=B)
ou, ainda,
P (A ∩ B)
P (B|A) = , se P (A) > 0
P (A)
> prob(B, given=A)
Na probabilidade condicional, a ocorrência de um evento altera a probabilidade de ocorrência de
outro evento.
Exemplo: Em uma pesquisa realizada no Hospital Veterinário da Universidade Estadual de Londrina, no ano
de 2010, foram coletadas diversas informações e, entre elas, o Porte do animal e o Sexo do mesmo, conforme
apresentado na Tabela 9.1.

Tabela 9.1 Distribuição dos animais quanto ao Porte e Sexo.
Porte
Sexo Total
Pequeno Médio Grande
Fêmea 649 41 77 767
Macho 495 27 65 587
Total 1.144 68 142 1.354
Considerando-se que o animal escolhido é de médio porte, qual a probabilidade de ser fêmea? Dado que o
animal é macho, qual a probabilidade de ser de grande porte?
Solução:
9.5.1 Probabilidade Condicional no Diagrama de Venn

Nota-se, através do diagrama de Venn, que a probabilidade condicional é apenas uma redução
do espaço amostral, ao evento que já ocorreu.
Se o evento A ocorreu, o resultado está em Se o evento B ocorreu, o resultado está em

P (A ∩ B) P (A ∩ B)
A, ou seja, P (B|A) = B, ou seja, P (A|B) =
P (A). P (B).
Exemplo: Um número é sorteado ao acaso entre os inteiros 1, 2, . . . , 15. Se o número sorteado for ímpar,
qual a probabilidade de que seja o número 9?
Solução:
Para resolver o problema com a utilização do R, basta simular o lançamento de um dado com
15 faces, da seguinte forma:
> (S = rolldie(1, nsides = 15, makespace = TRUE))

> (A = subset(S, X1 %in% c(1,3,5,7,9,11,13,15)))
> (B = subset(S, X1 %in% c(9)))
> prob(B, given=A)
9.5.2 Aplicação da Probabilidade Condicional

1
Epictetus , no século II D.C., arma que as aparências para a mente são de quatro tipos:
as coisas são o que parecem ser;
ou são e não parecem ser;
ou não são, mas parecem ser;
ou não são, nem parecem ser.
de forma que pode-se resumir essa relação entre parecer e ser em uma tabela da seguinte forma:
Ser
Mente
+ -
Parecer
+ As coisas são o que parecem ser Não são mas parecem ser
- São mas não parecem ser Não são e nem parecem ser
Da mesma forma, pode-se pensar na relação entre uma doença e o teste para detectá-la. Pode-se
resumir esta relação da seguinte forma:
1
http://epiclcn.blogspot.com.br/ em 14/06/2012.
Doença
Relação
+ -
Teste
+ Verdadeiro positivo Falso positivo
- Falso negativo Verdadeiro negativo
Portanto, o bom uso de um teste diagnóstico requer, além de considerações clínicas, o conhe-
cimento de medidas que caracterizam a sua qualidade: a sensibilidade, a especicidade e os parâmetros que
reetem a sua capacidade de produzir decisões clínicas corretas: valor da predição positiva (VPP) e o valor
da predição negativa (VPN).
Na análise da qualidade de testes diagnósticos, interessa conhecer duas probabilidades condi-

cionais que, pela sua importância, recebem nomes especiais: sensibilidade e especicidade.
A sensibilidade, denotada por s, é denida como:
s = P (T+ |D+ ),
ou seja, a probabilidade de o teste ser positivo sabendo-se que o paciente que está sendo examinado é doente.
Portanto, a sensibilidade mede a capacidade de reação do teste em um paciente doente
A especicidade, denotada por e, é denida como:
e = P (T− |D− ),
ou seja, a probabilidade de o teste ser negativo sabendo-se que o paciente examinado não é portador da
doença. Logo, a especicidade mede a capacidade de não reação do teste em pacientes não portadores da
doença.
Na etapa de pesquisa para a determinação do grau de conabilidade de um teste diagnóstico, o
pesquisador utiliza-o primeiramente em dois grupos muito especícos de pessoas: um de portadores da doença
e outro de pacientes sem a doença em questão. Os resultados desta etapa da pesquisa podem ser resumidos
na forma da Tabela 9.2.
Tabela 9.2 Esquema padrão de síntese dos dados para vericação da qualidade de um teste clínico.
Teste
Doença Total
Positivo Negativo
Presente a b a+b
Ausente c d c+d
Total a+c b+d n
Para denir os índices que descrevem o grau de conabilidade de um teste, precisamos trabalhar
com os seguintes eventos:

# T+ corresponde a teste positivo;
# T− corresponde a teste negativo;
# D+ corresponde a indivíduo portador da doença;
# D− corresponde a indivíduo não portador da doença.
Usando a notação da Tabela 9.2 e a denição de probabilidade condicional, têm que a sensibili-
dade e a especicidade são dadas, respectivamente, por:
Sensibilidade Especicidade
a d
s= e=
a+b c+d
Exemplo: Linder & Singer
1 estudaram a qualidade da tomograa computadorizada para o diagnóstico de
metástase de carcinoma de fígado, e os resultados resumidos na Tabela 9.3.
Tabela 9.3 Resultados da tomograa computadorizada em 67 pacientes com metástase e 83 sem

metástase do carcinoma hepático.
Metástase de Tomograa computadorizada

Total
carcinoma hepático Positiva (T+ ) Negativa (T− )
Presente (D+ ) 52 15 67
Ausente (D− ) 9 74 83
Total 61 89 150
A sensibilidade e a especicidade da tomograa computadorizada são estimadas por:
Sensibilidade Especidade
a d
s= e=
a+b c+d
52 74
s= = 0, 776 e= = 0, 892
67 83
Existem alguns pacotes no R que calculam a sensibilidade e especicidade do teste. Entre eles
pode-se citar: DiagnosisMed e epibasix, cujas aplicações encontram-se a seguir.
> require(DiagnosisMed)
> diagnosis(52, 15, 9, 74)
> require(epibasix)
> dados = cbind(c(52,15), c(9,74))
> sensSpec(dados)
1
Diagnosing liver metastases: a Bayesian analysis. Journal of Clinical Oncology, v.3, p.379-88, 1986
9.5.3 Valor das Predições

A sensibilidade e a especicidade, embora sendo índices ilustrativos e bons sintetizadores das
qualidades gerais de um teste, têm uma limitação séria: não ajudam a decisão da equipe médica que, recebendo
um paciente com resultado positivo do teste, precisa avaliar se o paciente está ou não doente. Não se pode
depender apenas da sensibilidade e a especicidade, pois estes índices são provenientes de uma situação em
que há certeza total sobre o diagnóstico, o que não acontece no consultório médico. Daí a necessidade destes
dois outros índices que reetem melhor a realidade prática. Neste momento, interessa mais conhecer os
seguintes índices denominados valor da predição positiva (VPP) e valor da predição negativa (VPN), denidos
respectivamente por:
Valor da predição positiva (VPP) é a probabilidade do paciente estar realmente doente quando
o resultado do teste é positivo.
a
V P P = P (D+ |T+ ) =
a+c
Valor da predição negativa (VPN) é a probabilidade do paciente não estar doente quando o
resultado do teste é negativo.
d
V P N = P (D− |T− ) =
b+d
Estes valores são probabilidade condicionantes, tal que o evento condicionante é o resultado do
teste, aquele que na prática acontece primeiro.
Uma forma de se calcular o VPP e VPN, em função da sensibilidade e prevalência da doença,
1
é através da Tabela 9.4, sugerida por Vecchio . Seja p a prevalência
2 da doença na população de interesse,
isto é, a proporção de pessoas doentes.
Tabela 9.4 Probabilidades necessárias para o cálculo dos índices VPP e VPN.
Proporção com resultado

População Proporção
Positivo Negativo
Doente p ps p(1-s)
Sadia 1 - p (1 - p) (1 - e) (1 - p)e
Total 1 ps + (1 - p)(1 - e) p (1 - s) + (1 p)e
Assim, o valor da predição positiva é:
1
Predictive value of a single diagnostic test in unselected populations. The New England Journal of Medicine,
v.274, p.1171-3, 1966
2
É a contagem do número de casos que existe em uma população de pacientes em um momento especíco no
tempo.
ps
V P P = P (D+ |T+ ) = .
ps + (1 − p)(1 − e)
O valor da predição negativa é dado por:
(1 − p)e
V P N = P (D− |T− ) = .
p(1 − s) + (1 − p)e
Para o exemplo da Tabela 9.3, considere que a prevalência de metástase de carcinoma de fígado
é de 2%, os valores de predição da tomograa computadorizada são:
ps 0, 02 × 0, 776
V PP = =
ps + (1 − p)(1 − e) 0, 02 × 0, 776 + (1 − 0, 02)(1 − 0, 8916)
V PP = 0, 1275.
(1 − p)e (1 − 0, 02) × 0, 892

V PN = =
p(1 − s) + (1 − p)e 0, 02 × (1 − 0, 776) + (1 − 0, 02) × 0, 8916)
V PN = 0, 9949.
Portanto, o valor de predição positiva é baixo enquanto que o valor de predição negativa é
bastante alto. Se o resultado da tomograa computadorizada é negativo, a chance de não haver metástase é
de 99,5%. O cálculo de VPP e VPN no R usando o pacote DiagnosisMed é dado por:
a d
V PP = e V PN =
a+c b+d
9.5.4 Probabilidade da Intersecção de Dois Eventos

A probabilidade condicional permite-nos calcular diretamente a probabilidade da intersecção de
dois eventos. Assim,
P (A ∩ B)
P (A|B) = ⇒ P (A ∩ B) = P (B) P (A|B)
P (B)
> prob(B)*prob(A, given=B)
ou, ainda.
P (A ∩ B)
P (B|A) = ⇒ P (A ∩ B) = P (A) P (B|A)
P (A)
> prob(A)*prob(B, given=A)

Exemplo: Considere os seguintes eventos: A = retirar uma carta de copas do baralho e B = retirar um às
do baralho. Determine a probabilidade desses eventos ocorrerem simultaneamente.
Solução:
> require(MASS)
> CC = cards(makespace=TRUE)
> (A = subset(CC, suit == "Heart"))
> (B = subset(CC, rank == "A"))
> (B = subset(CC, rank %in% "A"))
> prob(A)*prob(B, given=A)
> fractions(prob(A)*prob(B, given=A))
9.5.5 Amostragem Sem Reposição

Considere uma urna contendo 3 bolas brancas e duas bolas pretas de onde são feitas duas
extrações de 1 bola ao acaso e sem reposição.

Considere os seguintes eventos:
B1: sair bola branca na primeira extração;
B2: sair bola branca na segunda extração;
P1: sair bola preta na primeira extração;
P2: sair bola preta na segunda extração.
Os eventos B1 e B2 são independentes?
Os eventos P1 e P2 são independentes?
Pede-se:
a) Calcular a probabilidade de sair branca na 1a extração e preta na 2a extração.
b) Construir o espaço amostral e indicar as probabilidades associadas a cada um dos pontos amostrais.
Calcular as probabilidades:
a) de sair bola branca na 2a extração;
b) de sair bola preta na 2a extração;
c) de ter saído bola preta na primeira extração sabendo-se que (dado que) saiu bola branca na segunda
extração;
d) de ter saído bola preta na primeira extração sabendo-se que (dado que) saiu bola preta na segunda extração.
9.5.6 Amostragem com Reposição

Considere o mesmo caso anterior, mas com reposição da 1a bola extraída, antes da extração
da 2a bola.
Os eventos B1 e B2 são independentes?
Os eventos P1 e P2 são independentes?
Construir o espaço amostral e indicar as probabilidades associadas a cada um dos pontos amostrais.
Calcular as probabilidades:
a) P (B2 );
b) P (P2 );
c) P (B2 |B1 );
d) P (B2 |P1 );
e) P (P2 |B1 );
f) P (P2 |P1 );
Independência de Eventos
Dois eventos são considerados independentes quando a ocorrência de um deles não depende da
ocorrência do outro, isto é, P (A|B) = P (A) e P (B|A) = P (B). Logo, o teorema do produto para dois
eventos independentes é dado por:
P (A ∩ B) = P (A) · P (B)
Exemplo 1: Efeitos colaterais com o uso de certa droga ocorrem em 10% de todos os pacientes que a tomam.
Dois pacientes de um médico estão tomando a droga.

a) Qual é a probabilidade de que ambos os pacientes apresentem os efeitos colaterais?
Solução:
b) Qual é a probabilidade de que pelo menos um apresente os efeitos colaterais ?
Solução:
Exemplo 2: Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%, ser A é 30% e ser
B é 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e que o fator independe do tipo sanguíneo.
Nestas condições, qual a probabilidade de uma pessoa tomada ao acaso da população ser:
a) O e Rh+ ?
Solução:
b) AB e Rh− ?
Solução:
9.5.7 Teorema de Bayes

Uma das relações mais importantes envolvendo probabilidades condicionais e dada pelo Teorema
de Bayes. Sejam A1 , A2 , A3 , · · · , Ak eventos mutuamente excludentes cuja união é o espaço amostral Ω, e
que suas probabilidades sejam conhecidas. Assim, se B é um evento qualquer, tem-se o seguinte teorema:
P (Ai ) P (B|Ai )
P (Ai |B) = i = 1, · · · , k.
∑
k
P (Ai )P (B|Ai )
i=1
Exemplo: Sabe-se que dos animais atendidos pelo Hospital Veterinário da Universidade Estadual de Londrina,
40% são provenientes da região norte, 15% da região sul, 20% da região leste, 15% da região oeste da cidade
de Londrina e os 10% restantes são provenientes de outras cidades. Observou-se, ainda, que 5% dos animais
da região norte foram submetidos a algum procedimento cirúrgico, enquanto que para as outras regiões os
percentuais foram: 3% para a região sul, 8% para a região leste, 4% para a região oeste e 15% para outras
cidades. Uma cha escolhida aleatoriamente acusou que o animal foi submetido a um procedimento cirúrgico.
Qual a probabilidade desse animal ser de outra cidade?
Solução:
Exercícios - Probabilidades
1) Para cada um dos casos abaixo, escreva o espaço amostral correspondente e conte seus elementos.
a) Uma moeda é lançada duas vezes e observam-se as faces obtidas.
b) Um dado é lançado duas vezes e a ocorrência de face par ou ímpar é observada.
c) Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões rigorosamente iguais. Três bolas são
selecionadas ao acaso com reposição e as cores anotadas.
d) Em uma cidade, famílias com 3 crianças são selecionadas ao acaso, anotando-se o gênero de cada uma.
2) Em 750 pessoas utilizadas para pesquisa de tipo sanguíneo, vericou-se:
Tipos Pessoas
A 85
B 193
O 252
Sorteando-se uma pessoa ao acaso, qual a probabilidade da mesma ser do tipo sangüíneo AB?
3) Uma urna contém duas bolas brancas (B ) e três bolas vermelhas (V ). Retira-se uma bola ao acaso da
urna. Se for branca, lança-se uma moeda; se for vermelha, ela é devolvida à urna e retira-se outra. Dê o
espaço amostral para o experimento.
4) Lance um dado até que a face 5 apareça pela primeira vez. Enumere os resultados possíveis desse experi-
mento.
5) Dentre seis números positivos e oito negativos, dois números são escolhidos ao acaso e multiplicados. Qual
a probabilidade de que o produto seja positivo?
6) Um casal pretende ter lhos. Admitindo probabilidades iguais para ambos os sexos, qual a probabilidade
de que venha a ter três lhos do mesmo sexo?
7) Num grupo de 30 animais, 12 estão com parasitose intestinal. Três animais são escolhidos ao acaso, um
após o outro, sem reposição. Qual é a probabilidade de pelo menos 2 deles não estarem infectados?
8) Considere o lançamento de dois dados. Considere os eventos:
A = soma dos números obtidos igual a 9, e
B = número do primeiro dado maior ou igual a 4.
Enumere os elementos de A ou B. Obtenha A ∪ B, A ∩ B e Ac e suas probabilidades.

9) Uma universidade tem 10 mil alunos dos quais 4 mil são considerados esportistas. Temos ainda que 500
alunos são do curso de biologia diurno, 700 da biologia noturno, 100 são esportistas e da biologia diurno
e 200 são esportistas e da biologia noturno. Um aluno é escolhido ao acaso e pergunta-se a probabilidade
de:
a) ser esportista;
b) ser esportista e aluno da biologia noturno;
c) não ser da biologia;
d) ser esportista ou aluno da biologia;
e) não ser esportista nem aluno da biologia.
10) Uma fazenda contém quatro bezerros Nelore, cinco Gir e seis Guzerá. Outra fazenda contém cinco bezerros
Nelore, seis Gir e dois Guzerá. Sorteia-se um bezerro de cada fazenda. Qual a probabilidade de que ambos
sejam da mesma raça?
11) Num cruzamento de galos de pescoço pelado com galinhas do mesmo tipo, temos a probabilidade de 1/4
para obter um lho de pescoço coberto. Numa ninhada de seis pintos, qual a probabilidade de que nenhum
tenha pescoço coberto?
12) Sabendo-se que 2% dos exames clínicos feitos por um laboratório apresentam falha humana, 1% falha
técnica e 2,5% pelo menos uma das duas falhas, qual a probabilidade de um exame ter as duas falhas?
13) Uma fazenda é composta de 70% de animais machos e 30% de fêmeas. Sabe-se que 40% dos machos e
60% das fêmeas são da raça Nelore. Qual a probabilidade de que escolhido um animal da raça Nelore, ele
seja macho?
14) Uma escola do ensino médio do interior de São Paulo tem 40% de estudantes do gênero masculino. Entre
estes, 20% nunca viram o mar, ao passo que, entre as meninas, essa porcentagem é de 50%. Qual a
probabilidade de que um aluno selecionado ao acaso seja:
a) do gênero masculino e nunca tenha visto o mar;
b) do gênero feminino ou nunca tenha visto o mar.
15) O Londrina Esporte Clube ganha com probabilidade 0, 7 se chove e com 0, 8 se não chove. Em agosto
a probabilidade de chuva é de 0, 3. O Londrina Esporte Clube ganhou uma partida em agosto, qual a
probabilidade de ter chovido nesse dia?
16) Dos animais de uma fazenda, 60% são castrados. Se não for castrado, a probabilidade de ter tido um distúr-
bio hormonal é de 10%, enquanto que para os demais essa probabilidade aumenta para 30%. Pergunta-se:
a) qual a probabilidade do animal escolhido ao acaso ter tido um distúrbio hormonal?
b) Se o animal sorteado tiver distúrbio hormonal, qual a probabilidade de não ser castrado?
17) Uma urna contém 10 bolas verdes, 8 vermelhas, 4 amarelas, 4 pretas e cinco brancas, todas de mesmo
raio. Uma bola é retirada ao acaso. Qual a probabilidade de a bola escolhida ser:
a) não verde; c) vermelha ou preta;
b) não-branca ou vermelha; d) verde, vermelha ou amarela.
18) Uma urna contém 15 cartões enumerados de 1 a 15. Um cartão é retirado aleatoriamente. Qual a
probabilidade de o número no cartão ser múltiplo de 3?
19) Joga-se um dado branco e um dado preto. Calcule a probabilidade de:
a) Ocorrer soma 6; c) ocorrer soma 2;
b) ocorrer soma 11; d) não ocorrer nem soma 2 e nem 8.
20) Uma carta é retirada de um baralho comum de 52 cartas. Qual a probabilidade de:
a) sair uma carta vermelha; c) sair um rei ou uma carta de copas.
b) sair uma carta de copas;
21) Um número inteiro é escolhido ao acaso dentre os números 1, 2, 3, . . . , 30. Qual a probabilidade de:
a) o número ser divisível por 3;
b) o número ser divisível por 5;
c) o número ser divisível por 5 ou por 3;
d) o número não ser divisível nem por 3 e nem por cinco.
22) Uma moeda é viciada, de maneira que as caras são 3 vezes mais prováveis de aparecer do que as coroas.
Se esta moeda é lançada duas vezes. Qual a probabilidade de ocorrer cara apenas uma vez?
23) Das 8 alunas de uma classe, 3 têm olhos azuis. Se duas delas são escolhidas aleatoriamente, qual é a
probabilidade de:
a) ambas terem olhos azuis;
b) nenhuma ter olhos azuis;
c) pelo menos uma ter olhos azuis?
24) De 120 estudantes, 70 estudam matemática, 80 estudam português e 40, matemática e português. Se um
estudante é escolhido aleatoriamente, encontre a probabilidade dele:
a) estudar matemática ou português; d) não estudar matemática;
b) só estudar português; e) não estudar nem português e nem estudar mate-
c) só estudar matemática; mática.
25) Em uma prova caíram dois problemas. Sabe-se que 132 alunos acertaram o primeiro problema, 86 erraram
o segundo, 120 acertaram os dois e 54 acertaram apenas um problema. Qual a probabilidade de que um
aluno, escolhido ao acaso:
a) não tenha acertado nenhum problema;
b) tenha acertado apenas o segundo problema;
c) tenha acertado a pelo menos um problema.
26) Um professor de probabilidade propôs a seus alunos o seguinte problema: São dadas duas moedas, uma
perfeita (probabilidade de cara igual 1/2), e outra com duas caras. Uma moeda é escolhida ao acaso e
lançada três vezes. Qual a probabilidade que seja obtida 3 caras?

Capítulo 10
Variáveis aleatórias discretas
10.1 Conceitos Iniciais

Exemplo:
Um pesquisador desenvolveu uma nova técnica de inseminação articial que, segundo ele, garante
60% de sucesso. Um fazendeiro resolveu aplicar esta nova técnica em seus animais. Para isso ele selecionou
3 animais de seu rebanho.
Considere inicialmente, o experimento: aplicar a nova técnica de inseminação e observar o
resultado. Seja E o evento o animal emprenhar e Ē o evento o animal não emprenhar.
a) Construir o espaço amostral associado a esse experimento;
b) Calcular as probabilidades associadas a cada um dos elementos do espaço amostral;
c) Considerar Y o número de animais prenhes e associar um valor y a cada um dos elementos do espaço
amostral.
O diagrama da árvore facilita a visualização do espaço amostral, quando o tamanho da amostra
a ser coletada não é grande.
146
Conceitos Iniciais 147
Resultados Possíveis Probabilidades

y
/
<E EEE 0,216 3
yyy
yy
yy
E
E EEEE
EE
E"
Ē / EE Ē 0,144 2

E J 33
33
33
33
33 <E
/ E ĒE 0,144 2
33 yyy
yy
yy
Ē EE
EE
EE
E"
Ē / E Ē Ē 0,096 1

•(
((
((
(( /
(( <E ĒEE 0,144 2
yyy
(( yy
(( yy
E
((
E EE
EE
(( EE
(( E"
(( Ē / ĒE Ē 0,096 1

((

Ē3
33
33
33
33 /
<E Ē ĒE 0,096 1
33 yyy
3 yy
yy
Ē EE
EE
EE
E"
Ē / Ē Ē Ē 0,064 0
Logo, o espaço amostral é dado por:
{ }
Ω = EEE, EE Ē, E ĒE, E Ē Ē, ĒEE, ĒE Ē, Ē ĒE, Ē Ē Ē
e as probabilidades associadas a cada ponto do espaço amostral são dadas por:
P (EEE) = 0, 216 P (ĒEE) = 0, 144

P (EE Ē) = 0, 144 P (ĒE Ē) = 0, 096
P (E ĒE) = 0, 144 P (Ē ĒE) = 0, 096
P (E Ē Ē) = 0, 096 P (Ē Ē Ē) = 0, 064
148 Capítulo 10. Variáveis aleatórias discretas
10.2 Variável Aleatória Discreta

Uma função denida sobre o espaço amostral S e assumindo valores num conjunto enumerável
de pontos do conjunto real é dita uma variável aleatória discreta.
10.2.1 Distribuição de uma Variável Aleatória

O conjunto dos valores da variável e as respectivas probabilidades, ou seja, yi e P (yi ),
i = 1, . . . , n é chamado distribuição da variável aleatória Y.
∑n
Observação: P (yi ) = 1.
i=1
Costuma-se adotar, também, a notação P (Y = yi ) para designar a probabilidade de a variável aleatória Y
assumir o valor yi .
Portanto, a distribuição da variável aleatória Y = {número de animais prenhe} é dada por:
Tabela 10.1 Distribuição da variável aleatória Y.
yi P (Y = yi )
0 0,064
1 0,288
2 0,432
3 0,216
cuja representação gráca é apresentada na Figura 10.1.
0.40
0.35
0.30
Probabilidades
0.25
0.20
0.15
0.10
0.05
0 1 2 3
Número de Sucessos
Figura 10.1 Gráco das probabilidades de prenhez dos animais.

Variável Aleatória Discreta 149
Qual é a porcentagem esperada de :
a) três animais emprenharem?
b) nenhum animal emprenhar?
c) pelo menos um animal emprenhar?
Para elaborar a Tabela 10.1 e construir o gráco usando o R, bastam os comandos:
vacas = 0:3
prob_suc = 0.6
prenhez = data.frame(Pr = dbinom(vacas, 3, prob_suc))
rownames(prenhez) = 0:3
prenhez
plot(vacas, dbinom(vacas, size=3, prob=prob_suc), xlab="Número de Sucessos",
ylab="Probabilidades", main=`', axes=F, type="h", col=`blue')
points(vacas, dbinom(vacas, size=3, prob=prob_suc), pch=16, , col=`blue')
axis(1, vacas)
axis(2, seq(0, 0.45, .05), las=1)
abline(h=0, col="gray", cex=2.5, lwd=2)
box(bty=`l')
10.2.2 Função de Probabilidade

A função que fornece as probabilidades de ocorrências dos valores que a variável aleatória pode
assumir é chamada função de probabilidades.
Exemplo: A função de probabilidades da variável Y ={número de animais prenhe} é dada por:
( )
3
P (Y = y) = 0, 6y (1 − 0, 6)3−y , y = 0, . . . , 3.
y
(3) 3!
em que = .
y y!(3 − y)!
Exercícios: Calcular P (Y = 0), P (Y = 1), P (Y = 2) e P (Y = 3), através da função de probabilidades e
interpretar o resultado.
Solução:
10.2.3 Valor médio ou Esperança Matemática de Y

Para responder sobre qual o número médio esperado de animais emprenhados? é necessário
calcular o valor médio denido por:
Dada a variável aleatória Y , assumindo os valores y1 , y2 , . . . , yn com as respectivas probabilidades

P (y1 ), P (y2 ), . . . , P (yn ), chamamos valor médio ou esperança matemática de Y ao valor:
∑
n
µY = E(Y ) = yi P (yi ) (10.1)
i=1
Exemplo: Para os dados da Tabela 10.1, calcula-se a esperança de Y como:
yi P (Y = yi ) yi × P (Y = yi )
0 0,064
1 0,288
2 0,432
3 0,216
Total 1,000
Portanto, E(Y ) = animais emprenhados.
Interpretação: Espera-se obter um número médio de animais emprenhados.
Propriedades da Esperança Matemática

Supondo k uma constante e X e Y variáveis aleatórias, pode-se denir as seguintes propriedades
da esperança matemática:
a) E(k) = k
b) E(kX) = kE(X)
c) E(X ± Y ) = E(X) ± E(Y )
d) E(X ± k) = E(X) ± k
e) Se X e Y são variáveis aleatórias independentes, então: E(XY ) = E(X)E(Y ).
10.2.4 Variância de Y
Dada a variável aleatória Y, chamamos de variância de Y, ao valor:
n [
∑ ]2
σY2 = V (Y ) = yi − E(Y ) P (yi ). (10.2)
i=1
Logo, para o exemplo dado:
y P (Y = y) [yi − E(Y )]2 [yi − E(Y )]2 P (Y = y)

0 0,064 3,24 0,20736
1 0,288 0,64 0,18432
2 0,432 0,04 0,01728
3 0,216 1,44 0,31104
Total 1,000 0,72000
Portanto, V (Y ) = 0, 72. Assim, o desvio padrão e o coeciente de variação são dados, respectivamente, por:
√ σY
σY = V (Y ) = 0, 8485281 e CV = × 100 = 47, 14%.
µY
Uma maneira mais prática para o cálculo da variância de Y é:
2
σY2 = V (Y ) = E(Y 2 ) − [E(Y )]
em que
∑
n
E(Y 2 ) = yi2 P (Y = yi ).
i=1
Logo,
y P (Y = y) y × P (Y = y) yi2 yi2 × P (Y = y)
0 0,064 0,000 0 0,000
1 0,288 0,288 1 0,288
2 0,432 0,864 4 1,728
3 0,216 0,648 9 1,944
Total 1,000 1,8 3,960
Assim,
[ ]2
V (Y ) = E(Y 2 ) − E(Y )
( )2
V (Y ) = 3, 96 − 1, 8
V (Y ) = 0, 72.
Propriedades da Variância
Supondo k uma constante e X e Y variáveis aleatórias, pode-se denir as seguintes propriedades
para a variância:
a) V (k) = 0
b) V (kX) = k 2 V (X)
c) V (X ± Y ) = V (X) ± V (Y ) + 2 COV (X, Y )
d) V (X ± Y ) = V (X) ± V (Y ), se X e Y são independentes.
e) V (X ± k) = V (X)
f ) Se X e Y são variáveis aleatórias independentes, então: COV (XY ) = E(XY ) − E(X) E(Y ) = 0.
Obs.: O fato de COV (X, Y ) = 0 não implica que X e Y sejam independentes.
10.2.5 Distribuição acumulada de uma variável aleatória

O conjunto dos valores da variável e as probabilidades acumuladas até os respectivos valores, ou
seja, yi e F (yi ) = P (Y ≤ yi ) i = 1, 2, . . . , n é chamada distribuição acumulada da variável aleatória Y.

Obter a tabela de distribuição acumulada de probabilidades da variável aleatória Y ou distribuição
acumulada de Y relativos à inseminação articial dos apresentados na Tabela 10.1.

yi P (Y = yi ) F(Y) = P (Y ≤ yi )
0 0,064
1 0,288
2 0,432
3 0,216
cujo gráco é apresentado na Figura 10.2
1.0
0.8
Probabilidades
0.6
0.4
0.2
0.0 0.5 1.0 1.5 2.0 2.5 3.0
Número de Sucessos
Figura 10.2 Distribuição acumulada da prenhez dos animais.
Interpretar o valor F (2).
(Acum = cumsum(dbinom(0:3, size=3, prob=0.6)))

Prenhez = data.frame(Acum)
rownames(Prenhez) = 0:3
Prenhez
plot(0:3, cumsum(dbinom(0:3, size=3, prob=0.6)), type=`s',
col=`blue', xlab=`Número de Sucessos', ylab="Probabilidades",
main="", las=1, bty=`l')#, xaxt=`n')
points(0:3, cumsum(dbinom(0:3, size=3, prob=0.6)), pch=19, col=`blue')
Exercícios:
1) Considere um pasto com 3 vacas da raça Holandesa e 5 vacas da raça Gir. Serão retirados do pasto 3
animais, através de sorteio e sem reposição. Dena a variável Y como sendo o número de animais da
raça Gir. Pede-se:

a) obter uma tabela contendo todos os possíveis resultados desse experimento e as probabilidades associ-
adas a cada um deles;
b) obter a distribuição da variável aleatória Y e um gráco que a represente.
2) Seja Y a variável aleatória discreta número de óbitos observados mensalmente no Hospital Veterinário,
cuja distribuição de probabilidades é dada por:
y 0 1 2 3 4 5
P (y) 0,1 0,2 0,3 0,2 0,1 0,1
Pede-se:
a) obter a função de distribuição acumulada F (y) para a variável aleatória Y e um gráco que a represente;
b) calcular o número médio de ovos;
c) calcular: E(4Y ), E(Y + 1), E(Y 2 ) e a variância de Y;
d) calcular V ar(2Y ) e V ar(Y + 1).
3) Em um experimento com chocadeira automática são colocados 5 ovos e observado o número de ovos
eclodidos. Sabendo-se que teoricamente, 90% dos ovos eclodem, obter:
a) a distribuição de probabilidades da variável aleatória Y = {número de ovos eclodidos} e um gráco
que a represente;
b) a probabilidade de pelo menos 3 ovos eclodirem;
c) a esperança e a variância de Y.
10.3 Principais Distribuições de Probabilidades

10.3.1 Distribuição de Bernoulli
Nos experimentos de Bernoulli
1 o espaço amostral é composto por apenas dois resultados pos-
síveis: sucesso (resultado de interesse) ou fracasso (resultado pelo qual não estamos interessados).
Exemplos:
a) Lançar uma moeda. Pode sair cara ou coroa;
b) Inseminar um animal. Pode emprenhar ou não;
c) Colocar uma estaca em um vaso com terra. Pode enraizar ou não;
d) Plantar uma semente. Pode germinar ou não;
1
Jakob Bernoulli (Nascido em 27/12/1654 em Basel, Suíça e falecido em 16/08/1705), também conhecido como
Jacob, Jacques ou James Bernoulli.
Principais Distribuições de Probabilidades 155
Seja Y a variável aleatória número de sucessos e p a probabilidade de ocorrer sucesso. Assim,
Resultados Possíveis Probabilidades y
< S (Sucesso) p 1
xx
xxx
xx
• FF
FF
FF
F"
F (F racasso) 1−p 0
A distribuição de probabilidade de Y com distribuição de Bernoulli, com parâmetro p é dada
por:
Tabela 10.2 Distribuição da variável aleatória Y de Bernoulli.
y P (Y = y)
0 1−p
1 p
Total 1
Pode-se calcular a média desta distribuição utilizando-se a Equação (10.2.3). Assim:
∑
n
µY = E(Y ) = yi P (Y = yi )
i=1
µY = E(Y ) = 0 × (1 − p) + 1 × p
µY = E(Y ) = p
Da Equação (10.2.4), pode-se calcular a variância que é:
n [
∑ ]2
V (Y ) = yi − E(Y ) P (Y = yi ) V (Y ) = E(Y 2 ) − [E(Y )]2
i=1
[ ]
V (Y ) = (0 − p)2 (1 − p) + (1 − p)2 p ou V (Y ) = 02 × (1 − p) + 12 × p − [p]2
V (Y ) = p2 (1 − p) + p(1 − p)2 V (Y ) = p − p2
V (Y ) = p(1 − p) V (Y ) = p × (1 − p)
Portanto,
E(Y ) = p V (Y ) = p(1 − p)
e
Notação: Y ∼ Be(p).
Função de Probabilidades: A função de probabilidades de uma distribuição de Bernoulli é dada por:
P (Y = y) = py (1 − p)1−y , y = 0, 1.
10.3.2 Distribuição Binomial

É a mais importante das distribuições de probabilidades discretas. Tem esse nome devido ao
cálculo das probabilidades ser feito usando termos da expansão do binômio de Newton. O teorema do binômio
de Newton é dado por:
n ( )
∑
n n
(x + y) = xn−k y k
k
k=0
( ) ( ) ( ) ( )
n n−0 0 n n−1 1 n n−2 2 n n−n n
= x y + x y + x y + ... + x y
0 1 2 n
( ) ( )
n n n−1 1 n n−2 2 n n−3 3
(x + y) = x + nx y + x y + x y + . . . + yn
2 3
( )
n n!
em que = .
k k!(n − k)!
Casos particulares do Binômio de Newton são:

1
(x + y) = x + y
2
(x + y) = x2 + 2xy + y 2
3
(x + y) = x3 + 3x2 y + 3xy 2 + y 3
4
(x + y) = x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4
Para que a variável aleatória de um experimento tenha distribuição binomial é necessário atender
as seguintes condições:
a) supor uma série de n realizações independentes (o resultado de um experimento não é afetado pelo
resultado dos outros) de Bernoulli;
b) a probabilidade de sucesso em cada realização é sempre constante e igual a p;
c) o número de sucessos observado é um número inteiro entre 0 e n.
Então diz-se que a variável aleatória Y = {número de sucessos} nos n ensaios tem distribuição binomial
com parâmetros n e p.
Notação: Y ∼ Bin(n, p).
Função de Probabilidades: A função de probabilidades de uma variável Y com distribuição binomial
Bin(n, p) é dada por:
( )
n y
P (Y = y) = p (1 − p)n−y , y = 0, 1, . . . , n.
y
( )
n n!
em que = ; p é a probabilidade de sucesso e (1 − p) é a probabilidade de fracasso.
y y!(n − y)!
Considere uma variável aleatória com distribuição binomial Bin(10; 0, 3), ou seja, o estudo de
uma variável, cujo número de ensaios será igual a 10 realizações e a probabilidade de sucesso é igual a 30%.
O gráco desta situação é apresentado na Figura 10.3.
0.25
0.20
Probabilidades
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10
Número de Sucessos
Figura 10.3 Gráco da distribuição Binomial, para n = 10 ensaios com probabilidade de sucesso
p = 0, 30.
Para gerar o gráco da distribuição no R bastam os seguintes comandos:

par(mai=c(.8, .8, .2, .2))
plot(dbinom(db, size=10, prob=0.3) ~ db, type="h", col=`blue',
bty=`l', xlab="Número de Sucessos", ylab="Probabilidades", main=`', axes=F)
points(db, dbinom(db, size=10, prob=0.3), pch=16, , col=`blue')
axis(1, db)
axis(2, seq(0, 0.45, .05), las=1)
abline(h=0, col="gray", cex=1.5, lwd=1)
box(bty=`l')
Se o interesse for apenas nos valores das probabilidades, os mesmos podem ser obtidos com:
data.frame(Pr=dbinom(0:10, size=10, prob=0.3))
A esperança e a variância de uma variável aleatória Y com distribuição binomial Bin(n, p) são
dadas, respectivamente, por:

E(Y ) = n p V (Y ) = n p (1 − p)
e
Exemplo 1: Uma moeda é lançada dez vezes. Qual a probabilidade de se obter duas caras? Determine a
esperança e a variância.
Solução:
dbinom(2, size=10, prob=0.5)

moeda = 0:10
(proba = dbinom(moeda, size=10, prob=0.5) )
require(distrEx)
Y = DiscreteDistribution(supp=moeda, prob=proba)
E(Y) ; var(Y) ; sd(Y)
plot(proba ~ moeda, las=1, type="h", col=`blue',
xlab="Número de Sucessos", ylab="Probabilidades", main=`')
abline(h=0, col=`gray')
axis(1, at=c(0:10))
Exemplo 2: Uma infecção experimental em camundongos determina morte de 30% dos animais a ela subme-
tidos. Qual a probabilidade de obter num lote de 10 animais, uma mortalidade de, no máximo 20%?
Solução:
dbinom(0:10, 10, .3)

pbinom(2, size=10, prob=0.3)
Exemplo 3: Você leva sua cadela ao veterinário e descobre através de um exame de ultrasonograa que ela
está grávida de 8 lhotes.
a) Qual é a probabilidade de que exatamente 3 dos lhotes sejam fêmeas?
Solução:
b) Qual é a probabilidade de que existam um número igual de machos e fêmeas?
Solução:
c) Qual é a probabilidade de que existam mais machos do fêmeas?
Solução:
pbinom(3, size=8, prob=0.5)
10.3.3 Distribuição de Poisson

A distribuição de Poisson
1 é largamente empregada quando se deseja contar o número de ocor-
rências (sucessos) de um evento de interesse, por unidade de tempo, comprimento, área ou volume. É também
chamada de distribuição dos eventos raros.
Exemplos:
a) Número de insetos de uma espécie coletados por armadilha por dia;
b) Número de furos em pneus por km rodado;
c) Número de bactérias por ml de urina;
d) Número de pacientes que chegam a um pronto atendimento de uma pequena cidade durante a madrugada;
e) Número de árvores de uma certa espécie, por ha.
Note que os possíveis valores que as variáveis descritas podem assumir são: 0, 1, . . . ,.
O comportamento dessas variáveis pode ser descrito pela chamada distribuição de Poisson.
Função de Probabilidades: A função de probabilidades de uma variável Y com distribuição Poisson P oi(λ)
é dada por:
e−λ λy
P (Y = y) = , y = 0, 1, . . .
y!
em que λ é igual ao número médio de ocorrências do evento de interesse por unidade de tempo, distância ou
área.
Notação: Y ∼ P oi(λ).
O gráco gerado pela função de probabilidades de uma distribuição de Poisson, para λ = 4, é
apresentado na Figura 10.4.
1
Siméon-Denis Poisson, matemático Francês, 17811840.
0.20
0.15
Probabilidades
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12
Figura 10.4 Gráco da distribuição de Poisson, cuja média é λ = 4, 0.
Obs.: Para valores de Y maiores que 12, com λ = 4, as probabilidades tendem a zero.
Os pressupostos básicos para a utilização do modelo são:
1) as condições permanecem estáveis no decorrer do tempo, isto é, a taxa média de ocorrências (λ) é constante
ao longo do tempo;
2) intervalos de tempo disjuntos são independentes, isto é, a informação sobre o número de ocorrências em
um intervalo nada revela sobre o número de ocorrências em outro intervalo.
A esperança e a variância de uma variável aleatória Y com distribuição Poisson P oi(λ) são
dadas, respectivamente, por:
E(Y ) = λ V (Y ) = λ
e
Exemplo 1: Um pesquisador está interessado no número de ovos depositados por uma espécie de pássaro.
Na primavera, ele procura e encontra 80 ninhos. O número médio de ovos por ninho foi 3,8 e a variância foi
3,1. Porque a variância é aproximadamente igual á média, ele acha que pode ser razoável descrever o número
de ovos por ninho como tendo uma distribuição Poisson com média 3,8.
a) Construa o gráco da distribuição;
plot(0:12, dpois(0:12, lambda=3.8), type=`h', las=1, bty=`l',

xlab=`Número de Ovos', ylab="Probabilidades", axes=F)
points(0:12, dpois(0:12, lambda=3.8), pch=19, col=`red')
axis(1, at=c(0:12), line=-1.15)
axis(2, seq(0, 0.25, 0.05), las=1)
abline(h=0, col="black")
b) Se esta realmente representa a distribuição populacional, qual seria a probabilidade de não encontrar ovo
num ninho?
Solução:
dpois(0, lambda=3.8)
c) Qual seria a probabilidade de encontrar um ninho com mais do que 5 ovos?
Solução:
1 - ppois(5, lambda=3.8)
d) Qual a probabilidade de encontrar de 3 a 6 ovos?
Solução:
dpois(3:6, 3.8)
sum(dpois(3:6, 3.8))
Exemplo 2: Uma vacina contra a febre aftosa tem probabilidade igual a 0, 001 de não imunizar um animal.
Se forem vacinados cinco mil animais, qual a probabilidade de não carem imunes:
a) três animais;
Solução:
dpois(3, lambda=5)
b) dois animais ou mais.
Solução:
1 - ppois(1, lambda=5)
Exemplo 3: O número de consultas médicas anuais de um associado de um plano de saúde é, naturalmente,
um número nito. Uma aproximação, que simplica a especicação de sua distribuição, é supor que pode
tomar qualquer valor do conjunto {0, 1, 2, . . . }. Em um plano de saúde com 5.694 liados, ao m de um
ano, foram realizadas 13.098 consultas, de acordo com os dados apresentados na Tabela 10.3.
Tabela 10.3 Número de consultas realizadas pelos liados ao plano de saúde.
Número de consultas Frequências Número de consultas Frequências
0 589 5 304
1 1.274 6 126
2 1.542 7 39
3 1.144 8 10
4 663 9 3
Pede-se:
a) Especique o modelo de Poisson para esses dados.
Solução:
b) Qual a probabilidade de se ter 7 consultas ou mais?
Solução:
ncons = c(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
Obs = c(589, 1274, 1542, 1144, 663, 304, 126, 39, 10, 3)
(saude = data.frame(ncons, Obs)) ; attach(saude)
(media = weighted.mean(ncons, Obs))
dpois(0:9, lambda=media)
1 - ppois(6, lambda=media)
c) Compare os valores observados com o esperado pelo modelo.
Solução:
(Esp = round(5694*dpois(0:9, lambda=media), 0))

(compara = data.frame(ncons, Obs, Esp))
10.3.4 Aproximação da Distribuição Binomial pela Distribuição de Poisson

A distribuição de Poisson, P ois(λ), com λ = np é uma boa aproximação à distribuição binomial
bin(n, p) quando p for pequeno, n for bastante grande e de tal forma que np ≤ 7.
Exemplo: Seja Y a variável aleatória efeito colateral a um medicamento. De acordo com o fabricante do
medicamento, a probabilidade de um animal sofrer efeito colateral devido ao medicamento é de 0,0005. O
plantel da fazenda é de 10.000 animais. Calcule:

a) a probabilidade de nenhum animal sofrer efeito colateral;
Solução:
n = 10000
p = 0.0005
lambda = n*p
dpois(0, lambda)
b) a probabilidade de pelo menos um animal sofrer efeito colateral;
Solução:
1 - dpois(0, lambda)
c) a probabilidade do número de animais com efeitos colaterais estar entre 3 e 5 animais, inclusive.
Solução:
ppois(5, lambda) - ppois(2, lambda)
10.3.5 Distribuição Geométrica

Destinada ao cálculo de probabilidades de situações em que são feitas sucessivas tentativas
independentes de um mesmo experimento aleatório até que apareça o 1º sucesso. Assim, se designarmos S
como sucesso e F como fracasso, e realizarmos n ensaios até que ocorra o primeiro sucesso, o espaço amostral
deste experimento será o conjunto:
Ω = {S, F S, F F S, . . . , F F F · · · S, . . .}
Logo, um elemento típico desse espaço amostral é uma sequência de comprimento n em que nas
primeiras n−1 posições temos F, ou seja, ocorrência de fracassos e na n-ésima ocorre o sucesso S.
A distribuição geométrica apresenta duas parametrizações importantes, que tem interpretações
distintas. Uma das parametrizações da função geométrica conta o número de ensaios de Bernoulli necessário
para se obter um sucesso. Assim neste tipo de parametrização não é possível se ter o zero, portanto nesta
parametrização da geométrica o domínio será o conjunto dos números naturais sem o zero.
As principais características são:
a) X é o número de ensaios necessários para obter o primeiro sucesso;
b) as tentativas são sucessivas e independentes, com probabilidade de sucesso p;
A função de probabilidade é dada por:
P (X = x) = p × (1 − p)x−1 x = 1, 2, . . .
A segunda parametrização da geométrica conta o número de falhas até que ocorra o primeiro
sucesso. Note que neste tipo de parametrização pode-se incluir o zero como sendo um possível resultado, pois
pode-se ter sucesso já no primeiro ensaio de Bernoulli. É esta parametrização que é usada como padrão pelo
R. As principais características são:
a) Y é o número de falhas até obter o primeiro sucesso;
b) as tentativas são sucessivas e independentes, com probabilidade de sucesso p;
A função de probabilidade é dada por:
P (Y = y) = p × (1 − p)y y = 0, 1, 2, . . .
Notação: Y ∼ G(p).
Exemplo: A probabilidade de se encontrar aberto o sinal de trânsito numa esquina é 0, 20. Qual a probabilidade
de que seja necessário passar pelo local 5 vezes para encontrar o sinal aberto pela primeira vez?
Solução:
dgeom(4, prob=0.20)
Exemplo: Um casal com problemas para engravidar, recorreu a uma técnica de inseminação articial no
intuito de conseguir o primeiro lho. A eciência da referida técnica é de 0, 40. Qual a probabilidade de que
o casal obtenha êxito na terceira tentativa?
Solução:
dgeom(2, prob=0.40)
Exercícios - Variáveis Aleatórias Discretas

Procure fazer os cálculos utilizando uma calculadora e depois
utilize o R para comprovar os resultados manuais.
1) Uma seguradora paga R$ 30.000, 00 em caso de acidente de carro e cobra uma taxa de R$ 1.000, 00.
Sabe-se que a probabilidade de que um carro sofra acidente é de 3%. Quanto espera a seguradora ganhar
por carro segurado? Resp: E(Y ) = R$100, 00.
2) Suponha que um número seja sorteado de 1 a 10, inteiros positivos. Seja Y o número de divisores do
número sorteado. Calcular o número médio de divisores do número sorteado. Resp: E(Y ) = 2, 7.
3) Seja Y uma variável com distribuição binomial com parâmetros Y ∼ Bin(n, 0, 20). Utilizando o R, faça
os grácos da distribuição de Y, para os valores de n = 5, 10, 15, 20, 30, 50. O que você nota à medida
em que se aumenta o valor de n?
4) Num jogo de dados, A paga R$ 20, 00 a B e lança 3 dados. Se sair face 1 em um dos dados apenas, A
ganha R$ 20, 00. Se sair face 1 em dois dados apenas, A ganha R$ 50, 00, e se sair 1 nos três dados, A
ganha R$ 80, 00. Calcular o lucro líquido médio de A em uma jogada. Resp: E(Y ) = −R$ 9, 21.
5) As probabilidades de que haja 1, 2, 3, 4 ou 5 pessoas em cada carro que vá ao litoral num sábado são,
respectivamente: 0, 05, 0, 20, 0, 40, 0, 25 e 0, 10. Qual o número médio de pessoas por carro? Se chegam
no litoral 4.000 carros por hora, qual o número esperado de pessoas, em 10 horas de contagem? Resp:
E(Y ) = 3, 15 e 126.000 pessoas.
6) Uma urna contém 6 bolas numeradas de 1 a 6. Uma pessoa paga R$ 600, 00 e retira aleatoriamente uma
bola. Se retirar a bola 6 recebe R$ 1.500, 00; se retirar as bolas 2, 3, 4 ou 5 nada recebe; e se retirar a bola
1 irá escolher outra bola, sem repor a primeira, e se esta segunda for a bola 6, recebe R$3.600, 00; caso
contrário, nada recebe. Calcular quanto a pessoa que está jogando espera lucrar. Resp: −R$ = 230, 00.
7) Uma moeda é lançada 20 vezes. Qual a probabilidade de saírem 8 caras? Calcule a esperança e variância.
Faça o gráco da distribuição usando o R. Resp: 0,12013; 10; 5.
8) Sabe-se que 20% dos animais submetidos a um certo tratamento não sobrevivem. Se esse tratamento foi
aplicado em 20 animais e se X é o número de não sobreviventes:
a) faça o gráco da distribuição;
b) qual é o número médio esperado de animais sobreviventes; Resp: 16.
c) Calcule a variância e o desvio padrão de X; Resp: 3,2 ; 1,788854.

d) Calcular a P (2 < X ≤ 4); Resp: 0,4236.
e) Calcular a P (X ≥ 2). Resp: 0,9308.
9) Em 30 bezerros nascidos, 60% foi do sexo feminino. Calcular o valor esperado (esperança) e o desvio
padrão esperado. Faça o gráco. Resp: 18; 2,683282.
10) Seja X ∼ Bin(10, 2/3). Calcular:
a) P(X=3); Resp: 0,01626
b) P (X ≤ 2); Resp: 0,003404
c) P (X ≥ 4); Resp: 0,98034
d) P (3 < X < 5); Resp: 0,05690235
e) E(X) e V(X). E(X) = 6,6667 e V(X) = 2,2222.
11) Sabe-se que 10% das vacinas de um determinado laboratório tem validade vencida. Retiram-se, casual-
mente, 10 vacinas de uma partida, qual a probabilidade de:
a) todas as vacinas estarem com validade vencida? Resp: 1, 0 × 10−10
b) no máximo três com validade vencida? Resp: 0, 9298
c) existir vacina com validade vencida? Resp: 0, 6513
d) uma vacina com validade vencida? Resp: 0, 3874
Qual o número médio de vacinas vencidas? Resp: E(X) = 1
12) Suponha que é sabido que 30% de uma certa população são imunes a alguma doença. Se uma amostra
aleatória de tamanho 10 é selecionada desta população, qual é a probabilidade de que:
a) ela contenha exatamente 4 pessoas imunes? Resp: 0,20012
b) ela contenha mais que 4 pessoas imunes? Resp: 0,15027.
c) Construa a distribuição de probabilidade e faça o gráco.
13) Em uma grande população, 16% dos membros são canhotos. Em uma amostra aleatória de tamanho 10,
encontre:
a) a probabilidade de que exatamente dois sejam canhotos; Resp: 0,28555
b) P (X ≥ 2); Resp: 0,49195
c) P (X < 2); Resp: 0,50805
d) P (1 ≤ X ≤ 4). Resp: 0,81209

14) Suponha que a probabilidade de recuperação para uma certa doença seja conhecida e igual a 0,4. Se 15
contraem a doença (assuma como sendo uma amostra aleatória), qual é a probabilidade que:
a) três ou mais se recuperem? Resp: 0,972886
b) quatro ou mais? Resp: 0,909498
c) cinco ou mais? Resp: 0,782722
d) menos que 3? Resp: 0,027114
15) Considerando que a probabilidade de nascer uma criança do sexo feminino é de 47%, qual a probabilidade
de que uma família de 6 lhos seja constituída por seis crianças do sexo feminino? Resp: 0,01077922
16) Um administrador de hospital, que tem estudado as admissões ao setor de emergências diariamente, por
um período de alguns anos, chegou a conclusão que elas são distribuídas de acordo com a distribuição
de Poisson. Os registros do hospital revelam que as admissões ao setor de emergências são, em média,
três por dia, durante este período. Dado que o administrador está correto em assumir uma distribuição de
Poisson, encontra a probabilidade que:
a) exatamente duas admissões ao setor de emergências ocorrerão em um dado dia; Resp: 0,2240
b) nenhuma admissão ao setor de emergências ocorrerá em um dado dia; Resp: 0,0498
c) ocorram três ou quatro admissões ao setor de emergências em um dado dia. Resp: 0,3920
17) Em um estudo sobre um certo organismo aquático, um grande número de amostras foram coletados de
um tanque, e o número de organismos em cada amostra foi contado. O número médio de organismos por
amostra foi encontrado como sendo dois. Assumindo o número de organismos tendo uma distribuição de
Poisson, encontre a probabilidade que:
a) a próxima amostra coletada conterá um ou mais organismos; Resp: 0,8647
b) a próxima amostra coletada conterá exatamente três organismos; Resp: 0,1804
c) Faça o gráco da distribuição.
18) Um contador eletrônico de bactérias registra, em média, 5 bactérias por cm3 de um líquido. Admitindo-se
que esta variável tenha distribuição de Poisson:
a) qual é o desvio padrão do número de bactérias por cm3 ? Resp: 5
3
b) Encontre a probabilidade de que pelo menos duas bactérias ocorram num volume de líquido de 1cm .
Resp: 0,9596
19) Se a probabilidade de um indivíduo sofrer uma reação nociva, resultante da infecção de um determinado
soro é 0,0001. Determinar a probabilidade de, entre 2.000 indivíduos:
a) exatamente três sofrerem a reação; Resp: 0,0011
b) mais de dois sofrerem a reação. Resp: 0,0012
20) Num livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que uma página contenha
pelo menos 3 erros? Resp: 0,080301
21) Seja X a variável aleatória número de plantas com mutação, em um total de n plantas irradiadas, e
p = 0, 0004 a probabilidade de uma planta irradiada apresentar mutação. Calcular, usando a distribuição
de Poisson como uma aproximação à binomial:
a) a probabilidade de não aparecer nenhuma planta com mutação em 900 plantas irradiadas; Resp: 0,69768
b) a probabilidade de aparecer ao menos uma planta com mutação em 900 plantas irradiadas; Resp:
0,30232
22) Seja X o número de árvores de castanha-jarana (Lecythis lurida) por hectare numa oresta tropical. Su-
ponha que X tem distribuição de Poisson (essa espécie distribui-se aleatoriamente pela região) com média
3 plantas por hectare. Pede-se:
a) Calcular a probabilidade de se encontrar no máximo uma árvore dessa espécie, ao se observar 1 hectare
dessa oresta. Resp: 0,19915
b) Calcular a probabilidade de se encontrarem 3 ou mais árvores dessa espécie ao se observar 1 hectare
dessa oresta. Resp: 0,57681
A esperança é a última que morre, mas a pri-
meira a ser calculada".

Capítulo 11
Variáveis aleatórias contínuas

Uma variável aleatória contínua pode tomar um número innito de valores, e esse valores podem
ser associados a mensurações em uma escala contínua e as probabilidades necessárias ao seu estudo são
calculadas como a área abaixo da curva da distribuição, chamada de função densidade de probabilidade.
Denição: Uma variável aleatória contínua Y é contínua em ℜ, se existir uma função f (y), tal que:
a) f (y) ≥ 0, ∀ y ∈ ℜ;
b) a área entre o gráco da função f (y) e o eixo y é igual a 1, ou seja,
∫ +∞
f (y) dy = 1.
−∞
A função f (y) é chamada função densidade de probabilidade (f.d.p.).
Observa-se que:
[ ] ∫ b
P a≤Y ≤b = f (y)dy, (11.1)
a
corresponde à área limitada pela função f (y), eixo Y e pelas retas Y =a e Y = b.

Da relação entre a probabilidade e a área sob a função, a inclusão ou não dos extremos a e b na
equação (11.1) não afetará os resultados. Assim, será admitido que
[ ] [ ] [ ] [ ]
P a<Y <b =P a≤Y <b =P a<Y ≤b =P a≤Y ≤b .
Exemplo: Seja uma função f (y) dada por:


 y ≤ 0;


0, se
f (y) = ay 3 , se 0 < y ≤ 2;



 0, se y>2
172
173
em que a é uma constante. Obter a de modo que f (y) seja uma função densidade de probabilidade de uma
variável aleatória contínua Y.
Solução:
Se f (y) é uma função densidade de probabilidade, a área compreendida pelas retas Y = 0,

Y = 2, o eixo Y e a f (y), mostrada na Figura 11.1, será igual a 1.
2.0
1.5
f(x)
1.0
0.5
0.0
0.0 0.5 1.0 2.0
1 3
Figura 11.1 Gráco da função f (y) = y .
4
A esperança matemática (ou valor médio) e a variância de uma variável aleatória contínua Y,
são dadas, respectivamente, por:
∫ ∞
µY = E(Y ) = y f (y)dy
−∞
( ) 2
σY2 = V (Y ) = E Y 2 − [E(Y )]
∫ ∞
em que,
2
E(Y ) = y 2 f (y)dy .
−∞
174 Capítulo 11. Variáveis aleatórias contínuas
Exercício: Seja Y uma variável aleatória contínua com função de probabilidade dada por:





0 se y < 0;
f (y) = 2y se 0 ≤ y ≤ 1;



 0 se y > 1;
a) Fazer o gráco de f (y);
Solução:
b) Vericar se f (y) é uma função densidade de probabilidade;
Solução:
c) Calcular P (0 < Y < 0, 5);
Solução:
d) Calcular a média e o desvio padrão de Y.
Solução:
Distribuição Normal 175
Se Y é uma variável aleatória contínua com função densidade de probabilidade f (y) dene-se a
sua função de distribuição acumulada F (y) como:
∫ y
F (y) = P (Y ≤ y) = f (t)dt.
∞
Se a e b forem dois números reais quaisquer, tem-se que:
P (a < Y < b) = F (b) − F (a).
11.1 Distribuição Normal

11.1.1 Introdução
Dentre todas as distribuições de probabilidades, sejam discretas ou contínuas, a mais estudada e
mais utilizada é a distribuição normal. As principais razões que fazem a distribuição Normal o modelo mais
importante na estatística são:
1) Muitas variáveis biométricas tendem a ter distribuição Normal. Isto ocorre principalmente quando a variável
é inuenciada por um grande número de fatores que atuam de modo independente e aditivo;
2) A distribuição das médias amostrais de uma variável qualquer tendem a ter distribuição Normal, mesmo
que a variável em si não tenha distribuição Normal;
3) Muitos testes e modelos estatísticos têm como pressuposição a normalidade dos dados, isto é, que os
dados possuem distribuição Normal.
A distribuição Normal é também conhecida como distribuição Gaussiana em homenagem a
Karl F. Gauss (1777-1855), brilhante matemático e físico alemão, que a desenvolveu no início do século XIX.
Entretanto, Abraham de Moivre (1667-1754) foi o primeiro a anunciar a equação da distribuição em 1733 e
Pierre-Simon Marquis de Laplace (1749-1827), famoso matemático e físico francês, a redescobriu na mesma
época que Gauss. Para evitar uma questão internacional de originalidade o famoso estatístico inglês Karl
Pearson passou a chamá-la de distribuição Normal em 1920.
A função densidade de probabilidade de uma variável aleatória contínua Y, seguindo uma distri-
buição normal, é dada por:

( )2
1 y−µ
1 −
f (y) = √ e 2 σ , para − ∞ < Y < ∞, (11.2)
2πσ 2
em que:
µ ∈ R, é a posição central da distribuição (média);
σ 2 > 0, é a dispersão da distribuição (variância);
y são os valores que a variável aleatória em estudo Y assume,
cujo gráco, supondo-se µ = 100 e σ 2 = 100, é apresentado na Figura 11.2.
0.4 0.4
0.3 0.3
f(x)
f(x)
0.2 0.2
0.1 0.1
0.0 0.0
a b
60 80 100 120 140
X X
Figura 11.2 Gráco da Distribuição Normal. Figura 11.3 Probabilidade entre as áreas a e b.
Esta distribuição é apropriada para modelar variáveis aleatórias contínuas, que assumem valores
em algum subconjunto dos números reais. Neste caso, só faz sentido falar na probabilidade da variável
pertencer a um certo intervalo [a; b] que é dada pela área sob a curva e dentro deste intervalo.
Para se calcular a probabilidade da variável aleatória Y assumir valores entre a e b basta calcular
a área compreendida entre estes intervalos usando a Equação 11.2. Assim:
( )2
∫ 1 y−µ
b
1 −
P (a ≤ Y ≤ b) = √ e 2 σ dy
a 2πσ 2
como pode ser observado na Figura 11.3.
11.1.2 Propriedades da Distribuição Normal

As principais características dessa função são:
1) A função gera um gráco em forma de sino, sendo unimodal e simétrica;

Distribuição Normal 177
2) é denida por dois parâmetros: a média (µ) e o desvio padrão (σ ), sendo que a média controla a localização
do centro da distribuição (é o ponto de simetria), já o desvio padrão controla a dispersão da curva ao redor
da média;
3) O ponto de máximo de f (y) é o ponto Y = µ;
4) Não possui limite inferior ou superior;
5) Unidades padrões: o desvio padrão dene unidades padrões na distribuição a partir da média, isto é, a
dispersão dos dados é controlada pelas unidades de desvio padrão, como mostrado na Figura 11.7.
68,3% 95,4% 99,7%
µ−σ µ µ+σ X µ − 2σ µ µ + 2σ X µ − 3σ µ µ + 3σ X
Figura 11.4 ±1 desvio da média. Figura 11.5 ±2 desvios da média.Figura 11.6 ±
Figura 11.7 Áreas sob a curva normal.
6) Notação: Y ∼ N (µ, σ 2 ).
Exemplo: Suponha que os pesos de animais adultos da raça pastor alemão possam ser descritos por uma
distribuição normal, com média 34 kg e desvio padrão 4 kg . Neste caso, a proporção dos cães têm pesos entre
26 kg e 42 kg , por exemplo, é a proporção da área sob a curva normal entre 26 e 42. Então neste exemplo,
cerca de 95% dos cães tem pesos entre 26 e 42 kg . Em termos probabilísticos, se a variável aleatória Y
representa o peso dos cães e se um cão for selecionado ao acaso então
P (µ − 2σ < Y < µ + 2σ) = P (26 < Y < 42) = 0, 9545
O cálculo direto de probabilidades envolvendo a distribuição normal exige recursos do cálculo
avançado e, mesmo assim, dada a forma da função densidade, não é um processo muito elementar. Por isso,
elas foram tabeladas, permitindo-nos obter diretamente o valor da probabilidade desejada. Note-se, entretanto,
que a função densidade da normal depende de dois parâmetros, µ e σ, de modo que se as probabilidades
fossem tabeladas diretamente a partir dessa função, seriam necessárias tabelas de dupla entrada, complicando
consideravelmente as coisas.
O desvio padrão representa o espalhamento na distribuição. Assim, utilizando-se a ideia de
espalhamento como interpretação, é de se esperar que uma distribuição normal com desvio padrão 2 seja
mais espalhada que uma distribuição normal com um desvio padrão 1. A Figura 11.8(a) mostra as curvas
1
com mesma média e desvios variando de
2 a 3.
Se xado o desvio padrão para a distribuição e variando-se as médias, tem-se um deslocamento da
média ao longo do eixo Y. Quanto maior for a média mais deslocada à direita estará a curva. A Figura 11.8(b)
ilustra o fato.
0.8 sigma=1/2 0.4 Média = 1

sigma=1 Média = 6
sigma=2
sigma=3
0.6 0.3
f(x)
f(y)
0.4 0.2
0.2 0.1
0.0 0.0
−5 0 5 −2 0 2 4 6 8 10
y x
(a) Relação entre os desvios xada a média da distri- (b) Relação entre as médias da distribuição, xado o des-
buição. vio padrão.
Figura 11.8 Relação entre médias e desvios da distribuição normal.
Devido as diculdades de cálculo e em se construir tabelas da função dependendo de dois parâ-
metros, recorre-se a uma mudança de variável, transformando a variável aleatória Y na variável aleatória Z.
Essa nova variável chama-se variável normal padronizada, ou reduzida.
11.2 Distribuição Normal Padrão

Denomina-se distribuição normal padrão, a distribuição normal de média zero e variância 1. As
probabilidades associadas a distribuição normal reduzida são facilmente obtidas em tabelas.
Os problemas da vida real, entretanto, não se apresentam já na forma reduzida, ao contrário,
são formulados em termos da variável normal original Y, com média µY e desvio-padrão σY . é preciso então,
antes de passarmos à sua resolução, padronizar ou reduzir a variável aleatória normal Y, transformando-a na
Distribuição Normal Padrão 179
variável aleatória Z.
O resultado da padronização é a obtenção de uma escala de distribuição denominada escala
reduzida, escala Z ou escore Z, que mede o afastamento das variáveis em relação à média em número de
desvios-padrão. Assim,
y−µ
Z= ,
σ
em que:
# Z = número de desvios padrões a contar da média;
# y = o valor que a variável aleatória assume;
# µ = média da população;
# σ = desvio padrão populacional.
Logo, substituindo-se esses valores na equação (11.2), tem-se a função densidade padrão da
distribuição normal:
1
1 − z2
f (z) = √ e 2 , para − ∞ < Z < ∞.
2π
cujos grácos são apresentados na Figura 11.9.
68,3% 95,4% 99,7%
−1 0 1 Z −2 0 2 Z −3 0 3 Z
(a) ±1 desvio da média. (b) ±2 desvio da média. (c) ±3 desvio da média.
Figura 11.9 Áreas sob a curva normal padrão.
Quando a padronização é utilizada, a média da distribuição assume valor E(Z) = 0 e variância

V (Z) = 1. Esses valores foram obtidos através da aplicação das propriedades do valor esperado e variância,
considerando que Y ∼ N (µ, σ 2 ):

[ ]
Y −µ
E(Z) = E
σ
1
= × E(Y − µ)
σ
1
= × (µ − µ) ⇒ E(Z) = 0.
σ
[ ]
Y −µ
V (Z) = V
σ
1
= × V (Y − µ)
σ2
1
= × σ2 ⇒ V (Z) = 1.
σ2
Notação: Z ∼ N (0, 1).

De modo inverso, a variável Normal Padronizada Z pode ser transformada em qualquer variável
Normal:
Z ≈ N (0, 1) ⇒ Y = σZ + µ ⇒ Y ≈ N (µ, σ 2 ).
11.3 Uso da Tabela da Distribuição Normal Padrão

Exemplo 1: Seja Z ∼ N (0; 1). Usando a tabela da distribuição normal padrão, calcular:
a) P(0 < Z < 1,57) g) P(-2,22 < Z < -1,35)
b) P(0 < Z < 1,08) h) P(-1,93 < Z < -0,80)
c) P(-1,89 < Z < 0) i) P(0,52 < Z < 1,23)
d) P(-0,58 < Z < 0) j) P(1,25 < Z < 2,23)
e) P(-1,23 < Z < 1,05) k) P(Z > -1,27)
f ) P(-0,85 < Z < 1,92) l) P( Z < 2,23)
Para encontrar as probabilidades dos itens do exemplo 1, basta usar a função acumulada do R, cuja sintaxe é
pnorm(q, mean = 0, sd = 1). Sendo a média igual a 0 e o desvio igual a 1, não é necessário especicá-los
na função. Assim, para o item (a), por exemplo, o cálculo ca:
pnorm(1.57) - pnorm(0)
Exemplo 2: Sabendo-se que Z ∼ N (0; 1) e usando a tabela da distribuição normal padrão, obter z tal que:
Uso da Tabela da Distribuição Normal Padrão 181
a) P(0 < Z < z) = 0,43699 g) P(Z < z) = 0,82121
b) P(0 < Z < z) = 0,475 h) P(Z < z) = 0,30234
c) P(-z < Z < 0) = 0,35314 i) P(Z > z) = 0,95254
d) P(-z < Z < 0) = 0,49492 j) P(Z > z) = 0,07493
e) P(-z < Z < z) = 0,95 k) P(Z < z) = 0,36693
f ) P(-z < Z < z) = 0,97 l) P(Z < z) = 0,5
Para encontrar as probabilidades dos itens do exemplo 2, basta usar a função qnorm do R, cuja sintaxe
é qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE). Sendo a média igual a 0 e o
desvio igual a 1, não é necessário especicá-los na função. Assim, para os itens (a) e (c), por exemplo, o
cálculo ca:
qnorm(0.5 + 0.43699)
qnorm(0.5 - 0.35314)
Exemplo 3: Seja Y ∼ N (4; 1). Determine:
a) P (Y ≤ 4); d) P (5 < Y < 7);
b) P (4 < Y < 5); e) P (Y ≤ 1);
c) P (2 < Y < 5); f) P (0 ≤ Y ≤ 2);
Para encontrar as probabilidades dos itens do exemplo 3, basta usar a função pnorm do R. Como a média é
igual a 4 e o desvio-padrão igual a 1, é necessário especicá-los na função. Assim, para os itens (a) e (b), por
exemplo, o cálculo ca:
pnorm(4, 4, 1)
pnorm(5, 4, 1) - pnorm(4, 4, 1)
Exemplo 4: Seja Y ∼ N (3, 16), ou seja, a variável Y tem média igual a µ=3 e variância σ 2 = 16. Faça o
gráco da distribuição e determine P (3 < Y < 8).
Solução:
Exemplo 5: A estatura média dos alunos da UEL é de µ = 1, 75m e desvio padrão σ = 0, 15m. Assumindo-se
que a variável estatura (Y) seja normalmente distribuída, calcule a probabilidade de um aluno aleatoriamente
selecionado ter estatura entre 1, 70m e 1, 80m.
Solução:
Exemplo 6: Aplicação da Distribuição Normal a dados do Vestibular.
- Vagas: 60 Total de Pontos Obtidos: 1880,2 Classicação: 77 -

PROVAS A/N F PTS TPTS µ σ NP
1 Conhecimentos Gerais 39 1,667 65,013 65,013 52,318 13,712 592,6
Redação 7,502 4,6 34,509

2 Língua Port./Literatura 14 2,3 32,2 69,909 55,397 13,029 611,4
Língua Estrangeira 4 0,8 3,2
Especíca A 16 2,5 40
3 80 52,319 15,814 676,2
Especíca B 16 2,5 40
Desempenho do Primeiro e do Último Classicado no Curso
Classicação Pontuação
1 2.150,2
60 1.899,3
Distribuição Normal
p
0 zt Z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,1 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,2 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,3 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,4 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,5 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,6 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,7 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,8 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,9 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1,0 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
1,1 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,2 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,3 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,4 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,5 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,6 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449
1,7 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327
1,8 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062
1,9 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670
2,0 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169
2,1 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574
2,2 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899
2,3 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158
2,4 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361
2,5 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520
2,6 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643
2,7 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736
2,8 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807
2,9 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861
3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900
3,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965
3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
3,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
3,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
Exercícios
1) Suponha que µ = 8; σ 2 = 4, ou seja, Y ∼ N (8; 4).
a) Construa o gráco de Y;
x <- seq(1.419, 14.581, length.out=100)

plot(x, dnorm(x, mean=8, sd=2), xlab=expression(x),
ylab=expression(f(x)), type="l", las=1, bty='l')
abline(h=0, col="gray")
b) Construa o gráco da função acumulada;
plot(x, pnorm(x, mean=8, sd=2), xlab=expression(x),

ylab=expression(F(x)), type="l", las=1, bty='l')
abline(h=0, col="gray")
remove(.x)
c) Calcule:
i) P (Y ≥ 9, 5); Esta probabilidade pode ser calculada usando o R, através do seguindo comando:
pnorm(c(9.5), mean=8, sd=2, lower.tail=FALSE);
ii) P (6 ≤ Y ≤ 10). Esta probabilidade pode ser calculada usando o R, através do seguindo comando:
pnorm(c(10), mean=8, sd=2, lower.tail=TRUE) -

pnorm(c(6), mean=8, sd=2, lower.tail=TRUE)
2) Em uma população de indivíduos adultos de sexo masculino, a estatura média é 1, 70 m e desvio padrão
de 0, 08 m.
a) Qual é o intervalo de alturas em que 95% da população está compreendida?
qnorm(c(0.025, 0.975), mean=1.7, sd=0.08)
b) Na mesma população, qual a probabilidade de um indivíduo ter estatura entre 1, 60 e 1, 82 m?
pnorm(c(1.82), mean=1.7, sd=0.08, lower.tail=TRUE) -

pnorm(c(1.6), mean=1.7, sd=0.08, lower.tail=T)
c) Qual a probabilidade de se encontrar um indivíduo com estatura menor que 1, 58?
pnorm(c(1.58), mean=1.7, sd=0.08)
3) Na curva gaussiana padrão obtenha o valor de z0 tal que a área entre a média da curva e z0 seja 0, 40.
qnorm(c(.1, .9))
4) Um teste de aptidão para o exercício de certa prossão exige uma sequência de operações a serem execu-
tadas rapidamente uma após outra. Para passar no teste, o candidato deve completá-lo em 80 minutos no
máximo. Admita que o tempo para completar o teste seja uma variável aleatória N(90, 400).
a) Qual a porcentagem dos candidatos com chances de serem aprovados?
pnorm(80, mean=90, sd=20)
b) Os melhores 5% receberão um certicado especial. Qual o tempo máximo para fazer jus a tal certicado?
qnorm(0.05, mean=90, sd=20)
5) É sabido que, para adultos do sexo masculino, gozando de boa saúde, em uma certa população, a tempe-
ratura corporal segue distribuição gaussiana com média de 36,8 graus e desvio-padrão de 0,15 graus.
a) Se considerarmos 1.000 dessas pessoas, quantas se esperariam com temperatura entre 36,8 e 37,2
graus?
(prob = pnorm(c(37.2), mean=36.8, sd=.15) - pnorm(c(36.8), mean=36.8, sd=.15))

(Esp = 1000*prob)
b) Em qual intervalo de temperaturas estão 98% dos adultos masculinos sadios desta população?
qnorm(c(0.01, 0.99), mean=36.8, sd=0.15)
6) Um pesquisador deseja criar um padrão para identicar presença de infecção bacteriana (Pseudomonas sp)
no trato respiratório através de cultura de escarro. Para isto, coletaram-se dados de pessoas sabidamente
sadias e determinou-se o número de colônias encontradas em cada cultura. Foram encontrados os seguintes
resultados:
17 22 23 23 23 23 24 24 24
24 24 24 25 25 25 25 25 25
25 26 28 28 29 30 30 31 31
35 35 35 36 40 41 41 41 42
51 54 56 56 56 58 60 68 79
Determine uma faixa de normalidade de 95% para o número de colônias de bactérias no trato respiratório
de pessoas sadias, usando o método da curva de Gauss.
escarro = c(17, 22, 23, 23, 23, 23, 24, 24, 24, 24, 24, 24, 25, 25, 25, 25, 25, 25,
25, 26, 28, 28, 29, 30, 30, 31, 31, 35, 35, 35, 36, 40, 41, 41, 41, 42,
51, 54, 56, 56, 56, 58, 60, 68, 79)
(n = length(escarro))
(média = mean(escarro))
(var.amostra = var(escarro))
(var.pop = ((n-1)/n) * variância)
# ou,
(var.pop = sum((escarro - mean(escarro))^2) / n)
qnorm(c(.025, .975), mean=média, sd=sqrt(var.pop))
7) As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, com média 170 cm
e desvio-padrão 5 cm.
a) Qual o número esperado de alunos com altura superior a 165 cm?
(prob = pnorm(165, mean=170, sd=5, lower.tail=F))

(Esp = 10000*prob)
b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos?
qnorm(c(0.125, 0.875), mean=170, sd=5)
8) O peso da carcaça de um animal segue uma distribuição N (50kg ; 4kg 2 ). Se o peso de uma carcaça
é inferior a um desvio-padrão abaixo da média, ela é vendida a R$ 60, 00, caso contrário, por R$ 80, 00.
Qual o preço médio de venda de uma carcaça?
(inf = pnorm(48, mean=50, sd=2))

(sup = pnorm(48, mean=50, sd=2, lower.tail=FALSE))
(Esp = inf*60 + sup*80)
9) Mensurações de pesos foram realizadas in vivo em 142 fêmeas de bovinos da raça Nelore. A média e
desvio padrão obtidos foram: µ = 390, 19 kg e σ = 45, 23 kg . Assumindo-se que os pesos seguem uma
distribuição normal:
a) Esquematizar o gráco da distribuição;

x = seq(280, 500, length = 142)

y = dnorm(x, mean=390.19, sd=45.23)
plot(x, y, type="l", lwd=2, col="red", bty='l',
xlab='Pesos (kg)', ylab="Probabilidade")
b) Calcular a proporção esperada de animais com pesos acima de 395 kg ;
(prob.b = pnorm(395, mean=390.19, sd=45.23, lower.tail=FALSE))

(Esp.b = 142*prob.b)
c) Calcular a proporção esperada de animais com pesos abaixo de 380, 17 kg ;
(prob.c = pnorm(380.17, mean=390.19, sd=45.23))

(Esp.c = 142*prob.c)
d) Calcular a proporção esperada animais com pesos acima de 385, 0 kg ;
(prob.d = pnorm(385, mean=390.19, sd=45.23, lower.tail=FALSE))

(Esp.d = 142*prob.d)
e) Calcular a proporção esperada de animais com pesos entre 385 e 390 kg ;
(prob.e = pnorm(390, mean=390.19, sd=45.23) -

pnorm(385, mean=390.19, sd=45.23))
(Esp.e = 142*prob.e)
f ) Se 25% dos animais com menor peso forem abatidos, qual o peso mínimo dos animais remanescentes?
qnorm(.25, mean=390.19, sd=45.23)
g) Qual o peso mínimo para um animal estar entre os 5% com maior peso?
qnorm(.05, mean=390.19, sd=45.23, lower.tail=FALSE)
10) Uma amostra de 120 suínos mestiços, com seis meses de idade, apresenta quanto ao peso (em kg):
µ = 80kg e σ = 12kg.
a) Quantos suínos têm peso entre µ ± σ?
(prob = pnorm(92, mean=80, sd=12) - pnorm(68, mean=80, sd=12))

(Esp = 120*prob)
b) Qual a probabilidade de um suíno escolhido ao acaso pesar entre 72 e 82 kg ?
c) Qual a probabilidade de um suíno pesar entre 92 e 104 kg ?
11) A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representado por uma
N (3, 50kg ; 0, 36kg 2 . Um abatedouro comprará 10.000 coelhos dessa granja e os classicará de acordo
com o peso, da seguinte forma: 20% dos mais leves como pequenos, os 40% seguintes como médios,
os 30% seguintes como grandes e os 10% restantes como extras. Quais os limites de peso para cada
classicação?
(Leves = qnorm(.2, mean=3.5, sd=0.6))

(Médios = qnorm(c(.2, .6), mean=3.5, sd=0.6))
(Grandes = qnorm(c(.6, .9), mean=3.5, sd=0.6))
(Extras = qnorm(.1, mean=3.5, sd=0.6, lower.tail=FALSE))
12) Dada a função abaixo, vericar para que valor de K pode ser considerada uma função densidade de
probabilidade. Calcular a E(X) e V (X).


 kx2 se 0 ≤ x ≤ 2;
f (x) =
 0 se x<0 ou x > 2.
k = 8/3 ; E(X) = 32/3 ; V(X) = 256/15
13) Suponha que o peso de animais recém-nascidos (em kg) pode ser considerado uma variável aleatória com
a seguinte densidade: 


1 1
0 ≤ x ≤ 2;

 x+ se

 10 10



−3 9
f (x) =
 x+ se 2 < x ≤ 6;

 40 20





 0, caso contrário.
Qual a probabilidade de, escolhendo ao acaso um animal, ele ter peso:
a) inferior a 3 kg ;
p = 0,6625
b) entre 1 e 4 kg ;
p = 0,25
Aprender é a única coisa que a mente nunca se cansa,
nunca tem medo e nunca se arrepende.
Leonardo da Vinci.
Capítulo 12
Introdução à inferência estatística

O objetivo da inferência estatística é estudar uma determinada população baseando-se em infor-
mações obtidas através da amostra coletada.
Os modelos probabilísticos procuram medir a variabilidade de fenômenos casuais de acordo com
as ocorrências. Na prática, frequentemente o pesquisador tem alguma idéia sobre a forma da distribuição, mas
não dos valores exatos dos parâmetros que a especicam.
Exemplo: Suponha que a distribuição das estaturas dos alunos da UEL possa ser representada por um modelo
gaussiano e que os parâmetros populacionais, média e variância, fossem conhecidos e iguais, respectivamente,
a 1, 72 m e 0, 0225 m2 . Qual a probabilidade de um aluno, aleatoriamente selecionado, ter altura entre 1, 65 m

e 1, 75 m?
Se os dados seguem uma distribuição normal, então tem-se que a função densidade de probabilidade é dada
por:
1 1 y−µ 2
f (y) = √ e− 2 ( σ ) , −∞ < Y < +∞
σ 2π
∫ 1,75
1 1 y−1,72 2
∴ P (1, 65 ≤ Y ≤ 1, 75) = √ e− 2 ( 0,15 ) dy = 0, 2589
1,65 0, 15 2π
pnorm(1.75, mean=1.72, sd=0.15, lower.tail=T) - pnorm(1.65, mean=1.72, sd=0.15, lower.tail=T)

# ou
diff(pnorm(c(1.65, 1.75), mean=1.72, sd=0.15))
Nessa situação (parâmetros populacionais conhecidos), não haveria necessidade de usar a inferência estatística.
Raramente se consegue obter a distribuição exata de alguma variável, ou por que isso é muito dispendioso, ou
muito demorado ou às vezes porque consiste num processo destrutivo.
A solução é trabalhar com amostra, analisá-la e inferir propriedades para a população.
191
192 Capítulo 12. Introdução à inferência estatística
Já se discutiu a diferença entre estatísticas (amostragem) e parâmetros (população). Assim,
tem-se:
Parâmetro Estatística
Média µ ȳ
Variância σ2 s2
Desvio padrão σ s
Proporção π p
Considere:
∑
n
yi
Ȳ =
i=1
n
em que que:
Ȳ é chamado estimador e
ȳ = 1, 73 m é, por exemplo, a estimativa.
12.1 Distribuição Amostral da Média

Considere a seguinte população: 1, 3, 5, 5, 7. Seja Y a variável aleatória valor assumido por um
elemento sorteado ao acaso dessa população.
a) Obter a distribuição de Y.
y P(Y=y)
1 1/5
1/5
Total 1
[ ]2
b) Calcular a média µY = E(Y ) e a variância σ 2 = E(Y 2 ) − E(Y ) .
Distribuição Amostral da Média 193
Solução:
c) Considerar todas as possíveis amostras de tamanho n = 2, com reposição, dessa população. Seja Y1 a
a a
variável aleatória número selecionado na 1 extração e Y2 , a variável aleatória número selecionado na 2
Y1 + Y2
extração. Obter a distribuição amostral da estatística Ȳ = (média).
2
Y1 + Y2 Y1 + Y2
Amostra Ȳ = Probabilidade Amostra Ȳ = Probabilidade
2 2
(1;1) 1/25 (5;1) 1/25
(1;3) 1/25 (5;3) 1/25
(1;5) 1/25 (5;5) 1/25
(1;5) 1/25 (5;5) 1/25
(1;7) 1/25 (5;7) 1/25
(3;1) 1/25 (7;1) 1/25
(3;3) 1/25 (7;3) 1/25
(3;5) 1/25 (7;5) 1/25
(3;5) 1/25 (7;5) 1/25
(3;7) 1/25 (7;7) 1/25
(5;1) 1/25
(5;3) 1/25
(5;5) 1/25
(5;5) 1/25
(5;7) 1/25
O número de amostras de tamanho 2 possíveis da população é: 52 = 25. Se fosse de tamanho 3, teríamos:
53 = 125, no caso de amostras com reposição. E se fosse sem reposição?

0.25
Tabela 12.1 Distribuição das Médias

0.20
Ȳ P (Ȳ = ȳ)
1 1/25 0.15
Probabilidades
2 2/25
0.10
4
0.05
7 1/25
0.00
1 2 3 4 5 6 7
Total 1
Médias
[ ]2
Calcular a média µȲ = E(Ȳ ) e a variância σȲ2 = E(Ȳ 2 ) − E(Ȳ ) .
Solução:
y = 1:7
probab=c(1, 2, 5, 6, 6, 4, 1)/25
require(distrEx)
Y = DiscreteDistribution(supp=y, prob=probab)
E(Y) ; var(Y) ; sd(Y)
par(mai=c(1, 1, .2, .5))
plot(probab~y, las=1, type="h", bty="l", col="blue",
xlab="Médias", ylab="Probabilidades")
points(y, prob, pch=19, col="blue")
Para se retirar uma amostra de tamanho n de uma população de tamanho N, basta usar o R.
Para o exemplo dado, pode-se retirar uma amostra usando os seguintes comandos:
popul = c(1, 3, 5, 5, 7)
(amostra = sample(popul, 2, replace=T))
# ou
tilapia = read.table('http://www.uel.br/pessoal/silvano/Dados/Tilapia.txt', head=T)
attach(tilapia)
(amostra.tila = sample(Peso, 20, replace=F))
Para efetuar os procedimentos realizados de forma direta no R, é necessário a construção de uma

função, encontrada no material da Fiocruz, que execute as tarefas. Dada por:
permuta2.ou.3 <- function (x, N, n)

{
if (n!=2 && n!=3) stop("Esta função é para obter permutações
2 a 2 ou 3 a 3 apenas")
z <- matrix(0, nrow=N^n, ncol=n)
z[,1] <- rep(x, each=N^(n-1))
z[,2] <- rep(x, times=N^(n-2), each=N^(n-2))
if(n==3)
{
z[,3] <- rep(x, times=N^(n-1))
}
z
}
amostras.2 <- permuta2.ou.3(popul, 5, 2) ; amostras.2
O R, por default, calcula a variância e o desvio padrão da amostra. Para se determinar a
variância de uma população é necessário denir uma função para efetuar tal cálculo, dada por:
var.pop <- function(x)

{ Var = sum((x-mean(x))^2)/length(x) }
(var.pop(popul))
# ou, simplesmente:
n = length(popul)
(var.pop = var(popul)*(n-1)/n)
Assim, pode-se determinar as médias das amostras e a variância populacional aplicando-se:

(medias.2 <- round(apply(amostras.2, 1, mean), 2))

table(medias.2)
cbind(table(medias.2))
(var.pop(medias.2))
Teorema: Seja Y uma variável aleatória com média µ e variância σ2 , e seja (Y1 , Y2 , . . . , Yn ) uma amostra
aleatória simples de Y. Então:
σ2
µȲ = E(Ȳ ) = µ σȲ2 = V (Ȳ ) = .
n
Quando o tamanho da amostra aumenta, independentemente da forma da distribuição da população, a dis-
tribuição amostral de Ȳ aproxima-se cada vez mais de uma distribuição normal. Esse resultado, fundamental
na teoria da Inferência Estatística, é conhecido como Teorema Central do Limite.
Teorema: Para amostras aleatórias simples (Y1 , Y2 , . . . , Yn ), retiradas de uma população com média µ e
variância σ2 , a distribuição amostral da média Ȳ aproxima-se, para n grande, de uma distribuição normal,
2
σ
com média µ e variância , ou seja,
n
( )
σ2
Ȳ ∼ N µ, . (12.1)
n
Se a população for normal, então Ȳ terá distribuição exata normal. Aceita-se que para amostras com mais
de 30 observações a aproximação à normal já pode ser considerada boa.
Corolário: (Y1 , Y2 , . . . , Yn ) for uma

Se amostra aleatória simples de uma população qualquer, com média µ
2 1
e σ , e Ȳ = (Y1 , Y2 , . . . , Yn ), então:
n
Ȳ − µ a
Z= σ ∼ N (0, 1), (12.2)
√
n
a
em que ∼ signica aproximadamente distribuído. A diferença entre a estatística Ȳ e o parâmetro µ, isto é,
e = Ȳ − µ é chamado erro amostral da média.
Usando o R é possível gerar amostras da população para comprovar o Teorema. Os comandos
no R são:
require(TeachingDemos)
clt.examp(n = 50, reps = 10000, nclass =16)
Exemplo 1: Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo normal com
média µ = 1, 69 m e variância igual a 0, 01 m2 . Uma amostra de dez animais foi sorteada aleatoriamente.
Qual a probabilidade da média do comprimento dessa amostra estar entre 1, 63 e 1, 69 m?
Solução:
Exemplo 2: Os camarões machos da espécie Farfantepenaeus paulensis, para serem considerados adultos,
devem apresentar um comprimento total maior ou igual a 22 mm. Suponha que numa população de camarões
machos adultos a média dos comprimentos seja igual a µ = 27, 3 mm e o desvio padrão é σ = 7, 8 mm.
a) Qual a probabilidade de que numa amostra de n = 35 camarões, obtenha-se uma média Ȳ < 22 mm?
Solução:
b) Qual deve ser o valor para a média do comprimento total, µ, a m de que P rob(Ȳ ≤ 22) = 0, 05?
Solução:
12.2 Distribuição Amostral da Proporção

Considere o exemplo 1 em que os jacarés serão considerados adultos se o comprimento for maior
que 1, 69 m. Seja Yi o comprimento do i-ésimo jacaré escolhido, tal que:


1, se Xi > 1, 69 m
Yi =

0, se Xi ≤ 1, 69 m
Logo, Yi será 1 para jacarés adultos e 0 para jacarés jovens. As quantidades Y1 , Y2 , · · · , Y10 também são
variáveis aleatórias, uma vez que elas assumem o valor 0 ou 1 dependendo do valor assumido Xi , que também
é uma variável aleatória. Considere os seguintes dados:
i 1 2 3 4 5 6 7 8 9 10
Xi 1,58 1,63 1,72 1,75 1,69 1,68 1,70 1,64 1,77 1,74
Yi 0 0 1 1 0 0 1 0 1 1
Portanto, a proporção π de jacarés adultos será estimada pela proporção de comprimentos maiores que 1, 69 m
encontrada na amostra, p. A estimativa obtida foi:
Y1 + Y2 + · · · + Y10 0 + 0 + 1 + ··· + 1
p= = = 0, 5
10 10
indicando que 50% de todos os jacarés são considerados adultos.
Denição: Seja π a proporção das unidades de uma população que possuem uma determinada característica
(proporção de sucessos). A população pode ser denida como uma variável Y tal que:


1, se o elemento da população tem a característica;
Y =

0, se o elemento da população não tem a característica,
sendo P (Y = 1) = π e P (Y = 0) = 1 − π.
Alguns exemplos são:
a) observar as capivaras machos;
b) observar as árvores com cancro numa oresta de eucalipto;
c) observar os eleitores do candidato A;
d) observar as pessoas que se sentem mal após tomar uma vacina.
Se amostras aleatórias de tamanho n forem tomadas de uma população com proporção π , então,
a distribuição amostral de p tem as seguintes propriedades:
Distribuição Amostral da Proporção 199
( )
∑
n
Yi
1) E(p) = µp = E = π =⇒ p é um estimador sem viés de π ;
n i=1
( n ) √
∑ Yi π(1 − π) π(1 − π)
2) V ar(p) = σp2 = V ar = =⇒ σp = .
i=1
n n n
Se o tamanho da amostra cresce, o desvio padrão da proporção amostral decresce;
3) Se a população original tem uma distribuição qualquer, para n sucientemente grande (n > 30), p terá
distribuição aproximadamente normal:
[ ]
a π(1 − π) p−π
p ∼ N π, , ⇒ z=√ ∼ N (0, 1)
n π(1−π)
n
a
em que ∼ signica aproximadamente distribuído.
y
Quando π é desconhecida e a amostra com reposição é grande, determina-se p= , estimativa
n
de π. Logo,
√
p(1 − p)
σp = .
n
Exemplo 1: Deseja-se saber qual a proporção de pessoas da população portadoras de determinada doença.
Retira-se uma amostra de 400 pessoas, obtendo-se 8 portadores da doença. Determine a proporção estimada
de pessoas portadoras da doença e o desvio padrão.
Solução:
Exemplo 2: Um fabricante arma que sua vacina contra gripe imuniza 80% dos casos. Uma amostra de 25
indivíduos que tomaram a vacina foi sorteada e testes foram feitos para vericar a imunização ou não desses
indivíduos. Se o fabricante estiver correto, qual é a probabilidade da proporção de imunizados na amostra ser
inferior à 0, 75? E superior à 0, 85?

Solução:

Apostila Estatística Veterinária PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Apostila Estatística Veterinária PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Universidade Estadual de Londrina

Centro de Ciências Exatas

Prof. Silvano Cesar da Costa

Estado do Paraná - Brasil

1.2 Planejamento de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 Vantagens da amostragem sobre o censo . . . . . . . . . . . . . . . . . . . . 5

2.2 Técnicas de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.1 Amostragem simples ao acaso ou amostragem aleatória simples . . . . . . . . 10

2.2.2 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.3 Amostragem estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 Etapas de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2 Tipos de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3 Dimensionamento da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.1 Determinação do tamanho amostral para variáveis qualitativas . . . . . . . . 24

3.3.2 Determinação do tamanho amostral para variáveis quantitativas . . . . . . . 25

4.1.1 Elementos essenciais de uma tabela . . . . . . . . . . . . . . . . . . . . . . . 30

4.1.2 Elementos complementares de uma tabela . . . . . . . . . . . . . . . . . . . 32

4.2 Distribuição de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2.1 Construção de uma distribuição de frequência de variáveis discretas . . . . . . 33

4.2.2 Construção de uma distribuição de frequência para variáveis contínuas . . . . 35

4.3 Tabelas de dupla entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.1.1 Gráco em colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1.2 Gráco em barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.1.3 Gráco em colunas justapostas . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.1.4 Gráco em colunas compostas . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.1.5 Gráco em setores circulares . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.1.6 Gráco em setores retangulares . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.2 Apresentação gráca de variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . 53

5.2.1 Gráco em bastão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.3 Apresentação gráca de variáveis contínuas . . . . . . . . . . . . . . . . . . . . . . . 54

5.3.2 Polígono de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.3.3 Gráco de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.3.3.1 Construção de um gráco ramo-e-folhas . . . . . . . . . . . . . . . 56

5.3.4 Gráco de Caixas (ou Box Plot ) . . . . . . . . . . . . . . . . . . . . . . . . 57

5.3.5 Gráco de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.3.6 Gráco de Setores Proporcionais . . . . . . . . . . . . . . . . . . . . . . . . 59

5.3.7 Gráco de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.4 Ilusão dos Grácos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6.2 Média Aritmética Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.4.1 Determinação da mediana de valores não tabulados . . . . . . . . . . . . . . 70

6.4.2 Mediana de dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 72

6.5.1 Moda para dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 73

6.6 Utilização das medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . 77

6.7 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.7.1 Separatrizes de dados não agrupados . . . . . . . . . . . . . . . . . . . . . . 77

6.7.2 Separatrizes de dados agrupados . . . . . . . . . . . . . . . . . . . . . . . . 79

6.7.3 Gráco de caixa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.8 Assimetria e Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

7 Medidas de dispersão ou variabilidade 92

7.2 Desvio Absoluto Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7.3.1 Variância de Dados Brutos Populacionais . . . . . . . . . . . . . . . . . . . . 95

7.3.2 Variância de Dados Brutos Amostrais . . . . . . . . . . . . . . . . . . . . . . 95

7.3.3 Variância de Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . 97

7.3.4 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

7.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.5 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8 Análise Combinatória 107

8.2 Princípio Fundamental da Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . 108

8.3 Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

8.3.1 Quantidade de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . 111

8.4 Arranjos e Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.4.1 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.5 Quantidade de Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

2.2.3 Amostragem estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

5.1.1 Gráco em colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1.2 Gráco em barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.1.3 Gráco em colunas justapostas . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.1.4 Gráco em colunas compostas . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.1.5 Gráco em setores circulares . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.1.6 Gráco em setores retangulares . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.2 Apresentação gráca de variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . 53

5.2.1 Gráco em bastão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.3 Apresentação gráca de variáveis contínuas . . . . . . . . . . . . . . . . . . . . . . . 54

5.3.3 Gráco de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.3.3.1 Construção de um gráco ramo-e-folhas . . . . . . . . . . . . . . . 56

5.3.4 Gráco de Caixas (ou Box Plot ) . . . . . . . . . . . . . . . . . . . . . . . . 57

5.3.5 Gráco de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.3.6 Gráco de Setores Proporcionais . . . . . . . . . . . . . . . . . . . . . . . . 59

5.3.7 Gráco de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.4 Ilusão dos Grácos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6.7.3 Gráco de caixa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

7.5 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Tabela 2.2 - Diagnósticos de radiograas de tórax . . . . . . . . . . . . . . . . . . . . . . 16

Tabela 4.3 - Número de lhotes de cadelas submetidas a inseminação articial no Hospital

Holandês, segundo a classicação de Gaines (1994). . . . . . . . . . . . . . . 36