Sunteți pe pagina 1din 214

Universidade Estadual de Londrina

Centro de Ciências Exatas


Departamento de Estatística

Estatística Aplicada
à Veterinária

Prof. Silvano Cesar da Costa

L O N D R I N A

Estado do Paraná - Brasil


Sumário
Página

Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi

Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x

1 Introdução 1
1.1 Aplicações da Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Planejamento de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 Vantagens da amostragem sobre o censo . . . . . . . . . . . . . . . . . . . . 5

2 Amostragem 9
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Técnicas de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.1 Amostragem simples ao acaso ou amostragem aleatória simples . . . . . . . . 10

2.2.2 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.3 Amostragem estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 Etapas de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Conceitos elementares 20
3.1 Divisão da estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2 Tipos de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3 Dimensionamento da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.1 Determinação do tamanho amostral para variáveis qualitativas . . . . . . . . 24

3.3.2 Determinação do tamanho amostral para variáveis quantitativas . . . . . . . 25


4 Estatística Descritiva 30
4.1 Organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.1.1 Elementos essenciais de uma tabela . . . . . . . . . . . . . . . . . . . . . . . 30

4.1.2 Elementos complementares de uma tabela . . . . . . . . . . . . . . . . . . . 32

4.2 Distribuição de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2.1 Construção de uma distribuição de frequência de variáveis discretas . . . . . . 33

4.2.2 Construção de uma distribuição de frequência para variáveis contínuas . . . . 35

4.3 Tabelas de dupla entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5 Grácos 42
5.1 Apresentação gráca de variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . 43

5.1.1 Gráco em colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1.2 Gráco em barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.1.3 Gráco em colunas justapostas . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.1.4 Gráco em colunas compostas . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.1.5 Gráco em setores circulares . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.1.6 Gráco em setores retangulares . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.2 Apresentação gráca de variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . 53

5.2.1 Gráco em bastão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.3 Apresentação gráca de variáveis contínuas . . . . . . . . . . . . . . . . . . . . . . . 54

5.3.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.3.2 Polígono de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.3.3 Gráco de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.3.3.1 Construção de um gráco ramo-e-folhas . . . . . . . . . . . . . . . 56

5.3.4 Gráco de Caixas (ou Box Plot ) . . . . . . . . . . . . . . . . . . . . . . . . 57

5.3.5 Gráco de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.3.6 Gráco de Setores Proporcionais . . . . . . . . . . . . . . . . . . . . . . . . 59

5.3.7 Gráco de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.4 Ilusão dos Grácos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6 Medidas de Posição 64
6.1 Média Aritmética Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.2 Média Aritmética Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65


6.3 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6.4.1 Determinação da mediana de valores não tabulados . . . . . . . . . . . . . . 70

6.4.2 Mediana de dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 72

6.5 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.5.1 Moda para dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 73

6.6 Utilização das medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . 77

6.7 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.7.1 Separatrizes de dados não agrupados . . . . . . . . . . . . . . . . . . . . . . 77

6.7.2 Separatrizes de dados agrupados . . . . . . . . . . . . . . . . . . . . . . . . 79

6.7.3 Gráco de caixa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.8 Assimetria e Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.8.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.8.2 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7 Medidas de dispersão ou variabilidade 92


7.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

7.2 Desvio Absoluto Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7.3.1 Variância de Dados Brutos Populacionais . . . . . . . . . . . . . . . . . . . . 95

7.3.2 Variância de Dados Brutos Amostrais . . . . . . . . . . . . . . . . . . . . . . 95

7.3.3 Variância de Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . 97

7.3.4 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

7.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.5 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8 Análise Combinatória 107


8.1 Fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

8.2 Princípio Fundamental da Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . 108

8.3 Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

8.3.1 Quantidade de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . 111

8.4 Arranjos e Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.4.1 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114


8.4.2 Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

8.5 Quantidade de Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

8.6 Quantidade de Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

9 Noções sobre a teoria das probabilidades 121


9.1 Conceitos Básicos em Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . 121

9.1.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

9.1.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

9.1.3 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

9.2 Conceito de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

9.2.1 Conceito Clássico ou a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 123

9.3 Propriedades da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

9.4 Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

9.4.1 Operações com Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

9.4.1.1 União de Eventos: . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

9.4.1.2 Interseção de Eventos: . . . . . . . . . . . . . . . . . . . . . . . . 127

9.4.1.3 Sub-Conjuntos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

9.4.1.4 Eventos Disjuntos: . . . . . . . . . . . . . . . . . . . . . . . . . . 127

9.4.1.5 Complemento: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

9.4.2 Regras de Cálculo de Probabilidades . . . . . . . . . . . . . . . . . . . . . . 128

9.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

9.5.1 Probabilidade Condicional no Diagrama de Venn . . . . . . . . . . . . . . . . 132

9.5.2 Aplicação da Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . 133

9.5.3 Valor das Predições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

9.5.4 Probabilidade da Intersecção de Dois Eventos . . . . . . . . . . . . . . . . . 137

9.5.5 Amostragem Sem Reposição . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5.6 Amostragem com Reposição . . . . . . . . . . . . . . . . . . . . . . . . . . 139

9.5.7 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

10 Variáveis aleatórias discretas 146


10.1 Conceitos Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

10.2 Variável Aleatória Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

10.2.1 Distribuição de uma Variável Aleatória . . . . . . . . . . . . . . . . . . . . . 148


10.2.2 Função de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

10.2.3 Valor médio ou Esperança Matemática de Y . . . . . . . . . . . . . . . . . . 150

10.2.4 Variância de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

10.2.5 Distribuição acumulada de uma variável aleatória . . . . . . . . . . . . . . . 152

10.3 Principais Distribuições de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . 154

10.3.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

10.3.3 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

10.3.4 Aproximação da Distribuição Binomial pela Distribuição de Poisson . . . . . . 164

10.3.5 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

11 Variáveis aleatórias contínuas 172


11.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

11.1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

11.1.2 Propriedades da Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . 176

11.2 Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

11.3 Uso da Tabela da Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . . . . 180

12 Introdução à inferência estatística 191


12.1 Distribuição Amostral da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

12.2 Distribuição Amostral da Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . 198


Lista de Tabelas
Página

Tabela 1.1 - Ácido arcórbico, em mg/100 ml. . . . . . . . . . . . . . . . . . . . . . . . . 7

Tabela 2.1 - Dados sobre tilápias do Nilo, coletados por alunos do curso de Medicina Vete-

rinária da Universidade Estadual de Londrina, no ano de 2005. . . . . . . . . 11

Tabela 2.2 - Diagnósticos de radiograas de tórax . . . . . . . . . . . . . . . . . . . . . . 16

Tabela 3.1 - Dados dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade

Estadual de Londrina, do ano de 2005. . . . . . . . . . . . . . . . . . . . . . 21

Tabela 3.2 - Dados parciais coletados no Hospital Veterinária da Universidade Estadual de

Londrina, ano 2013. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Tabela 3.3 - Tamanho amostral e erro de precisão. . . . . . . . . . . . . . . . . . . . . . 28

Tabela 4.1 - Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de

Londrina (UEL), no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . . 31

Tabela 4.2 - Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual

de Londrina. Londrina - Paraná, 2002. . . . . . . . . . . . . . . . . . . . . . 32

Tabela 4.3 - Número de lhotes de cadelas submetidas a inseminação articial no Hospital

Veterinário da UEL em 2005. . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Tabela 4.4 - Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça

Holandês, segundo a classicação de Gaines (1994). . . . . . . . . . . . . . . 36

Tabela 4.5 - Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e

Pastor Alemão, coletados no Hospital Veterinário da UEL, em 2003. . . . . . 38


Tabela 4.6 - Acasalamentos fecundos e infecundos por raça. . . . . . . . . . . . . . . . . . 40

Tabela 4.7 - Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012. 41

Tabela 5.1 - Número de atendimentos no Hospital Veterinário, da Universidade Estadual de

Londrina, no primeiro semestre de 2003. . . . . . . . . . . . . . . . . . . . . 62

Tabela 6.1 - Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e

Pastor Alemão, coletados no Hospital Veterinário da Universidade Estadual de

Londrina, em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Tabela 6.2 - Efeito da temperatura de armazenamento e tempo após a ordenha sobre o

crescimento bacteriano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Tabela 6.3 - Tempo (em semanas) de sobrevida de ratos com câncer induzido experimental-

mente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

Tabela 6.4 - Peso médio (kg) das leitegadas da raça Landrace, ao nascer. . . . . . . . . . 80

Tabela 6.5 - Suicídios ocorridos no Brasil em 1986, segundo a causa atribuída. . . . . . . . 89

Tabela 6.6 - Peso médio em ratos por idade. . . . . . . . . . . . . . . . . . . . . . . . . . 90

Tabela 7.1 - Pesos de cinco coelhos de quatro raças distintas. . . . . . . . . . . . . . . . . 92

Tabela 7.2 - Desvios e desvios absolutos para pesos dos animais da raça Alaska. . . . . . . 94

Tabela 7.3 - Desvios e quadrado dos desvios para pesos dos animais da raça Alaska . . . . . 96

Tabela 7.4 - Pesos das carcaças de bovinos. . . . . . . . . . . . . . . . . . . . . . . . . . 98

Tabela 7.5 - Teor de gordura (g/24 horas) em 43 crianças. . . . . . . . . . . . . . . . . . 103

Tabela 7.6 - Pesos dos frangos de uma granja. . . . . . . . . . . . . . . . . . . . . . . . . 104

Tabela 7.7 - Distribuição de frequência da dosagem de ácido úrico. . . . . . . . . . . . . . 104

Tabela 7.8 - Número de acidentes na rodovia X. . . . . . . . . . . . . . . . . . . . . . . . 105

Tabela 9.1 - Distribuição dos animais quanto ao Porte e Sexo. . . . . . . . . . . . . . . . 132

Tabela 9.2 - Esquema padrão de síntese dos dados para vericação da qualidade de um teste

clínico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

Tabela 9.3 - Resultados da tomograa computadorizada em 67 pacientes com metástase e

83 sem metástase do carcinoma hepático. . . . . . . . . . . . . . . . . . . . . 135

Tabela 9.4 - Probabilidades necessárias para o cálculo dos índices VPP e VPN. . . . . . . . 136

Tabela 10.1 - Distribuição da variável aleatória Y. . . . . . . . . . . . . . . . . . . . . . . 148

Tabela 10.2 - Distribuição da variável aleatória Y de Bernoulli. . . . . . . . . . . . . . . . . 155


Tabela 10.3 - Número de consultas realizadas pelos liados ao plano de saúde. . . . . . . . 163

Tabela 12.1 - Distribuição das Médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194


Lista de Figuras
Página

Figura 5.1 - Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de

Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Figura 5.2 - Percentual de raças caninas atendidas no Hospital Veterinário da Universidade

Estadual de Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . 44

Figura 5.3 - Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Uni-

versidade Estadual de Londrina em 2011. . . . . . . . . . . . . . . . . . . . . 45

Figura 5.4 - Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de

Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Figura 5.5 - Produção pecuária dos estados do sul do Brasil no ano de 2012. . . . . . . . 47

Figura 5.6 - Produção pecuária dos estados do sul do Brasil no ano de 2008. . . . . . . . 49

Figura 5.7 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Esta-

dual de Londrina, no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . 50

Figura 5.8 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Esta-

dual de Londrina, no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . 51

Figura 5.9 - Relação entre tolerância ao cigarro e gênero dos estudantes. . . . . . . . . . 52

Figura 5.10 - Número de lhotes de cadelas submetidas a inseminação articial no Hospital

Veterinário da UEL em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Figura 5.11 - Número de atendimentos diários, do Hospital Veterinário, da Universidade Es-

tadual de Londrina, nos últimos 50 dias. . . . . . . . . . . . . . . . . . . . . 54

Figura 5.12 - Número médio de atendimentos diários, do Hospital Veterinário, da Universidade

Estadual de Londrina, nos últimos 50 dias. . . . . . . . . . . . . . . . . . . . 55


Figura 5.13 - Comparação de pesos (g) de tilápias para quatro equipes de alunos do curso de

Medicina Veterinária da Universidade Estadual de Londrina em 2003. . . . . . 58

Figura 5.14 - Relação entre peso e comprimento de tilápias do Nilo, do tanque de piscicultura

da Universidade Estadual de Londrina, 2003. . . . . . . . . . . . . . . . . . . 59

Figura 5.15 - Relação entre peso e comprimento de tilápias do Nilo, controladas para a variável

tempo de recuperação da anestesia, do tanque de piscicultura da Universidade

Estadual de Londrina, 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Figura 5.16 - Peso médio de 10 tilápias, do tanque de piscicultura da UEL, acompanhadas

durante 8 semanas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Figura 5.17 - Gráco distorcido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Figura 5.18 - Gráco Correto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Figura 6.1 - Esquema para obtenção da moda pelo método de Czuber, do número de aten-

dimentos do Hospital Veterinário da UEL, 2005. . . . . . . . . . . . . . . . . 74

Figura 6.2 - Esboço do gráco de caixas. . . . . . . . . . . . . . . . . . . . . . . . . . . 83

Figura 6.3 - Frequência cardíaca dos animais atendidos no Hospital Veterinário, da Univer-

sidade Estadual de Londrina, em 2003. . . . . . . . . . . . . . . . . . . . . . 83

Figura 6.4 - Frequências respiratórias dos animais atendidos no Hospital Veterinário, da Uni-

versidade Estadual de Londrina, em 2003. . . . . . . . . . . . . . . . . . . . 87

Figura 10.1 - Gráco das probabilidades de prenhez dos animais. . . . . . . . . . . . . . . . 148

Figura 10.2 - Distribuição acumulada da prenhez dos animais. . . . . . . . . . . . . . . . . 153

Figura 10.3 - Gráco da distribuição Binomial, para n = 10 ensaios com probabilidade de

sucesso p = 0, 30. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

Figura 10.4 - Gráco da distribuição de Poisson, cuja média (λ) é 4,0. . . . . . . . . . . . . 161

1 3
Figura 11.1 - Gráco da função f (y) = y . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4
Figura 11.2 - Gráco da Distribuição Normal. . . . . . . . . . . . . . . . . . . . . . . . . . 176

Figura 11.3 - Probabilidade entre as áreas a e b. . . . . . . . . . . . . . . . . . . . . . . . . 176

Figura 11.4 - ±1 desvio da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Figura 11.5 - ±2 desvios da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Figura 11.6 - ±3 desvios da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Figura 11.7 - Áreas sob a curva normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Figura 11.8 - Relação entre médias e desvios da distribuição normal. . . . . . . . . . . . . . 178


Figura 11.9 - Áreas sob a curva normal padrão. . . . . . . . . . . . . . . . . . . . . . . . . 179
Capítulo 1

Introdução
A estatística, de uma forma geral, trata da organização, interpretação e apresentação de

dados, sejam de contagens ou mensurações. A palavra estatística está associada à idéia de coleção
de dados (números).

Mesmo sem serem estudiosos da área, as pessoas convivem com informações estatísticas

praticamente todos os dias, seja através de rádio, televisão, jornais ou relatórios técnicos das mais

diversas áreas.

Várias denições são dadas à estatística, entre elas:

Estatística é a arte e ciência de coletar, analisar e interpretar dados.

A estatística é uma ciência da tomada de decisão diante de incertezas.

Estatística é a ciência de fazer uso efetivo dos dados numéricos relativos aos grupos de

indivíduos ou de experimentos.

O pensamento estatístico será um dia tão necessário para o cidadão quanto a habilidade

de ler e escrever. (Wells, H. G., 1993)

A estatística preocupa-se com a compreensão do mundo real através da informação que

nós extraímos da classicação e mensuração. Sua característica distintiva é lidar com a

variabilidade e a incerteza, que estão em toda parte. (Bartholomew, 1995)

Ao conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências

médicas e biológicas, convencionou-se chamar de Bioestatística.


A Bioestatística fornece métodos para se tomar decisões ótimas na presença de incerteza,

estabelecendo faixas de conança para a ecácia dos tratamentos e vericando a inuência de fatores

de risco no aparecimento de doenças.

1
2 Capítulo 1. Introdução

1.1 Aplicações da Estatística


As aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente todo

campo de estudo se benecia da utilização de métodos estatísticos. Alguns exemplos da aplicabilidade

da estatística na Medicina Veterinária são:

Exemplo 1: Comparação do uso de rastreabilidade para suínos em grupo e individual1


Com o acréscimo da demanda do mercado consumidor nacional e internacional por pro-
dutos rastreados, urge o desenvolvimento de conhecimento sobre processos de identicação e ras-

treamento de informações na produção animal. Este trabalho teve como objetivo comparar dois tipos

de rastreabilidade em suínos: individual e de grupo, utilizando o sistema de identicação e registro de

dados eletronicamente. Os 50 leitões foram identicados ao nascer e as variáveis peso e conversão


alimentar serviram de base para comparação entre os dois sistemas. Uma amostra foi considerada
a partir do erro admissível, estabelecido pelo produtor.

Exemplo 2: Fatores de Risco Associados com a Prevalência Sorológica de Salmonela em


Granjas Comerciais de Suínos do Sul do Brasil2 .
Devido a complexa ecologia da Salmonela, estudos epidemiológicos têm sido realizados

para identicar os fatores de risco para a infecção, cuja eliminação reduzirá o número de suínos

portadores de salmonela ao abate. O presente trabalho objetivou identicar esses fatores associados

com infecção por Salmonela em granjas de suínos comerciais dos estados do Rio Grande do Sul e

Santa Catarina. A identicação da infecção foi realizada através da reação sorológica de suínos na

terminação. O estudo conduzido foi observacional transversal em 33 granjas de ciclo completo e 32

unidades de terminação de leitões nos estados do RS e SC. Em cada granja foi aplicado um questionário

que contemplava informações sobre manejo, alimentação, ambiência e condições higiênico-sanitárias

do rebanho. Foi coletado sangue de aproximadamente 40 animais uma semana antes do abate. O soro

foi submetido ao teste de Elisa polivalente para Salmonela dos sorovares Typhimurium, Choleraesuis

e Anatum. Durante a visita foram também coletadas amostras de água e ração, avaliadas quanto à

presença de coliformes pela técnica de fermentação em tubos múltiplos. A ração, além da avaliação

da granulometria, foi submetida a contagem de coliformes e pesquisa de Salmonela pela técnica

bacteriológica e por PCR. Os resultados destes exames e as respostas do questionário foram usadas

na análise de fatores de risco como variáveis explicativas (180 variáveis) e os resultados da prevalência

1
Brazilian Journal of Veterinary Research and Animal Science (2004) 41:327-331
2
Comunicado Técnico 309 - Embrapa Suínos - Concórdia, SC
Planejamento de uma pesquisa 3

sorológica constituíram a variável resposta. Inicialmente, através de teste de χ2 , foi estudada a

associação entre variáveis resposta e explicativas como análise preliminar. As variáveis explicativas

associadas com a variável resposta (p ≤ 20), foram submetidas a análise de correspondência múltipla.

Exemplo 3: Corte da cauda em leitões: estudo comparativo de dois métodos3 .


O objetivo deste trabalho foi de avaliar a inuência do corte e do esmagamento da cauda,

a nível do último terço da cauda dos leitões sobre a ocorrência de hemorragia, de diarréia, e o ganho

de peso dos leitões até os 21 dias de idade. O experimento foi conduzido no sistema de produção

de suínos da EMBRAPACNPSA, em Concórdia/SC, envolvendo um total de 251 leitões das raças

Landrace, Large White e Mestiços destas raças, distribuídos nos seguintes tratamentos: Tratamento

A (TA) corte do último terço da cauda; Tratamento B (TB) esmagamento do último terço da cauda.

O corte foi realizado com o auxílio de uma tesoura e o esmagamento com uma tesoura sem o com

os referidos bordos arredondados. O corte ou o esmagamento da cauda foi sempre realizado ao nível

do último terço da cauda, nas primeiras horas da manhã do primeiro dia de vida dos leitões, no TA,

logo após o corte o restante da cauda foi mergulhada em uma solução de iodo. Os leitões foram

examinados de hora em hora durante as primeiras 10 horas após o corte ou esmagamento da cauda

com o objetivo de vericar a ocorrência de hemorragia ou diarréia para os dois tratamento. Os animais

do TB foram examinados duas vezes ao dia com o objetivo de determinar o dia da queda da cauda.

Quanto à presença ou ausência de diarréia adotou-se os seguintes critérios: ausência de diarréia (fezes

consistentes ou pastosas); e, presença de diarréia (fezes líquidas com ou sem desidratação dos leitões).

Todos os leitões foram pesados no dia do nascimento e aos 21 dias de idade.

1.2 Planejamento de uma pesquisa


O planejamento de uma pesquisa é essencial para o desenvolvimento de trabalhos aca-

dêmicos e cientícos. Ele servirá como um roteiro para orientar o trabalho de pesquisa, denindo as

etapas a serem realizadas, os instrumentos de avaliação e a metodologia a ser usada.

O planejamento possibilita ao pesquisador seguir uma disciplina de trabalho não só refe-

rente aos procedimentos lógicos, como também em termos de organização de tempo e cumprimento

de prazos.

Alguns pontos importantes para o planejamento de uma pesquisa são:

1. Planejamento do problema:

3
Comunicado Técnico 173 - Embrapa Suínos - Concórdia, SC
4 Capítulo 1. Introdução

a) denição da importância do problema que se pretende estudar;

b) determinação do objetivo e nalidade do estudo;

c) determinação das variáveis que serão observadas (ou coletadas) e a forma como as mesmas

serão obtidas (mensuração, contagem, questionário, etc.).

2. Avaliação da informação existente:

revisão bibliográca.

3. Formulação de hipóteses.

Em toda pesquisa, exceto naquelas meramente descritivas ou exploratórias, a formulação de

uma hipótese estatística é necessária para sua comprovação ou rejeição.

4. Vericação da hipótese:

consiste da coleta de dados, análise estatística e apresentação dos resultados.

5. Parte nal:

conclusão ou discussão, bibliograa, anexos, apêndices.

Alguns termos técnicos são bastante comuns na estatística, tais como:

a) População - dene-se como população ao conjunto de todos os elementos (animais, plantas,

pessoas, etc) que possuam pelo menos uma característica comum, a qual se deseja estudar.

Parâmetro - é uma medida numérica que descreve uma característica de uma população. São

valores xos, geralmente desconhecidos e usualmente representados por caracteres gregos.

Exemplos: µ (média populacional), σ2 (variância populacional), σ (desvio-padrão po-

pulacional), π (proporção populacional), N (tamanho populacional), etc.

b) Amostra - a amostra pode ser denida como um subconjunto da população e, a partir dela,

faz-se inferência sobre as características da população. Uma amostra tem que ser representativa

da população.

Estatística - é uma medida numérica que descreve uma característica de uma amostra.

Representada por caracteres latinos.

Exemplos: ȳ (média amostral), s2 (variância amostral), s (desvio padrão amostral), p


(proporção amostral), n (tamanho da amostra), etc.
Planejamento de uma pesquisa 5

Como exemplo, considere uma pesquisa realizada com 30 alunos do primeiro ano, do

curso de Medicina Veterinária, da Universidade Estadual de Londrina, no ano de 2013, em que a

estatura média foi de ȳ = 1, 74 m. Como essa estatura se baseia em uma amostra, trata-se de uma

estatística.
Realizou-se a mesma pesquisa com todos os alunos do primeiro ano, do curso de Me-

dicina Veterinária, da Universidade Estadual de Londrina, no ano de 2013, e a estatura média foi de

µ = 1, 75 m. Neste caso, µ é um parâmetro, pois baseia-se em toda a população de alunos do

primeiro ano do curso de Medicina Veterinária, da UEL, ano de 2013.

O aspecto a ser estudado, observado ou medido em cada elemento da população recebe o

nome de variável. São exemplos de variáveis: estatura, gênero, idade, peso, renda, grau de instrução,

número de animais eutanasiados, número de animais capturados, etc.

Não havendo condições de se trabalhar com todos os elementos da população ( censo),


retira-se uma amostra representativa ( amostragem) da população para o estudo.

1.2.1 Vantagens da amostragem sobre o censo


Um levantamento por amostragem apresenta algumas vantagens sobre o censo, tais

como:

a) custo reduzido: devido ao número de dados coletados ser menor do que o censo, o custo da

pesquisa ca reduzido;

b) tempo: quando se utiliza a amostragem ao invés do censo, gasta-se menos tempo para conclusão

do estudo, pois trabalha-se com menos elementos. Por outro lado, quando o produto é perecível,

a amostragem é a única solução;

c) aprofundamento: a pesquisa amostral pode ser mais detalhada, visto que são examinados me-

nos elementos. Portanto, uma pesquisa amostral com exames clínicos e laboratoriais pode ser

mais informativa do que realizar o censo usando como instrumento de coleta de informação um

questionário.

Algumas técnicas amostrais podem ser utilizadas para a obtenção da amostra.


6 Capítulo 1. Introdução

Exercícios

1) Seja Y a variável tempo, em segundos, de recuperação da anestesia de tilápias, com 7 observações:

yi = {y1 − y2 − y3 − y4 − y5 − y6 − y7 } .

yi = {17, 0 − 8, 9 − 28, 7 − 20, 5 − 8, 9 − 26, 1 − 43, 9} .

Calcular (passo-a-passo):


7 ∑
6
a) Soma de todos os tempos: yi ; c) yi ;
i=1 i=2
( )2

5 ∑
7
b) Soma dos 5 primeiros tempos: yi ; d) Quadrado da soma: yi ;
i=1 i=1


7
e) Soma de Quadrados: yi2 ;
i=1

n
yi
i=1
f ) A média aritmética simples dos tempos: ȳ = ;
n

7
g) Suponha a constante k = 15 e calcule k yi ;
i=1

n
h) Soma dos desvios em relação a k: (yi − k);
i=1

n
i) Soma dos desvios em relação à média: (yi − ȳ). O que você observa de diferente em relação
i=1
ao item anterior?

j) Demonstre algebricamente o resultado encontrado no item anterior;

k) Soma de quadrado dos desvios:



n
(yi − ȳ)2 ;
i=1

l) Considerando-se ȳ como uma constante, desenvolva algebricamente o seguinte quadrado:


n
(yi − ȳ)2 ;
i=1
Planejamento de uma pesquisa 7

2) Considere a variável X, tempo (s) de indução da anestesia, para as mesmas 7 tilápias, respecti-

vamente:

xi = {165 − 183 − 161 − 147 − 146 − 152 − 174}

Calcule:


n ∑
n ∑
n
a) xi yi ; b) xi yi ;
i=1 i=1 i=1

3) As quantidades de ácido ascórbico, em miligramas por 100 mililitros, presentes em 80 exames

químicos de plasma humano, estão indicadas na Tabela 1.1:

Tabela 1.1  Ácido arcórbico, em mg/100 ml.

Ácido ascórbico (em mg/100ml) Frequências (fi ) Ponto Médio (xi )


0, 0 ⊢ 0, 2 3 0,1

0, 2 ⊢ 0, 4 6 0,3

0, 4 ⊢ 0, 6 18 0,5

0, 6 ⊢ 0, 8 35 0,7

0, 8 ⊢ 1, 0 16 0,9

1, 0 ⊢ 1, 2 2 1,1

Total 80 80

Determine:

( k )2

k

a) fi , i = 1, 2, . . . , 6; c) xi fi , i = 1, 2, . . . , 6;
i=1 i=1


k ∑
k
b) xi fi , i = 1, 2, . . . , 6; d) x2i fi ;
i=1 i=1


k
xi fi
i=1
e) , i = 1, 2, . . . , 6. Que medida você encontrou?
∑k
fi
i=1
8 Capítulo 1. Introdução

 ( )2 

k
 k xi fi 
1 
∑ 2 i=1


f) V =  xi fi − , i = 1, 2, . . . , 6;
n−1 ∑k 
 i=1
fi 
i=1

“Nem sempre podemos construir o futuro para nossa


juventude, mas podemos construir nossa juventude
para o futuro.”
Capítulo 2

Amostragem

2.1 Introdução

Usualmente trabalha-se com apenas uma amostra da população. Em geral, seleciona-

se uma amostra (ou parte) da população em estudo e, a partir dela, tabula-se a característica (ou

variável) que está sendo avaliada. Esta característica pode ser o peso de cães, a raça dos felinos,

se o animal é vacinado ou não, gastos com medicamentos ou quaisquer outras características. A

partir dos resultados obtidos na amostra, o pesquisador deverá estendê-los para toda a população,

estabelecendo inclusive as margens de erro e acerto nas previsões.

A realização do censo não garante que a pesquisa esteja livre de erros. Os erros de coleta

e manuseio de um grande número de dados, em geral, são maiores do que as imprecisões a que se

está sujeito quando generaliza-se, via inferência, as conclusões de uma amostra bem selecionada.

Para que se possa fazer inferências válidas sobre a população, a partir de uma amostra,

é necessário que esta seja representativa da população. Não é tarefa simples denir uma amostra

representativa da população e, por isso, uma forma de se conseguir essa representatividade é fazer com

que o processo de escolha da amostra seja, de alguma forma, aleatório, introduzindo desta maneira o

conceito de amostra probabilística, conforme discutido em Bolfarine & Bussab, 2005.

Denida a população, é preciso estabelecer a técnica de amostragem, isto é, o proce-


dimento que será adotado para escolher os elementos que irão compor a amostra.

9
10 Capítulo 2. Amostragem

2.2 Técnicas de Amostragem


Os tipos de amostragem que serão apresentados são probabilísticos sendo que sua prin-

cipal característica é poder ser submetido a tratamento estatístico, o que permite compensar erros

amostrais. A amostragem é não probabilística quando alguns elementos da população não tem chance

de pertencer a amostra, como por exemplo, amostras intencionais, a esmo ou de voluntários.

2.2.1 Amostragem simples ao acaso ou amostragem aleatória simples


É um método de selecionar, sem reposição, n elementos de uma população de

tamanho N, conhecido e nito, em que todo elemento da população tem igual probabilidade de

ser escolhido para a amostra, sendo cuidadosamente planejada para se evitar qualquer tendenciosidade.

Processo de coleta: Todos os N elementos da população devem ser enumerados. Sorteia-se, então,

n elementos para compor a amostra. Este sorteio pode ser feito com o auxílio de uma tabela de

números aleatórios, com a utilização de algum programa computacional ou utilizando-se uma urna

que recebe os números de 1 a N. Os elementos correspondentes aos números escolhidos irão compor

a amostra.

Utilização: Este tipo de amostragem é utilizado quando a população for considerada homogênea.

Exemplo 1: Proceder a um sorteio, em sala de aula, com 45 alunos, para compor uma amostra de

tamanho 5.

Solução:

Para selecionar a amostra usando o R, basta utilizar o comando:


sala = 1:45
sample(sala, 5, replace=F)
# ou, simplesmente,
sample(45, 5, replace=F)
Técnicas de Amostragem 11

Obs.: a opção replace=F quer dizer que um aluno sorteado não poderá ser sorteado novamente, ou
seja, a amostragem que está sendo realizada é sem reposição. Caso se proceda a uma amostragem

com reposição, basta trocar o F (false ) por T (true ): replace=T.

Exemplo 2: Considere um conjunto de dados com muitas variáveis e muitos indivíduos e se queira

retirar uma amostra desse conjunto para um estudo, como apresentado na Tabela 2.1 .
1

Tabela 2.1  Dados sobre tilápias do Nilo, coletados por alunos do curso de Medicina Veterinária da
Universidade Estadual de Londrina, no ano de 2005.

Tilápia Turma Equipe Indução Peso Comp Alt Comp_cabeça Recup

1 2000 2021 165 408,5 29,0 7,3 7,8 17,0

2 2000 2021 183 400,0 29,5 9,0 7,3 8,9

3 2000 2021 161 397,2 29,3 8,7 8,0 28,7

4 2000 2021 108 431,6 29,5 9,1 7,6 115,0

. . . . . . . . .
. . . . . . . . .
. . . . . . . . .

500 2000 2021 147 309,4 25,8 8,1 6,7 20,5

As variáveis Indução (tempo para anestesiar a tilápia) e Recup (tempo para se recuperar
da anestesia) são dadas em segundos; A variável Peso é dada em gramas; Já as variáveis Comp
(comprimento), Alt (altura) e Comp_cabeça (comprimento da cabeça) são dadas em centímetros.

Pode-se pensar, neste caso, em duas situações em que a amostragem simples ao acaso é utilizada.

I. No primeiro caso, em que uma amostra será retirada para uma variável especíca, a progra-

mação no R ca exatamente como no Exemplo 1, ou seja, para se retirar uma amostra aleatória

de tamanho 15 para a variável comprimento (cm), tem-se

dados = read.table(`http://www.uel.br/pessoal/silvano/Dados/Tilapia.txt',
dec=`,', head=T)
attach(dados)
names(dados)
(amostra = sample(Comp, 15, replace=F))

1
Disponível em: http://www.uel.br/pessoal/silvano/Dados/Veter/Tilapia.txt, com apenas 40 indivíduos.
12 Capítulo 2. Amostragem

II. No segundo caso, o objetivo é retirar uma amostra de indivíduos, sendo que cada indivíduo

manterá os valores observados de cada variável. Neste caso, é necessário carregar o pacote car.
Os comandos são:

require(car)
(saida = some(dados, n=15, replace=FALSE))

2.2.2 Amostragem sistemática


Os elementos são escolhidos utilizando-se algum tipo de sistema. Um professor,

utilizando-se de sua lista de chamada, poderia compor uma amostra chamando todos os alunos cujo

número na pauta terminasse em um determinado digito. Assim, o professor chamaria para compor

sua amostra, por exemplo, todos os alunos com números terminados em zero, ou seja, os números

10, 20, 30, 40 e assim por diante.

Esta amostragem é utilizada quando a população está naturalmente ordenada, como

chas em um chário, listas telefônicas, quando os elementos da população são prédios de uma rua,

etc.

Suponha que a administração da UEL quisesse fazer uma pesquisa com seus 13.000
alunos. Neste caso, poderia-se obter uma relação completa dos mesmos e selecionar um a cada 50
para compor a amostra. Esse método é simples e utilizado com frequência.

Processo de coleta: seja N o tamanho da população e n o tamanho da amostra, então calcula-se


N
o intervalo de amostragem k= . Sorteia-se um número x entre 1 e k, formando a amostra dos
n
elementos correspondentes aos números: x, x + k, x + 2k, . . ..

Utilização: Este tipo de amostragem é utilizado quando a população está naturalmente ordenada.

Exemplo: Considere a população formada pelos 400 alunos do curso de Medicina Veterinária da

Universidade Estadual de Londrina, no ano de 2014. O Colegiado do Curso decide realizar uma

pesquisa para saber o grau de conhecimento dos alunos quanto à prossão escolhida. Dispõe-se de

uma lista, em ordem alfabética, de todos os alunos. Uma amostra de 50 estudantes será selecionada.

Proceda à escolha desta amostra.


Técnicas de Amostragem 13

Solução:

Para selecionar a amostra usando o R, basta utilizar o comando:


n = 50 ; N = 400 ; k = N/n
(amostra = sample(k, 1))
(amostras = seq(amostra, N, k))

2.2.3 Amostragem estraticada

Se uma população é considerada heterogênea em relação ao atributo que se quer pes-

quisar, mas é possível distinguir sub-populações mais ou menos homogêneas, deve-se utilizar a amos-

tragem estraticada.

Por exemplo, se os alunos dos vários cursos da UEL são diferentes em relação ao atributo

a ser pesquisado, pode-se considerar cada curso como um estrato. Para obter uma amostra dos

alunos da UEL, seria razoável obter uma amostra dentro de cada curso e depois reunir as informações

numa única amostra, que seria representativa dos alunos da UEL.

Processo de coleta: deve-se dividir as N unidades da população em N1 , N2 , . . . , Nj estratos

disjuntos e homogêneos e selecionar, ao acaso, amostras de tamanhos n1 , n2 , . . . , nj , de modo que

o tamanho da amostra seja n = n1 + n2 + . . . + nj .


O tipo de amostragem estraticada mais comum é a proporcional, que consiste em

selecionar os elementos de uma amostra entre os vários estratos em número proporcional ao tamanho

de cada um dos estratos.

Procedimento:
n
1) calcular a fração de amostragem dada por: f= ;
N
14 Capítulo 2. Amostragem

2) calcular o número de elementos a ser sorteado em cada estrato:

n1 = N 1 f ; n2 = N2 f ; . . .; nj = Nj f

sendo:

N (número de elementos da população);

Nj (número de elementos do estrato j );

n (tamanho da amostra a ser selecionada).

Exemplo 1: Deve-se extrair uma amostra de tamanho n = 80 de uma população de tamanho

N = 2.000, que consiste de 4 estratos de tamanhos N1 = 500, N2 = 1.200, N3 = 200 e

N4 = 100. Se a alocação deve ser proporcional, qual o tamanho da amostra a ser extraída de cada

um dos quatro estratos?

Solução:

Os comandos do R são:

n = 80 ; N1 = 500 ; N2 = 1200 ; N3 = 200 ; N4 = 100


N = N1 + N2 + N3 + N4 ; f = n / N
n1 = f*N1 ; n2 = f*N2 ; n3 = f*N3 ; n4 = f*N4
(amostras = cbind(n1, n2, n3, n4))
(amostra.1 = sample(N1, n1, replace=F))
(amostra.2 = sample(N2, n2, replace=F))
(amostra.3 = sample(N3, n3, replace=F))
(amostra.4 = sample(N4, n4, replace=F))

Exemplo 2: Considere o conjunto de dados tilápia, que tem 4 estratos (Equipes: 1011, 1012, 2021,

2022), e o objetivo é retirar uma amostra de tamanho 5 para cada extrato da variável comprimento

(Comp). Os comandos são


Técnicas de Amostragem 15

dados = read.table(`http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt',
dec=`,', head=T)
attach(dados)
names(dados)
(Amostras = tapply(Comp, Equipe, sample, size=5))

Caso o número de amostras dentro de cada estrato seja diferente, pode-se utilizar o pacote sampling,
em que é possível determinar se as amostras retiradas dentro de cada estrato serão do tipo:

I amostragem aleatória simples

require(sampling)
amost.estrat.simples = strata(dados, c(``Equipe"), size = c(5, 7, 3, 4),
method = ``srswor")
(amostras.est.simples = getdata(dados, amost.estrat.simples))

Observe a coluna Stratum, no arquivo de saída do R.


I amostragem sistemática

amost.estrat.sist = strata(dados, c(``Equipe"), size = c(5, 7, 3, 4),


method = ``systematic", pik=Equipe)
(amostras.est.sist = getdata(dados, amost.estrat.sist))

Pode-se citar, ainda, a amostragem por conglomerado e a amostragem por conveniência.

Não importa quão bem se planeje e execute o processo de coleta de amostras, há sempre

a possibilidade de um erro nos resultados.

Erro amostral: é a diferença entre um resultado amostral e o verdadeiro resultado populacional.

Tais erros resultam de utuações amostrais aleatórias.

Exemplo: escolha aleatoriamente 50 chas de cães da raça Poodle atendidos no Hospital Veterinário

da UEL e verique o peso médio (kg ) desses animais. Retirada uma outra amostra de 50 animais, é
16 Capítulo 2. Amostragem

provável que se obtenha um peso médio (kg ) diferente.

Ocorre um erro não amostral quando os dados amostrais são coletados, registrados ou analisados

incorretamente. Tais problemas resultam em um erro que não seja uma simples utuação amostral

aleatória, como por exemplo, a escolha de uma amostra não aleatória e tendenciosa, a utilização de

um instrumento de mensuração defeituoso, uma questão formulada de modo tendencioso, um grande

número de recusas de resposta ou a cópia incorreta dos dados amostrais.

Muitos desses erros são provenientes do próprio observador, devido ao grau de treina-

mento (experiência), o excesso de trabalho, seu estado físico e/ou condições ambientais.

Como exemplo, cita-se o caso de cinco radiologistas que examinaram, em diferentes

épocas, separadas por um período de dois meses, as mesmas 1.200 radiograas de tórax, com a

nalidade de diagnosticar a existência de tuberculose pulmonar. As radiograas de tamanho-padrão

foram lidas separadamente por cada radiologista e os resultados se encontram na Tabela 2.2.

Tabela 2.2  Diagnósticos de radiograas de tórax.

Número de radiograas consideradas positivas


Radiologista
1a Leitura 2a Leitura

A 118 139

B 69 78

C 83 88

D 96 89

E 106 92

Deve-se concluir que tais discordâncias não reetem uma variação real e sim, erros co-

metidos por quem procedeu à leitura do material radiográco.

2.3 Etapas de uma pesquisa


Considerando-se que as fases do planejamento foram seguidas, deve-se levar em conside-

ração algumas etapas para que a validação da hipótese possa ser aceita. Essas etapas são relativas

aos dados propriamente, como a unidade de medida, a unidade amostral, dentre outras. Essas etapas

são:

a) população - a população a ser trabalhada deve ser bem denida, identicando-se corretamente
Etapas de uma pesquisa 17

os seus elementos para que a amostra coletada represente os dados da população;

b) dados a serem coletados - ao se efetuar a coleta dos dados é importante vericar se todos esses
dados serão importantes para os propósitos da pesquisa, e se nenhum dado essencial está sendo

omitido;

c) métodos de medidas - antes de se coletar os dados é necessário e importante que a metodologia


de sua coleta seja estruturada. Deve-se decidir preliminarmente se os dados serão coletados por

chas, por declaração de entrevistados, por telefone, por respostas a um questionário, etc. Em

qualquer das alternativas, há necessidade de um perfeito treinamento em toda a equipe de trabalho,

a m de que haja um critério único de registro;

d) unidade de amostragem - se a pesquisa for realizada através de levantamento por amostragem,


deve-se denir qual é a unidade de amostragem, que pode ser: uma pessoa, uma família, uma

empresa, um quarteirão, uma planta, um animal, etc.;

e) escolha do tipo de amostragem - de acordo com o objetivo da pesquisa e do tipo de popula-

ção, deve-se escolher a melhor técnica para selecionar a amostra: amostragem simples ao acaso,

amostragem estraticada, etc.;

f) vericação preliminar - a vericação preliminar não pode faltar em qualquer pesquisa. Deve-se

testar em uma pequena parte da população as seguintes características: se a técnica a ser utilizada

para a coleta é a melhor possível; se a forma escolhida de registro das informações não deve ser

alterada; se os coletores estão bem treinados, enm deve-se vericar a eciência da metodologia

a ser empregada;

g) análise dos dados - apurados os resultados, os mesmos devem ser analisados estatisticamente. Os

dados podem ser apresentados em forma de tabelas ou grácos. Podem ser calculadas algumas

medidas, alguns testes estatísticos e realizadas algumas inferências. Após a análise cuidadosa,

deve-se elaborar um relatório completo contendo os objetivos da pesquisa, a metodologia utilizada,

a análise de todos os resultados, suas conclusões, a bibliograa e, se necessário os anexos, como

por exemplo, cópia do questionário.


18 Capítulo 2. Amostragem

Exercícios

1) Um pesquisador está interessado em avaliar o Peso (kg ) de animais domésticos das espécies

caninas e felinas, não importando a raça. Para isso, ele dispõe de uma lista de dados, disponível

em http://www.uel.br/pessoal/silvano/Veter/Dados/HV.txt, com a relação dos animais

atendidos no Hospital Veterinário da Universidade Estadual de Londrina, durante um certo período.

(a) Retire uma amostra aleatória de 25 animais. Explique o processo de seleção. Quantos são

da espécie canina e felina?

(b) É importante para o pesquisador coletar amostras de cada espécie. Sendo assim, que tipo

de amostragem ele deve utilizar?

(c) Considerando o item 1b, retire uma amostra de tamanho 20 para a espécie canina e de

tamanho 5 para a espécie felina. Relacione as amostras retiradas. Qual o peso médio dos

dados? E para cada um dos estratos?

2) A enumeração dos prontuários de animais atendidos pelo Hospital Veterinário da Universidade

Estadual de Londrina é reiniciada sempre no primeiro dia útil de cada ano. Assim, o prontuário do

primeiro animal atendido no ano de 2014 recebeu o número 1 e, assim, sucessivamente. No ano

de 2013, foram 3.756 novos prontuários. Uma pesquisa de satisfação com os proprietários cujos

animais foram atendidos em 2013 será realizada. Para isto, uma amostra de 300 proprietários será

estudada. Que tipo de amostragem você usaria e porquê? Enumere a amostra coletada.

3) Um hematologista deseja fazer uma nova vericação de uma amostra de tamanho 10 dos 854

espécimes de sangue analisados por um laboratório em determinado mês. Para isto, ele cria uma

estrutura amostral numerando como 001, 002, ..., 854. Use a tabela de números aleatórios ou

calculadora para escolher que espécimes de sangue serão selecionados? Explique como escolheu

os números da tabela aleatória.

4) Deve-se retirar uma amostra estraticada de tamanho n = 60 de uma população de tamanho

4.000, que consiste de 3 estratos de tamanhos N1 = 2.000, N2 = 1.200, N3 = 800. Para que a

alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato?
Etapas de uma pesquisa 19

5) Deseja-se realizar um estudo, junto à comunidade universitária da Universidade Estadual de Lon-

drina, quanto à posse e cuidado com os animais domésticos. Explique de que forma você planejaria

esta pesquisa. Também, elabore 10 questões relativas ao assunto que será pesquisado.

“Nem tudo o que pode ser contado conta, e nem tudo


que conta pode ser contado.”
(George Gallup).
Capítulo 3

Conceitos elementares

3.1 Divisão da estatística

A estatística é uma ciência dividida basicamente em duas partes:

estatística descritiva - descreve e analisa determinada população (ou amostra), sem pretender tirar

conclusões; de caráter mais genérico. Os elementos básicos para essa análise são: tabelas,

grácos e medidas numéricas como a média, moda e mediana.

estatística indutiva ou inferência estatística - preocupa-se com a análise e interpretação dos da-

dos experimentais, e tem como objetivo tirar conclusões sobre populações com base nos resul-

tados observados em amostras extraídas dessas populações.

Tanto a estatística descritiva quanto a indutiva são realizadas em função da coleta de

dados, sejam populacionais ou amostrais. A questão então é: como obter os dados estatísticos? Que

tipo de variáveis são obtidas?

Em relação a primeira questão, eles podem ser obtidos através de: coleta documental,

entrevista, questionário, formulário, observação, experimento, etc. É importante que a obtenção dos

dados seja realizada utilizando-se da metodologia apresentada no Capítulo 2.

Os tipos de variáveis encontradas dependerão, obviamente, do tipo de estudo realizado.

A classicação dos tipos de variáveis passíveis de serem encontradas são descritos na seção 3.2.

20
Tipos de variáveis 21

3.2 Tipos de variáveis


Em estatística é usual a manipulação de grandes conjuntos de dados, que constituem a

matéria-prima das pesquisas estatísticas. Para simplicar seu manuseio, costuma-se representá-los

através de variáveis, usando-se as expressões variáveis qualitativas e variáveis quantitativas para


distingui-los.

Exemplo: Foi elaborado um questionário com 34 questões para se traçar o perl dos alunos do 1o
ano do curso de Medicina Veterinária, da Universidade Estadual de Londrina, no ano de 2005. As

variáveis analisadas, entre outras, são apresentadas na Tabela 3.1.

Tabela 3.1  Dados dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade Estadual
de Londrina, do ano de 2005.

Número de Grau de
Aluno Gênero Procedência Estatura (m)
irmãos instrução dos pais

1 Masculino Londrina 1 1,73 Superior incompleto

2 Masculino Londrina 0 1,71 Segundo grau

3 Feminino Campinas 3 1,65 Superior completo


. . . . . .
. . . . . .
. . . . . .

27 Feminino São Paulo 1 1,68 Primeiro grau

28 Masculino Londrina 2 1,76 Primeiro grau

29 Feminino Arapongas 2 1,58 Superior completo

Algumas respostas são numéricas e outras em forma de atributo ou qualidade. Assim,

pode-se classicar as variáveis como:

1. Variáveis categóricas (ou qualitativas) - apresentam como possíveis realizações uma quali-
dade (ou atributo) do indivíduo pesquisado. O número de categorias pode depender do interesse

do estudo. Elas se dividem em:

a) variáveis categóricas nominais - É caracterizado por dados que consistem apenas em

nomes, rótulos ou categorias, não existindo nenhuma ordenação nos possíveis resultados.

Exemplo: Gênero dos estudantes, estado civil, tipo sanguíneo, cor dos olhos, cor dos

cabelos, raça, respostas do tipo sim, não, etc.


22 Capítulo 3. Conceitos elementares

b) variáveis categóricas ordinais - os dados possuem uma ordenação natural.


Exemplo: Grau de instrução (Ensino Fundamental, Ensino Médio, Ensino Superior), classe

social (alta, média, baixa), pressão sanguínea (baixa, normal, alta), etc.

2. Variáveis numéricas (ou quantitativas) - apresentam como possíveis realizações, números

resultantes de uma contagem ou mensuração (medida). Elas se dividem em:

a) variáveis numéricas discretas - são aquelas que assumem valores em pontos da reta real,
frequentemente resultam de uma contagem e não possuem unidade de medida.

Exemplo: Número de lhotes, número de animais eutanasiados, número de pulgões em

plantas, número de animais hidratados, número de bactérias em uma lâmina, número de

consultas médicas em um determinado período, número de erros em um livro, número de

acidentes, etc.

b) variáveis numéricas contínuas - os possíveis resultados podem assumir, teoricamente,

qualquer valor em certo intervalo da reta real, normalmente resultam de uma mensuração e

apresentam unidade de medida.

Exemplo: Estatura, salário, idade, peso, pressão sanguínea, temperatura, taxa de colesterol,

etc.

A importância dessa classicação justica-se porque cada tipo de variável resposta exige

um método de análise estatística especíco. Esquematicamente, tem-se:

3
hhhh Nominal
hh hhhhh
hh
hhhh
hhhh
Qualitativas V
q8 VVVV
qq VVVV
qqq VVVV
qq VVVV
qq VVV+
qqq
qq
qqq
Ordinal

qq
qqq
qqq
Variáveis MMM
MMM
MMM
MMM
MMM
3
MMM hhhh Discreta
MMM
hh hhhhh
MMM hh
MM& hhhh
hhhh
Quantitativas
VVVV
VVVV
VVVV
VVVV
VVV+
Contínua
Dimensionamento da amostra 23

De acordo com Ogliari e Andrade (2005),

A distinção entre variáveis contínuas e discretas é muitas vezes articial, pois depende

da aproximação (precisão) utilizada. Por exemplo, idade é uma variável de medida de

tempo, portanto, por denição, é uma variável aleatória contínua, porém, em muitos

casos ela é medida em anos completos (discretização da variável), o que a torna uma

variável discreta.

Portanto, poderá ocorrer situações em que uma variável contínua será tratada como uma

variável discreta.

3.3 Dimensionamento da amostra


É muito comum ao pesquisador indagar sobre o número de elementos para uma amostra

quando pretende realizar uma pesquisa de campo, laboratório ou um simples levantamento.

A determinação do tamanho da amostra depende de alguns fatores:

a) Tamanho da população-alvo - quanto ao número de elementos que a compõe, pode-se classicar


em nitas e innitas. Na obtenção do tamanho amostral será importante esta informação.

b) Variância ou percentual - em alguns estudos são empregadas características que apresentam

determinada variabilidade. Em outros casos, observa-se a porcentagem de certas características

em um conjunto. Dependendo do tipo de pesquisa, usa-se a variância ou a porcentagem.

c) Nível de conança - deve-se imaginar que, ao se apresentar um valor percentual, referente à taxa
de prevalência do fenômeno estudado na amostra observada, esse valor tem, em relação ao valor

percentual da população, uma diferença, que é, a priori, arbitrada pelo pesquisador. Esta diferença

arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95%

ou 99% de conança, ou seja, o nível de conança de que a diferença arbitrada realmente ocorra

até o limite de diferença proposto.

Os níveis de conança propostos rotineiramente são de 95% e 99% de conança. Simbolizado

pela letra Z, este valor é substituído na fórmula (3.1) por uma constante 1, 96 quando o nível de
conança corresponde a 95% e por 2, 58 quando o nível de conança é de 99%.

d) Informação de literatura - toda pesquisa a realizar, em que o objetivo é a taxa de prevalência

de certo fenômeno, apresenta, na literatura, resultados que se pode utilizar para a determinação
24 Capítulo 3. Conceitos elementares

do valor de n em relação ao valor de π. Chama-se 1−π ao valor complementar de π para 100%,


ou seja, π + (1 − π) = 100%.

Quando na literatura de referência não se encontra o valor de π, considera-se este igual a 50%,
consequentemente 1 − π = 50%.

e) Erro de amostragem ou precisão - ao proceder-se às técnicas de amostragem para determinação


do tamanho amostral (n), entende-se que a amostra obtida representará um determinado valor

para a taxa de prevalência de certo evento. Normalmente é esperada uma diferença em relação à

taxa de prevalência da população-alvo. A esta diferença chama-se erro de amostragem ou precisão,

a qual, geralmente, é arbitrada pelo pesquisador.

3.3.1 Determinação do tamanho amostral para variáveis qualitativas

Quando se dispõe de variáveis nominais ou ordinais, utiliza-se as seguintes fórmulas:

z 2 π(1 − π)
n0 = (3.1)
(π − p)2

n0
n= n0 (3.2)
1+
N

em que:

,→ n0 : amostra inicial;

,→ z : nível de conança;

,→ π : valor obtido de trabalhos anteriores (literatura);

,→ N : tamanho da população;

,→ ϵ = π − p: é o erro de precisão arbitrado pelo pesquisador.

Em populações nitas são utilizadas as fórmulas (3.1) e (3.2). Para populações

innitas, apenas a fórmula (3.1) deve ser utilizada.


Dimensionamento da amostra 25

Exemplo: Com o objetivo de se vericar a incidência de listeriose


1 em uma população de certa

região, determine o tamanho da amostra, considerando-se N = 40.000. Para este caso, considere

uma prevalência (π) de 2%, z = 1, 96 e um erro de precisão de 4%.


Solução:

3.3.2 Determinação do tamanho amostral para variáveis quantitativas

Para variáveis quantitativas, tem-se:

z2 σ2
n0 = (3.3)
ϵ2

n0
n= n0 (3.4)
1+
N

sendo:

,→ σ 2 a variância obtida de trabalhos anteriores.

,→ ϵ = µ − x̄: é o erro de precisão arbitrado pelo pesquisador.

1
Doença rara, mas muito grave, causada, usualmente, pelo consumo de alimentos contaminados com a bactéria
Listeria monocytogenes.
26 Capítulo 3. Conceitos elementares

Obs.: Caso não se disponha de σ 2 (variância populacional), realiza-se uma pré-amostragem, retirando-
se, por exemplo, 30 observações da população e calcula-se o desvio padrão da característica a estudar;

Para populações nitas, utilizam-se as fórmulas (3.3) e (3.4) e, para populações innitas,

apenas a fórmula (3.3) é utilizada.

Exemplo: Numa pesquisa para se determinar a taxa média do teor de hemoglobina em fêmeas bovinas

da raça Aquitânica, com idade acima de 12 meses, depara-se com o problema de denir-se o tamanho

da amostra. Sem informações a priori, seleciona-se uma amostra de 30 animais e determina-se o valor
do teor de hemoglobina de cada animal e, a seguir, calcula-se a variância (capítulo 7), cujo valor, por

exemplo, é de 1, 72 (g/dl)2 . Determine o tamanho da amostra, considerando-se z = 1, 96 e uma

precisão de 0, 15 g/dl.
Solução:
Dimensionamento da amostra 27

Exercícios

1) Classique cada uma das variáveis apresentadas na Tabela 3.2 em qualitativa (nominal ou ordinal)

ou quantitativa (discreta ou contínua).

Tabela 3.2  Dados parciais coletados no Hospital Veterinária da Universidade Estadual de Londrina,
ano 2013.

Sexo Castrado Espécie Peso (kg ) Cidade Irmãos EN TR FC FR

M Não Canina 20,0 Londrina 2 Magro 38,3 124 .

M Não Canina 20,0 Londrina 4 Normal . 28 .

M Não Canina 13,0 Londrina 3 Normal 39,5 100 80

F Não Canina 2,5 Londrina 3 Magro 35,1 132 .

F Não Canina 11,2 Londrina 3 Magro 38,9 144 120

F Não Canina 11,0 Cambé 2 Magro 39,2 100 40

F Não Canina 10,2 Londrina 3 Normal 38,4 208 .

F Não Canina 10,2 Londrina 2 Caquético 39,5 100 32

F Não Canina 10,0 Londrina 3 Normal 39,6 96 32

F Não Canina 10,0 Cambé 2 Obeso 39,7 156 36

M Não Felina 3,3 Cambé 4 Normal 39,0 220 48

F Sim Felina 2,2 Londrina 2 Normal 39,6 . 72

F Não Felina 3,5 Londrina 2 Normal 39,4 208 64

F Não Felina 3,3 Londrina 3 Normal 39,0 96 36

F Sim Felina 2,7 Londrina 2 Magro 39,2 126 28

M Não Felina 6,5 Londrina 8 Magro 38,6 220 0

M Não Felina 6,5 Londrina 8 Normal 38,9 184 60

M Sim Felina 5,4 Londrina 2 Magro 38,8 168 32

M Não Felina 5,3 Londrina 8 . 38,2 176 68

M Não Felina 4,5 Londrina 2 Magro 38,2 148 60

M Não Felina 3,1 Cambé 3 Obeso 39,7 200 40

F Não Felina 3,0 Londrina 3 Normal 38,1 160 46

F Não Felina 2,9 Rolândia . Normal 36,5 172 88

F Não Felina . Londrina 4 Normal 37,5 120 56

Considere: TR - temperatura retal (


◦ C ); FC - frequência cardíaca (bpm); FR - frequência respi-

ratória (mpm); EN - estado nutricional.


28 Capítulo 3. Conceitos elementares

z2 σ2 n0
2) Considerando-se as equações n0 = e n= n0 para determinação do tamanho amostral
ϵ2 1+
N
para variáveis quantitativas, mostre passo-a-passo, que o tamanho amostral para população innita

pode ser expresso pela seguinte equação:

N
N ( ε )2
n= ,
1+ 2
σ z

em que ε representa o erro de precisão.

3) Fixe z = 1, 96, s2 = 4 e considere a população innita. Complete a Tabela 3.3 do tamanho

amostral (n0 ) em função do erro de precisão (ε).

Tabela 3.3  Tamanho amostral e erro de precisão.

ε = µ − x̄ n0
3,0

2,0

1,5

1,0

0,5

0,1

0,01

O que você pode observar da relação acima?

4) Considere os seguintes valores: π = 0, 3 e z = 1, 96. O pesquisador só poderá, por problemas

nanceiros, coletar 100 amostras. Qual o erro de precisão desse experimento? Demonstre os

cálculos passo-a-passo.

5) Refaça o item anterior, considerando-se uma população de tamanho N = 1.000.

6) Um pesquisador está interessado em avaliar a temperatura retal (TR, em grau Celsius) de ani-

mais domésticos das espécies caninas e felinas, não importando a raça. Sabe-se, de estudos

anteriores, que a variância da temperatura retal nestas duas espécies é de aproximadamente

1, 1513 o C 2 . Para isso, ele dispõe de uma lista com a relação dos animais atendidos no Hos-

pital Veterinária da Universidade Estadual de Londrina, durante um certo período, disponível em

http://www.uel.br/pessoal/silvano/Veter/Dados/HV.txt.
Dimensionamento da amostra 29

a) Considerando-se z = 1, 96 e um erro de precisão de 0, 3 o C , quantas amostras são necessárias

para a realização do estudo?

b) É importante para o pesquisador coletar amostras de cada espécie. Sendo assim, que tipo de

amostragem ele deve utilizar?

c) Relacione as amostras retiradas. Qual a temperatura retal média dos dados? E para cada um

dos estratos?

7) Suponha que um pesquisador tenha diversas gaiolas que contenham, cada uma, 6 ratos. Qual é a

maneira de selecionar 2 ratos de cada gaiola, para uma amostra?

8) Dada uma população de 8 elementos, estabeleça três formas distintas de se obter uma amostra

sistemática de 4 elementos.

9) Um hematologista deseja fazer uma nova vericação de uma amostra de tamanho 10 dos 854
espécimes de sangue analisados por um laboratório médico em determinado mês. Para isto,

ele cria uma estrutura amostral numerando como 001, 002, . . . , 854. Use a tabela de números

aleatórios ou a calculadora para escolher que espécimes de sangue serão selecionados? Explique

como selecionou a amostra.

10) Deve-se retirar uma amostra estraticada de tamanho n = 60 de uma população de tamanho

4.000, que consiste de 3 estratos de tamanhos N1 = 2.000, N2 = 1.200, N3 = 800. Para que a

alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato?

11) Os empregados de um hospital têm etiquetas de identicação numeradas consecutivamente de 101


a 563. Deve-se escolher um comitê de 10 pessoas, selecionadas aleatoriamente. Use a tabela de

números aleatórios para escolher os números das etiquetas. Explique como escolheu os números

da tabela aleatória.

“Quando todos pensam igual, é porque


ninguém está pensando.”
(Walt Lippman).
Capítulo 4

Estatística Descritiva

4.1 Organização e apresentação de dados


A apresentação de dados na forma de tabela é um dos métodos estatísticos mais simples

e utilizado. Uma tabela estatística consegue expor os resultados de determinada pesquisa ou parte

dela, sinteticamente, em que se tem uma visão mais clara e fácil dos resultados obtidos. Ao dispor

os dados em linhas e colunas, distribuídos de forma ordenada, segundo regras estabelecidas, tem-se

as tabelas estatísticas.

4.1.1 Elementos essenciais de uma tabela


O objetivo de se construir tabelas é obter uma visão geral do que ocorre com os dados

observados, condensando as informações. Os elementos essenciais de uma tabela são:

a) Título: é uma indicação que precede a tabela estatística e que contém a designação do fenômeno

observado, o local e a época em que ocorreu;

b) Cabeçalho: colocado na parte superior da tabela, tem por nalidade especicar o conteúdo das

colunas;

c) Corpo: corresponde ao conjunto de colunas e de linhas que contêm, respectivamente, em ordem

vertical e horizontal, informações sobre o fenômeno estudado. Chama-se casa (ou casela) ao

cruzamento de uma coluna com uma linha. As casas nunca deverão car em branco, contendo

sempre um número ou um sinal convencional:

i)  (traço), quando o dado não existe;

30
Organização e apresentação de dados 31

ii) ... (três pontos), quando a informação existe mas não está disponível;

iii) 0 (zero), quando o valor numérico for menor que a metade da unidade de medida adotada

para expressar os dados;

iv) X (letra x), quando o dado for omitido a m de evitar a individualização das informações, nos

casos onde existe apenas um ou dois informantes.

d) Coluna indicadora: é a parte da tabela que tem por nalidade especicar o que contêm as linhas;

Toda tabela deverá ter identicação feita com algarismos arábicos, de modo crescente,

precedidos da palavra Tabela, podendo ser subordinada ou não a capítulos ou seções de um docu-

mento.

A Tabela 4.1 é um exemplo sobre a maneira de se resumir e apresentar dados coletados,

relativos à uma pesquisa ou experimento.

Tabela 4.1  Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de Londrina
(UEL), no ano de 2005.

Categoria dos animais Frequências

Pequeno porte 20.650

Médio porte 12.300

Pequeno porte 5.700

Total 38.650

Fonte: HV da UEL.

Na Tabela 4.1, o título é:

Animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina, no ano


de 2005.
O cabeçalho é constituído por:

Categorias dos animais Frequências

A coluna indicadora contêm as especicações:

Pequeno porte
Médio porte
Grande porte
32 Capítulo 4. Estatística Descritiva

O corpo da tabela é formado por:

20.650
12.300
5.700

4.1.2 Elementos complementares de uma tabela


Os elementos complementares de uma tabela estatística são os seguintes: fonte, notas e

chamadas, que de preferência são colocados no rodapé.

a) Fonte: é a indicação do órgão ou entidade responsável pelo fornecimento dos dados ou pela sua

elaboração. É colocada no rodapé da tabela;

b) Notas: são informações destinadas a esclarecer ou conceituar o conteúdo das tabelas, ou indicar a

metodologia adotada na coleta ou preparo dos dados. Devem ser colocadas embaixo da indicação

da fonte;

c) Chamadas: são informações de natureza especíca referindo-se a um item especíco da tabela,

colocada após a nota. Devem ser feitas através de algarismos arábicos escritos entre parênteses,

e colocados à direita da coluna;

A Tabela 4.2 é um exemplo sobre a maneira de se resumir e apresentar dados coletados,

relativos à uma pesquisa ou experimento. Os dados foram coletados no Hospital Veterinário por

alunos do 1o ano do curso de Medicina Veterinária da Universidade Estadual de Londrina, em pesquisa

realizada em 2002.

Tabela 4.2  Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual de Lon-
drina. Londrina - Paraná, 2002.

Espécies Percentual (%)

Canina 85,00

Felina 11,07

Equina 2,50

Bovina 0,71

Lagarto 0,36

Roedor 0,36

Fonte: Hospital Veterinário da Universidade Estadual de Londrina.

Nota: Utilizou-se uma amostragem sistemática para selecionar as chas dos animais.
Distribuição de frequências 33

Observações:
As tabelas são constituídas por três traços horizontais paralelos, um para separar o topo, outro

para separar o cabeçalho e o terceiro para o rodapé. Não são usados traços verticais para separar

os dados;

Devem ser identicadas na parte superior iniciada com a palavra Tabela e seu número de ordem,

em algarismos arábicos seguidos de hífen, separando o título.

As tabelas devem ser numeradas consecutivamente ou identicadas com números relacionados ao

capítulo ou seção nas quais estão inseridas e seu número de ordem. Exemplo: vide Tabela 4.2.

No caso da tabela ter de ocupar mais de uma página, não será delimitada na parte inferior e

o cabeçalho será repetido na página seguinte. Nesse caso, usa-se no cabeçalho, ou na coluna

indicadora, a expressão continua ou conclusão, conforme o caso.

Quando não for possível dispor a tabela na posição normal de leitura, ela deverá ser apresentada

de forma que a rotação se efetue no sentido horário.

4.2 Distribuição de frequências


Uma maneira de sintetizar os dados é através de distribuição de frequências, que consiste

na construção de uma tabela a partir dos dados brutos em que se considera a frequência com que

cada observação ocorre. A interpretação dos resultados obtidos em tabelas de frequências pode ser

auxiliada pela análise gráca.

4.2.1 Construção de uma distribuição de frequência de variáveis discretas


Quando a variável resposta é do tipo quantitativa discreta, para se apresentar os dados

em forma de tabela, basta escrever em uma coluna os valores da variável discreta estudada em ordem

crescente (ou decrescente) e assinalar, em outra coluna paralela, o número de vezes que cada um

desses valores foi observado, isto é, a frequência absoluta de cada valor. Uma terceira coluna será

destinada a indicar a frequência relativa com que cada um desses valores ocorreram na amostra. A

tabela assim obtida é denominada tabela de distribuição de frequências.

Exemplo 1 - Os dados a seguir referem-se ao número de lhotes de cadelas submetidas à insemi-

nação articial, no Hospital Veterinário da UEL, em 2005. Os seguintes números de lhotes foram
34 Capítulo 4. Estatística Descritiva

observados:

5 4 3 4 3 1 4 4 5 3 0 1 3 2 2
Dados Brutos:
3 2 3 4 2 3 3 1 1 3 3 4 2 4 2

Quando os dados estão dispostos sem qualquer ordem lógica, recebem o nome de dados brutos.

Ao organizarmos os dados brutos, em ordem crescente ou decrescente de grandeza,

obtemos o rol:

0 1 1 1 1 2 2 2 2 2 2 3 3 3 3
Rol:
3 3 3 3 3 3 4 4 4 4 4 4 4 5 5

Pode-se obter como informações pelo rol:

Li : limite inferior do rol, Li = 0;


Ls : limite superior do rol, Ls = 5;
A: amplitude total dos dados, que é a diferença entre o maior e o menor valor do rol

A = Ls − Li = 5 − 0 = 5.
Uma tabela de distribuição de frequência pode ser construída, tanto a partir dos dados

brutos como do rol. Para o exemplo em questão, tem-se:

Tabela 4.3  Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veterinário
da UEL em 2005.

Número de Filhotes Frequência Absoluta (fi ) Frequência relativa (fr %)

0 1 3,33

1 4 13,33

2 6 20,00

3 10 33,34

4 7 23,33

5 2 6,67

Fonte: Hospital Veterinário da UEL.

Para obter-se as frequências relativas, fr , divide-se cada frequência absoluta pelo tamanho
da amostra:
fi
fr = .
n

Essas frequências relativas costumam ser expressas em porcentagens:

fi
fr % = × 100.
n
Distribuição de frequências 35

Evidentemente a soma das frequências absolutas é igual ao número total das cadelas que foram

submetidas à inseminação articial.

Para se construir a Tabela 4.3, usando o R, os comandos são:


Filhotes = c(5,4,3,4,3,1,4,4,5,3,0,1,3,2,2,3,2,3,4,2,3,3,1,1,3,3,4,2,4,2)
(filhotes.caes = table(Filhotes))
(percentual.caes = round(100*prop.table(filhotes.caes), dig=2))
(tabela.filhotes = cbind(filhotes.caes, percentual.caes))
colnames(tabela.filhotes) = c(`Freq. Absoluta', `Percentual')
tabela.filhotes

4.2.2 Construção de uma distribuição de frequência para variáveis contínuas


Ao contrário das variáveis discretas, as variáveis contínuas assumem, em geral, muitos

valores. Isto quer dizer que se usássemos as tabelas de frequências, como no caso das variáveis

discretas teríamos uma tabela com muitas linhas, tornando-a pouco operacional. Para contornar

este problema usa-se descrever as variáveis numéricas contínuas através de tabelas de classes de
frequências ou tabelas de intervalo.
Considere os seguintes dados, referentes aos pesos (kg) de cães das raças Fila brasileiro

e Pastor Alemão, coletados no Hospital Veterinário da UEL em 2003.

Dados Brutos
5,5 19,0 28,0 30,0 33,0 40,0 40,0 40,3 40,5 12,6

12,6 14,2 14,2 17,5 17,5 18,0 19,0 19,2 21,0 21,0

27,0 27,0 27,0 27,2 28,0 28,0 30,0 30,0 39,8 13,5

O que se pode dizer sobre os cães com base nestes dados? É possível ter uma ideia clara,

apenas observando os números? O passo seguinte, optativo, poderia ser a obtenção do rol:

Rol
5,5 12,6 12,6 13,5 14,2 14,2 17,5 17,5 18,0 19,0

19,0 19,2 21,0 21,0 27,0 27,0 27,0 27,2 28,0 28,0

28,0 30,0 30,0 30,0 33,0 39,8 40,0 40,0 40,3 40,5
36 Capítulo 4. Estatística Descritiva

Qual o número de classes a ser usado? O número ideal de classes a ser utilizado em

uma tabela, pode depender mais do bom senso do pesquisador, de acordo com seus interesses e

necessidades, do que de regras pré-estabelecidas. Um exemplo disso é a Tabela 4.4 que mostra os

cios observados, segundo a classicação de Gaines .


1

Tabela 4.4  Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça Holan-
dês, segundo a classicação de Gaines (1994).

Intervalos entre cios (dias) Percentual (%)

0⊢ 3 0,1

4 ⊢ 17 6,3

18 ⊢ 24 44,6

25 ⊢ 35 5,8

36 ⊢ 48 16,3

> 48 27,0

Caso não haja, por parte do pesquisador, um motivo para o uso de intervalos de classes

diferentes, pode-se optar pela utilização de uma das regras para se construir os intervalos de classes.

Dentre as várias regras existentes, duas tem sido adotadas:

a) Critério de Sturges - Herbert Sturges2 considera um histograma de frequências idealizado com k


(k−1)
divisões, sendo que a i-ésima divisão é dada pelo coeciente binomial
i , i = 0, 1, . . . , k − 1.
Quando k aumenta, este histograma se aproxima da forma de uma densidade normal. O tamanho

amostral total é dado por:

k−1 (
∑ )
k−1
n= = (1 + 1)k−1 = 2k−1
i
i=0

1
Gaines, J.D. Proceedings for annual meeting. Kansas City: Society for Theriogenology, 1994. Analysis of repro-
ductive eciency of dairy herds : p.86-107.
2
Sturges, H. The choice of a class-interval. J. Amer. Stat. Association, 21, 6566, 1926.
Distribuição de frequências 37

Aplicando-se logaritmos em ambos os membros, tem-se:

log2 n = log2 2k−1

log2 n = k − 1

k = 1 + log2 n

e, fazendo-se transformação da base logarítmica, chega-se a:

log10 n log10 n
k = 1+ =1+
log10 2 0, 301029

k = 1 + 3, 3 × log n

que é o número de classes sugeridas, por este critério;


b) Critério da Raiz Quadrada - tem-se k = n.

Outras regras para escolha do número de classes de um histograma são sugeridas na

literatura. Para o exemplo em questão, o número de classes recomendado será dado por:

k = 1 + 3, 3 × log 30

= 1 + 3, 3 × 1, 4771 ou k= 30 = 5, 4772.
= 5, 8745

Logo, serão utilizadas, aproximadamente, k=6 classes ou intervalos para representar a

distribuição dos dados. A amplitude de cada intervalo será:

amplitude total 40, 5 − 5, 5


a = = = 5, 9579.
número de classes 5, 8745

Assim, os dados poderão ser resumidos em 6 classes de amplitude a = 6 kg como amplitude das

classes.

A primeira classe de frequências é um intervalo do tipo l ⊢ (l + a), a segunda (l + a) ⊢


(l + 2a) e assim sucessivamente. Com este tipo de notação estamos indicando que o intervalo é

fechado à esquerda e portanto pertencem à classe valores iguais ao extremo inferior dessa classe.

Também estamos indicando que o intervalo é aberto à direita e portanto não pertencem à classe

valores iguais ao extremo superior.


38 Capítulo 4. Estatística Descritiva

Assim, tem-se:

Tabela 4.5  Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor
Alemão, coletados no Hospital Veterinário da UEL, em 2003.

Pesos (kg ) Ponto médio Frequências absolutas (fi ) Frequências relativas (fr %)

5 ⊢ 11 8 1 3,33

11 ⊢ 17 14 5 16,67

17 ⊢ 23 20 8 26,67

23 ⊢ 29 26 7 23,33

29 ⊢ 35 32 4 13,33

35 ⊢ 41 38 5 16,67

Fonte: Hospital Veterinário da UEL

A construção da Tabela 4.5 simplicou muito a interpretação dos dados, com apenas seis

classes (linhas) conseguiu-se condensar os 30 dados. Com uma rápida olhada na tabela já se nota que

a maioria dos cães concentram-se nas classes centrais, ou seja, entre 17 e 29 quilos, havendo poucos

animais nas classes extremas. No entanto isto tem um preço, por exemplo, tudo que se sabe agora

é que apenas um valor está entre 5, 0 e 11, 0 kg , cinco valores estão entre 11, 0 e 17, 0 kg , e assim

por diante. Mas não se sabe quais são esses valores. Dessa forma, como não se conhece os dados

originais, como acontece muitas vezes em certas publicações cientícas, deve-se utilizar o ponto médio

da classe, como um valor representativo. Assim, tudo se passa como se os dados originais fossem

constituídos por um valor igual a 8 kg , por cinco valores iguais a 14, 0 kg , por oito valores iguais a

20, 0 kg , etc.

Para estruturar a tabela de frequências usando o R, basta utilizar o comando:


caes = c(5.5,19.0,28.0,30.0,33.0,40.0,40.0,40.3,40.5,12.6,
12.6,14.2,14.2,17.5,17.5,18.0,19.0,19.2,21.0,21.0,
27.0,27.0,27.0,27.2,28.0,28.0,30.0,30.0,39.8,13.5)
hist(caes, plot=F, breaks=c(5,11,17,23,29,35,41), right=F)

Caso queira construir a tabela da forma exata como apresentado na Tabela 4.5,

acrescente os seguintes comandos:


Distribuição de frequências 39

histo = hist(caes, plot=F, breaks=c(5,11,17,23,29,35,41), right=F)


histo.caes = cbind(c(histo$counts))
(prop = 100*round(prop.table(histo.caes), 4))
tab.caes = cbind(histo.caes, prop)
colnames(tab.caes) = c('fi', 'Percentual')
rownames(tab.caes) = c('5|-11','11|-17','17|-23','23|-29','29|-35','35|-41')
tab.caes

Exemplo: Dados brutos de ração (kg) utilizada em 40 dias em uma granja.

Dados Brutos (kg )


0,71 2,63 3,63 1,94 3,69 2,77 1,42 2,48 3,77 2,75

2,04 2,16 4,05 1,80 2,22 2,06 1,20 1,67 5,41 1,57

3,09 2,16 3,94 2,06 3,55 3,56 3,57 2,39 2,48 1,53

2,67 2,18 3,93 3,34 2,78 3,26 3,06 3,32 3,37 0,75

i) Encontre o número de classes para a construção de uma tabela para estes dados;

Solução:

ii) Encontre a amplitude total dos dados;

Solução:

iii) Encontre a amplitude das classes;

Solução:
40 Capítulo 4. Estatística Descritiva

iv) Dena os limites inferior e superior de cada classe:

Solução:

v) Construa a tabela com as frequências simples e acumuladas.

Solução:

4.3 Tabelas de dupla entrada


Um tipo de tabela muito importante e bastante utilizada é a tabela de dupla entrada,

em que os elementos da amostra ou da população são classicados de acordo com dois fatores, sendo

cada entrada relativa a um dos fatores. Exemplos são apresentados nas Tabelas 4.6 e 4.7. Os dados

apresentados na Tabela 4.7 foram obtidos na página do Instituto Brasileiro de Geograa e Estatís-

tica - IBGE, http://www.ibge.gov.br/estadosat/temas.php?sigla=rs&tema=pecuaria2012,


acessada em 05 de fevereiro de 2014.

Tabela 4.6  Acasalamentos fecundos e infecundos por raça.

Acasalamentos
Raças
Fecundos Infecundos

Charolesa 606 394

Indubrasil 508 632

Nelore 394 406

Fonte: Fictícia
Tabelas de dupla entrada 41

Tabela 4.7  Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012.

Estados
Pecuária Totais
Paraná Santa Catarina Rio Grande do Sul

Bovinos 9.413.937 4.072.960 14.140.654 27.627.551

Suínos 5.518.927 7.480.183 6.213.316 19.212.426

Ovinos 638.923 307.651 4.095.648 5.042.222

Equinos 325.837 122.565 468.691 917.093

Caprinos 176.130 57.243 100.283 333.656

Bubalinos 24.502 13.898 74.792 113.192

Muares 39.132 1.965 2.888 43.985

Asininos 1.710 925 1.747 4.382

Totais 16.139.098 12.057.390 25.098.019 53.294.507

Fonte: IBGE - 2012.

Para construir a Tabela 4.7, utilizando os dados diretamente do site do IBGE, bastam os seguintes

comandos do R:
pec_pr = read.csv2('http://www.ibge.gov.br/estadosat/download/pr_pecuaria2012.csv',
sep=';', head=F)
pr = data.frame(pec_pr[1:8, -3])

pec_sc = read.csv2('http://www.ibge.gov.br/estadosat/download/sc_pecuaria2012.csv',
sep=';', head=F)
sc = data.frame(pec_sc[1:8, -3])

pec_rs = read.csv2('http://www.ibge.gov.br/estadosat/download/rs_pecuaria2012.csv',
sep=';', head=F)
rs = data.frame(pec_rs[1:8, -3])

rebanhos = data.frame(PR=pr, SC=sc[ , 2], RS=rs[ , 2])


pecuaria = data.frame(rebanhos[with(rebanhos, order(-RS)), ])
names(pecuaria) = c('Pecuária', 'Paraná', 'Santa Catarina', 'Rio Grande do Sul')

require(xtable)
xtable(pecuaria)
Capítulo 5

Grácos
O objetivo da representação gráca é apresentar de maneira clara, rápida e objetiva os

dados coletados na primeira fase do trabalho estatístico. Um gráco tem a função de transmitir uma

idéia visual do comportamento de um conjunto de valores, de forma a se poder tirar conclusões claras

de tabelas complicadas. Ele tanto serve para simplicar como pode facilmente enganar. Existem

algumas regras para a confecção de grácos, dadas a seguir:

a) toda representação gráca deve ter título, escala e fonte dos dados, de forma a dispensar qualquer

esclarecimento adicional;

b) a numeração dos grácos é feita utilizando-se algarismos arábicos;

c) a primeira série de variáveis deverá car no eixo das abscissas (X ). Consequentemente, a segunda

no eixo das ordenadas (Y );

d) as escalas devem crescer da esquerda para a direita e de baixo para cima;

e) as legendas explicativas devem ser colocadas, de preferência, à direita do gráco.

f ) as distâncias que indicam as unidades de escala devem ser rigorosamente uniformes;

g) ao lado da escala da abscissa deve ser escrita a característica relativa à mesma. Em cima da escala

da ordenada deve constar a característica correspondente. A razão da altura para a largura pode

variar de 60% a 80% para que a gura tenha boas proporções (simetria e equilíbrio);

Existem inúmeras formas grácas interessantes, serão apresentados apenas alguns tipos

de grácos.

42
Apresentação gráca de variáveis qualitativas 43

5.1 Apresentação gráca de variáveis qualitativas


5.1.1 Gráco em colunas
O gráco em colunas e em barras consistem em construir retângulos, em que uma das

dimensões é proporcional à magnitude a ser representada (ni ou fi ), sendo a outra arbitrária, porém

igual para todas as colunas ou barras. Essas colunas são dispostas paralelamente umas às outras,

horizontal ou verticalmente. Além do título e fonte de referências devemos observar o seguinte:

a) as barras devem ter todas a mesma largura;

b) a distância entre as barras deve ser constante e de preferência menor que a largura das barras.

Considere o gráco em colunas apresentado na Figura 5.1:


120

100

80
Frequências

60

40

20

0
Pastor
Pinscher Alemão Poodle Rottweiller SRD Outros

Raças dos Cães

Figura 5.1  Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina
em 2003.

O programa R para construir o gráco de colunas dos dados absolutos é dado por:

caes = c(37, 20, 19, 16, 75, 103)


names(caes) = c("Pinscher","Pastor \n Alemão","Poodle","Rottweiller","SRD","Outros")
par(mai=c(1,1,.2,.2))
barplot(caes, ylim=c(0, 120), space=0.6, xlab="Raças dos Cães", ylab="Frequências",
col="LightYellow", las=1, cex.axis=1, cex.names=1, cex.lab=1)
abline(h=0, lwd=1)
44 Capítulo 5. Grácos

Nem sempre é interessante utilizar os dados absolutos no eixo das ordenadas. É de uso

mais frequente apresentá-la utilizando-se a porcentagem. A Figura 5.2 apresenta os mesmos dados

utilizados na Figura 5.1, só que transformando os valores absolutos em porcentagem.

40

30
Percentuais (%)

20

10

0
Pastor
Pinscher Alemão Poodle Rottweiller SRD Outros

Raças dos Cães

Figura 5.2  Percentual de raças caninas atendidas no Hospital Veterinário da Universidade Estadual
de Londrina em 2003.

Observe o cálculo das porcentagens nos comandos do R:

caes = c(37, 20, 19, 16, 75, 103)


names(caes) = c("Pinscher","Pastor \n Alemão","Poodle","Rottweiller","SRD","Outros")
caes.prop = round(100*prop.table(caes), 2)
par(mai=c(1,1,.2,.2))
barplot(caes.prop, ylim=c(0, 40), space=0.6, las=1, xlab="Raças dos Cães",
ylab="Percentuais (%)", col="LightYellow", cex.axis=1, cex.names=1, cex.lab=1)
abline(h=0, lwd=1)

Observe que neste caso, são fornecidos os totais observados para cada categoria. Caso

o gráco fosse construído a partir de um banco de dados, seria necessário tabular os valores de cada

categoria primeiro. Considere os dados dos pers dos alunos do curso de Medicina Veterinária do ano

de 2011. Na Figura 5.3 são apresentados os resultados para a cor dos olhos, em porcentagem.
Apresentação gráca de variáveis qualitativas 45

80

60
Percentual (%)

40

20

0
Castanhos Verdes Azuis Pretos

Cor dos olhos

Figura 5.3  Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Universidade
Estadual de Londrina em 2011.

O programa R para construir o gráco de colunas percentual a partir de um banco de dados é dado

por:

rm(list=ls())
require(foreign)
perfil = read.epiinfo('http://www.uel.br/pessoal/silvano/Veter/Dados/Perfil2011.rec')
names(perfil) ; attach(perfil)
(tab.olhos = table(Q6))
names(tab.olhos) = c('Azuis','Castanhos','Pretos', 'Verdes')
barplot(tab.olhos, xlab="Cor dos olhos", ylab="Frequências", col="LightYellow", las=1)
abline(h=0, lwd=1)
#-------------------------------------
# Ordenando por valores decrescentes -
#-------------------------------------
(tab.olhos.ord = sort(tab.olhos, decreasing = T))
barplot(tab.olhos.ord, xlab="Cor dos olhos", ylab="Frequências",
col="LightYellow", las=1)
abline(h=0, lwd=1)
#----------------------------
# Utilizando os percentuais -
#----------------------------
46 Capítulo 5. Grácos

par(mai=c(1,1,.15,.2))
barplot(100*prop.table(tab.olhos.ord), ylim=c(0,80), xlab="Cor dos olhos",
ylab="Percentual (%)", col="LightYellow", las=1, space=0.7)
abline(h=0, lwd=1)

Quando os rótulos dos eixos (atributo) da variável são longos, pode-se optar pelo gráco

de barras.

5.1.2 Gráco em barras


Considerando o mesmo conjunto de dados dos cães, utilizados na construção do gráco

de colunas, pode-se construir o gráco em barras que é apresentado na Figura 5.4.

Outros

SRD

Pinscher
Raças dos Cães

Pastor
Alemão

Poodle

Rottweiller

0 20 40 60 80 100 120
Frequências

Figura 5.4  Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina
em 2003.

Observar que, em termos de programação R, o que diferencia o gráco de colunas do

gráco de barras é o comando horiz=T e a denição dos limites para o eixo X.


Apresentação gráca de variáveis qualitativas 47

caes = c(37, 20, 19, 16, 75, 103)


names(caes) = c("Pinscher", "Pastor \n Alemão", "Poodle", "Rottweiller", "SRD", "Outros")
(caess = sort(caes, decreasing=F))
names(caess) = c('Rottweiller','Poodle','Pastor \n Alemão',
'Pinscher','SRD','Outros')
par(mar=c(4.5, 6.7, 1, 1), mgp=c(5.5, .5, 0))
barplot(caess, las=1, horiz=T, space=.7, col="LightYellow", ylab="Raças dos Cães",
xlab="", bty='l', xlim=c(0,120), cex.axis=1, cex.names=1)
mtext("Frequências", side=1, line=2)
abline(v=0)

5.1.3 Gráco em colunas justapostas


Quando uma das variáveis qualitativas tem mais de um nível, uma forma de apresentação

comumente usada é através do gráco de colunas justapostas, que consiste em colocar lado-a-lado

os níveis da variáveis.

Considere os dados apresentados na Tabela 4.7. Vamos comparar o número de cabeças

da produção pecuária dos estados do sul do Brasil, levando em consideração apenas as duas maiores

produções, que são os bovinos e suínos. A comparação é apresentada na Figura 5.5.

1500

Bovinos
Suínos

1000
Número de cabeças
(x 10.000)

500

0
Rio Grande do Sul Paraná Santa Catarina

Estados

Figura 5.5  Produção pecuária dos estados do sul do Brasil no ano de 2012.
48 Capítulo 5. Grácos

Os comandos do R para construção do gráco de colunas justapostas são dados por:

rm(list=ls())
cabecas=c(14140654, 9413937, 4072960,
6213316, 5518927, 7480183,
4095648, 638923, 307651,
468691, 325837, 122565,
100283, 176130, 57243,
74792, 24502, 13898,
2888, 39132, 1965,
1747, 1710, 925)/10000
(dados = matrix(cabecas, nrow=8, byrow=T))
rownames(dados) = c('Bovinos','Suínos','Ovinos','Equinos','Caprinos',
'Bubalinos','Muares','Asininos')
colnames(dados) = c('Rio Grande do Sul','Paraná','Santa Catarina')
dados
#-----------------------------
# Apenas Bovinos e Suínos -
#-----------------------------
(parte = dados[1:2, 1:3])
par(mai=c(1, 1.2, .2, .2))
ylim = range(0, 1600, by=300)
barplot(parte, beside=T, col = c("lightgreen", "lightblue"), ylim=ylim,
angle=c(90, 0), xlab="Estados", ylab='', las=1)
legend(7, 1400, angle=c(90,0), legend=rownames(parte), bty='n',
fill=c('lightgreen','lightblue'), cex=1)
mtext('Número de cabeças \n (x 10.000)', side=2, line=4)
abline(h=0)

5.1.4 Gráco em colunas compostas

Pode-se comparar os níveis de uma variável dentro de cada categoria em uma única

coluna. Esta forma de apresentação é através do gráco de colunas compostas apresentado na Figura

5.6.

Considere os dados apresentados na Tabela 4.7. Vamos comparar o número de cabeças

da produção pecuária dos estados do sul do Brasil, levando em consideração apenas as duas maiores

produções, que são os bovinos e suínos. A comparação é apresentada na Figura 5.6.


Apresentação gráca de variáveis qualitativas 49

2000
Bovinos
Suínos

1500
Número de cabeças
(x 10.000)

1000

500

0
Rio Grande do Sul Paraná Santa Catarina

Estados

Figura 5.6  Produção pecuária dos estados do sul do Brasil no ano de 2008.

Os comandos do R para construção do gráco de colunas compostas são dados por:

cabecas=c(14115643, 9585600, 3864724, 5320252, 4631600, 7846398, 4009938, 579764,


4009938, 579764, 256965, 454938, 393544, 101943, 94545, 167382, 55995,
70868, 27918, 23295, 3867, 44684, 2182, 1600, 1988, 708)/10000
(dados = matrix(cabecas, nrow=8, byrow=T))
rownames(dados) = c('Bovinos', 'Suínos', 'Ovinos', 'Equinos', 'Caprinos',
'Bubalinos', 'Muares', 'Asininos')
colnames(dados) = c('Rio Grande do Sul','Paraná','Santa Catarina')
(parte = dados[1:2,1:3])
par(mai=c(1,1,.2,.2))
ylim = range(0, 2000, by=200)
barplot(parte, beside=F, las=1, col=c("green", "blue"), ylim=ylim, angle=c(90,0),
density=c(15,15), xlab="Estados", ylab="Número de cabeças \n (x 10.000)")
legend(2.8, 2000, angle=c(90,0), legend=rownames(parte), bty='n', density=c(20,20),
fill=c('green','blue'), cex=1)
abline(h=0)
50 Capítulo 5. Grácos

5.1.5 Gráco em setores circulares


É uma forma adequada de se visualizar a proporção que cada categoria representa em

relação ao total dos dados, permitindo comparações entre as categorias. Constitui-se num círculo no

qual são destacados, v setores circulares, cada qual com área proporcional à frequência do i-ésimo

valor assumido pela variável.


 n − 360o 360
=⇒ θio = fi .
 f − θio n
i

Tomando-se os dados da Tabela ??, tem-se v = 3, desse modo, o círculo será dividido em três setores
circulares. Assim, o número total de observações, n = 38.650, corresponde ao total dos graus, 360o
e a frequência fi corresponde ao ângulo θio . Assim, tem-se:

360 360
θ1o = × 20.650 = 192, 34o θ2o = × 12.300 = 114, 57o
38.650 38.650

360
θ3o = × 5.700 = 53, 09o
38.650

Figura 5.7  Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de
Londrina, no ano de 2005.

O programa R para construção do gráco de setores é dado por:

anim = c(650, 230, 70)


names(anim) = paste(c("Pequeno Porte", "Médio Porte", "Grande Porte"),
Apresentação gráca de variáveis qualitativas 51

round(100*anim/sum(anim), dig=1), "%")


pie(anim, col=c("LightYellow","white", "green"),
cex=1.3, border="red", clockwise=F)

Caso se queira incluir os nomes das categorias dentro do gráco, bastam os seguintes comandos:

#---------------------------------------
# Incluindo os nomes dentro do gráfico -
#---------------------------------------
par(mar=c(1, 1, 1, 1))
pie(anim, labels=`', col=c("LightYellow", "white", "green"), radius=1)
text(0, .5, "Pequeno Porte \n (68,4%)", col= "black", cex=.9)
text(0.2, -.5, "Médio Porte \n (24,2%)", col= "black", cex=.9)
text(0.7, -.15, "Grande Porte \n (7,4%)", col= "black", cex=.9)

O resultado é apresentado na Figura 5.8.

Pequeno Porte
(68,4%)

Grande Porte
(7,4%)

Médio Porte
(24,2%)

Figura 5.8  Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de
Londrina, no ano de 2005.
52 Capítulo 5. Grácos

5.1.6 Gráco em setores retangulares


Uma forma interessante de apresentação gráca do relacionamento entre duas variáveis

qualitativas é utilizando o gráco de setores retangulares.

A Figura 5.9 mostra o sentimento das pessoas em relação à tolerância ao cigarro. Os

dados são apresentados no livro de Magalhães & Pedroso e integram as informações de um questionário

estudantil.

Indiferente Incomoda muito Incomoda pouco

14 % 32 % 28 %
Feminino
Gênero

Masculino 6 % 14 %

6 %

Tolerância ao Cigarro

Figura 5.9  Relação entre tolerância ao cigarro e gênero dos estudantes.

O programa R para construção do gráco de setores é dado por:

pedroso = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/questionario.txt",
head=T, dec=".", sep="")
attach(pedroso)
Sexo = factor(Sexo, label=c("Feminino", "Masculino"))
Toler = factor(Toler, label=c("Indiferente", "Incomoda muito", "Incomoda pouco"))
dupla.ent.p = round(100*prop.table(table(Toler, Sexo)), 2)
par(mar=c(3.1, 2.7, 1, 1), cex.lab=1.2, col.lab='black')
plot(dupla.ent.p, col="LightYellow", xlab="Tolerância ao Cigarro", ylab='Gênero',
main='', las=1, cex.axis=1.1)
text(.25, .65, paste(dupla.ent.p[1,1],'%', sep=' '), col= "red", cex=1.1)
text(.49, .65, paste(dupla.ent.p[2,1],'%', sep=' '), col= "red", cex=1.1)
text(.82, .65, paste(dupla.ent.p[3,1],'%', sep=' '), col= "red", cex=1.1)
text(.25, .12, paste(dupla.ent.p[1,2],'%', sep=' '), col= "blue", cex=1.1)
Apresentação gráca de variáveis discretas 53

text(.49, .05, paste(dupla.ent.p[2,2],'%', sep=' '), col= "blue", cex=1.1)


text(.83, .12, paste(dupla.ent.p[3,2],'%', sep=' '), col= "blue", cex=1.1)

5.2 Apresentação gráca de variáveis discretas


Para variáveis quantitativas discretas, a representação gráca pode ser feita utilizando-se

o gráco de bastão.

5.2.1 Gráco em bastão


Este gráco é constituído de linhas verticais ou horizontais traçadas num eixo de coorde-

nadas cartesianas. Na Figura 5.10 é apresentado o gráco de bastão relativo aos dados da Tabela 4.3.

10

6
Freqüências

0
0 1 2 3 4 5

Número de Filhotes

Figura 5.10  Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veteri-
nário da UEL em 2003.

O programa R para construção do gráco de bastão é dado por:

Filhotes = c(5, 4, 3, 4, 3, 1, 4, 4, 5, 3, 0, 1, 3, 2, 2, 3,
2, 3, 4, 2, 3, 3, 1, 1, 3, 3, 4, 2, 4, 2)
sort(Filhotes)
(tab.cad = table(Filhotes))
par(mai=c(1,1,.2,.3),mgp=c(3, 1, 0))
54 Capítulo 5. Grácos

plot(tab.cad, xlab="Número de Filhotes", ylab="Frequências",


col="red", lwd=2, type="h", bty="l", cex.axis=1.3, las=1)
abline(h=0)

5.3 Apresentação gráca de variáveis contínuas


A representação gráca de dados relativos a uma variável contínua, dispostos em uma

tabela de classes de frequências, pode ser feita através de um histograma ou polígono de frequências.

5.3.1 Histograma
É uma sequência de retângulos justapostos, em que cada retângulo tem como base a

amplitude do intervalo e como altura as respectivas frequências (absoluta ou relativa). A Figura 5.11

mostra a distribuição do número de atendimentos diários, do Hospital Veterinário, da Universidade

Estadual de Londrina, nos últimos 50 dias.

20

15
Frequências

10

0
12 18 24 30 36 42 48 54

Número de atendimentos

Figura 5.11  Número de atendimentos diários, do Hospital Veterinário, da Universidade Estadual de


Londrina, nos últimos 50 dias.

Pode-se notar que a distribuição dos dados é aproximadamente simétrica e não apresenta

grande variabilidade e, ainda, que o número de atendimentos diários mais comum está entre 30 e 36
Apresentação gráca de variáveis contínuas 55

atendimentos/dia.

O programa R para construção do gráco de bastão é dado por:

atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
par(mai=c(1, 1, .2, .2))
hist(atend, breaks=c(12,18,24,30,36,42,48,54), freq=T, right=F, col="red", main="",
ylim=c(0,20), las=1, xaxt="n", xlab='', ylab='Frequências', border="blue", density=10)
mtext('Número de atendimentos', side=1, line=2) ; abline(h=0)
axis(1, at = c(12,18,24,30,36,42,48,54), line=-1)

Obs.: Caso queira acrescentar os valores observados no gráco, basta acrescentar o comando labels=T.

5.3.2 Polígono de frequências


Pode ser usado como alternativa para o histograma. Para se traçar o polígono de frequências,

une-se os pontos cujas abscissas são os pontos médios das classes e as ordenadas são as respectivas frequências.

Depois para fechar o polígono unimos os extremos da gura com o eixo das abscissas, nos pontos em que

estariam os pontos médios de uma classe imediatamente inferior à primeira e de uma classe imediatamente

superior à última.

20

15
Frequências

10

0
9 15 21 27 33 39 45 51 57

Pontos Médios

Figura 5.12  Número médio de atendimentos diários, do Hospital Veterinário, da Universidade Esta-
dual de Londrina, nos últimos 50 dias.

Os comandos do R para construção do polígono de frequências são dados por:


56 Capítulo 5. Grácos

atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
(histo = hist(atend, breaks=c(12,18,24,30,36,42,48,54), las=1, freq=T, right=F, xlab='',
ylab="Frequências", col="LightYellow", main="", ylim=c(0,20), plot=F))
(pontos.medios = c(9, histo$mids, 57))
(fr = c(0, histo$counts, 0))
par(mai=c(1,1,.2,.2))
plot(pontos.medios, fr, type="l", lwd=2, bty="l", xlab="Pontos Médios",
ylab="Frequências", col="red", main="", ylim=c(0,20),las=1, xaxt="n")
axis(1, at=c(pontos.medios))
abline(h=0)

5.3.3 Gráco de ramo-e-folhas


Agrupar os dados em classes condensa os dados originais e, como resultado, algum detalhe é

perdido. Uma vantagem do ramo-e-folhas é que as observações individuais são preservadas, enquanto que

no histograma elas são perdidas.

Considere os dados relativos ao número de atendimentos diários, do Hospital Veterinário, da

Universidade Estadual de Londrina, nos últimos 50 dias.

12 15 16 18 19 20 22 23 23 24 25 26 26 27 27 27 28 28 28 29 29 30 30 30 31
31 31 32 32 32 32 33 33 33 33 33 34 35 35 36 36 37 38 39 39 41 42 43 45 49

5.3.3.1 Construção de um gráco ramo-e-folhas


a) Denir a unidade de medida que dividirá cada valor em duas partes: ramo e folha. Para o conjunto de

dados do número de atendimentos no Hospital Veterinário, a divisão foi separar a dezena da unidade,

considerando-se que os dados pertencentes ao intervalo 0 a 4, cam em um ramo e de 5 a 9 em outro:

12 ⇒ ramo = 1 e folha = 2

15 ⇒ ramo = 1 e folha = 5

16 ⇒ ramo = 1 e folha = 6

18 ⇒ ramo = 1 e folha = 8

19 ⇒ ramo = 1 e folha = 9

45 ⇒ ramo = 4 e folha = 5

49 ⇒ ramo = 4 e folha = 9
Apresentação gráca de variáveis contínuas 57

b) Escrever os ramos em ordem crescente verticalmente e passar uma linha vertical à direta deles.

c) Associar cada folha ao respectivo ramo.

d) Ordenar, em cada ramo, as folhas em ordem crescente da esquerda para a direita.

Assim, o gráco de ramos-e-folhas para os dados do número de atendimentos é:

1 | 2
1 | 5689
2 | 02334
2 | 56677788899
3 | 0001112222333334
3 | 55667899
4 | 123
4 | 59

Os comandos do R para construção do polígono de frequências são dados por:

atend=c(49,39,42,43,45,22,23,24,25,23,32,30,31,32,33,12,15,16,19,20,18,30,31,32,33,
33,26,26,27,28,28,27,33,30,31,32,33,29,29,27,28,41,39,38,35,37,35,34,36,36)
stem(atend)

Obs.: note que o resultado é mostrado no console do R e não em uma janela gráca.

5.3.4 Gráco de Caixas (ou Box Plot )


O chamado gráco de caixa (ou box plot, box-whisker plot ), tem por nalidade a detecção de

observações discrepantes e o estudo da simetria da distribuição.

O gráco de caixas dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes.

A posição central é dada pela mediana e a dispersão por dq . As posições relativas de q1 , q2 , q3 dão uma noção

da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos

valores remotos e pelos pontos atípicos (Bussab & Morettin, 2003).

A Figura 5.13 mostra a comparação, através do gráco de caixas, dos pesos (g) de tilápias do

nilo, coletados por quatro equipes de alunos do curso de Medicina Veterinária, no tanque de piscicultura da

Universidade Estadual de Londrina, no ano de 2003.


58 Capítulo 5. Grácos

500

450

400
Pesos (g) +
+ + +
350

300

250

1011 1012 2021 2022

Equipes

Figura 5.13  Comparação de pesos (g) de tilápias para quatro equipes de alunos do curso de Medicina
Veterinária da Universidade Estadual de Londrina em 2003.

A determinação dos quartis e demais valores para a construção do gráco de caixas será visto

no Capítulo 6.

Os comandos do R para construção do gráco de caixas são dados por:

tilapia = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
head=T, dec='.')
attach(tilapia)
names(tilapia)
(medias = tapply(Peso, factor(Equipe), mean))
par(mai=c(1,1,.2,.2))
boxplot(Peso~factor(Equipe), xlab='Equipes', ylab='Pesos (g)', las=1, bty='l',
col="LightYellow", pch=19, outline=F)
points(medias, pch="+", cex=1.5, col="blue")

5.3.5 Gráco de dispersão


É aquele em que cada dado é representado por um ponto (X, Y ) do sistema de coordenadas

cartesianas. O objetivo deste tipo de diagrama é vericar se existe algum tipo de associação entre as variáveis

observadas.
Apresentação gráca de variáveis contínuas 59

500

450

400
Peso (g)

350

300

250

200

22 24 26 28 30

Comprimento (cm)

Figura 5.14  Relação entre peso e comprimento de tilápias do Nilo, do tanque de piscicultura da
Universidade Estadual de Londrina, 2003.

Da Figura 5.14 nota-se uma relação linear crescente entre as variáveis Peso e Comprimento. No

Capítulo ?? será estudado como ajustar uma equação linear a um conjunto de dados.
Deve-se tomar cuidado na análise deste tipo de gráco, uma vez que as variáveis correlacionadas

não necessariamente estão sujeitas a uma relação de causa e efeito.

Os comandos do R para construção do gráco de dispersão são dados por:

tilapia = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
header=TRUE, dec=",")
attach(tilapia)
names(tilapia)
par(mai=c(1, 1, .2, .2))
plot(Peso ~ Comp, las=1, xlab="Comprimento (cm)", ylab="Peso (g)", pch=19, col="blue",
cex=1.2, bty="l")
detach(tilapia)

5.3.6 Gráco de Setores Proporcionais


Uma forma interessante de apresentar a relação entre três variáveis é através do gráco de

setores proporcionais. Ele é uma variação do gráco de dispersão, sendo que a magnitude do círculo indica a

contribuição de uma terceira variável.


60 Capítulo 5. Grácos

A Figura 5.15 mostra a relação entre o peso (g) e comprimento (cm) das tilápias do Nilo,

controladas pelo tempo (s) de recuperação da anestesia. A variável Tempo de Recuperação é indicada pelo

raio de cada circunferência. Quanto maior o raio, maior o tempo que o animal levou para se recuperar da

anestesia.

500

400
Pesos (g)

300

200

22 24 26 28 30 32

Comprimento (cm)

Figura 5.15  Relação entre peso e comprimento de tilápias do Nilo, controladas para a variável tempo
de recuperação da anestesia, do tanque de piscicultura da Universidade Estadual de
Londrina, 2003.

A Figura 5.15 mostra que há tilápias que demoraram mais tempo a se recuperar da anestesia. Os comandos

do R para construção do gráco de setores proporcionais são dados por:

tilapias = read.table('http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt',
head=T, dec=',')
attach(tilapias)
names(tilapias)
symbols(Peso~Comp, circles = Recup/500,
inches=F, bty="l", bg="LightGreen", xlab="Comprimento (cm)",
ylab="Pesos (g)", fg="blue", las=1)
Apresentação gráca de variáveis contínuas 61

5.3.7 Gráco de Linhas


Quando as observações são feitas ao longo do tempo, os dados são denominados temporais ou

longitudinais e uma representação adequada para este tipo de dados é o gráco de linhas. Consiste em colocar

no eixo horizontal do gráco a escala temporal (ano, mês, dia, etc) e no eixo vertical a variável a ser estudada

(frequência, taxa ou medida tomada). É usual unir os pontos através de segmentos de reta, daí o nome

recebido.

420

400

380
Pesos (g)

360

340

320

1 2 3 4 5 6 7 8

Semanas

Figura 5.16  Peso médio de 10 tilápias, do tanque de piscicultura da UEL, acompanhadas durante 8
semanas.

Os comandos do R para construção do gráco de linhas são dados por:

prod = read.table("http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt",
head=T, dec=",")
(dados=data.frame(Prod=sort(prod[1:8,4]), Semanas=1:8))
attach(dados)
par(mai=c(1,1,.2,.2))
plot(Semanas, Prod, las=1, xlab="Semanas", ylab="Pesos (g)", lwd=2.5, type="b",
bty="l", col="blue", xaxt='n')
axis(1, at=c(0,1,2,3,4,5,6,7,8))
detach(prod)

Um cuidado a se ter com grácos, é com as escalas adotadas. Muitas vezes uma mudança de

escala pode dar uma impressão errônea sobre a realidade dos acontecimentos.
62 Capítulo 5. Grácos

5.4 Ilusão dos Grácos


Embora os grácos sejam utilizados para que se tenha uma visualização mais rápida, clara e

objetiva do comportamento dos dados, muitas vezes eles são utilizados, de forma errônea, para dar uma

impressão que não condiz com a realidade.

Para o propósito de mostrar uma aplicação gráca ilusória, considere os dados (ctícios) apre-

sentados na Tabela 5.1, referentes ao número de atendimentos realizados pelo Hospital Veterinário, da Uni-

versidade Estadual de Londrina, no primeiro semestre de 2003.

Tabela 5.1  Número de atendimentos no Hospital Veterinário, da Universidade Estadual de Londrina,


no primeiro semestre de 2003.

Meses Número de atendimentos

Janeiro 410

Fevereiro 430

Março 450

Abril 408

Maio 408

Junho 405

Fonte: Fictícia

Os grácos, com escalas diferentes, para representar os dados da Tabela 5.1, são dados pelas

Figuras 5.17 e 5.18.

450 450

400

440
350

300
Número de atendimentos

Número de atendimentos

430
250

200
420

150

100
410

50

400 0

Janeiro Fevereiro Março Abril Maio Junho Janeiro Fevereiro Março Abril Maio Junho

Meses Meses

Figura 5.17  Gráco distorcido. Figura 5.18  Gráco Correto.

Observe que na Figura 5.17 tem-se a impressão de que houve um número muito grande de
Ilusão dos Grácos 63

atendimentos comparado aos outros meses. Perceba que a escala do gráco começa em 400 atendimentos.

Já na Figura 5.18 a escala começa no zero e percebe-se que no mês de março houve, realmente, um número

maior de atendimentos, mas que a quantidade de atendimentos a mais não é tão signicativa quanto àquela

apresentada na Figura 5.17. Logo, cuidado ao analisar grácos, seja crítico.

Os comandos do R para construção desses grácos são dados por:

atend = c(410,430,450,408,408,405)
names(atend) = c('Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho')
barplot(atend-400, las=1, xlab='Meses', ylab='Número de atendimentos',
col='red', yaxt='n', space=0.6, density=10)
axis(2, at=seq(0,50, by=10), lab=seq(400,450, by=10), las=1)
abline(h=0, col='black', lwd=1)

barplot(atend, las=1, xlab='Meses', ylab='Número de atendimentos',


col='red', yaxt='n', space=0.6, density=10)
axis(2, at=seq(0,450, by=50), las=1)
abline(h=0, col='black', lwd=1)

Uma grande variedade de modelos grácos, aplicados às mais diversas áreas, pode ser encontrada

na seguinte página: http://bm2.genes.nig.ac.jp/RGM2/index.php?clear=all.


Capítulo 6

Medidas de Posição
Viu-se que o resumo de dados através de grácos e tabelas de frequências fornece muitas in-

formações sobre o comportamento de uma variável. Muitas vezes, deseja-se resumir ainda mais esses dados,

apresentando um ou alguns valores que sejam representativos do conjunto em estudo.

As medidas de posição são utilizadas para sintetizar, em um único número, o conjunto de

dados observados da variável em estudo. Usualmente emprega-se uma das seguintes medidas de posição (ou

localização) central: média, mediana ou moda.

6.1 Média Aritmética Simples


A medida de tendência central mais comumente usada para descrever resumidamente um

conjunto de dados, tabelados ou não, é a média aritmética simples, ou simplesmente média e representa-se

por ȳ . É denida como a soma das observações dividida pelo número delas.

Exemplo: Os pesos, em kg , de 10 coelhos da raça Nova Zelândia Branco foram anotados, obtendo-se os

seguintes valores:

3, 7 3, 8 4, 8 5, 1 3, 9 4, 1 4, 2 4, 0 4, 5 5, 0.

Logo, a média será:

3, 7 + 3, 8 + 4, 8 + 5, 1 + 3, 9 + 4, 1 + 4, 2 + 4, 0 + 4, 5 + 5, 0
ȳ = = 4, 31 kg.
10

Os comandos do R para o cálculo da média são dados por:


pesos = c(3.7, 3.8, 4.8, 5.1, 3.9, 4.1, 4.2, 4.0, 4.5, 5.0)
mean(pesos)

64
Média Aritmética Ponderada 65

Genericamente, seja y1 , y2 , . . . , yn os n valores da variável Y, obtidos pelo pesquisador. A

média aritmética pode ser escrita como:

1∑
n
ȳ = yi (6.1)
n i=1

sendo yi o valor observado do i-ésimo indivíduo e n o total de observações.

Quando dados de uma amostra de determinada população são utilizados, a média aritmética

calculada será uma estimativa, pois emprega-se apenas uma fração do conjunto total.

6.2 Média Aritmética Ponderada


A média aritmética é considerada ponderada se os valores observados tiverem pesos diferentes.

Este é o critério denido para o cálculo da média nal para a disciplina de Estatística do curso de Medicina

Veterinária, cujos pesos são:

Prova Peso (pi )

P1 1

P2 1

P3 2

P4 2

T 1

em que T é a nota obtida na listas; P 1 , P2 , P3 e P4 são as notas obtidas nas provas e os respectivos pesos.

Portanto, para calcular a média nal tem-se a média ponderada, dada por:

P1 + P2 + 2 × P3 + 2 × P4 + T
ȳ =
∑5
pi
i=1


5
em que o valor pi refere-se à soma dos pesos.
i=1

De forma genérica, tem-se:


n
yi × pi
i=1
ȳ =

n
pi
i=1
66 Capítulo 6. Medidas de Posição

sendo yi o valor que a variável recebe e pi seu respectivo peso.

Exemplo: Considere que as notas de um determinado aluno, obtidas na disciplina de Estatística, foram:

P1 P2 P3 P4 P5 T
Notas 8,5 6,5 7,7 9,0 7,5 10,0

Pesos 1 1 2 2 3 1

Calcule a média nal.

Solução:

Os comandos do R para o cálculo da média ponderada são:

Provas = c(8.5, 6.5, 7.7, 9.0, 7.5, 10.0)


pesos = c(1, 1, 2, 2, 3, 1)
(MF = weighted.mean(Provas, pesos))

Caso as observações estejam agrupadas em distribuições de frequências, o cálculo da média

passa a ser:


k
y i × fi
i=1
ȳ = ,

k
fi
i=1

sendo yi o valor observado (ou ponto médio da classe), k o número de classes e fi as frequências observadas.

Portanto, o cálculo da média para dados agrupados, nada mais é que o cálculo de uma média ponderada em
que os pesos são dados pelas frequências observadas.

Exemplo: Considere a distribuição de frequências dos pesos de cães das raças Fila Brasileira e Pastor Alemão,

atendidos no Hospital Veterinário da UEL em 2003 e apresentado na Tabela 6.1.


Média Geométrica 67

Tabela 6.1  Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor
Alemão, coletados no Hospital Veterinário da Universidade Estadual de Londrina, em
2003.

Pesos (kg) Freq. absolutas (fi ) Freq. Acum. (Fac ) Ponto médio (yi ) yi fi
5 ⊢ 11 1

11 ⊢ 17 5

17 ⊢ 23 8

23 ⊢ 29 7

29 ⊢ 35 4

35 ⊢ 41 5

Total 30

Fonte: Hospital Veterinário da UEL

Calcule a média de pesos dos animais.

Solução:

Os comandos do R para o cálculo da média para dados agrupados são:

yi = c(8,14,20,26,32,38)
fi = c(1,5,8,7,4,5)
(media = weighted.mean(yi, fi))

Obs.: A média sofre muita inuência de valores atípicos. Por outro lado, é ótima se a distribuição dos dados

for aproximadamente normal.

6.3 Média Geométrica


Quando os valores observados crescem de forma exponencial, a média aritmética pode não

representar bem o conjunto de dados. Neste caso, deve-se utilizar a média geométrica dos dados, que é

calculada por:

v
u n
√ u∏
ȳg = n y1 × y2 × . . . yn ou ȳg = t
n
yi (6.2)
i=1

A Contagem Bacteriana Total - CBT relaciona-se principalmente com práticas de higiene durante

a ordenha e limpeza do equipamento de ordenhar. Sendo assim, considere os dados apresentados na Tabela 6.2
68 Capítulo 6. Medidas de Posição

referentes a CBT encontrada no leite, considerando-se a temperatura de armazenamento e o tempo após a

ordenha.

Tabela 6.2  Efeito da temperatura de armazenamento e tempo após a ordenha sobre o crescimento
bacteriano.

Temperatura de Tempo de armazenamento

armazenamento (o C) 3 horas 9 horas 24 horas

4 9.000 9.000 10.000

15 10.000 46.000 5.000.000

25 18.000 1.000.000 57.000.000

35 30.000 35.000.000 800.000.000

Fonte: http://www.laticinio.net/inf_tecnicas.asp?cod=62

Obs.: O leite deve atingir a temperatura de 4 oC em no máximo 2 horas após a ordenha.

Determine a média geométrica do número de bactérias encontrada nos três tempos apresentados

na Tabela 6.2.

Solução:

Os comandos do R para o cálculo da média geométrica, entre outros, são:

require(psych)
cbt_3 = c(9000, 10000, 18000, 30000)
cbt_9 = c(9000, 46000, 1000000,35000000)
cbt_24 = c(10000, 5000000, 57000000, 800000000)
geometric.mean(cbt_3)
geometric.mean(cbt_9)
Média Geométrica 69

geometric.mean(cbt_24)

Observe que é necessário instalar o pacote psych. No caso de se utilizar o pacote asbio, os

comandos seriam:

require(asbio)
cbt_3 = c(9000, 10000, 18000, 30000)
G.mean(cbt_3)

Pode ser necessário o uso de logaritmos para o cálculo da média geométrica. Nesta situação,

aplica-se o logaritmo ao segundo termo da Equação (6.2), obtendo-se:

1
log ȳg = (log10 y1 + log10 y2 + · · · + log10 yn )
n

log10 y1 + log10 y2 + · · · + log10 yn


ȳg = 10 n

Caso as observações estejam agrupadas em distribuições de frequências, a média geométrica


ponderada passa a ser:


y1f1 × y2f2 × . . . ynfn
n
ȳg =
70 Capítulo 6. Medidas de Posição

Exemplo: Determine a média geométrica para os dados da Tabela (6.1).

Solução:

6.4 Mediana
A mediana, denotada por M d, é uma quantidade que, como a média, também procura caracteri-
zar o centro da distribuição de frequências quando os valores são dispostos em ordem crescente ou decrescente

de magnitude. É o valor que divide o conjunto ordenado de valores em duas partes com igual número de

elementos, ou seja, 50% das observações cam acima da mediana e 50% cam abaixo.

Para calcular a mediana deve-se, em primeiro lugar, ordenar os dados para que se possa localizar

a posição da mediana e assim encontrar seu valor. O número que indica a ordem ou posição em que se

encontra o valor correspondente à mediana é denominado elemento mediano (EM d ).

6.4.1 Determinação da mediana de valores não tabulados


Para determinar a mediana é preciso ordenar os dados; em seguida aplique um dos processos a

seguir:

a) A variável em estudo é discreta e n é ímpar. Neste caso a mediana será o valor da variável que ocupa a

posição:
n+1
EM d = .
2

Exemplo: O número de pacientes atendidos no Hospital Veterinário da UEL, nos últimos 11 dias foi:

10 12 11 17 21 18 16 17 20 15 27

Determine a mediana.
Mediana 71

Ordenados os valores, têm-se:

10 11 12 15 16 17 17 18 20 21 27.

Portanto, o elemento mediano será:


11 + 1
EM d = = 6,
2

ou seja, a mediana se encontra na sexta posição da lista ordenada de valores. Logo, a mediana neste

caso será: 17 pacientes.

Os comandos do R para cálculo da mediana são:


pacientes = c(10, 12, 11, 17, 21, 18, 16, 17, 20, 15, 27)
median(pacientes)

Obs.: Caso queira ordenar os elementos, o comando é:

sort(pacientes)

b) A variável em estudo é discreta e n é par. Neste caso a mediana, por convenção, será a média aritmética

dos valores que ocupam as posições:

( )
n n+2
EM d = e .
2 2

Exemplo: Acrescentando-se mais um dia aos dados do número de paciente atendidos pelo Hospital Vete-

rinário da UEL, tem-se:

10 11 12 14 15 16 17 17 18 20 21 27.

Portanto, a mediana será a média aritmética dos valores cujos elementos são:

( )
12 12 + 2
EM d = =6 e =7 .
2 2

16 + 17
Logo, Md = = 16, 5.
2
A mediana é uma medida resistente a valores atípicos (muito grandes ou muito pequenos).

Os comandos do R para cálculo da mediana são:


pac = c(10, 11, 12, 14, 15, 16, 17, 17, 18, 20, 21, 27)
median(pac)
72 Capítulo 6. Medidas de Posição

6.4.2 Mediana de dados agrupados em classes


Quando os valores da variável estiverem agrupados em classes, admite-se que os valores da

variável na distribuição de frequências distribuam-se continuamente. A mediana será, neste caso, o valor da

variável, para o qual 50% da frequência total (n/2) ca situada abaixo e outra metade acima. O elemento

mediano para dados agrupados em classes será n/2 (não importa se é par ou ímpar).

Para determinação da mediana aplica-se a seguinte fórmula:

(EM d − Fac−1 )
M d = Li + × a, (6.3)
fM d

sendo:

,→ Li = limite inferior da classe mediana;

,→ a = amplitude do intervalo de classe mediana;

,→ fM d = frequência simples (absoluta) da classe mediana;

,→ Fac−1 = frequência acumulada anterior à classe mediana;

Exemplo: Determinar a mediana dos dados da Tabela 6.1.

Todos os termos utilizados na Equação (6.3) são referentes à classe mediana; logo, deve-se,

primeiramente, determinar a classe mediana encontrando-se o elemento mediano, dado por:

n 30
EM d = = = 15.
2 2

Portanto, a classe mediana é: 23 ⊢ 29, uma vez que, até 29, tem-se 21 observações, e até 23 apenas 14.

Logo, substituindo-se os termos na expressão 6.3, tem-se:

(15 − 14)
Md = 23 + ×6
7
Md = 23, 86 kg.

6.5 Moda
Outra medida que pode ser utilizada é a moda, representada por Mo, denida como a

realização mais frequente do conjunto de valores observados.

Se dois valores ocorrem com a mesma frequência máxima, cada um deles será a moda, e o

conjunto se denomina bimodal. Se mais de dois valores ocorrem com a mesma frequência máxima, cada um

deles é uma moda, e o conjunto é multimodal. Quando nenhum valor é repetido, o conjunto não tem moda

(amodal). A moda pode ser obtida mesmo que a variável seja qualitativa.
Moda 73

Exemplo 1: Considere a estatura (em cm) dos alunos do curso de Medicina Veterinária:

155 161 163 163 168 168 168 169 172 175.

Logo, a altura modal entre esses alunos é M o = 168 cm, pois este valor se repetiu em maior número de vezes.

Os comandos do R para o cálculo da moda são dados por:


estat = c(155, 161, 163, 163, 168, 168, 168, 169, 172, 175)
tab.est = table(estat)
estat.mo = names(tab.est)[tab.est == max(tab.est)]
estat.mo

Exemplo 2: O conjunto de números 1, 2, 3, 4 e 5 não tem moda (Amodal).

Exemplo 3: O conjunto de números 1, 2, 2, 3, 4, 4 e 5 tem duas modas (bimodal), 2 e 4.

Exemplo 4: Considere os seguintes dados:

Tipo Sanguíneo Frequência

O 277

A 141

B 102

AB 37

O sangue tipo O ocorreu com maior frequência. Então a moda dessa amostra é sangue tipo O.

6.5.1 Moda para dados agrupados em classes


Para dados agrupados em uma tabela de distribuição de frequências para variáveis quantita-
tivas discretas, a determinação da moda é imediata, bastando, para isso, consultar na tabela, o valor que

apresenta maior frequência, sendo este a moda. Considerando-se os dados da Tabela 6.3, determine a moda.

Tabela 6.3  Tempo (em semanas) de sobrevida de ratos com câncer induzido experimentalmente.

Sobrevida (semanas) 2 5 6 7 8 9 30

Número de ratos 2 4 10 5 4 1 1

Neste caso, a moda é 6 semanas, pois é o valor que ocorre com maior frequência.

Para dados agrupados em uma tabela de distribuição de frequências para variáveis quantita-
tivas contínuas, pode-se utilizar um dos seguintes métodos:
a) Moda bruta - é o método mais rudimentar para o cálculo da moda em tabelas de frequências, com valores
agrupados em classes. Consiste em tomar o ponto médio da classe modal (aquela que apresenta maior

frequência).
74 Capítulo 6. Medidas de Posição

b) Método de Czuber1 - O processo para cálculo da moda para dados agrupados é o geométrico, a partir do
histograma de frequências. Este método é baseado na inuência que as classes adjacentes exercem sobre

a moda, deslocando-a no sentido da classe de maior frequência. Considere a Figura 6.1.

Figura 6.1  Esquema para obtenção da moda pelo método de Czuber, do número de atendimentos
do Hospital Veterinário da UEL, 2005.

Processo:

Na Figura 6.1, marca-se, na classe modal, os vértices A, B, C e D;

Traça-se retas AC e BD;

No ponto de intersecção dessas retas (E), traça-se uma perpendicular ao eixo das ordenadas, localizando

o ponto Mo , valor da moda;

O ponto Mo divide a intervalo da classe modal (a) em duas partes, cujos comprimentos são proporci-

onais a ∆1 e ∆2 , sendo ∆1 a diferença entre a frequência da classe modal e da classe imediatamente

anterior e ∆2 a diferença entre as frequências da classe modal e da imediatamente posterior;

Por E traça-se a reta FG paralela ao eixo das abscissas, obtendo-se, assim, os segmentos EF e EG,
que representam as alturas dos triângulos ABE e CDE ;

Sendo Li o limite inferior e Ls o limite superior da classe modal e x a distância entre Li e a moda

(Mo ), verica-se, da Figura 6.1 que:

Mo = Li + x; (6.4)

1
Emanuel Czuber: nasceu em 19/01/1851 em Praga, República Tcheca e morreu em 22/08/1925 em Gnigl, Austria.
Moda 75

Sendo os triângulos ABE e CDE semelhantes (pois possuem dois ângulos iguais), tem-se que:

EF AB
=
EG CD
x ∆1
=
a−x ∆2
x∆2 = a∆1 − x∆1
∆1
x = a (6.5)
∆1 + ∆2

Substituindo-se (6.5) em (6.4), tem-se:

∆1
M o = Li + × a, (6.6)
∆1 + ∆2

em que:

Li = limite inferior da classe modal;

a = amplitude do intervalo da classe modal;

∆1 = diferença entre a frequência da classe modal e a imediatamente anterior;

∆2 = diferença entre a frequência da classe modal e a imediatamente posterior;

c) Fórmula de Pearson - em distribuições moderadamente assimétricas pode ser usada a fórmula de Pearson,
dada por:

Mo ∼
= 3M d − 2x̄ (6.7)

em que:

Md = o valor da mediana;

x̄ = a média amostral;
76 Capítulo 6. Medidas de Posição

Exemplo: Determinar a moda pelos métodos: moda bruta, Czuber e Pearson da seguinte distribuição:

Classes fi Fi
10 ⊢ 20 10 10

20 ⊢ 30 15 25

30 ⊢ 40 20 45

40 ⊢ 50 15 60

50 ⊢ 60 8 68

60 ⊢ 70 2 70

Total 70

a) A classe modal é 30 ⊢ 40, logo, pelo método da moda bruta, tem-se que a moda é 35;

b) Pelo método de Czuber, tem-se:

∆1
Mo = Li + a,
∆1 + ∆2

5
Mo = 30 + 10 = 35.
5+5

c) Pelo método de Pearson, tem-se:

Mo ∼
= 3M d − 2x̄

Mo ∼
= 3 ∗ 35 − 2 ∗ 35, 29 = 34, 42.

Observações:

a) média, mediana e moda têm interpretações diferentes, mas ajudam igualmente a representar um conjunto

de dados. A média pode ser vista como ponto de equilíbrio das observações, a mediana como o ponto

médio e a moda como o ponto de máxima frequência;

b) dados categóricos (ou qualitativos) não tem média nem mediana, mas podem ter moda.

c) se a distribuição dos dados é absolutamente simétrica em torno de um valor central, então a média, a

mediana e a moda coincidem;

d) se a média for maior do que a moda, a distribuição de frequência tem assimetria positiva;

e) se a média for menor que a moda, tem-se assimetria negativa da distribuição de frequência;

Na seção 6.8, página 84, é apresentado formas de se calcular a assimetria e a curtose de uma

conjunto de dados.
Utilização das medidas de tendência central 77

6.6 Utilização das medidas de tendência central


a) Escolha da média:

i) quando a distribuição dos dados é pelo menos aproximadamente simétrica;

ii) quando for necessário obter posteriormente outros parâmetros que podem depender da média, como

por exemplo a variância, o desvio padrão, etc.

b) Escolha da mediana

i) quando há valores extremos;

ii) quando deseja-se conhecer o ponto central da distribuição;

iii) quando a distribuição dos dados é muito assimétrica.

c) Escolha da moda

i) quando a medida de interesse é o ponto mais típico ou popular dos dados;

ii) quando precisa-se apenas de uma rápida idéia sobre a tendência central dos dados.

6.7 Medidas Separatrizes


Dados simétricos são adequadamente descritos pela média e pelo desvio-padrão. Quando os

dados são assimétricos, a mediana identica mais adequadamente o centro de um conjunto de dados. Para

entender bem uma distribuição, pode-se conhecer valores acima ou abaixo dos quais se encontra uma determi-

nada porcentagem dos dados através da medidas separatrizes. Separatriz de uma série de n termos colocados

em ordem crescente de valor, é o termo da série que a divide em duas partes quaisquer. As principais separa-

trizes são a mediana, os quartis, os decis e os percentis.

6.7.1 Separatrizes de dados não agrupados


O percentil de ordem 100 p de um conjunto de valores dispostos em ordem crescente é um valor

tal que (100 p)% das observações estão nele ou abaixo dele e 100(1−p)% estão nele ou acima dele (0 < p < 1).
Assim, o percentil generaliza qualquer tipo de medida separatriz. Logo, tem-se:

i) o percentil de ordem 50 (P50 ) é a mediana;

ii) os percentis de ordens 25, 50 e 75, representados por P25 = Q1 , P50 = Q2 e P75 = Q3 , respectivamente,

são chamados quartis (inferior, mediano e superior).

Há vários métodos para o cálculo do percentil de ordem 100 p, ou seja P100 p . No R são

apresentados 9 métodos diferentes.


78 Capítulo 6. Medidas de Posição

Seja n o número de valores não nulos para uma variável e seja y 1 , y2 , · · · , yn representando os

valores ordenados, tal que y1 é o menor valor e yn o maior. Para um dado valor de p entre 0 e 1, o p-ésimo

percentil é o valor tal que a área a esquerda dele é p. O p-ésimo percentil é calculado como:

 y +y
 (i) (i+1)
, se f = 0
yp = 2
 y
(i+1) , se f > 0

em que i é a parte inteira e f é a parte fracionária de np = i + f . Aplicam-se aqui os critérios de arrendon-

damento. Para obter as medidas separatrizes por este método no R, basta optar pelo type = 2.

Um outro critério, que pode ser adotado, é considerar a estatística de ordem par mais próxima.

Neste caso, no R, basta escolher a opção type = 3.

Exemplo: Considere os seguintes comprimentos (cm) de tilápias do nilo:

29, 0 − 29, 5 − 29, 3 − 25, 8 − 29, 8 − 24, 3 − 27, 0 − 29, 6 − 30, 0 − 28, 5

Determinar os percentis: 0, 20 − 0, 34 − 0, 45.


Medidas Separatrizes 79

Solução:

Os comandos do R são:
tilap = c(29.0,29.5,29.3,25.8,29.8,24.3,27.0,29.6,30.0,28.5)
quantile(tilap, probs=c(0.20,0.34,0.45), type=2)
quantile(tilap, probs=c(0.20,0.34,0.45), type=3)

6.7.2 Separatrizes de dados agrupados


Assim como a mediana divide os dados em duas partes iguais, os três quartis, denotados por

Q1 , Q2 e Q3 , dividem as observações ordenadas em quatro partes iguais. O primeiro quartil separa os 25%

inferiores dos 75% superiores dos valores ordenados; o segundo quartil é a mediana e o terceiro quartil separa

os 75% inferiores dos 25% superiores dos dados.

Para o cálculo dos quartis, utiliza-se uma fórmula semelhante à da mediana, dada por:

( in )
− Fac−1
Qi = Li + 4 × a, (6.8)
fQi

em que:

Li = limite inferior da classe quartílica;

a = amplitude do intervalo da classe quartílica;

fQi = frequência simples (absoluta) da classe quartílica;

Fac−1 = frequência acumulada anterior à classe quartílica;

Analogamente, há nove decis, denotados por D 1 , D 2 , D3 , . . . , D 9 que dividem os dados em 10

grupos com cerca de 10% deles em cada grupo. A fórmula é dada por:

( in )
− Fac−1
Di = Li + 10 × a, (6.9)
fDi
80 Capítulo 6. Medidas de Posição

em que:

Li = limite inferior da classe decil;

a = amplitude do intervalo da classe decil;

fDi = frequência simples (absoluta) da classe decil;

Fac−1 = frequência acumulada anterior à classe decil;

Há nalmente, 99 percentis, que dividem os dados em 100 grupos com cerca de 1% em cada

grupo. A fórmula é dada por:

( in )
− Fac−1
Pi = Li + 100 × a, (6.10)
fPi

em que:

Li = limite inferior da classe percentil;

a = amplitude do intervalo da classe percentil;

fPi = frequência simples (absoluta) da classe percentil;

Fac−1 = frequência acumulada anterior à classe percentil;

Exemplo: Considere a distribuição de frequências dos pesos médios (kg) das leitegadas
2 da raça Landrace,

ao nascer, apresentada na Tabela 6.4.

Tabela 6.4  Peso médio (kg) das leitegadas da raça Landrace, ao nascer.

Pesos médios (kg) Frequências

12, 0 ⊢ 12, 5 8
12, 5 ⊢ 13, 0 10

13, 0 ⊢ 13, 5 12

13, 5 ⊢ 14, 0 23

14, 0 ⊢ 14, 5 17

14, 5 ⊢ 15, 0 10

15, 0 ⊢ 15, 5 8
15, 5 ⊢ 16, 0 3

Determine:

2
Conjunto dos leitões, que nasceram de um parto
Medidas Separatrizes 81

a) a média, a mediana e a moda;

Solução:

b) a distribuição é simétrica? Se não, que tipo de assimetria?

Solução:

c) Determine: Q1 , Q2 , Q3 , D5 , D6 , P95 ;

Solução:
82 Capítulo 6. Medidas de Posição

Uma forma direta de se determinar os valores das medidas separatrizes é utilizando o gráco de

frequências acumuladas percentuais (conhecida como Ogiva de Galton).

6.7.3 Gráco de caixa

Uma aplicação interessante para os quartis é a construção do chamado gráco de caixa (ou box

plot, box-whisker plot), que tem por nalidade a detecção de observações discrepantes e o estudo da simetria

da distribuição. Tal gráco foi apresentado no Capítulo 5, na página 57.

Para a construção de um gráco de caixa é necessário:

1) calcular o primeiro quartil (Q1 ), a mediana (Md) e o terceiro quartil (Q3 );

2) calcular a amplitude interquartílica (ou distância interquartílica), dada por d q = Q3 − Q1 ;

3) calcular os limite inferior e superior. Tem-se que o limite inferior é LI = Q1 − 1, 5dq e o limite superior

dado por LS = Q3 + 1, 5dq . Traça-se uma linha a partir do centro de Q1 até o limite inferior, e procede-se

da mesma forma com o valor de Q3 , traçando-se a linha até o valor do limite superior;

4) vericar se há observações discrepantes. As observações que estiverem acima do limite superior ou abaixo

do limite inferior serão consideradas discrepantes do restante dos dados. São, em geral, representadas por

um asterisco (*) ou (•).

Na Figura 6.2 são apresentados os quartis, bem como os limites inferior e superior, além da

média e de outliers.
Medidas Separatrizes 83

Figura 6.2  Esboço do gráco de caixas.

Exemplo: Na Figura 6.3 é apresentado as frequências cardíacas dos animais atendidos no Hospital Veterinário,

da Universidade Estadual de Londrina, em 2003, por sexo.

200
Freqüência Cardíaca

150

100

50

Fêmeas Machos

Sexo dos Animais

Figura 6.3  Frequência cardíaca dos animais atendidos no Hospital Veterinário, da Universidade Es-
tadual de Londrina, em 2003.

Pelo gráco, observa-se que as fêmeas têm batimentos cardíacos mais homogêneos que os ma-
84 Capítulo 6. Medidas de Posição

chos, embora haja alguns animais com batimentos discrepantes em relação ao seu grupo. Em termos médios,

percebe-se que a média de batimentos cardíacos para machos e fêmeas é aproximadamente igual.

Para construção do gráco, os comandos do R são:


dados = read.table("http://www2.uel.br/pessoal/silvano/Dados/Dados_HV.txt", sep="\t",
header=T, dec=",")
attach(dados)
names(dados)
medias = by(FC, Sexo, mean, na.rm=TRUE)
boxplot(FC~Sexo, xlab="Sexo dos Animais", names=c("Fêmeas", "Machos"),
ylab="Frequência Cardíaca", col="LightYellow", las=1)
# Opções: border="red")
points(medias, pch="+", cex=1.5, col="red")
detach(dados)

6.8 Assimetria e Curtose


6.8.1 Assimetria
Numa distribuição estatística, a assimetria é o quanto sua curva de frequência se desvia ou se

afasta da posição simétrica, possibilitando analisar uma distribuição de acordo com as relações entre suas

medidas de moda, média e mediana. Pode-se caracterizar a distribuição de frequência em:

a) Assimetria nula ou simétrica.

Uma distribuição é dita simétrica quando apresenta o mesmo valor para a moda, a média e a mediana,

ou seja,

ȳ = M d = M o.

b) Assimétrica à direita ou positiva.

Quando a cauda da curva da distribuição declina para direita, tem-se uma distribuição com curva assi-
métrica positiva:
ȳ > M d > M o.

c) Assimétrica à esquerda ou negativa;

Analogamente, quando a cauda da curva da distribuição declina para esquerda, tem-se uma distribuição

com curva assimétrica negativa:


ȳ < M d < M o.
Assimetria e Curtose 85

Gracamente, tem-se um eixo de referência ou eixo de simetria, que é traçado sobre o valor

da média da distribuição. Sempre que a curva da distribuição se afastar do referido eixo, será considerada

como tendo um certo grau de afastamento, que é considerado como uma assimetria da distribuição. Ou seja,

assimetria é o grau de afastamento que uma distribuição apresenta do seu eixo de simetria.

Existem diversos métodos para o cálculo da medida de assimetria e, entre eles:

a) o 1o coeciente de assimetria de Pearson, que é dado por:

ȳ − M o
As =
s

para dados amostrais.

b) o 2o coeciente de assimetria de Pearson.

Quando a distribuição for quase simétrica ou moderadamente assimétrica, pode-se calcular o grau de

assimetria substituindo-se a moda pela mediana, segundo a relação empírica proposta por Pearson:

3(ȳ − M d)
As =
s

c) o coeciente quartil de assimetria que, em seu cálculo, recorre apenas aos quartis.
Trata-se de uma medida muito útil quando não for possível empregar o desvio-padrão como medida de

dispersão. É denido por:


Q3 − 2 × M d + Q1
Asq =
Q3 − Q1

d) o coeciente momento de assimetria.


Outra medida utilizada para avaliar a assimetria de uma distribuição de frequências é o coeciente momento

de assimetria, calculado com base nos momentos centrados da segunda e terceira ordem, denido por:

m3
Asm = (√ )3
m2

em que:


n ∑
n
(yi − ȳ)3 fi (yi − ȳ)2 fi
i=1 i=1
m3 = e m2 =
n n

Obs.: A assimetria calculada usando o R é baseada no coecente momento de assimetria.

A interpretação do coeciente de assimetria, em qualquer dos casos é:

As = 0, é simétrica;
então a distribuição

As > 0 a distribuição é assimétrica positiva;


As < 0 a distribuição é assimetrica negativa.
86 Capítulo 6. Medidas de Posição

6.8.2 Curtose
A curtose é uma medida de dispersão que indica até que ponto a curva de frequências de uma

distribuição se apresenta mais alada ou mais achatada do que uma curva-padrão, denominada curva normal.

Para avaliar o grau de curtose de uma curva ou distribuição de frequências, pode-se adotar dois

tipos de medidas:

a) coeciente percentílico de curtose.


É a medida mais elementar usada para avaliar o grau de curtose de uma distribuição ou curva de frequências.

É denido por:
dq
kp =
2 × (D9 − D1 )

em que, dq é a distância interquartílica; D9 é o nono decil e D1 é o primeiro decil. Neste caso, tem-se que:

se k = 0, 263, a curva ou distribuição é mesocúrtica;

se k > 0, 263, a curva ou distribuição é platicúrtica;

se k < 0, 263, a curva ou distribuição é leptocúrtica;

No caso da distribuição normal padrão, o valor da curtose é k = 0, 263, caracterizando uma curva meso-

cúrtica.

b) coeciente momento de curtose.


Utiliza-se do quociente entre o momento centrado de quarta ordem e o quadrado do momento centrado

de segunda ordem, dado por:

m4 m4
km = ou, ainda, km =
m22 (s2 )2

em que m4 é o quarto momento central e s2 é a variância.

A interpretação da curtose é:

Se o valor da curtose for km = 3, então tem o mesmo achatamento que a distribuição normal. Chama-se

a estas funções de mesocúrticas ;

Se o valor é km > 3 então a distribuição em questão é mais alta (afunilada) e concentrada que a

distribuição normal. Diz-se desta função probabilidade que é leptocúrtica, ou que a distribuição tem

caudas pesadas (o signicado é que é relativamente fácil obter valores que se afastam da média a vários

múltiplos do desvio padrão);

Se o valor é km < 3 então a função de distribuição é mais achatada que a distribuição normal.

Chama-se-lhe platicúrtica.

Obs.: A curtose calculada usando o R é baseada no coecente momento de curtose.


Assimetria e Curtose 87

Exemplo: Na Figura 6.4 são apresentadas as frequências respiratórias dos animais atendidos no Hospital

Veterinário, da Universidade Estadual de Londrina, em 2003.

0.020

0.015
Densidade de Probabilidade

0.010

0.005

0.000
0 20 40 60 80 100 120 140 160 180 200

Frequência Respiratória

Figura 6.4  Frequências respiratórias dos animais atendidos no Hospital Veterinário, da Universidade
Estadual de Londrina, em 2003.

Pelo gráco, observa-se que a moda (M o = 32) é menor que a média (ȳ = 53, 8), caracterizando
uma distribuição assimétrica positiva.

Para construção do histograma e das medidas de assimetria e curtose, os comandos do R são:


rm(list=ls())
dados = read.table("http://www2.uel.br/pessoal/silvano/Dados/Dados_HV.txt", sep="\t",
header=T, dec=",")
attach(dados) ; names(dados)
(media = mean(FR, na.rm=T)) ; (desvio = sd(FR, na.rm=T)) ;
(minimo = min(FR, na.rm=T)) ; (maximo = max(FR, na.rm=T))
tab.est = table(FR) ; (moda = names(tab.est)[tab.est == max(tab.est)])
par(mai=c(1,1,.2,.2))
hist(FR, breaks=c(0, 20, 40, 60,80, 100, 120, 140, 160, 180, 200), freq=F, right=F, xlab=`',
ylab=`', col=`LightYellow', main=`', ylim=c(0,.02), las=1, xaxt="n", border="blue", labels=F)
mtext(`Frequência Respiratória', side=1, line=1.5)
mtext(`Densidade de Probabilidade', side=2, line=4)
abline(h=0) ; abline(v=media, col=`red', lwd=2, lty=2)
axis(1, at = c(0, 20, 40, 60,80, 100, 120, 140, 160, 180, 200), line=-1.2)
y = seq(minimo-10, maximo, 0.01)
lines(y, dnorm(y, media, desvio), col="red", lwd=1.5)
require(moments) ; skewness(FR, na.rm=T) ; kurtosis(FR, na.rm=T)
88 Capítulo 6. Medidas de Posição

Exercícios - Medidas de Posição

1) Em uma pesquisa sobre diabetes mellitus, foram coletados os seguintes valores de glicemia em jejum:

80 85 86 90 95 96 99 100 101 103


103 103 104 105 108 108 109 110 110 110

a) Agrupar os dados em classes e calcular a média aritmética, a moda (bruta e Czuber) e a mediana;

b) Determine, sem agrupar os dados em classes (dados brutos): a média aritmética, a moda e a mediana.

Utilize-se do R e de calculadora.

2) Em um estudo sobre instituições de atendimento médico, foram obtidos dados da disponibilidade de leitos

de 50 dessas instituições:

48 53 58 62 64 66 69 71 77 81

49 54 58 62 64 67 69 72 77 82

50 55 59 63 65 67 70 73 78 83

52 56 60 64 65 67 70 74 78 86

52 57 61 64 66 68 71 76 80 90

a) Determine a média e a mediana dos dados e, também, determine o terceiro quartil e interprete-o;

b) Construa o histograma;

c) Construa o gráco de caixas (box plot ).

d) Agora, utilizando o R, refaça os cálculos anteriores.


e) Agrupar os dados em classes (Sturges) e calcular a média, a moda (bruta e Czuber) e a mediana.

Compare os resultados obtidos e discuta-os.

3) Os dados abaixo representam a largura máxima de amostras de crânios de animais machos. Calcule a

média, a mediana e a moda. Conrme os resultados utilizando-se do R.

131 119 138 125 129 126 131 132 126 128 128 131

4) A amplitude total de um conjunto de números é 500. Se a distribuição de frequências apresenta 20 classes,

qual deverá ser o limite inferior e o ponto médio da 5a classe, se o limite superior da 1a classe é igual a

35?
Assimetria e Curtose 89

5) Os níveis de ácido úrico, em (mg/100 ml), encontrados nos exames bioquímicos de sangue de 10 pacientes
de um laboratório, são os seguintes:

5, 1 4, 0 6, 4 5, 0 5, 5 9, 0 5, 5 5, 5 6, 0 8, 0

Com base nessas informações, calcular:

a) a média aritmética simples; d) a mediana;

b) a média geométrica; e) a moda.

c) a média harmônica;

Conrme os cálculos utilizando-se do R ou da sua calculadora.


6) Com base nos dados apresentados na Tabela 1.1, página 7, calcular a média aritmética simples, a média

geométrica, a média harmônica, a mediana e moda de ácido ascórbico no plasma.

7) Qual o tipo mais comum de suicídio apresentado na Tabela 6.5? A esse tipo de medida estatística, qual o

nome que se dá?

Tabela 6.5  Suicídios ocorridos no Brasil em 1986, segundo a causa atribuída.

Causa atribuída Frequências

Alcoolismo 263

Diculdade nanceira 198

Doenca mental 700

Outro tipo de doença 189

Desilusão amorosa 416

Outras 217

Total 1983

Fonte: IBGE (1988)

Qual a probabilidade de um indivíduo que se suicidou, tê-lo feito por desilusão amorosa?

8) Consideremos 12 observações (ordenadas) do tempo de internação (dias) de animais de pequeno porte do

Hospital Veterinário da UEL:

1 4 7 9 10 13 15 17 17 18 19 21

Obtenha os quartis e interprete estes valores. Construa o gráco de caixas usando o R.


90 Capítulo 6. Medidas de Posição

9) Com base nos dados da Tabela 6.6, calcule o peso médio dos ratos em cada idade. Usando o R, construa o
gráco de caixas para a variável peso, considerando-se cada rato (apenas um gráco com todos os ratos).

Compare os resultados e comente.

Tabela 6.6  Peso médio em ratos por idade.

Idades
Número do rato
30 34 38 42 46

1 76,2 95,5 99, 2 122,7 134,6

2 81,5 90,0 101,2 125,9 136,2

3 50,0 60,0 62, 3 72, 2 85, 3


4 47,5 50,0 57, 5 72, 3 84, 0
5 63,5 79,2 82, 1 94, 7 110,0

6 65,1 75,7 79, 3 88, 5 98, 7


7 63,2 74,8 79, 0 88, 1 100,0

8 64,5 74,1 92, 6 96, 0 98, 3

10) Trinta pessoas foram consultadas sobre sua cor favorita. Suas respostas foram:

Vermelho Azul Azul Roxo Preto Preto

Azul Marrom Vermelho Azul Amarelo Azul

Verde Amarelo Preto Amarelo Azul Verde

Azul Verde Azul Preto Preto Azul

Azul Azul Laranja Vermelho Verde Vermelho

Construa uma tabela de frequências para os dados. Qual a escolha modal e a frequência relativa (ou

porcentagem) desta cor?

11) Calcule para a tabela de frequências abaixo sua respectiva média e mediana.

Xi 2 3 4 5 6
Fi 3 9 19 25 28

12) Determinar o quarto decil, o primeiro quartil e o septuagésimo segundo percentil da seguinte distribuição:

Classes fi Fi
4⊢ 9 8
9 ⊢ 14 12

14 ⊢ 19 17

19 ⊢ 24 3
Assimetria e Curtose 91

“Se você seguir apenas por caminhos tra-


çados, chegará onde todos poderiam che-
gar”.

Alexandre Graham Bell


Capítulo 7

Medidas de dispersão ou
variabilidade
As medidas de dispersão servem para indicar o quanto os dados se apresentam dispersos em

relação ao seu valor médio. Considere os dados referentes aos pesos de cinco animais, de quatro raças de

coelhos: Alaska, Beliê, Califórnia e Chinchila, apresentados na Tabela 7.1.

Tabela 7.1  Pesos de cinco coelhos de quatro raças distintas.

Pesos (em kg)


Raças dos coelhos Médias
Animal 1 Animal 2 Animal 3 Animal 4 Animal 5

Alaska 3,0 3,5 4,5 4,0 5,0 4,0

Beliê 4,2 3,8 4,1 3,9 4,0 4,0

Califórnia 3,0 3,0 4,0 5,0 5,0 4,0

Chinchila 4,0 4,0 4,0 4,0 4,0 4,0

Analisando-se os resultados da Tabela 7.1, verica-se que a média de pesos para as quatro raças é

a mesma, ou seja, quatro quilos. Embora o valor médio seja o mesmo, a variável peso tem um comportamento

diferente dentro de cada raça. Assim, para a raça Alaska, o peso varia de 3,0 a 5,0 quilos; para a raça Beliê,

a variação é de 3,8 a 4,2 quilos; para a Califórnia, de 3,0 a 5,0 quilos; para a Chinchila, não há variação. Em

geral, um alto grau de uniformidade ou pequena dispersão é desejável.

7.1 Amplitude Total


A maneira mais simples de se medir a variabilidade de uma variável é através da distância entre

o maior e o menor valor observado em um conjunto de dados. Essa diferença é a amplitude total, denotada

92
Desvio Absoluto Médio 93

por At .
Para os dados apresentados na Tabela 7.1, a amplitude total será:

Raça dos coelhos Amplitude total

Alaska At = 5, 0 − 3, 0 = 2, 0 kg
Beliê At = 4, 2 − 3, 8 = 0, 4 kg
Califórnia At = 5, 0 − 3, 0 = 2, 0 kg
Chinchila At = 4, 0 − 4, 0 = 0, 0 kg

O problema em se considerar a amplitude total como medida de dispersão dos dados, é o fato

dela levar em consideração em seu cálculo, apenas os valores extremos e não todos os valores. Assim, dois

conjuntos de dados podem apresentar a mesma amplitude total, mesmo que tenham dispersão muito diferente.

Embora fácil de calcular e de interpretar, não deve ser usada normalmente como medida de dispersão.

Uma forma de se calcular as amplitudes usando os comandos do R é:


coelhosd = c(3.0,3.5,4.5,4.0,5.0,4.2,3.8,4.1,3.9,4.0,
3.0,3.0,4.0,5.0,5.0,4.0,4.0,4.0,4.0,4.0)
coelhos = matrix(coelhosd, 4,5, byrow=T)
colnames(coelhos) = c('Animal1','Animal2','Animal3','Animal4','Animal5')
rownames(coelhos) = c('Alaska', 'Beliê','Califórnia','Chinchila')
coelhos

alaska = range(coelhos[1,]) ; diff(alaska)


belie = range(coelhos[2,]) ; diff(belie)
california = range(coelhos[3,]) ; diff(california)
chinchila = range(coelhos[4,]) ; diff(chinchila)

7.2 Desvio Absoluto Médio


Outra forma de se medir a variabilidade de uma variável é quanticando a dispersão das obser-

vações em relação a um ponto especíco na distribuição, em geral, a média. Claro que poderia-se pensar em

calcular os desvios em relação a, por exemplo, mediana. À distância entre os valores observados e a média ou

mediana, dá-se o nome de desvio, logo

Desvio = yi − ȳ ou Desvio = yi − M d
94 Capítulo 7. Medidas de dispersão ou variabilidade

Considere os pesos dos animais da raça Alaska, apresentados na Tabela 7.1 e calcule os desvios em torno da

média. Esses cálculos são apresentados na Tabela 7.2.

Tabela 7.2  Desvios e desvios absolutos para pesos dos animais da raça Alaska.

Animais Desvios: (yi − ȳ) Desvios absolutos: |yi − ȳ|


1 3, 0 − 4, 0 = −1, 0 |3, 0 − 4, 0| = 1, 0
2 3, 5 − 4, 0 = −0, 5 |3, 5 − 4, 0| = 0, 5
3 4, 5 − 4, 0 = 0, 5 |4, 5 − 4, 0| = 0, 5
4 4, 0 − 4, 0 = 0, 0 |4, 0 − 4, 0| = 0, 0
5 5, 0 − 4, 0 = 1, 0 |5, 0 − 4, 0| = 1, 0

n ∑
n
Soma (yi − ȳ) = 0 |yi − ȳ| = 3, 0
i=1 i=1

Observe que a soma dos desvios em relação à média é sempre zero, logo, ela não é informativa a

respeito da variabilidade dos dados, portanto, é melhor utilizar a soma dos valores absolutos dos desvios, que

será sempre positiva. A soma dos valores absolutos será tanto maior quanto maior o número de observações

(n).

O desvio absoluto médio pode ser calculado como:

1∑
n
dy = |yi − ȳ|
n i=1

3, 0
Para a raça Alaska, o desvio absoluto médio é: dy = = 0, 6 kg .
5
Caso os dados estejam agrupados em uma tabela de distribuição de frequências, o cálculo do

desvio médio será calculado por:


1∑
n
dy = |yi − ȳ|fi
n i=1

No R o cálculo dos desvios absolutos médios, por raça, é:


n1 = length(coelhos[1,]) ; (dm1 = (1/n1)*(sum(abs(coelhos[1,] - mean(coelhos[1,])))))
n2 = length(coelhos[2,]) ; (dm2 = (1/n2)*(sum(abs(coelhos[2,] - mean(coelhos[2,])))))
n3 = length(coelhos[3,]) ; (dm3 = (1/n3)*(sum(abs(coelhos[3,] - mean(coelhos[3,])))))
n4 = length(coelhos[4,]) ; (dm4 = (1/n4)*(sum(abs(coelhos[4,] - mean(coelhos[4,])))))
desvios_medios = cbind(dm1, dm2, dm3, dm4) ; desvios_medios

Para o cálculo do desvio absoluto médio dos dados, independentemente de raça, tem-se:
Variância 95

n = length(coelhosd)
desvio_medio = (1/n)*(sum(abs(coelhosd - mean(coelhosd))))

7.3 Variância

A medida de variabilidade mais utilizada é a variância, que é simplesmente a soma dos quadrados

dos desvios, divididos pelo total de observações menos um. Pode-se calcular a variância para dados provenientes

de uma população ou amostra e de dados brutos ou agrupados em classes.

7.3.1 Variância de Dados Brutos Populacionais

Quando se coleta dados de toda população-alvo ou simplesmente população, o cálculo da vari-

ância se dá da seguinte forma:


n
(yi − µ)2
i=1
σ2 = . (7.1)
N

7.3.2 Variância de Dados Brutos Amostrais

Se as informações coletadas são provenientes de uma amostra da população, então a variância

é calculada da seguinte maneira:


n
(yi − ȳ)2
i=1
s2 = . (7.2)
n−1

Considere os dados da Tabela 7.1 e calcule a variância para os pesos dos animais da raça Alaska. Na Tabela

7.3 são apresentados os desvios calculados.


96 Capítulo 7. Medidas de dispersão ou variabilidade

Tabela 7.3  Desvios e quadrado dos desvios para pesos dos animais da raça Alaska.

Animais Desvios: (yi − ȳ) Quadrado dos desvios: (yi − ȳ)2

1 3, 0 − 4, 0 = −1, 0 (3, 0 − 4, 0)2 = 1, 00

2 3, 5 − 4, 0 = −0, 5 (3, 5 − 4, 0)2 = 0, 25

3 4, 5 − 4, 0 = 0, 5 (4, 5 − 4, 0)2 = 0, 25

4 4, 0 − 4, 0 = 0, 0 (4, 0 − 4, 0)2 = 0, 00

5 5, 0 − 4, 0 = 1, 0 (5, 0 − 4, 0)2 = 1, 00
∑n ∑n
Soma (yi − ȳ) = 0 (yi − ȳ)2 = 2, 5
i=1 i=1

Logo, a variância será:



n
(yi − ȳ)2
i=1 2, 5
s2 = = = 0, 625 kg 2 .
n−1 5−1

Uma forma computacionalmente mais eciente, para o cálculo da variância, é obtida quando se

desenvolve a soma de quadrados dos desvios, da seguinte maneira:


n ∑
n
(yi − ȳ)2 = (yi2 − 2yi ȳ + ȳ 2 )
i=1 i=1

n ∑
n
= yi2 − 2ȳ yi + nȳ 2
i=1 i=1
 2

n

∑  yi 
2∑ ∑  i=1 
n n n
= yi2 − yi yi + n
 n 

i=1
n i=1 i=1  

(∑
n )2
yi

n
i=1
= yi2 − . (7.3)
i=1
n

Substituindo-se 7.3 em 7.2, tem-se:

 ( )2 

n
 n yi 
∑ 
1  i=1 
s2 =  y2 − . (7.4)
n − 1  i=1 i n 
 

O cálculo da variância dos pesos para cada raça, usando o R é dado por:
Variância 97

var1 = (1/(n1-1))*(sum((coelhos[1,] - mean(coelhos[1,]))^2))


var2 = (1/(n2-1))*(sum((coelhos[2,] - mean(coelhos[2,]))^2))
var3 = (1/(n3-1))*(sum((coelhos[3,] - mean(coelhos[3,]))^2))
var4 = (1/(n4-1))*(sum((coelhos[4,] - mean(coelhos[4,]))^2))
cbind(var1, var2, var3, var4)

Para o cálculo da variância dos pesos de todos os coelhos, sem levar em consideração a raça, é:

media = mean(coelhosd) ; media


n = length(coelhosd) ; n
variancia = (1/(n-1))*sum((coelhosd - media)^2)
variancia

ou, simplesmente

var(coelhosd)

7.3.3 Variância de Dados Agrupados

Quando os dados estão dispostos em uma tabela de fequências, para se calcular a variância basta

levar-se em consideração as frequências de cada classe. Logo, multiplica-se o numerador da equação 7.2 por

fi e obtém-se:


n
(yi − ȳ)2 fi
i=1
s2 = .
n−1

Desenvolvendo-se o quadrado dos desvios, chega-se a:

 
(∑
n )2
 n yi fi 
∑ 
1  i=1 
s2 =  y 2 fi − . (7.5)
n − 1  i=1 i n 
 

Exemplo: Considere a distribuição de fequência da Tabela 7.4. Determine a variância.


98 Capítulo 7. Medidas de dispersão ou variabilidade

Tabela 7.4  Pesos das carcaças de bovinos.

Pesos (kg) Frequências (fi ) Ponto médio (yi )

120 ⊢ 140 8 130

140 ⊢ 160 12 150

160 ⊢ 180 15 170

180 ⊢ 200 17 190

200 ⊢ 220 14 210

220 ⊢ 240 11 230

240 ⊢ 260 9 250

Usando-se a fórmula (7.5), tem-se:

 ( )2 
 16.340 
1  


2
s = 3.214.200 −  =⇒ s2 = 1.289, 411765 kg2
86 − 1  86 
 

fi = c(8,12,15,17,14,11,9)
xi = c(130,150,170,190,210,230,250)
nc = sum(fi) ; nc
xifi = sum(xi*fi)
xi2fi = sum(xi^2*fi)
var_carcaça = 1/(nc-1) * (xi2fi - xifi^2/nc)

É claro que, com a facilidade computacional e a disponibilidade de programas estatísticos gra-

tuitos como o R, se o pesquisador dispõe dos dados brutos, é recomendável que as estatísticas sejam baseadas
neles. As distribuições de frequências servem, neste caso, apenas para apresentar as informações de forma

resumida.

7.3.4 Propriedades da variância


As propriedades da variâncias são:

a) somar (ou subtrair) um valor constante e arbitrário c a cada elemento de um conjunto de números não

altera a variância;

b) multiplicar (ou dividir) por um valor constante e arbitrário c cada elemento de um conjunto de números,

a variância ca multiplicada (ou dividida) pelo quadrado da constante.


Variância 99

Exemplo: Considere uma constante c=4 e os seguintes valores observados para a variável Y:

Y = {2, 4, 5, 8, 10, 12}

a) Calcule a variância dos dados;

Solução:

b) Acrescente a constante a cada valor de Y e calcule a variância;

Solução:

c) Subtraia a constante de cada valor de Y e determine a variância;

Solução:

d) Multiplique cada valor de Y pela constante e calcule a variância;

Solução:

e) Divida cada valor de Y pela constante e calcule a variância;

Solução:

f ) O que se observou dos resultados obtidos?


100 Capítulo 7. Medidas de dispersão ou variabilidade

Solução:

7.4 Desvio Padrão


Observe que, devido ao fato de se elevar os desvios ao quadrado, a unidade de medida também

ca elevada ao quadrado, gerando escalas sem sentido prático. Assim, caso a unidade de mensuração seja

metros (m), a unidade de medida da variância será m2 .


Uma forma de se obter uma medida de dispersão com a mesma unidade de medida dos dados ob-

servados é, simplesmente, extrair a raiz quadrada da variância, obtendo-se o desvio padrão. Ele é representado

por s. Logo,

s= s2 .

Para os dados dos coelhos da raça Alaska, a variância calculada foi s2 = 0, 625 kg 2 . Portanto,

o desvio padrão é dado por:


s = s2

s = 0, 625 kg 2

s = 0, 790569415 kg.

No R, basta extrair a raiz quadrada das variâncias de cada raça calculadas anteriormente.
sd1 = sqrt(var1) ; sd2 = sqrt(var2)
sd3 = sqrt(var3) ; sd4 = sqrt(var4)
cbind(sd1, sd2, sd3, sd4)

ou, se de forma direta:

sd(coelhosd)

7.5 Coeciente de Variação


A interpretação do desvio padrão depende da ordem de grandeza da variável em estudo. Assim,

um desvio padrão de 10 pode ser insignicante se os valores típicos observados forem em torno de 10.000,

mas pode ser muito signicativo para um conjunto de dados cuja observação típica seja 100.
Coeciente de Variação 101

Logo, pode ser conveniente expressar a variabilidade dos dados de uma variável de modo inde-
pendente da sua unidade de medida utilizada, tirando a inuência da ordem de grandeza da variável. Tal

medida é denominada coeciente de variação.

O coeciente de variação de Pearson é a razão entre o desvio padrão e a média. Em geral, o

resultado é multiplicado por 100, para que o coeciente de variação seja dado em porcentagem. É dado por:

s
CV = × 100

Sua utilidade está em fornecer uma medida para a homogeneidade de um conjunto de dados.

Quanto menor o coeciente de variação, mais homogêneo é o conjunto de dados. Esta medida pode ser

bastante útil na comparação de duas variáveis ou dois grupos que, a princípio, não são comparáveis.

Em geral, considera-se:

a) Baixa dispersão: CV < 15%;

b) Média dispersão: 15% < CV < 30%

c) Alta dispersão: CV > 30%

Em experimentos realizados em laboratório, em que todas as condições podem ser controladas,

espera-se que o coeciente de variação seja baixo, ou seja, menor que 10%.
102 Capítulo 7. Medidas de dispersão ou variabilidade

Exemplo: Calcular a média, a variância, o desvio padrão e o coeciente de variação para as variáveis Estatura

(cm), Peso (kg ) e Idade (anos) de dez alunos aleatoriamente selecionados:

Estatura (cm) = 177 − 162 − 188 − 157 − 166 − 153 − 158 − 176 − 168 − 163

Peso (kg) = 68, 0 − 83, 0 − 72, 0 − 99, 9 − 51, 0 − 52, 0 − 52, 0 − 66, 5 − 80, 0 − 48, 0

Idade (anos) = 18, 0 − 20, 1 − 20, 5 − 17, 7 − 19, 2 − 18, 9 − 26, 9 − 20, 1 − 20, 7 − 19, 3

Qual variável apresenta maior variabilidade?

Solução:
Coeciente de Variação 103

Exercícios - Medidas de Dispersão

Quando procedemos a uma investigação cientíca em que utilizamos dados de uma fração repre-

sentativa de uma população (amostra), a média aritmética determinada apresentará, em relação

à média populacional, um afastamento.

Se outras amostras fossem retiradas da população, apresentariam médias aritméticas que te-

riam outros afastamentos em relação à média populacional. Para se determinar a média destes

afastamentos utilizamos o erro-padrão da média, cujo cálculo é expresso pela fórmula:

s
sx̄ = √
n

1) Embora os gastroenterologistas infantis reconhecessem a utilidade diagnóstica do teor de gordura fecal, até

1984 não existia um padrão de referência desta medida para crianças brasileiras. Para preencher esta lacuna,

o Prof. Francisco Penna, titular da Pediatria da UFMG, examinou 43 crianças sadias que produziram os

valores da Tabela 7.5 expressos em g/24 horas.

Tabela 7.5  Teor de gordura (g/24 horas) em 43 crianças.

3,7 1,6 2,5 3,0 3,9 1,9 3,8 1,5 1,1 1,8 1,4 2,7 2,4 2,1

2,1 3,3 3,2 2,3 2,3 2,4 0,8 3,1 1,8 1,0 2,0 2,0 1,3 2,7

2,9 3,2 1,9 1,6 2,9 2,0 1,0 2,7 3,0 1,3 1,5 4,6 2,1 2,8 1,9

Baseando-se nos dados brutos, pede-se:

a) faça o histograma, o gráco de caixas e discuta-os;

b) determine o teor médio de gordura;

c) determine a variância dos dados;

d) determine o desvio padrão e interprete-o;

e) determine o erro-padrão.

2) Em uma granja foi observada a distribuição dos frangos em relação ao peso, apresentada na Tabela 7.6.
104 Capítulo 7. Medidas de dispersão ou variabilidade

Tabela 7.6  Pesos dos frangos de uma granja.

Peso (gramas) Frequência absoluta

960 ⊢ 980 60
980 ⊢ 1000 160
1000 ⊢ 1020 280
1020 ⊢ 1040 260
1040 ⊢ 1060 160
1060 ⊢ 1080 80

a) Qual a média da distribuição?

b) Determine o desvio padrão dos dados.

c) Determine o erro-padrão dos dados.

d) Qual o inconveniente de se usar a variância como medida de variabilidade?

3) Uma das características da gota, distúrbio hereditário que ocorre especialmente em homens, é a hiperurice-

mia (excesso de ácido úrico no sangue). Embora nem todos os indivíduos com hiperuricemia desenvolvam

manifestações clínicas de gota, há muito tempo tem-se reconhecido que o componente hereditário da do-

ença está ligado a uma tendência para hiperuricemia. A Tabela 7.7 apresenta a distribuição de frequências

das dosagens de ácido úrico sérico em 267 homens sadios.

Tabela 7.7  Distribuição de frequência da dosagem de ácido úrico.

Ácido úrico (mg/dL) Frequência absoluta

3, 0 ⊢ 3, 5 2
3, 5 ⊢ 4, 0 15
4, 0 ⊢ 4, 5 33
4, 5 ⊢ 5, 0 40
5, 0 ⊢ 5, 5 54
5, 5 ⊢ 6, 0 47
6, 0 ⊢ 6, 5 38
6, 5 ⊢ 7, 0 16
7, 0 ⊢ 7, 5 15
7, 5 ⊢ 8, 0 3
8, 0 ⊢ 8, 5 1
8, 5 ⊢ 9, 0 3
Total 267

Pede-se:
Coeciente de Variação 105

a) calcule a média;

b) determine a variância dos dados;

c) determine o desvio padrão e interprete-o.

4) Em trabalho laboratorial realizado no Jockey Club Brasileiro, vericou-se que os animais apresentaram

um valor médio de hematócrito


1 em torno de 42% e desvio padrão de 5%. O mesmo trabalho realizado

no Jockey Club de Porto Alegre apresentou valor médio de hematócrito igual a 38% e variância de 25%.

Opinar sobre os Coecientes de Variação (CV).

5) Calcular a média aritmética e desvio padrão dos seguintes dados relativos à dosagem de hemoglobina

vericada em 12 animais bovinos(mg ):

15 14 13 11 13 14 13,5 12 16 14,5 12 9.

6) Em 25 pessoas adultas do sexo masculino, observou-se em relação ao teor de hemoglobina um valor médio

igual a 13, 7 mg . O erro padrão da média foi igual a 0, 45 mg . Determinar o CV e opinar sobre o seu

valor.

7) Na Tabela 7.8 apresenta-se a distribuição de frequências quanto ao número de acidentes por dia, durante

setenta dias, na rodovia X. Determinar a média aritmética e o desvio padrão.

Tabela 7.8  Número de acidentes na rodovia X.

Número de acidentes 0 1 2 3 4 5

Número de dias 21 16 12 9 8 4

8) O efeito da castração sobre a espessura (em mm) de toucinho de leitões foi avaliado em um experimento,

cujos resultados estão disponível na página:

http://www2.uel.br/pessoal/silvano/Dados/Toucinho.txt.
Usando o R:

a) Construa o histograma;

b) Faça o gráco de caixas considerando apenas um grupo. Refaça o gráco para comparar a espessura

entre tipos; Discuta os resultados observados;

c) Calcule a média, o desvio-padrão e o coeciente de variação das espessuras para cada tipo. Interprete.

1
Hematócrito (ou Ht ou Htc) é a percentagem ocupada pelos glóbulos vermelhos ou hemácias no volume total de
sangue.
106 Capítulo 7. Medidas de dispersão ou variabilidade

d) Repita os cálculo efetuados no item (8c) para todos os animais e compare os resultados.

9) O tempo (em meses) entre a remissão


2 de uma doença e a recidiva3 de 48 pacientes de uma determinada

clínica foi registrado. Os dados ordenados são apresentados a seguir, separadamente para machos (M) e

fêmeas (F):

2 2 3 4 4 4 4 7 7 7 8 9
Machos
9 10 12 15 15 15 16 18 18 22 22 24

2 2 3 3 4 4 5 5 6 6 7 7
Fêmeas
7 7 8 8 8 8 10 10 11 11 12 18

a) Faça o gráco de caixas para comparar o tempo entre machos e fêmeas;

b) Calcule a média, o desvio-padrão e o coeciente de variação para cada gênero. Interprete.

c) Repita os cálculo efetuados no item (9b) para todos os 48 pacientes. Compare os resultados.

“A diferença entre as pessoas que


têm sucesso e as que fracassam, é
que as primeiras nunca desistem.”

2
Remissão completa é o termo utilizado em Medicina para designar a fase da doença aonde não há sinais de atividade
da mesma mas não é possível concluir como cura.
3
Recidiva (popularmente conhecido como recaída) é o retorno da atividade de uma doença.
Capítulo 8

Análise Combinatória
A Análise Combinatória é a parte da Matemática em que se estuda as técnicas de contagem

de agrupamentos que podem ser feitos com elementos de um dado conjunto. São basicamente dois tipos

de agrupamentos que se pode formar: um em que se leva em conta a ordem dos elementos dentro do

agrupamento e outro em que a ordem dos elementos é irrelevante.


Um requisito básico à simplicação das fórmulas da Análise Combinatória é o fatorial, que será

explicado a seguir.

8.1 Fatoriais
Indica-se por 5! (leia-se: cinco fatorial) o produto dos cinco primeiros naturais positivos:

5! = 5 × 4 × 3 × 2 × 1

portanto, 5! = 120.
Tem-se também:

4! = 4 × 3 × 2 × 1 = 24

7! = 7 × 6 × 5 × 4 × 3 × 2 × 1 = 5.040

Dado um número natural qualquer n, sendo n > 1, dene-se:

n! = n × (n − 1) × (n − 2) · · · × 3 × 2 × 1

e os seguintes casos particulares:

1! = 1 e 0! = 1

107
108 Capítulo 8. Análise Combinatória

Note que:

0! = 1

1! = 1

2! = 2×1=2

3! = 3×2×1=6

4! = 4 × 3 × 2 × 1 = 24

5! = 5 × 4 × 3 × 2 × 1 = 5 × 4! = 120
| {z }
6! = 6 × 5 × 4 × 3 × 2 × 1 = 6 × 5! = 720
| {z }

e assim por diante. Ao desenvolver um fatorial, colocando-se os fatores em ordem decrescente, pode-se parar

onde for conveniente, indicando os últimos fatores também na notação fatorial.

Calcule:

a) 9! 5!15!
i)
13!7!
b) 10! j) 6! + 5!

c) 11! k) 4 × 5! − 6 × 3!
10!
d)
9! l) 30 + 0! − 3 × 1!
10! 13! 5!
e) m) 5× + 13 ×
12! 3!10! 3!2!
6! n!
f) n)
8! (n − 1)!
10! (n + 1)!
g)
4!6! o)
n!
12!
h) p) Calcule n na equação n! = 12 × (n − 2)!
10!2!

Para o cálculo de fatoriais, no R, basta

factorial(9)
factorial(10)/factorial(9)

8.2 Princípio Fundamental da Contagem


Imagine que há apenas dois residentes (R1 e R2 ) no Hospital Veterinário da UEL de plantão e

chegam, simultaneamente, 3 animais (A1 , A2 e A3 ) para serem atendidos.


Princípio Fundamental da Contagem 109

Pode-se pensar nas seguintes possibilidades de atendimento:

R1

A1

R2

R1

A2

R2

R1

A3

R2

Assim, cada animal poderia ser atendido por um dos dois residentes, gerando as seguintes

possibilidades: A1 R1 , A1 R2 , A2 R1 , A2 R2 , A3 R1 , A3 R2 . Portanto, há seis maneiras diferentes dos animais

serem atendidos.

Princípio Fundamental da Contagem:


Se uma ação é composta de duas etapas sucessivas, sendo que a primeira pode ser realizada de m maneiras
e, para cada uma destas, a segunda pode ser realizada de n maneiras, então, o número de maneiras de

se realizar a ação é m × n.

Exercícios:
1) Com os algarismos 1, 2, 3, 4 e 5 quantos números naturais de três algarismos podem ser escritos? Destes

números, quantos são formados por algarismos diferentes?

2) Quantas placas de licença de automóveis podem ser formadas por 3 letras e 4 algarismos sendo as letras

apenas vogais e sendo os algarismos distintos?

3) Uma sorveteria oferece uma taça de sorvete que pode vir coberto com calda de chocolate ou de morango

ou de caramelo. Se o sorvete pode ser escolhido entre 10 sabores diferentes, quantas são as opções para

um cliente escolher a taça com a cobertura?

4) Uma moeda será lançada 6 vezes e a cada vez será anotado o resultado obtido, cara ou coroa, formando

assim uma sequência de 6 resultados. Quantas sequências diferentes podem ser formadas?
110 Capítulo 8. Análise Combinatória

5) Dez alunos da UEL cadastraram-se para adotar animais do Hospital Veterinário. Sabe se que há duas

espécies de animais para serem adotadas: Canina e Felina. Da espécie Felina há 3 raças e da canina 5

raças. De quantas maneiras os animais poderão ser adotados?

8.3 Permutações
Com os seguintes símbolos ⋆, N,  pode-se formar as seguintes sucessões:

(⋆N), (⋆N), (N⋆), (N⋆), (N⋆), (⋆N).

Cada uma dessas sucessões é chamada de permutação dos três símbolos.

Denomina-se permutação de n elementos dados a toda sucessão de n termos formada com os n elementos
dados.

Duas permutações dos mesmos objetos são diferentes se a ordem dos objetos numa delas é

diferente da ordem em que os objetos estão colocados na outra.

Exemplos:
1) Formar os anagramas da palavra UEL.

Solução:

No R, tem-se

require(combinat)
U = c(`U',`E',`L')
permn(U)

2) Formar os anagramas da palavra LILI.

Solução:

No R, tem-se

require(combinat)
L = c(`L',`I',`L',`I')
permn(L)
Permutações 111

3) Forme todos os anagramas da palavra RIMA que começam com consoante.

Solução:

No R, tem-se

require(combinat)
R = c(`I',`M',`A')
permn(R)
M = c('R','I','A')
permn(M)

Exercícios:
1) Forme todas as permutações dos algarismos 1, 2 e 3.

2) Forme todas as permutações das letras a, b, c e d.

3) Forme todos os anagramas da palavra AZUL que começam pela letra Z.

4) Forme todos os anagramas da palavra PAPAI que começam e terminam por vogal.

8.3.1 Quantidade de Permutações


Geralmente se está interessado no número de permutações que podem ser feitas com deter-

minados elementos. Para determinar esse número, tem-se que considerar duas situações possíveis:

I permutações com elementos distintos;

I permutações com elementos repetidos.

Permutações de elementos distintos

Quantas permutações podem ser formadas com as letras A, B, C, D e E?

(⃝, ⃝, ⃝, ⃝, ⃝)

1a etapa: escolher a 1a letra da permutação. Ela pode ser A ou B ou C ou D ou E. Há, portanto, 5

possibilidades para esta etapa.


112 Capítulo 8. Análise Combinatória

2a etapa: escolher a 2a letra da permutação. Tem-se 4 possibilidades para esta etapa, uma vez que uma das

letras já terá sido eliminada.

3a etapa: escolher a 3a letra da permutação. Tem-se 3 possibilidades para esta etapa.

4a etapa: escolher a 4a letra da permutação. Tem-se 2 possibilidades para esta etapa.

5a etapa: escolher a 5a letra da permutação. Tem-se 1 possibilidade para esta etapa.

Pelo princípio fundamental da contagem, conclui-se que é possível formar 5×4×3×2×1 =


5! = 120 permutações diferentes. Indica-se o número de permutações de cinco elementos diferentes por P5 .
Assim, tem-se:

P5 = 5! = 120.

Assim, racionando da mesma forma, conclui-se que o número de permutações de n elementos distintos é dado
por:

Pn = n!

A solução no R, para o número de permutações possíveis, é dada por:

require(combinat)
nsamp(n=5, k=5, replace=FALSE, ordered=TRUE)

Exemplos:
1) Quantos são os anagramas da palavra BRASIL?

Solução:

Os comandos a seguir, no R, calculam o número de permutações e quais são elas.

require(combinat)
nsamp(n=6, k=6, replace=FALSE, ordered=TRUE)
DD = c('B','R','A','S','I','L')
Perm = unlist(permn(DD))
t(array(Perm, dim = c(6, gamma(7))))
Permutações 113

2) Com os algarismos 1, 3, 4, 6, 7 e 9, quantos números pares de seis algarismos distintos podem ser escritos?

Solução:
Para formar um número par deve-se primeiro escolher o algarismo da casa das unidades, que pode ser o 4 ou 6.
Como são algarismos distintos, a quantidade de números pares que se pode formar é:

2 × P5 = 2 × 5! = 2 × 120 = 240.

Permutações com elementos repetidos


Quantas permutações podem ser formadas com elementos não distintos? Por exemplo, com as

letras A, A, e B, há apenas 3 permutações:

(A, A, B), (A, B, A) e (B, A, A)

Se as letras A e A fossem distintas (por exemplo A1 e A2 , então as permutações seriam:

(A1 , A2 , B), (A2 , A1 , B), (A1 , B, A2 ), (A2 , B, A1 ), (B, A1 , A2 ) e (B, A2 , A1 )

Sabe-se que o número de permutações de 3 elementos distintos é P3 = 3! = 6. Vê-se que se entre os 3

elementos tiver 2 elementos repetidos, este número ca dividido por 2! (que é o número de permutações dos

2 elementos se eles forem considerados distintos). Indica-se o número de permutações de 3 elementos sendo

2 repetidos por P32 . Tem-se:


3! 6
P32 = = = 3.
2! 2

Quando se tem n elementos, dos quais n1 são repetidos de um tipo, n2 são repetidos de outro tipo, n3 são

repetidos de outro tipo e assim por diante, o número de permutações que se pode formar é dado por:

n!
Pnn1 ,n2 ,n3 ,··· ,nk = , (n1 + n2 + n3 + · · · + nk = n)
n1 !n2 !n3 ! · · · nk !

Exemplos:
1) Quantos são os anagramas da palavra ELEGER?

Solução:
ELEGER → 6 letras, sendo 3 E, 1 L, 1 G, 1 R. O número de anagramas é:
6! 6 × 5 × 4 × 3!
P63 = = = 120
3! 3!
114 Capítulo 8. Análise Combinatória

2) Quantos são os anagramas da palavra ESTATÍSTICA?

Solução:
ESTATÍSTICA → 11 letras, sendo 1 E, 2 S, 3 T, 2 A, 2 I, 1 C. O número de anagramas é:
3,2,2,2 11!
P11 = = 831.600
3!2!2!2!

3) Quantos são os anagramas da palavra VETERINÁRIA?

Solução:
VETERINÁRIA → 11 letras, sendo 1 V, 2 E, 1 T, 2 R, 2 I, 1 N, 2 A. O número de anagramas é:
2,2,2,2 11!
P11 = = 2.494.800
2!2!2!2!

Exercícios:
1) Quantos números pares são obtidos permutando-se os algarismos 1, 2, 2, 3, 3, 3 e 4?

2) Determine o número de permutações que podem ser feitas com as letras de cada palavra:

a) ORDEM c) AMAZONAS

b) DOMINAR d) MANADA

3) Sete atletas participam de uma prova de atletismo. Não ocorrendo nenhum empate, quantas são as

classicações possíveis nesta prova?

4) De quantas formas 5 sinais +, 3 sinais - e 2 sinais  × podem ser colocados em sequência?

5) Numa mesa de bilhar há 4 bolas vermelhas, 3 bolas brancas, 2 amarelas e uma verde, encostadas umas

nas outras, em linha reta. De quantas maneiras pode-se dispor estas bolas obtendo coloridos diferentes?

8.4 Arranjos e Combinações


8.4.1 Combinações
Há no Hospital Veterinário da UEL dois animais para serem adotados. Como há quatro pessoas

interessadas, Andressa, Fernanda, Herick e Igor, será realizado um sorteio. Os alunos sorteados poderão ser:

Andressa e Fernanda ou Andressa e Herick ou Andressa e Igor

Fernanda e Herick ou Fernanda e Igor ou Herick e Igor


Arranjos e Combinações 115

Cada uma dessas possibilidades é um agrupamento das 4 pessoas tomadas 2 a 2. Em cada um destes

agrupamentos, a ordem citada dos elementos não importa. Note, por exemplo, que sortear Andressa e

Fernanda ou Fernanda e Andressa é exatamente a mesma coisa.

Quando se agrupam elementos em que a ordem do agrupamento não importa, estes são

chamados de combinações. As combinações são conjuntos cujos elementos são escolhidos entre os elementos

dados.

Denominam-se combinações de n elementos distintos tomados k a k aos conjuntos formados de k


elementos distintos escolhidos entre os n elementos dados.

No exemplo citado, considerando-se os elementos

Andressa, Fernanda, Herick e Igor

as combinações destes 4 elementos tomados 2 a 2 são:

{Andressa e Fernanda} {Andressa e Herick} {Andressa e Igor}

{Fernanda e Herick} {Fernanda e Igor} {Herick e Igor}

Observe que duas combinações são diferentes apenas quando têm elementos diferentes.

8.4.2 Arranjos
Suponha que os animais a serem adotados são de espécies diferentes: um canino e um felino.

Assim, a 1a pessoa sorteada adotará o cão e a 2a pessoa sorteada adotará o gato. Neste caso, se as pessoas

sorteadas fossem Andressa e Fernanda, nesta ordem, Andressa caria com o cão e a Fernanda com o gato.

Mas, se os sorteados fossem Fernanda e Andressa, nesta ordem, Fernanda caria com o cão e Andressa com

o gato.

Tem, neste caso, uma situação em que os agrupamentos:

Andressa e Fernanda Fernanda e Andressa

são considerados agrupamentos diferentes.

Quando se agrupam elementos de modo que em cada agrupamento importa a ordem dos

elementos, estes agrupamentos são chamados arranjos.

Denominam-se arranjos de n elementos distintos tomados k a k às sucessões formadas de k termos

distintos escolhidos entre os n elementos dados.

No exemplo citado, considerando-se os elementos


116 Capítulo 8. Análise Combinatória

Andressa, Fernanda, Herick e Igor

os arranjos destes 4 elementos tomados 2 a 2 são:

(Andressa, Fernanda) (Andressa, Herick) (Andressa, Igor)

(Fernanda, Andressa) (Fernanda, Herick) (Fernanda, Igor)

(Herick, Andressa) (Herick, Fernanda) (Herick, Igor)

(Igor, Andressa) (Igor, Fernanda) (Igor, Herick)

Observe que dois arranjos são diferentes se tiverem elementos diferentes, ou se tiverem os mesmo elementos

porém em ordens diferentes.

Exemplos:
1) Formar as combinações dos algarismos 1, 3, 5, 7 e 9 tomados 2 a 2.

Solução:
As combinações são os conjuntos de dois algarismos escolhidos entre os algarismos dados:

{1, 3}, {1, 5}, {1, 7}, {1, 9}, {3, 5}, {3, 7}, {3, 9}, {5, 7}, {5, 9}, {7, 9}

2) Formar os arranjos dos algarismos 1, 3, 5 e 7 tomados 3 a 3.

Solução:
Os arranjos são as sucessões de três algarismos distintos escolhidos entre os algarismos dados:

(1, 3, 5), (1, 3, 7), (1, 5, 7), (1, 5, 3), (1, 7, 3), (1, 7, 5)
(3, 1, 5), (3, 1, 7), (3, 5, 1), (3, 5, 7), (3, 7, 1), (3, 7, 5)
(7, 1, 3), (7, 1, 5), (7, 3, 1), (7, 3, 5), (7, 5, 1), (7, 5, 3)

Exercícios:
1) Forme as combinações das letras a, b, c e d tomadas duas a duas.

2) Forme os arranjos das letras a, b, c e d tomadas duas a duas.

3) Quatro equipes, A, B, C e D, estão classicadas para o quadrangular nal de um campeonato em que as

três primeiras colocadas serão premiadas (com prêmios diferentes).

a) Escreva todas as possibilidades para as três primeiras colocações no campeonato.

b) Cada uma destas possibilidades corresponde a um arranjo ou a uma combinação das equipes tomadas

três a três?
Quantidade de Arranjos 117

4) Cesar, Diego, Maisa, Nara e Sabrina entregaram o trabalho relativo à pesquisa feita no Hospital Veterinário

da UEL e dois deles serão escolhidos para uma apresentação perante a classe.

a) Escreva todas as possibilidades de escolha dos dois que farão a apresentação do trabalho.

b) Cada uma destas possibilidades corresponde a um arranjo ou a uma combinação dos 5 alunos tomados

dois a dois?

8.5 Quantidade de Arranjos


O número de arranjos de n elementos tomados k a k será denotado por An,k (ou pelo símbolo

Akn ).
Para determinar esta quantidade de arranjos, deve-se formar uma sucessão de k termos escolhidos
entre os n elementos dados:

( )
1o , 2o , 3o , . . ., ko

O 1o termo pode ser qualquer um dos n elementos dados; há, portanto, n possibilidades para

ele.

Para cada uma destas possibilidades, o 2o termo do arranjo poderá ser qualquer um dos (n − 1)
elementos restantes, excluído aquele já escolhido. Há, portanto, (n − 1) possibilidades para o 2o termo.

Para cada par de elementos já escolhidos, o 3o termo poderá ser qualquer um dos (n − 2)
elementos restantes. Há, portanto, (n − 2) possibilidades para o 3o termo.

E assim por diante.

( )
Arranjo 1o , 2o , 3o , . . ., ko
↓ ↓ ↓ ↓
possibilidades n (n − 1) (n − 2) n − (k − 1)

Pelo princípio fundamental da contagem, conclui-se que a quantidade de arranjos que podem ser

formados é:

n!
An,k =
(n − k)!

Exemplos:
1) Quantos são os arranjos de 6 elementos, tomados 3 a 3?
118 Capítulo 8. Análise Combinatória

Solução:

n! 6!
An,k = ⇒ A6,3 = ⇒ A6,3 = 120
(n − k)! (6 − 3)!

2) Vinte equipes cursos disputam o campeonato interno da UEL de futebol de salão. Quantas são as possi-

bilidades de classicação nos dois primeiros lugares (campeão e vice-campeão)?

Solução:

n! 20!
An,k = ⇒ A20,2 = ⇒ A20,2 = 380
(n − k)! (20 − 2)!

Exercícios:
1) Calcule os números

a) A5,2 c) A10,4

b) A8,5 d) A12,3

2) Numa corrida de fórmula 1 há 24 pilotos participando e apenas os dez primeiros colocados ganham pontos.

Quantas são as possibilidades de classicação nos 10 primeiros lugares?

3) Com as letras da palavra FLAMENGO, quantas palavras distintas formadas de 5 letras distintas podem

ser escritas? (As palavras não precisam ter sentido na linguagem comum).

4) Serão eleitas duas pessoas para representarem os alunos do curso Medicina Veterinária. Uma será o

representante principal e a outra será suplente. Dez alunos estão interessados. Quantos são os possíveis

resultados da eleição.

8.6 Quantidade de Combinações


O número de combinações de n elementos tomados k a k será denotado por Cn,k (ou pelo

símbolo Cnk . Para determinar esta quantidade de combinações deve-se lembrar que com k elementos distintos:

a1 , a2 , a3 , · · · , ak
Quantidade de Combinações 119

podem ser obtidas k! permutações:

(a1 , a2 , a3 , · · · , ak ), (a2 , a1 , a3 , · · · , ak ), (a3 , a1 , a2 , · · · , ak ), etc

Isto signica que a partir de uma combinação pode-se obter k! arranjos dos n elementos tomados k a k.
Então, o número de combinações é igual ao número de arranjos dividido por k!:

An,k
Cn,k =
k!

Logo

n!
Cn,k =
k!(n − k)!

Exemplos:
1) Quantas são as combinações de 6 elementos tomados 2 a 2?

Solução:

n! 6!
Cn,k = ⇒ C6,2 = ⇒ C6,2 = 15
k!(n − k)! 2!(6 − 2)!

2) Em um experimento com camundongos serão utilizados 5 deles. No laboratório há 15 camundongos

em condições homogêneas e que podem ser utilizados no experimento. De quantos modos diferentes o

experimento pode ser realizado?

Solução: Como são 15 camundongos e apenas 5 serão utilizados no experimento, basta calcular o número de
combinações possíveis.

n! 15!
Cn,k = ⇒ C15,5 = ⇒ C15,5 = 3.003
k!(n − k)! 5!(15 − 5)!

Exercícios:
1) Calcule os números:
120 Capítulo 8. Análise Combinatória

a) C8,6 c) C7,4

b) C12,3 d) C100,2

2) Calcule o valor de n na equação Cn,2 = n + 2.

3) Numa festa compareceram 36 pessoas. Se cada uma delas cumprimentou todas as outras ao chegar,

quantos cumprimentos foram realizados?

4) Numa urna há 12 etiquetas numeradas, 6 com números positivos e 6 com números negativos. De quantos

modos pode-se escolher 4 etiquetas diferentes tal que o produto dos números nelas marcados seja positivo?
Capítulo 9

Noções sobre a teoria das


probabilidades
Conceitos probabilísticos são necessários para se estudar fenômenos aleatórios, isto é, situações

em que os resultados possíveis são conhecidos, mas não se pode saber a priori qual deles ocorrerá.

Caso os fenômenos estudados, repetidos sob as mesmas condições iniciais, levem sempre ao

mesmo resultado, eles são chamados de determinísticos.

O R tem um pacote chamado prob, muito interessante, para cálculo de probabilidades. Tal

pacote será utilizado neste capítulo, para tanto carregue o pacote:

> require(prob)

9.1 Conceitos Básicos em Probabilidade


9.1.1 Experimento Aleatório
É um processo de coleta de dados relativo a um fenômeno que acusa variabilidade em seus

resultados. Os resultados não serão previsíveis, serão diferentes mesmo que as condições iniciais sejam sempre

as mesmas.

Exemplos:
a) o lançamento de uma moeda;

b) lançar três moedas justas e observar as faces voltadas para cima;

c) lançar um dado e observar a face voltada para cima;

d) anotar o resultado de um exame de gravidez;

e) colocar 20 sementes em um germinador e observar, após um certo período de tempo, o número de sementes

germinadas;

121
122 Capítulo 9. Noções sobre a teoria das probabilidades

Quando se tem um experimento aleatório, não se pode prever com certeza o resultado. Pode-se,

no entanto, descrever todos os possíveis resultados deste experimento.

9.1.2 Espaço Amostral


O conjunto de todos os resultados possíveis de um experimento aleatório é chamado de espaço
amostral. Vamos representá-lo por Ω.
Exemplos:

a) o lançamento de uma moeda:

Ω = {C, K}, em que: C = cara e K = coroa;

> tosscoin(1);

> urnsamples(1:2, x = c(`C',`K'), size=1, replace=TRUE, ordered=TRUE)

b) lançar três moedas justas e observar as faces voltadas para cima:

Ω = {CCC, CCK, CKC, CKK, KCC, KKC, KCK, KKK};

> tosscoin(3);

> urnsamples(1:2, x = c(`C',`K'), size=3, replace=TRUE, ordered=TRUE)

c) lançar um dado e observar a face voltada para cima;

Ω = {1, 2, 3, 4, 5, 6};

> rolldie(1)

d) anotar o resultado de um exame de gravidez;

Ω = {P ositivo, N egativo};

> urnsamples(1:2, x = c(`Positivo',`Negativo'), size=1, replace=TRUE, ordered=TRUE)

e) colocar 20 sementes em um germinador e observar, após um certo período de tempo, o número de sementes

germinadas:

Ω = {0, 1, 2, . . . , 20}

> urnsamples(1:20, x = c(0:20), size=1, replace=T, ordered=TRUE)

9.1.3 Evento
É qualquer subconjunto do espaço amostral. Os eventos são geralmente representados por letras

maiúsculas, como A, B, C, . . .. Dentre os eventos a considerar, deve-se incluir o próprio espaço amostral

(evento certo) e o conjunto vazio (evento impossível).


Conceito de Probabilidade 123

Exemplo: Um experimento foi conduzido com a nalidade de se conhecer a eciência de um tratamento na

cura de certa doença. Para tanto, três doentes foram tratados com a referida droga. O espaço amostral Ω é

dado por:

Ω = {CCC; CCC; CCC; CC C; C CC; CCC; CCC, C C C}

em que: C = cura e C = não cura.

O espaço amostral, construindo no R, será dado por:

> (Tr = urnsamples(1:2, x = c('C','NC'), size=3, replace=T, ordered=TRUE))

Considere os seguintes eventos:

A = {Obter duas curas} B = {Obter quatro curas}

A = {CCC; CCC; CCC} B=ϕ

>A = Tr[c(2,3,5),] O evento B é denominado evento impossível.

9.2 Conceito de Probabilidade


9.2.1 Conceito Clássico ou a priori
Pelo conceito clássico, tem-se que:

a) a probabilidade é denida com base em dados do experimento aleatório;

b) a probabilidade é obtida antes de o experimento ser realizado e, daí, o nome a priori;

O conceito clássico surgiu no século XVII a partir dos jogos de azar e dene a probabilidade de

o evento A ocorrer como sendo:

Número de resultados favoráveis a A


P (A) =
Número de resultados possíveis

Exemplo: No lançamento de um dado honesto, qual é a probabilidade de o resultado ser um número:

a) Ímpar?

b) Menor que 3?

c) Primo?

Assim, para o cálculo de probabilidades de modelo igualmente prováveis usando o R, tem-se:


124 Capítulo 9. Noções sobre a teoria das probabilidades

(S.dado = round(rolldie(1, makespace=TRUE), 4))


probspace(1:6)
iidspace(c(`1',`2',`3',`4',`5',`6'), ntrials = 1, probs = c(1/6,1/6,1/6,1/6,1/6,1/6))
> I = sum(S.dado[c(1,3,5),2]) ; I
> M = sum(S.dado[c(1,2),2]) ; M
> P = sum(S.dado[c(2,3,5),2]) ; P

Observe que as três primeiras linhas são formas diferentes de se obter as probabilidades dos

valores observados do lançamento de um dado.

É importante notar que a denição clássica exige que os resultados tenham todos a mesma

chance. Se os resultados não têm a mesma chance, deve-se apelar para a estimativa pela frequência relativa.

Mas como podemos calcular as probabilidades a priori nas seguintes situações:

a) Uma pessoa que fuma um pacote de cigarros por dia desenvolver câncer;

b) Ocorrer uma geada no próximo inverno;

c) Haver uma explosão na população de desfolhadores presentes numa oresta de eucalipto;

d) Encontrar uma árvore de mogno num parcela de 1 ha numa oresta nativa;

e) A produção média de uma oresta superar 400 m3 /ha.

Exemplo: Planejamento Familiar

Um casal planeja ter lhos até terem uma menina e no máximo quatro lhos. Qual a probabilidade de este

casal ter uma lha?

Esta questão pode ser respondida com o uso de simulação:

1) Utilize a tabela de números aleatórios e selecione 20 números:

1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9

2) Os números pares representam meninas (F) e os ímpares, meninos (M):

1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9
M F M F M M M F M F M M F F F M F M M M

3) Agrupe os números de acordo com planejamento do casal para simular as diferentes possibilidades de lhos.

Numere cada simulação como uma família:

1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9
M F M F M M M F M F M M F F F M F M M M

Observe que 8 famílias foram geradas por simulação.


Conceito de Probabilidade 125

4) Calcule a probabilidade de ocorrência do evento A= {o casal ter uma lha}:

Número de ocorrências de A 8
P (A) = =⇒ P (A) = = 1.
Número de repetições 8

a) Será que a probabilidade é de 100%?

b) Será que se for selecionado um outro conjunto de 20 números aleatórios obter-se-á a mesma probabili-

dade?

Para responder às questões anteriores, repete-se a simulação com vários grupos. Assim, tem-se:

Grupo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

No de

Famílias

No de

Famílias com

Filhas

O cálculo da probabilidade, por simulação, é:

Total de famílias com lhas


P (A) = =⇒ P (A) = = .
Número total de famílias

O cálculo da probabilidade pode ser efetuado da seguinte forma:

Número de tentativas
Probabilidades
1 2 3 4
F 0, 5 = 0,5

M F 0, 5 × 0, 5 = 0,25

M M F 0, 5 × 0, 5 × 0, 5 = 0,125

M M M F 0, 5 × 0, 5 × 0, 5 × 0, 5 = 0,0625

0, 9375

Que é uma aplicação do modelo geométrico.

Exemplo:

1) Dentre 10.878 partos sucessivos que ocorreram em uma maternidade de São Paulo, e que resultaram em

crianças vivas, 100 foram de gêmeos. Qual a probabilidade (em porcentagem) de nascimento de um par de

gêmeos entre os recém-nascidos vivos que podem ser estimados a partir desses dados? Considere o evento

A como sendo nascimento de um par de gêmeos.


126 Capítulo 9. Noções sobre a teoria das probabilidades

9.3 Propriedades da Probabilidade


As probabilidades sempre se referem a ocorrência de eventos e, independentemente do conceito

utilizado, clássico ou frequentista, o modelo de probabilidade em Bioestatística terá sempre uma coerência
interna que resulta dos axiomas de probabilidade:

0 ≤ P (A) ≤ 1

P (Ω) = 1

P (ϕ) = 0

Obs.: Se Ā for o evento complementar de A, então P (Ā) = 1 − P (A).

9.4 Diagramas de Venn


9.4.1 Operações com Eventos

Em muitos problemas de probabilidade


interessam-nos eventos que podem ser expressos
em termos de dois ou mais eventos, formando
uniões, interseções e complementos. Os espaços
amostrais e os eventos, especialmente as relações
di-
entre os eventos, costumam ser ilustrados por
agramas de Venn, que auxiliam na visualização
dos conceitos básicos de probabilidade.

9.4.1.1 União de Eventos:


O evento união de A e B equivale à ocorrência de A, ou de B, ou ambos. Contém os elementos

do espaço amostral que estão em pelo menos um dos dois conjuntos.

Diz-se ocorre A ou B .

Notação: A B

> union(A, B)
Diagramas de Venn 127

9.4.1.2 Interseção de Eventos:

A interseção de dois eventos A e B, é o evento que consiste de todos os elementos contidos

simultaneamente em A e em B. Contém todos os pontos comuns a A e B.



Notação: A B

> intersect(A, B)

9.4.1.3 Sub-Conjuntos:

Diz-se:  B é sub-conjunto de A ou  B implica em A.


Notação: 
 B ∪A = A
B⊂A⇒
 B ∩A = B

B
A
S

9.4.1.4 Eventos Disjuntos:

Dois eventos A e B, dizem-se disjuntos ou mutuamente exclusivos, quando a ocorrência de um

deles impossibilita a ocorrência do outro. Os dois eventos não têm elementos em comum.
128 Capítulo 9. Noções sobre a teoria das probabilidades

B
A
S


Notação: A B=ϕ

9.4.1.5 Complemento:
É o evento que consiste de todos os elementos do espaço amostral que não estão contidos em
A, ou seja, é a negação de A.
Notação: Ac . 
 Ac ∪ A = S
A ⇒
c
 Ac ∩ A = ϕ

A
Sc

> setdi(A, B)

9.4.2 Regras de Cálculo de Probabilidades


Utilizando os diagramas de Venn torna-se mais fácil compreender algumas regras que surgem

naturalmente no cálculo de probabilidades.

Regra 1: Probabilidade da união de eventos


P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

Se A e B forem mutuamente exclusivos, têm-se P (A ∩ B) = 0, e o teorema ca sendo:

P (A ∪ B) = P (A) + P (B)
Diagramas de Venn 129

Exemplo: Considere o experimento lançamento de um dado e os seguintes eventos:

a) A = sair o número 3;

b) B = sair número par, e

c) C = sair número ímpar.

Determinar: P (A); P (B); P (C); P (A ∪ B); P (A ∪ C) e P (Ac ).


Solução:

Obs.: Pode-se determinar a probabilidade da união de três ou mais eventos, usando a teoria de conjuntos.

Assim, se considerarmos três eventos, A, B e C, a probabilidade da união dos três eventos é dada por:

P (A ∪ B ∪ C) = P [(A ∪ B) ∪ C]

= P (A ∪ B) + P (C) − P [(A ∪ B) ∩ C]

= P (A) + P (B) − P (A ∩ B) + P (C) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)

P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)

> (S = rolldie(1, makespace=TRUE))


> (A = subset(S, X1 == "3"))
> (B = subset(S, X1 %in% c(2,4,6)))
> (C = subset(S, X1 %in% c(1,3,5)))
> prob(A) ; prob(B) ; prob(C)
> union(A, B) ; prob(union(A,B))
> union(A, C) ; prob(union(A,C))
> setdiff(S, A) ; prob(setdiff(S, A))
130 Capítulo 9. Noções sobre a teoria das probabilidades

Regra 1B: Probabilidade da união de eventos disjuntos


Se A e B são disjuntos ⇒ A∩B =ϕ ⇒ P (A ∩ B) = 0.
Portanto, a probabilidade da união de eventos disjuntos ca:

P (A ∪ B) = P (A) + P (B)

Regra 2: Probabilidade da união de uma sequência de eventos disjuntos


Se A1 , A2 , A3 , . . . , formam uma sequência de eventos disjuntos, então:

(∞ ) ∞
∪ ∑
P Ai = P (Ai ).
i=1 i=1

Exemplo: No lançamento de duas moedas temos: A = pelo menos uma cara, B = duas coroas. Qual a

probabilidade de duas coroas ou pelo menos uma cara?

Solução:

> (L = tosscoin(2, makespace=TRUE))


> A1 = subset(L, toss1=="H") ; A2 = subset(L, toss2=="H")
> (A = union(A1, A2))
> (B = subset(L, toss1=='T' & toss2=='T'))
> prob(union(A,B))

Regra 3: Probabilidade do complemento


Do diagrama de Venn, têm-se que A ∪ Ac = S ⇒ P (A ∪ Ac ) = P (S). Mas, sabe-se que:

P (S) = 1, e que A ∪ Ac = ϕ sendo P (ϕ) = 0, logo:

P (A ∪ Ac ) = P (S)

P (A) + P (Ac ) = 1

P (Ac ) = 1 − P (A).
Probabilidade Condicional 131

Exemplo: Um dado é lançado 10 vezes, qual a probabilidade de A = pelo menos um 6?

Solução:

9.5 Probabilidade Condicional


Algumas vezes a chance de um particular evento acontecer depende do resultado de algum

outro evento. Por exemplo, a chance de um paciente com alguma doença sobreviver o próximo ano depende,

naturalmente, de ter sobrevivido no presente período.

A probabilidade do evento A, quando se sabe que o evento B ocorreu, é chamada probabilidade


condicional de A dado B, denota-se por P (A|B). Pode ser determinada dividindo-se a probabilidade de

ocorrência de ambos os eventos A e B pela probabilidade do evento B, como se mostra a seguir:

P (A ∩ B)
P (A|B) = , se P (B) > 0
P (B)

> prob(A, given=B)

ou, ainda,

P (A ∩ B)
P (B|A) = , se P (A) > 0
P (A)

> prob(B, given=A)

Na probabilidade condicional, a ocorrência de um evento altera a probabilidade de ocorrência de

outro evento.

Exemplo: Em uma pesquisa realizada no Hospital Veterinário da Universidade Estadual de Londrina, no ano

de 2010, foram coletadas diversas informações e, entre elas, o Porte do animal e o Sexo do mesmo, conforme

apresentado na Tabela 9.1.


132 Capítulo 9. Noções sobre a teoria das probabilidades

Tabela 9.1  Distribuição dos animais quanto ao Porte e Sexo.

Porte
Sexo Total
Pequeno Médio Grande

Fêmea 649 41 77 767

Macho 495 27 65 587

Total 1.144 68 142 1.354

Considerando-se que o animal escolhido é de médio porte, qual a probabilidade de ser fêmea? Dado que o

animal é macho, qual a probabilidade de ser de grande porte?

Solução:

9.5.1 Probabilidade Condicional no Diagrama de Venn


Nota-se, através do diagrama de Venn, que a probabilidade condicional é apenas uma redução

do espaço amostral, ao evento que já ocorreu.

Se o evento A ocorreu, o resultado está em Se o evento B ocorreu, o resultado está em


P (A ∩ B) P (A ∩ B)
A, ou seja, P (B|A) = B, ou seja, P (A|B) =
P (A). P (B).

Exemplo: Um número é sorteado ao acaso entre os inteiros 1, 2, . . . , 15. Se o número sorteado for ímpar,

qual a probabilidade de que seja o número 9?

Solução:
Probabilidade Condicional 133

Para resolver o problema com a utilização do R, basta simular o lançamento de um dado com

15 faces, da seguinte forma:

> (S = rolldie(1, nsides = 15, makespace = TRUE))


> (A = subset(S, X1 %in% c(1,3,5,7,9,11,13,15)))
> (B = subset(S, X1 %in% c(9)))
> prob(B, given=A)

9.5.2 Aplicação da Probabilidade Condicional


1
Epictetus , no século II D.C., arma que as aparências para a mente são de quatro tipos:

ˆ as coisas são o que parecem ser;

ˆ ou são e não parecem ser;

ˆ ou não são, mas parecem ser;

ˆ ou não são, nem parecem ser.

de forma que pode-se resumir essa relação entre parecer e ser em uma tabela da seguinte forma:

Ser
Mente
+ -
Parecer
+ As coisas são o que parecem ser Não são mas parecem ser

- São mas não parecem ser Não são e nem parecem ser

Da mesma forma, pode-se pensar na relação entre uma doença e o teste para detectá-la. Pode-se

resumir esta relação da seguinte forma:

1
http://epiclcn.blogspot.com.br/ em 14/06/2012.
134 Capítulo 9. Noções sobre a teoria das probabilidades

Doença
Relação
+ -

Teste
+ Verdadeiro positivo Falso positivo

- Falso negativo Verdadeiro negativo

Portanto, o bom uso de um teste diagnóstico requer, além de considerações clínicas, o conhe-

cimento de medidas que caracterizam a sua qualidade: a sensibilidade, a especicidade e os parâmetros que

reetem a sua capacidade de produzir decisões clínicas corretas: valor da predição positiva (VPP) e o valor

da predição negativa (VPN).

Na análise da qualidade de testes diagnósticos, interessa conhecer duas probabilidades condi-


cionais que, pela sua importância, recebem nomes especiais: sensibilidade e especicidade.
A sensibilidade, denotada por s, é denida como:

s = P (T+ |D+ ),

ou seja, a probabilidade de o teste ser positivo sabendo-se que o paciente que está sendo examinado é doente.

Portanto, a sensibilidade mede a capacidade de reação do teste em um paciente doente

A especicidade, denotada por e, é denida como:

e = P (T− |D− ),

ou seja, a probabilidade de o teste ser negativo sabendo-se que o paciente examinado não é portador da

doença. Logo, a especicidade mede a capacidade de não reação do teste em pacientes não portadores da

doença.

Na etapa de pesquisa para a determinação do grau de conabilidade de um teste diagnóstico, o

pesquisador utiliza-o primeiramente em dois grupos muito especícos de pessoas: um de portadores da doença

e outro de pacientes sem a doença em questão. Os resultados desta etapa da pesquisa podem ser resumidos

na forma da Tabela 9.2.

Tabela 9.2  Esquema padrão de síntese dos dados para vericação da qualidade de um teste clínico.

Teste
Doença Total
Positivo Negativo

Presente a b a+b
Ausente c d c+d
Total a+c b+d n

Para denir os índices que descrevem o grau de conabilidade de um teste, precisamos trabalhar

com os seguintes eventos:


Probabilidade Condicional 135

# T+ corresponde a teste positivo;

# T− corresponde a teste negativo;

# D+ corresponde a indivíduo portador da doença;

# D− corresponde a indivíduo não portador da doença.

Usando a notação da Tabela 9.2 e a denição de probabilidade condicional, têm que a sensibili-

dade e a especicidade são dadas, respectivamente, por:

Sensibilidade Especicidade

a d
s= e=
a+b c+d
Exemplo: Linder & Singer
1 estudaram a qualidade da tomograa computadorizada para o diagnóstico de

metástase de carcinoma de fígado, e os resultados resumidos na Tabela 9.3.

Tabela 9.3  Resultados da tomograa computadorizada em 67 pacientes com metástase e 83 sem


metástase do carcinoma hepático.

Metástase de Tomograa computadorizada


Total
carcinoma hepático Positiva (T+ ) Negativa (T− )

Presente (D+ ) 52 15 67
Ausente (D− ) 9 74 83
Total 61 89 150

A sensibilidade e a especicidade da tomograa computadorizada são estimadas por:

Sensibilidade Especidade
a d
s= e=
a+b c+d

52 74
s= = 0, 776 e= = 0, 892
67 83

Existem alguns pacotes no R que calculam a sensibilidade e especicidade do teste. Entre eles

pode-se citar: DiagnosisMed e epibasix, cujas aplicações encontram-se a seguir.

> require(DiagnosisMed)
> diagnosis(52, 15, 9, 74)
> require(epibasix)
> dados = cbind(c(52,15), c(9,74))
> sensSpec(dados)

1
Diagnosing liver metastases: a Bayesian analysis. Journal of Clinical Oncology, v.3, p.379-88, 1986
136 Capítulo 9. Noções sobre a teoria das probabilidades

9.5.3 Valor das Predições


A sensibilidade e a especicidade, embora sendo índices ilustrativos e bons sintetizadores das

qualidades gerais de um teste, têm uma limitação séria: não ajudam a decisão da equipe médica que, recebendo

um paciente com resultado positivo do teste, precisa avaliar se o paciente está ou não doente. Não se pode

depender apenas da sensibilidade e a especicidade, pois estes índices são provenientes de uma situação em

que há certeza total sobre o diagnóstico, o que não acontece no consultório médico. Daí a necessidade destes

dois outros índices que reetem melhor a realidade prática. Neste momento, interessa mais conhecer os

seguintes índices denominados valor da predição positiva (VPP) e valor da predição negativa (VPN), denidos

respectivamente por:

Valor da predição positiva (VPP) é a probabilidade do paciente estar realmente doente quando

o resultado do teste é positivo.

a
V P P = P (D+ |T+ ) =
a+c

Valor da predição negativa (VPN) é a probabilidade do paciente não estar doente quando o

resultado do teste é negativo.

d
V P N = P (D− |T− ) =
b+d

Estes valores são probabilidade condicionantes, tal que o evento condicionante é o resultado do

teste, aquele que na prática acontece primeiro.

Uma forma de se calcular o VPP e VPN, em função da sensibilidade e prevalência da doença,

1
é através da Tabela 9.4, sugerida por Vecchio . Seja p a prevalência
2 da doença na população de interesse,

isto é, a proporção de pessoas doentes.

Tabela 9.4  Probabilidades necessárias para o cálculo dos índices VPP e VPN.

Proporção com resultado


População Proporção
Positivo Negativo

Doente p ps p(1-s)

Sadia 1 - p (1 - p) (1 - e) (1 - p)e

Total 1 ps + (1 - p)(1 - e) p (1 - s) + (1  p)e

Assim, o valor da predição positiva é:

1
Predictive value of a single diagnostic test in unselected populations. The New England Journal of Medicine,
v.274, p.1171-3, 1966
2
É a contagem do número de casos que existe em uma população de pacientes em um momento especíco no
tempo.
Probabilidade Condicional 137

ps
V P P = P (D+ |T+ ) = .
ps + (1 − p)(1 − e)

O valor da predição negativa é dado por:

(1 − p)e
V P N = P (D− |T− ) = .
p(1 − s) + (1 − p)e

Para o exemplo da Tabela 9.3, considere que a prevalência de metástase de carcinoma de fígado

é de 2%, os valores de predição da tomograa computadorizada são:

ps 0, 02 × 0, 776
V PP = =
ps + (1 − p)(1 − e) 0, 02 × 0, 776 + (1 − 0, 02)(1 − 0, 8916)
V PP = 0, 1275.

(1 − p)e (1 − 0, 02) × 0, 892


V PN = =
p(1 − s) + (1 − p)e 0, 02 × (1 − 0, 776) + (1 − 0, 02) × 0, 8916)
V PN = 0, 9949.

Portanto, o valor de predição positiva é baixo enquanto que o valor de predição negativa é

bastante alto. Se o resultado da tomograa computadorizada é negativo, a chance de não haver metástase é

de 99,5%. O cálculo de VPP e VPN no R usando o pacote DiagnosisMed é dado por:

a d
V PP = e V PN =
a+c b+d

9.5.4 Probabilidade da Intersecção de Dois Eventos


A probabilidade condicional permite-nos calcular diretamente a probabilidade da intersecção de

dois eventos. Assim,

P (A ∩ B)
P (A|B) = ⇒ P (A ∩ B) = P (B) P (A|B)
P (B)

> prob(B)*prob(A, given=B)

ou, ainda.

P (A ∩ B)
P (B|A) = ⇒ P (A ∩ B) = P (A) P (B|A)
P (A)

> prob(A)*prob(B, given=A)


138 Capítulo 9. Noções sobre a teoria das probabilidades

Exemplo: Considere os seguintes eventos: A = retirar uma carta de copas do baralho e B = retirar um às

do baralho. Determine a probabilidade desses eventos ocorrerem simultaneamente.

Solução:

> require(MASS)
> CC = cards(makespace=TRUE)
> (A = subset(CC, suit == "Heart"))
> (B = subset(CC, rank == "A"))
> (B = subset(CC, rank %in% "A"))
> prob(A)*prob(B, given=A)
> fractions(prob(A)*prob(B, given=A))

9.5.5 Amostragem Sem Reposição


Considere uma urna contendo 3 bolas brancas e duas bolas pretas de onde são feitas duas

extrações de 1 bola ao acaso e sem reposição.


Considere os seguintes eventos:

B1: sair bola branca na primeira extração;

B2: sair bola branca na segunda extração;

P1: sair bola preta na primeira extração;

P2: sair bola preta na segunda extração.

Os eventos B1 e B2 são independentes?

Os eventos P1 e P2 são independentes?

Pede-se:

a) Calcular a probabilidade de sair branca na 1a extração e preta na 2a extração.

b) Construir o espaço amostral e indicar as probabilidades associadas a cada um dos pontos amostrais.

Calcular as probabilidades:
Probabilidade Condicional 139

a) de sair bola branca na 2a extração;

b) de sair bola preta na 2a extração;

c) de ter saído bola preta na primeira extração sabendo-se que (dado que) saiu bola branca na segunda

extração;

d) de ter saído bola preta na primeira extração sabendo-se que (dado que) saiu bola preta na segunda extração.

9.5.6 Amostragem com Reposição


Considere o mesmo caso anterior, mas com reposição da 1a bola extraída, antes da extração

da 2a bola.

Os eventos B1 e B2 são independentes?

Os eventos P1 e P2 são independentes?

Construir o espaço amostral e indicar as probabilidades associadas a cada um dos pontos amostrais.

Calcular as probabilidades:

a) P (B2 );

b) P (P2 );

c) P (B2 |B1 );

d) P (B2 |P1 );

e) P (P2 |B1 );

f) P (P2 |P1 );

Independência de Eventos
Dois eventos são considerados independentes quando a ocorrência de um deles não depende da

ocorrência do outro, isto é, P (A|B) = P (A) e P (B|A) = P (B). Logo, o teorema do produto para dois

eventos independentes é dado por:

P (A ∩ B) = P (A) · P (B)

Exemplo 1: Efeitos colaterais com o uso de certa droga ocorrem em 10% de todos os pacientes que a tomam.

Dois pacientes de um médico estão tomando a droga.


140 Capítulo 9. Noções sobre a teoria das probabilidades

a) Qual é a probabilidade de que ambos os pacientes apresentem os efeitos colaterais?

Solução:

b) Qual é a probabilidade de que pelo menos um apresente os efeitos colaterais ?

Solução:

Exemplo 2: Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%, ser A é 30% e ser

B é 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e que o fator independe do tipo sanguíneo.

Nestas condições, qual a probabilidade de uma pessoa tomada ao acaso da população ser:

a) O e Rh+ ?
Solução:

b) AB e Rh− ?
Solução:
Probabilidade Condicional 141

9.5.7 Teorema de Bayes


Uma das relações mais importantes envolvendo probabilidades condicionais e dada pelo Teorema
de Bayes. Sejam A1 , A2 , A3 , · · · , Ak eventos mutuamente excludentes cuja união é o espaço amostral Ω, e

que suas probabilidades sejam conhecidas. Assim, se B é um evento qualquer, tem-se o seguinte teorema:

P (Ai ) P (B|Ai )
P (Ai |B) = i = 1, · · · , k.

k
P (Ai )P (B|Ai )
i=1

Exemplo: Sabe-se que dos animais atendidos pelo Hospital Veterinário da Universidade Estadual de Londrina,

40% são provenientes da região norte, 15% da região sul, 20% da região leste, 15% da região oeste da cidade

de Londrina e os 10% restantes são provenientes de outras cidades. Observou-se, ainda, que 5% dos animais

da região norte foram submetidos a algum procedimento cirúrgico, enquanto que para as outras regiões os

percentuais foram: 3% para a região sul, 8% para a região leste, 4% para a região oeste e 15% para outras

cidades. Uma cha escolhida aleatoriamente acusou que o animal foi submetido a um procedimento cirúrgico.

Qual a probabilidade desse animal ser de outra cidade?

Solução:
142 Capítulo 9. Noções sobre a teoria das probabilidades

Exercícios - Probabilidades
1) Para cada um dos casos abaixo, escreva o espaço amostral correspondente e conte seus elementos.

a) Uma moeda é lançada duas vezes e observam-se as faces obtidas.

b) Um dado é lançado duas vezes e a ocorrência de face par ou ímpar é observada.

c) Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões rigorosamente iguais. Três bolas são

selecionadas ao acaso com reposição e as cores anotadas.

d) Em uma cidade, famílias com 3 crianças são selecionadas ao acaso, anotando-se o gênero de cada uma.

2) Em 750 pessoas utilizadas para pesquisa de tipo sanguíneo, vericou-se:

Tipos Pessoas

A 85
B 193

O 252

Sorteando-se uma pessoa ao acaso, qual a probabilidade da mesma ser do tipo sangüíneo AB?

3) Uma urna contém duas bolas brancas (B ) e três bolas vermelhas (V ). Retira-se uma bola ao acaso da

urna. Se for branca, lança-se uma moeda; se for vermelha, ela é devolvida à urna e retira-se outra. Dê o

espaço amostral para o experimento.

4) Lance um dado até que a face 5 apareça pela primeira vez. Enumere os resultados possíveis desse experi-

mento.

5) Dentre seis números positivos e oito negativos, dois números são escolhidos ao acaso e multiplicados. Qual

a probabilidade de que o produto seja positivo?

6) Um casal pretende ter lhos. Admitindo probabilidades iguais para ambos os sexos, qual a probabilidade

de que venha a ter três lhos do mesmo sexo?

7) Num grupo de 30 animais, 12 estão com parasitose intestinal. Três animais são escolhidos ao acaso, um

após o outro, sem reposição. Qual é a probabilidade de pelo menos 2 deles não estarem infectados?

8) Considere o lançamento de dois dados. Considere os eventos:

A = soma dos números obtidos igual a 9, e

B = número do primeiro dado maior ou igual a 4.

Enumere os elementos de A ou B. Obtenha A ∪ B, A ∩ B e Ac e suas probabilidades.


Probabilidade Condicional 143

9) Uma universidade tem 10 mil alunos dos quais 4 mil são considerados esportistas. Temos ainda que 500

alunos são do curso de biologia diurno, 700 da biologia noturno, 100 são esportistas e da biologia diurno

e 200 são esportistas e da biologia noturno. Um aluno é escolhido ao acaso e pergunta-se a probabilidade

de:

a) ser esportista;

b) ser esportista e aluno da biologia noturno;

c) não ser da biologia;

d) ser esportista ou aluno da biologia;

e) não ser esportista nem aluno da biologia.

10) Uma fazenda contém quatro bezerros Nelore, cinco Gir e seis Guzerá. Outra fazenda contém cinco bezerros

Nelore, seis Gir e dois Guzerá. Sorteia-se um bezerro de cada fazenda. Qual a probabilidade de que ambos

sejam da mesma raça?

11) Num cruzamento de galos de pescoço pelado com galinhas do mesmo tipo, temos a probabilidade de 1/4
para obter um lho de pescoço coberto. Numa ninhada de seis pintos, qual a probabilidade de que nenhum

tenha pescoço coberto?

12) Sabendo-se que 2% dos exames clínicos feitos por um laboratório apresentam falha humana, 1% falha

técnica e 2,5% pelo menos uma das duas falhas, qual a probabilidade de um exame ter as duas falhas?

13) Uma fazenda é composta de 70% de animais machos e 30% de fêmeas. Sabe-se que 40% dos machos e

60% das fêmeas são da raça Nelore. Qual a probabilidade de que escolhido um animal da raça Nelore, ele

seja macho?

14) Uma escola do ensino médio do interior de São Paulo tem 40% de estudantes do gênero masculino. Entre

estes, 20% nunca viram o mar, ao passo que, entre as meninas, essa porcentagem é de 50%. Qual a

probabilidade de que um aluno selecionado ao acaso seja:

a) do gênero masculino e nunca tenha visto o mar;

b) do gênero feminino ou nunca tenha visto o mar.

15) O Londrina Esporte Clube ganha com probabilidade 0, 7 se chove e com 0, 8 se não chove. Em agosto

a probabilidade de chuva é de 0, 3. O Londrina Esporte Clube ganhou uma partida em agosto, qual a

probabilidade de ter chovido nesse dia?

16) Dos animais de uma fazenda, 60% são castrados. Se não for castrado, a probabilidade de ter tido um distúr-

bio hormonal é de 10%, enquanto que para os demais essa probabilidade aumenta para 30%. Pergunta-se:
144 Capítulo 9. Noções sobre a teoria das probabilidades

a) qual a probabilidade do animal escolhido ao acaso ter tido um distúrbio hormonal?

b) Se o animal sorteado tiver distúrbio hormonal, qual a probabilidade de não ser castrado?

17) Uma urna contém 10 bolas verdes, 8 vermelhas, 4 amarelas, 4 pretas e cinco brancas, todas de mesmo

raio. Uma bola é retirada ao acaso. Qual a probabilidade de a bola escolhida ser:

a) não verde; c) vermelha ou preta;

b) não-branca ou vermelha; d) verde, vermelha ou amarela.

18) Uma urna contém 15 cartões enumerados de 1 a 15. Um cartão é retirado aleatoriamente. Qual a

probabilidade de o número no cartão ser múltiplo de 3?

19) Joga-se um dado branco e um dado preto. Calcule a probabilidade de:

a) Ocorrer soma 6; c) ocorrer soma 2;

b) ocorrer soma 11; d) não ocorrer nem soma 2 e nem 8.

20) Uma carta é retirada de um baralho comum de 52 cartas. Qual a probabilidade de:

a) sair uma carta vermelha; c) sair um rei ou uma carta de copas.

b) sair uma carta de copas;

21) Um número inteiro é escolhido ao acaso dentre os números 1, 2, 3, . . . , 30. Qual a probabilidade de:

a) o número ser divisível por 3;

b) o número ser divisível por 5;

c) o número ser divisível por 5 ou por 3;

d) o número não ser divisível nem por 3 e nem por cinco.

22) Uma moeda é viciada, de maneira que as caras são 3 vezes mais prováveis de aparecer do que as coroas.

Se esta moeda é lançada duas vezes. Qual a probabilidade de ocorrer cara apenas uma vez?
Probabilidade Condicional 145

23) Das 8 alunas de uma classe, 3 têm olhos azuis. Se duas delas são escolhidas aleatoriamente, qual é a

probabilidade de:

a) ambas terem olhos azuis;

b) nenhuma ter olhos azuis;

c) pelo menos uma ter olhos azuis?

24) De 120 estudantes, 70 estudam matemática, 80 estudam português e 40, matemática e português. Se um

estudante é escolhido aleatoriamente, encontre a probabilidade dele:

a) estudar matemática ou português; d) não estudar matemática;

b) só estudar português; e) não estudar nem português e nem estudar mate-

c) só estudar matemática; mática.

25) Em uma prova caíram dois problemas. Sabe-se que 132 alunos acertaram o primeiro problema, 86 erraram

o segundo, 120 acertaram os dois e 54 acertaram apenas um problema. Qual a probabilidade de que um

aluno, escolhido ao acaso:

a) não tenha acertado nenhum problema;

b) tenha acertado apenas o segundo problema;

c) tenha acertado a pelo menos um problema.

26) Um professor de probabilidade propôs a seus alunos o seguinte problema: São dadas duas moedas, uma

perfeita (probabilidade de cara igual 1/2), e outra com duas caras. Uma moeda é escolhida ao acaso e

lançada três vezes. Qual a probabilidade que seja obtida 3 caras?


Capítulo 10

Variáveis aleatórias discretas

10.1 Conceitos Iniciais


Exemplo:
Um pesquisador desenvolveu uma nova técnica de inseminação articial que, segundo ele, garante

60% de sucesso. Um fazendeiro resolveu aplicar esta nova técnica em seus animais. Para isso ele selecionou

3 animais de seu rebanho.

Considere inicialmente, o experimento: aplicar a nova técnica de inseminação e observar o

resultado. Seja E o evento o animal emprenhar e Ē o evento o animal não emprenhar.

a) Construir o espaço amostral associado a esse experimento;

b) Calcular as probabilidades associadas a cada um dos elementos do espaço amostral;

c) Considerar Y o número de animais prenhes e associar um valor y a cada um dos elementos do espaço

amostral.

O diagrama da árvore facilita a visualização do espaço amostral, quando o tamanho da amostra

a ser coletada não é grande.

146
Conceitos Iniciais 147

Resultados Possíveis Probabilidades


y

/
<E EEE 0,216 3
yyy
yy
yy
E
E EEEE
EE
E"
Ē / EE Ē 0,144 2


E J 33
 33
 33
 33
33 <E
/ E ĒE 0,144 2
 33 yyy
yy
  yy
 Ē EE
 EE
EE
 E"
 Ē / E Ē Ē 0,096 1



•(
((
((
(( /
(( <E ĒEE 0,144 2
yyy
(( yy
(( yy
E
((
E EE
EE
(( EE
(( E"
(( Ē / ĒE Ē 0,096 1

((

Ē3
33
33
33
33 /
<E Ē ĒE 0,096 1
33 yyy
3 yy
yy
Ē EE
EE
EE
E"
Ē / Ē Ē Ē 0,064 0

Logo, o espaço amostral é dado por:

{ }
Ω = EEE, EE Ē, E ĒE, E Ē Ē, ĒEE, ĒE Ē, Ē ĒE, Ē Ē Ē

e as probabilidades associadas a cada ponto do espaço amostral são dadas por:

P (EEE) = 0, 216 P (ĒEE) = 0, 144


P (EE Ē) = 0, 144 P (ĒE Ē) = 0, 096
P (E ĒE) = 0, 144 P (Ē ĒE) = 0, 096
P (E Ē Ē) = 0, 096 P (Ē Ē Ē) = 0, 064
148 Capítulo 10. Variáveis aleatórias discretas

10.2 Variável Aleatória Discreta


Uma função denida sobre o espaço amostral S e assumindo valores num conjunto enumerável

de pontos do conjunto real é dita uma variável aleatória discreta.

10.2.1 Distribuição de uma Variável Aleatória


O conjunto dos valores da variável e as respectivas probabilidades, ou seja, yi e P (yi ),
i = 1, . . . , n é chamado distribuição da variável aleatória Y.
∑n
Observação: P (yi ) = 1.
i=1
Costuma-se adotar, também, a notação P (Y = yi ) para designar a probabilidade de a variável aleatória Y
assumir o valor yi .
Portanto, a distribuição da variável aleatória Y = {número de animais prenhe} é dada por:

Tabela 10.1  Distribuição da variável aleatória Y.

yi P (Y = yi )
0 0,064

1 0,288

2 0,432

3 0,216

cuja representação gráca é apresentada na Figura 10.1.

0.40

0.35

0.30
Probabilidades

0.25

0.20

0.15

0.10

0.05
0 1 2 3

Número de Sucessos

Figura 10.1  Gráco das probabilidades de prenhez dos animais.


Variável Aleatória Discreta 149

Qual é a porcentagem esperada de :

a) três animais emprenharem?

b) nenhum animal emprenhar?

c) pelo menos um animal emprenhar?

Para elaborar a Tabela 10.1 e construir o gráco usando o R, bastam os comandos:

vacas = 0:3
prob_suc = 0.6
prenhez = data.frame(Pr = dbinom(vacas, 3, prob_suc))
rownames(prenhez) = 0:3
prenhez
plot(vacas, dbinom(vacas, size=3, prob=prob_suc), xlab="Número de Sucessos",
ylab="Probabilidades", main=`', axes=F, type="h", col=`blue')
points(vacas, dbinom(vacas, size=3, prob=prob_suc), pch=16, , col=`blue')
axis(1, vacas)
axis(2, seq(0, 0.45, .05), las=1)
abline(h=0, col="gray", cex=2.5, lwd=2)
box(bty=`l')

10.2.2 Função de Probabilidade


A função que fornece as probabilidades de ocorrências dos valores que a variável aleatória pode

assumir é chamada função de probabilidades.

Exemplo: A função de probabilidades da variável Y ={número de animais prenhe} é dada por:

( )
3
P (Y = y) = 0, 6y (1 − 0, 6)3−y , y = 0, . . . , 3.
y

(3) 3!
em que = .
y y!(3 − y)!

Exercícios: Calcular P (Y = 0), P (Y = 1), P (Y = 2) e P (Y = 3), através da função de probabilidades e

interpretar o resultado.

Solução:
150 Capítulo 10. Variáveis aleatórias discretas

10.2.3 Valor médio ou Esperança Matemática de Y


Para responder sobre qual o número médio esperado de animais emprenhados? é necessário

calcular o valor médio denido por:

Dada a variável aleatória Y , assumindo os valores y1 , y2 , . . . , yn com as respectivas probabilidades


P (y1 ), P (y2 ), . . . , P (yn ), chamamos valor médio ou esperança matemática de Y ao valor:


n
µY = E(Y ) = yi P (yi ) (10.1)
i=1

Exemplo: Para os dados da Tabela 10.1, calcula-se a esperança de Y como:

yi P (Y = yi ) yi × P (Y = yi )
0 0,064

1 0,288

2 0,432

3 0,216

Total 1,000

Portanto, E(Y ) = animais emprenhados.

Interpretação: Espera-se obter um número médio de animais emprenhados.

Propriedades da Esperança Matemática


Supondo k uma constante e X e Y variáveis aleatórias, pode-se denir as seguintes propriedades

da esperança matemática:

a) E(k) = k
Variável Aleatória Discreta 151

b) E(kX) = kE(X)

c) E(X ± Y ) = E(X) ± E(Y )

d) E(X ± k) = E(X) ± k

e) Se X e Y são variáveis aleatórias independentes, então: E(XY ) = E(X)E(Y ).

10.2.4 Variância de Y
Dada a variável aleatória Y, chamamos de variância de Y, ao valor:

n [
∑ ]2
σY2 = V (Y ) = yi − E(Y ) P (yi ). (10.2)
i=1

Logo, para o exemplo dado:

y P (Y = y) [yi − E(Y )]2 [yi − E(Y )]2 P (Y = y)


0 0,064 3,24 0,20736

1 0,288 0,64 0,18432

2 0,432 0,04 0,01728

3 0,216 1,44 0,31104

Total 1,000 0,72000

Portanto, V (Y ) = 0, 72. Assim, o desvio padrão e o coeciente de variação são dados, respectivamente, por:

√ σY
σY = V (Y ) = 0, 8485281 e CV = × 100 = 47, 14%.
µY

Uma maneira mais prática para o cálculo da variância de Y é:

2
σY2 = V (Y ) = E(Y 2 ) − [E(Y )]

em que

n
E(Y 2 ) = yi2 P (Y = yi ).
i=1

Logo,
152 Capítulo 10. Variáveis aleatórias discretas

y P (Y = y) y × P (Y = y) yi2 yi2 × P (Y = y)
0 0,064 0,000 0 0,000

1 0,288 0,288 1 0,288

2 0,432 0,864 4 1,728

3 0,216 0,648 9 1,944

Total 1,000 1,8 3,960

Assim,

[ ]2
V (Y ) = E(Y 2 ) − E(Y )
( )2
V (Y ) = 3, 96 − 1, 8

V (Y ) = 0, 72.

Propriedades da Variância
Supondo k uma constante e X e Y variáveis aleatórias, pode-se denir as seguintes propriedades

para a variância:

a) V (k) = 0

b) V (kX) = k 2 V (X)

c) V (X ± Y ) = V (X) ± V (Y ) + 2 COV (X, Y )

d) V (X ± Y ) = V (X) ± V (Y ), se X e Y são independentes.

e) V (X ± k) = V (X)

f ) Se X e Y são variáveis aleatórias independentes, então: COV (XY ) = E(XY ) − E(X) E(Y ) = 0.

Obs.: O fato de COV (X, Y ) = 0 não implica que X e Y sejam independentes.

10.2.5 Distribuição acumulada de uma variável aleatória


O conjunto dos valores da variável e as probabilidades acumuladas até os respectivos valores, ou

seja, yi e F (yi ) = P (Y ≤ yi ) i = 1, 2, . . . , n é chamada distribuição acumulada da variável aleatória Y.


Obter a tabela de distribuição acumulada de probabilidades da variável aleatória Y ou distribuição

acumulada de Y relativos à inseminação articial dos apresentados na Tabela 10.1.


Variável Aleatória Discreta 153

yi P (Y = yi ) F(Y) = P (Y ≤ yi )
0 0,064

1 0,288

2 0,432

3 0,216

cujo gráco é apresentado na Figura 10.2

1.0

0.8
Probabilidades

0.6

0.4

0.2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

Número de Sucessos

Figura 10.2  Distribuição acumulada da prenhez dos animais.

Interpretar o valor F (2).

(Acum = cumsum(dbinom(0:3, size=3, prob=0.6)))


Prenhez = data.frame(Acum)
rownames(Prenhez) = 0:3
Prenhez
plot(0:3, cumsum(dbinom(0:3, size=3, prob=0.6)), type=`s',
col=`blue', xlab=`Número de Sucessos', ylab="Probabilidades",
main="", las=1, bty=`l')#, xaxt=`n')
points(0:3, cumsum(dbinom(0:3, size=3, prob=0.6)), pch=19, col=`blue')

Exercícios:

1) Considere um pasto com 3 vacas da raça Holandesa e 5 vacas da raça Gir. Serão retirados do pasto 3

animais, através de sorteio e sem reposição. Dena a variável Y como sendo o número de animais da

raça Gir. Pede-se:


154 Capítulo 10. Variáveis aleatórias discretas

a) obter uma tabela contendo todos os possíveis resultados desse experimento e as probabilidades associ-

adas a cada um deles;

b) obter a distribuição da variável aleatória Y e um gráco que a represente.

2) Seja Y a variável aleatória discreta número de óbitos observados mensalmente no Hospital Veterinário,

cuja distribuição de probabilidades é dada por:

y 0 1 2 3 4 5

P (y) 0,1 0,2 0,3 0,2 0,1 0,1

Pede-se:

a) obter a função de distribuição acumulada F (y) para a variável aleatória Y e um gráco que a represente;

b) calcular o número médio de ovos;

c) calcular: E(4Y ), E(Y + 1), E(Y 2 ) e a variância de Y;

d) calcular V ar(2Y ) e V ar(Y + 1).

3) Em um experimento com chocadeira automática são colocados 5 ovos e observado o número de ovos

eclodidos. Sabendo-se que teoricamente, 90% dos ovos eclodem, obter:

a) a distribuição de probabilidades da variável aleatória Y = {número de ovos eclodidos} e um gráco

que a represente;

b) a probabilidade de pelo menos 3 ovos eclodirem;

c) a esperança e a variância de Y.

10.3 Principais Distribuições de Probabilidades


10.3.1 Distribuição de Bernoulli
Nos experimentos de Bernoulli
1 o espaço amostral é composto por apenas dois resultados pos-

síveis: sucesso (resultado de interesse) ou fracasso (resultado pelo qual não estamos interessados).

Exemplos:

a) Lançar uma moeda. Pode sair cara ou coroa;

b) Inseminar um animal. Pode emprenhar ou não;

c) Colocar uma estaca em um vaso com terra. Pode enraizar ou não;

d) Plantar uma semente. Pode germinar ou não;

1
Jakob Bernoulli (Nascido em 27/12/1654 em Basel, Suíça e falecido em 16/08/1705), também conhecido como
Jacob, Jacques ou James Bernoulli.
Principais Distribuições de Probabilidades 155

Seja Y a variável aleatória número de sucessos e p a probabilidade de ocorrer sucesso. Assim,

Resultados Possíveis Probabilidades y

< S (Sucesso) p 1
xx
xxx
xx
• FF
FF
FF
F"
F (F racasso) 1−p 0
A distribuição de probabilidade de Y com distribuição de Bernoulli, com parâmetro p é dada

por:

Tabela 10.2  Distribuição da variável aleatória Y de Bernoulli.

y P (Y = y)
0 1−p
1 p
Total 1

Pode-se calcular a média desta distribuição utilizando-se a Equação (10.2.3). Assim:


n
µY = E(Y ) = yi P (Y = yi )
i=1

µY = E(Y ) = 0 × (1 − p) + 1 × p

µY = E(Y ) = p

Da Equação (10.2.4), pode-se calcular a variância que é:

n [
∑ ]2
V (Y ) = yi − E(Y ) P (Y = yi ) V (Y ) = E(Y 2 ) − [E(Y )]2
i=1
[ ]
V (Y ) = (0 − p)2 (1 − p) + (1 − p)2 p ou V (Y ) = 02 × (1 − p) + 12 × p − [p]2

V (Y ) = p2 (1 − p) + p(1 − p)2 V (Y ) = p − p2

V (Y ) = p(1 − p) V (Y ) = p × (1 − p)

Portanto,

E(Y ) = p V (Y ) = p(1 − p)
e

Notação: Y ∼ Be(p).
Função de Probabilidades: A função de probabilidades de uma distribuição de Bernoulli é dada por:
156 Capítulo 10. Variáveis aleatórias discretas

P (Y = y) = py (1 − p)1−y , y = 0, 1.

10.3.2 Distribuição Binomial


É a mais importante das distribuições de probabilidades discretas. Tem esse nome devido ao

cálculo das probabilidades ser feito usando termos da expansão do binômio de Newton. O teorema do binômio

de Newton é dado por:

n ( )

n n
(x + y) = xn−k y k
k
k=0
( ) ( ) ( ) ( )
n n−0 0 n n−1 1 n n−2 2 n n−n n
= x y + x y + x y + ... + x y
0 1 2 n
( ) ( )
n n n−1 1 n n−2 2 n n−3 3
(x + y) = x + nx y + x y + x y + . . . + yn
2 3
( )
n n!
em que = .
k k!(n − k)!

Casos particulares do Binômio de Newton são:


1
(x + y) = x + y
2
(x + y) = x2 + 2xy + y 2
3
(x + y) = x3 + 3x2 y + 3xy 2 + y 3
4
(x + y) = x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4
Para que a variável aleatória de um experimento tenha distribuição binomial é necessário atender

as seguintes condições:

a) supor uma série de n realizações independentes (o resultado de um experimento não é afetado pelo

resultado dos outros) de Bernoulli;

b) a probabilidade de sucesso em cada realização é sempre constante e igual a p;

c) o número de sucessos observado é um número inteiro entre 0 e n.

Então diz-se que a variável aleatória Y = {número de sucessos} nos n ensaios tem distribuição binomial
com parâmetros n e p.
Notação: Y ∼ Bin(n, p).
Função de Probabilidades: A função de probabilidades de uma variável Y com distribuição binomial

Bin(n, p) é dada por:

( )
n y
P (Y = y) = p (1 − p)n−y , y = 0, 1, . . . , n.
y
Principais Distribuições de Probabilidades 157
( )
n n!
em que = ; p é a probabilidade de sucesso e (1 − p) é a probabilidade de fracasso.
y y!(n − y)!

Considere uma variável aleatória com distribuição binomial Bin(10; 0, 3), ou seja, o estudo de

uma variável, cujo número de ensaios será igual a 10 realizações e a probabilidade de sucesso é igual a 30%.
O gráco desta situação é apresentado na Figura 10.3.

0.25

0.20
Probabilidades

0.15

0.10

0.05

0.00
0 1 2 3 4 5 6 7 8 9 10

Número de Sucessos

Figura 10.3  Gráco da distribuição Binomial, para n = 10 ensaios com probabilidade de sucesso
p = 0, 30.

Para gerar o gráco da distribuição no R bastam os seguintes comandos:


par(mai=c(.8, .8, .2, .2))
plot(dbinom(db, size=10, prob=0.3) ~ db, type="h", col=`blue',
bty=`l', xlab="Número de Sucessos", ylab="Probabilidades", main=`', axes=F)
points(db, dbinom(db, size=10, prob=0.3), pch=16, , col=`blue')
axis(1, db)
axis(2, seq(0, 0.45, .05), las=1)
abline(h=0, col="gray", cex=1.5, lwd=1)
box(bty=`l')

Se o interesse for apenas nos valores das probabilidades, os mesmos podem ser obtidos com:

data.frame(Pr=dbinom(0:10, size=10, prob=0.3))

A esperança e a variância de uma variável aleatória Y com distribuição binomial Bin(n, p) são

dadas, respectivamente, por:


158 Capítulo 10. Variáveis aleatórias discretas

E(Y ) = n p V (Y ) = n p (1 − p)
e

Exemplo 1: Uma moeda é lançada dez vezes. Qual a probabilidade de se obter duas caras? Determine a

esperança e a variância.

Solução:

dbinom(2, size=10, prob=0.5)


moeda = 0:10
(proba = dbinom(moeda, size=10, prob=0.5) )

require(distrEx)
Y = DiscreteDistribution(supp=moeda, prob=proba)
E(Y) ; var(Y) ; sd(Y)
plot(proba ~ moeda, las=1, type="h", col=`blue',
xlab="Número de Sucessos", ylab="Probabilidades", main=`')
abline(h=0, col=`gray')
axis(1, at=c(0:10))

Exemplo 2: Uma infecção experimental em camundongos determina morte de 30% dos animais a ela subme-

tidos. Qual a probabilidade de obter num lote de 10 animais, uma mortalidade de, no máximo 20%?

Solução:
Principais Distribuições de Probabilidades 159

dbinom(0:10, 10, .3)


pbinom(2, size=10, prob=0.3)

Exemplo 3: Você leva sua cadela ao veterinário e descobre através de um exame de ultrasonograa que ela

está grávida de 8 lhotes.

a) Qual é a probabilidade de que exatamente 3 dos lhotes sejam fêmeas?

Solução:

dbinom(3, size=8, prob=0.5)

b) Qual é a probabilidade de que existam um número igual de machos e fêmeas?

Solução:

dbinom(4, size=8, prob=0.5)

c) Qual é a probabilidade de que existam mais machos do fêmeas?

Solução:
160 Capítulo 10. Variáveis aleatórias discretas

pbinom(3, size=8, prob=0.5)

10.3.3 Distribuição de Poisson


A distribuição de Poisson
1 é largamente empregada quando se deseja contar o número de ocor-

rências (sucessos) de um evento de interesse, por unidade de tempo, comprimento, área ou volume. É também

chamada de distribuição dos eventos raros.

Exemplos:

a) Número de insetos de uma espécie coletados por armadilha por dia;

b) Número de furos em pneus por km rodado;

c) Número de bactérias por ml de urina;

d) Número de pacientes que chegam a um pronto atendimento de uma pequena cidade durante a madrugada;

e) Número de árvores de uma certa espécie, por ha.

Note que os possíveis valores que as variáveis descritas podem assumir são: 0, 1, . . . ,.

O comportamento dessas variáveis pode ser descrito pela chamada distribuição de Poisson.

Função de Probabilidades: A função de probabilidades de uma variável Y com distribuição Poisson P oi(λ)
é dada por:

e−λ λy
P (Y = y) = , y = 0, 1, . . .
y!

em que λ é igual ao número médio de ocorrências do evento de interesse por unidade de tempo, distância ou

área.

Notação: Y ∼ P oi(λ).
O gráco gerado pela função de probabilidades de uma distribuição de Poisson, para λ = 4, é

apresentado na Figura 10.4.

1
Siméon-Denis Poisson, matemático Francês, 17811840.
Principais Distribuições de Probabilidades 161

0.20

0.15

Probabilidades
0.10

0.05

0.00
0 1 2 3 4 5 6 7 8 9 10 11 12

Figura 10.4  Gráco da distribuição de Poisson, cuja média é λ = 4, 0.

Obs.: Para valores de Y maiores que 12, com λ = 4, as probabilidades tendem a zero.

Os pressupostos básicos para a utilização do modelo são:

1) as condições permanecem estáveis no decorrer do tempo, isto é, a taxa média de ocorrências (λ) é constante

ao longo do tempo;

2) intervalos de tempo disjuntos são independentes, isto é, a informação sobre o número de ocorrências em

um intervalo nada revela sobre o número de ocorrências em outro intervalo.

A esperança e a variância de uma variável aleatória Y com distribuição Poisson P oi(λ) são

dadas, respectivamente, por:

E(Y ) = λ V (Y ) = λ
e

Exemplo 1: Um pesquisador está interessado no número de ovos depositados por uma espécie de pássaro.

Na primavera, ele procura e encontra 80 ninhos. O número médio de ovos por ninho foi 3,8 e a variância foi

3,1. Porque a variância é aproximadamente igual á média, ele acha que pode ser razoável descrever o número

de ovos por ninho como tendo uma distribuição Poisson com média 3,8.

a) Construa o gráco da distribuição;

plot(0:12, dpois(0:12, lambda=3.8), type=`h', las=1, bty=`l',


xlab=`Número de Ovos', ylab="Probabilidades", axes=F)
points(0:12, dpois(0:12, lambda=3.8), pch=19, col=`red')
axis(1, at=c(0:12), line=-1.15)
axis(2, seq(0, 0.25, 0.05), las=1)
abline(h=0, col="black")
162 Capítulo 10. Variáveis aleatórias discretas

b) Se esta realmente representa a distribuição populacional, qual seria a probabilidade de não encontrar ovo

num ninho?

Solução:

dpois(0, lambda=3.8)

c) Qual seria a probabilidade de encontrar um ninho com mais do que 5 ovos?

Solução:

1 - ppois(5, lambda=3.8)

d) Qual a probabilidade de encontrar de 3 a 6 ovos?

Solução:

dpois(3:6, 3.8)
sum(dpois(3:6, 3.8))

Exemplo 2: Uma vacina contra a febre aftosa tem probabilidade igual a 0, 001 de não imunizar um animal.

Se forem vacinados cinco mil animais, qual a probabilidade de não carem imunes:

a) três animais;
Principais Distribuições de Probabilidades 163

Solução:

dpois(3, lambda=5)

b) dois animais ou mais.

Solução:

1 - ppois(1, lambda=5)

Exemplo 3: O número de consultas médicas anuais de um associado de um plano de saúde é, naturalmente,

um número nito. Uma aproximação, que simplica a especicação de sua distribuição, é supor que pode

tomar qualquer valor do conjunto {0, 1, 2, . . . }. Em um plano de saúde com 5.694 liados, ao m de um

ano, foram realizadas 13.098 consultas, de acordo com os dados apresentados na Tabela 10.3.

Tabela 10.3  Número de consultas realizadas pelos liados ao plano de saúde.

Número de consultas Frequências Número de consultas Frequências

0 589 5 304

1 1.274 6 126

2 1.542 7 39

3 1.144 8 10

4 663 9 3

Pede-se:

a) Especique o modelo de Poisson para esses dados.

Solução:
164 Capítulo 10. Variáveis aleatórias discretas

b) Qual a probabilidade de se ter 7 consultas ou mais?

Solução:

ncons = c(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
Obs = c(589, 1274, 1542, 1144, 663, 304, 126, 39, 10, 3)
(saude = data.frame(ncons, Obs)) ; attach(saude)
(media = weighted.mean(ncons, Obs))
dpois(0:9, lambda=media)
1 - ppois(6, lambda=media)

c) Compare os valores observados com o esperado pelo modelo.

Solução:

(Esp = round(5694*dpois(0:9, lambda=media), 0))


(compara = data.frame(ncons, Obs, Esp))

10.3.4 Aproximação da Distribuição Binomial pela Distribuição de Poisson


A distribuição de Poisson, P ois(λ), com λ = np é uma boa aproximação à distribuição binomial
bin(n, p) quando p for pequeno, n for bastante grande e de tal forma que np ≤ 7.

Exemplo: Seja Y a variável aleatória efeito colateral a um medicamento. De acordo com o fabricante do

medicamento, a probabilidade de um animal sofrer efeito colateral devido ao medicamento é de 0,0005. O

plantel da fazenda é de 10.000 animais. Calcule:


Principais Distribuições de Probabilidades 165

a) a probabilidade de nenhum animal sofrer efeito colateral;

Solução:

n = 10000
p = 0.0005
lambda = n*p
dpois(0, lambda)

b) a probabilidade de pelo menos um animal sofrer efeito colateral;

Solução:

1 - dpois(0, lambda)

c) a probabilidade do número de animais com efeitos colaterais estar entre 3 e 5 animais, inclusive.

Solução:

ppois(5, lambda) - ppois(2, lambda)

10.3.5 Distribuição Geométrica


Destinada ao cálculo de probabilidades de situações em que são feitas sucessivas tentativas

independentes de um mesmo experimento aleatório até que apareça o 1º sucesso. Assim, se designarmos S
como sucesso e F como fracasso, e realizarmos n ensaios até que ocorra o primeiro sucesso, o espaço amostral
deste experimento será o conjunto:

Ω = {S, F S, F F S, . . . , F F F · · · S, . . .}
166 Capítulo 10. Variáveis aleatórias discretas

Logo, um elemento típico desse espaço amostral é uma sequência de comprimento n em que nas
primeiras n−1 posições temos F, ou seja, ocorrência de fracassos e na n-ésima ocorre o sucesso S.
A distribuição geométrica apresenta duas parametrizações importantes, que tem interpretações

distintas. Uma das parametrizações da função geométrica conta o número de ensaios de Bernoulli necessário

para se obter um sucesso. Assim neste tipo de parametrização não é possível se ter o zero, portanto nesta

parametrização da geométrica o domínio será o conjunto dos números naturais sem o zero.

As principais características são:

a) X é o número de ensaios necessários para obter o primeiro sucesso;

b) as tentativas são sucessivas e independentes, com probabilidade de sucesso p;

A função de probabilidade é dada por:

P (X = x) = p × (1 − p)x−1 x = 1, 2, . . .

A segunda parametrização da geométrica conta o número de falhas até que ocorra o primeiro

sucesso. Note que neste tipo de parametrização pode-se incluir o zero como sendo um possível resultado, pois

pode-se ter sucesso já no primeiro ensaio de Bernoulli. É esta parametrização que é usada como padrão pelo

R. As principais características são:

a) Y é o número de falhas até obter o primeiro sucesso;

b) as tentativas são sucessivas e independentes, com probabilidade de sucesso p;

A função de probabilidade é dada por:

P (Y = y) = p × (1 − p)y y = 0, 1, 2, . . .

Notação: Y ∼ G(p).
Exemplo: A probabilidade de se encontrar aberto o sinal de trânsito numa esquina é 0, 20. Qual a probabilidade

de que seja necessário passar pelo local 5 vezes para encontrar o sinal aberto pela primeira vez?

Solução:

dgeom(4, prob=0.20)
Principais Distribuições de Probabilidades 167

Exemplo: Um casal com problemas para engravidar, recorreu a uma técnica de inseminação articial no

intuito de conseguir o primeiro lho. A eciência da referida técnica é de 0, 40. Qual a probabilidade de que

o casal obtenha êxito na terceira tentativa?

Solução:

dgeom(2, prob=0.40)
168 Capítulo 10. Variáveis aleatórias discretas

Exercícios - Variáveis Aleatórias Discretas


Procure fazer os cálculos utilizando uma calculadora e depois
utilize o R para comprovar os resultados manuais.

1) Uma seguradora paga R$ 30.000, 00 em caso de acidente de carro e cobra uma taxa de R$ 1.000, 00.
Sabe-se que a probabilidade de que um carro sofra acidente é de 3%. Quanto espera a seguradora ganhar

por carro segurado? Resp: E(Y ) = R$100, 00.

2) Suponha que um número seja sorteado de 1 a 10, inteiros positivos. Seja Y o número de divisores do

número sorteado. Calcular o número médio de divisores do número sorteado. Resp: E(Y ) = 2, 7.

3) Seja Y uma variável com distribuição binomial com parâmetros Y ∼ Bin(n, 0, 20). Utilizando o R, faça

os grácos da distribuição de Y, para os valores de n = 5, 10, 15, 20, 30, 50. O que você nota à medida

em que se aumenta o valor de n?

4) Num jogo de dados, A paga R$ 20, 00 a B e lança 3 dados. Se sair face 1 em um dos dados apenas, A
ganha R$ 20, 00. Se sair face 1 em dois dados apenas, A ganha R$ 50, 00, e se sair 1 nos três dados, A
ganha R$ 80, 00. Calcular o lucro líquido médio de A em uma jogada. Resp: E(Y ) = −R$ 9, 21.

5) As probabilidades de que haja 1, 2, 3, 4 ou 5 pessoas em cada carro que vá ao litoral num sábado são,

respectivamente: 0, 05, 0, 20, 0, 40, 0, 25 e 0, 10. Qual o número médio de pessoas por carro? Se chegam

no litoral 4.000 carros por hora, qual o número esperado de pessoas, em 10 horas de contagem? Resp:

E(Y ) = 3, 15 e 126.000 pessoas.

6) Uma urna contém 6 bolas numeradas de 1 a 6. Uma pessoa paga R$ 600, 00 e retira aleatoriamente uma

bola. Se retirar a bola 6 recebe R$ 1.500, 00; se retirar as bolas 2, 3, 4 ou 5 nada recebe; e se retirar a bola

1 irá escolher outra bola, sem repor a primeira, e se esta segunda for a bola 6, recebe R$3.600, 00; caso

contrário, nada recebe. Calcular quanto a pessoa que está jogando espera lucrar. Resp: −R$ = 230, 00.

7) Uma moeda é lançada 20 vezes. Qual a probabilidade de saírem 8 caras? Calcule a esperança e variância.

Faça o gráco da distribuição usando o R. Resp: 0,12013; 10; 5.

8) Sabe-se que 20% dos animais submetidos a um certo tratamento não sobrevivem. Se esse tratamento foi

aplicado em 20 animais e se X é o número de não sobreviventes:

a) faça o gráco da distribuição;

b) qual é o número médio esperado de animais sobreviventes; Resp: 16.

c) Calcule a variância e o desvio padrão de X; Resp: 3,2 ; 1,788854.


Principais Distribuições de Probabilidades 169

d) Calcular a P (2 < X ≤ 4); Resp: 0,4236.

e) Calcular a P (X ≥ 2). Resp: 0,9308.

9) Em 30 bezerros nascidos, 60% foi do sexo feminino. Calcular o valor esperado (esperança) e o desvio

padrão esperado. Faça o gráco. Resp: 18; 2,683282.

10) Seja X ∼ Bin(10, 2/3). Calcular:

a) P(X=3); Resp: 0,01626

b) P (X ≤ 2); Resp: 0,003404

c) P (X ≥ 4); Resp: 0,98034

d) P (3 < X < 5); Resp: 0,05690235

e) E(X) e V(X). E(X) = 6,6667 e V(X) = 2,2222.

11) Sabe-se que 10% das vacinas de um determinado laboratório tem validade vencida. Retiram-se, casual-

mente, 10 vacinas de uma partida, qual a probabilidade de:

a) todas as vacinas estarem com validade vencida? Resp: 1, 0 × 10−10

b) no máximo três com validade vencida? Resp: 0, 9298

c) existir vacina com validade vencida? Resp: 0, 6513

d) uma vacina com validade vencida? Resp: 0, 3874

Qual o número médio de vacinas vencidas? Resp: E(X) = 1

12) Suponha que é sabido que 30% de uma certa população são imunes a alguma doença. Se uma amostra

aleatória de tamanho 10 é selecionada desta população, qual é a probabilidade de que:

a) ela contenha exatamente 4 pessoas imunes? Resp: 0,20012

b) ela contenha mais que 4 pessoas imunes? Resp: 0,15027.

c) Construa a distribuição de probabilidade e faça o gráco.

13) Em uma grande população, 16% dos membros são canhotos. Em uma amostra aleatória de tamanho 10,

encontre:

a) a probabilidade de que exatamente dois sejam canhotos; Resp: 0,28555

b) P (X ≥ 2); Resp: 0,49195

c) P (X < 2); Resp: 0,50805

d) P (1 ≤ X ≤ 4). Resp: 0,81209


170 Capítulo 10. Variáveis aleatórias discretas

14) Suponha que a probabilidade de recuperação para uma certa doença seja conhecida e igual a 0,4. Se 15

contraem a doença (assuma como sendo uma amostra aleatória), qual é a probabilidade que:

a) três ou mais se recuperem? Resp: 0,972886

b) quatro ou mais? Resp: 0,909498

c) cinco ou mais? Resp: 0,782722

d) menos que 3? Resp: 0,027114

15) Considerando que a probabilidade de nascer uma criança do sexo feminino é de 47%, qual a probabilidade

de que uma família de 6 lhos seja constituída por seis crianças do sexo feminino? Resp: 0,01077922

16) Um administrador de hospital, que tem estudado as admissões ao setor de emergências diariamente, por

um período de alguns anos, chegou a conclusão que elas são distribuídas de acordo com a distribuição

de Poisson. Os registros do hospital revelam que as admissões ao setor de emergências são, em média,

três por dia, durante este período. Dado que o administrador está correto em assumir uma distribuição de

Poisson, encontra a probabilidade que:

a) exatamente duas admissões ao setor de emergências ocorrerão em um dado dia; Resp: 0,2240

b) nenhuma admissão ao setor de emergências ocorrerá em um dado dia; Resp: 0,0498

c) ocorram três ou quatro admissões ao setor de emergências em um dado dia. Resp: 0,3920

17) Em um estudo sobre um certo organismo aquático, um grande número de amostras foram coletados de

um tanque, e o número de organismos em cada amostra foi contado. O número médio de organismos por

amostra foi encontrado como sendo dois. Assumindo o número de organismos tendo uma distribuição de

Poisson, encontre a probabilidade que:

a) a próxima amostra coletada conterá um ou mais organismos; Resp: 0,8647

b) a próxima amostra coletada conterá exatamente três organismos; Resp: 0,1804

c) Faça o gráco da distribuição.

18) Um contador eletrônico de bactérias registra, em média, 5 bactérias por cm3 de um líquido. Admitindo-se

que esta variável tenha distribuição de Poisson:

a) qual é o desvio padrão do número de bactérias por cm3 ? Resp: 5

3
b) Encontre a probabilidade de que pelo menos duas bactérias ocorram num volume de líquido de 1cm .

Resp: 0,9596
Principais Distribuições de Probabilidades 171

19) Se a probabilidade de um indivíduo sofrer uma reação nociva, resultante da infecção de um determinado

soro é 0,0001. Determinar a probabilidade de, entre 2.000 indivíduos:

a) exatamente três sofrerem a reação; Resp: 0,0011

b) mais de dois sofrerem a reação. Resp: 0,0012

20) Num livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que uma página contenha

pelo menos 3 erros? Resp: 0,080301

21) Seja X a variável aleatória número de plantas com mutação, em um total de n plantas irradiadas, e

p = 0, 0004 a probabilidade de uma planta irradiada apresentar mutação. Calcular, usando a distribuição

de Poisson como uma aproximação à binomial:

a) a probabilidade de não aparecer nenhuma planta com mutação em 900 plantas irradiadas; Resp: 0,69768

b) a probabilidade de aparecer ao menos uma planta com mutação em 900 plantas irradiadas; Resp:

0,30232

22) Seja X o número de árvores de castanha-jarana (Lecythis lurida) por hectare numa oresta tropical. Su-

ponha que X tem distribuição de Poisson (essa espécie distribui-se aleatoriamente pela região) com média

3 plantas por hectare. Pede-se:

a) Calcular a probabilidade de se encontrar no máximo uma árvore dessa espécie, ao se observar 1 hectare

dessa oresta. Resp: 0,19915

b) Calcular a probabilidade de se encontrarem 3 ou mais árvores dessa espécie ao se observar 1 hectare

dessa oresta. Resp: 0,57681

A esperança é a última que morre, mas a pri-

meira a ser calculada".


Capítulo 11

Variáveis aleatórias contínuas


Uma variável aleatória contínua pode tomar um número innito de valores, e esse valores podem

ser associados a mensurações em uma escala contínua e as probabilidades necessárias ao seu estudo são

calculadas como a área abaixo da curva da distribuição, chamada de função densidade de probabilidade.

Denição: Uma variável aleatória contínua Y é contínua em ℜ, se existir uma função f (y), tal que:

a) f (y) ≥ 0, ∀ y ∈ ℜ;

b) a área entre o gráco da função f (y) e o eixo y é igual a 1, ou seja,

∫ +∞
f (y) dy = 1.
−∞

A função f (y) é chamada função densidade de probabilidade (f.d.p.).

Observa-se que:

[ ] ∫ b
P a≤Y ≤b = f (y)dy, (11.1)
a

corresponde à área limitada pela função f (y), eixo Y e pelas retas Y =a e Y = b.


Da relação entre a probabilidade e a área sob a função, a inclusão ou não dos extremos a e b na

equação (11.1) não afetará os resultados. Assim, será admitido que

[ ] [ ] [ ] [ ]
P a<Y <b =P a≤Y <b =P a<Y ≤b =P a≤Y ≤b .

Exemplo: Seja uma função f (y) dada por:



 y ≤ 0;


0, se

f (y) = ay 3 , se 0 < y ≤ 2;



 0, se y>2

172
173

em que a é uma constante. Obter a de modo que f (y) seja uma função densidade de probabilidade de uma

variável aleatória contínua Y.

Solução:

Se f (y) é uma função densidade de probabilidade, a área compreendida pelas retas Y = 0,


Y = 2, o eixo Y e a f (y), mostrada na Figura 11.1, será igual a 1.

2.0

1.5
f(x)

1.0

0.5

0.0
0.0 0.5 1.0 2.0

1 3
Figura 11.1  Gráco da função f (y) = y .
4

A esperança matemática (ou valor médio) e a variância de uma variável aleatória contínua Y,
são dadas, respectivamente, por:

∫ ∞
µY = E(Y ) = y f (y)dy
−∞
( ) 2
σY2 = V (Y ) = E Y 2 − [E(Y )]

∫ ∞
em que,
2
E(Y ) = y 2 f (y)dy .
−∞
174 Capítulo 11. Variáveis aleatórias contínuas

Exercício: Seja Y uma variável aleatória contínua com função de probabilidade dada por:






0 se y < 0;
f (y) = 2y se 0 ≤ y ≤ 1;



 0 se y > 1;

a) Fazer o gráco de f (y);

Solução:

b) Vericar se f (y) é uma função densidade de probabilidade;

Solução:

c) Calcular P (0 < Y < 0, 5);

Solução:

d) Calcular a média e o desvio padrão de Y.

Solução:
Distribuição Normal 175

Se Y é uma variável aleatória contínua com função densidade de probabilidade f (y) dene-se a

sua função de distribuição acumulada F (y) como:

∫ y
F (y) = P (Y ≤ y) = f (t)dt.

Se a e b forem dois números reais quaisquer, tem-se que:

P (a < Y < b) = F (b) − F (a).

11.1 Distribuição Normal


11.1.1 Introdução
Dentre todas as distribuições de probabilidades, sejam discretas ou contínuas, a mais estudada e

mais utilizada é a distribuição normal. As principais razões que fazem a distribuição Normal o modelo mais

importante na estatística são:

1) Muitas variáveis biométricas tendem a ter distribuição Normal. Isto ocorre principalmente quando a variável

é inuenciada por um grande número de fatores que atuam de modo independente e aditivo;

2) A distribuição das médias amostrais de uma variável qualquer tendem a ter distribuição Normal, mesmo

que a variável em si não tenha distribuição Normal;

3) Muitos testes e modelos estatísticos têm como pressuposição a normalidade dos dados, isto é, que os

dados possuem distribuição Normal.

A distribuição Normal é também conhecida como distribuição Gaussiana em homenagem a

Karl F. Gauss (1777-1855), brilhante matemático e físico alemão, que a desenvolveu no início do século XIX.

Entretanto, Abraham de Moivre (1667-1754) foi o primeiro a anunciar a equação da distribuição em 1733 e

Pierre-Simon Marquis de Laplace (1749-1827), famoso matemático e físico francês, a redescobriu na mesma

época que Gauss. Para evitar uma questão internacional de originalidade o famoso estatístico inglês Karl

Pearson passou a chamá-la de distribuição Normal em 1920.

A função densidade de probabilidade de uma variável aleatória contínua Y, seguindo uma distri-

buição normal, é dada por:


176 Capítulo 11. Variáveis aleatórias contínuas

( )2
1 y−µ
1 −
f (y) = √ e 2 σ , para − ∞ < Y < ∞, (11.2)
2πσ 2

em que:

µ ∈ R, é a posição central da distribuição (média);

σ 2 > 0, é a dispersão da distribuição (variância);

y são os valores que a variável aleatória em estudo Y assume,

cujo gráco, supondo-se µ = 100 e σ 2 = 100, é apresentado na Figura 11.2.

0.4 0.4

0.3 0.3
f(x)

f(x)
0.2 0.2

0.1 0.1

0.0 0.0
a b
60 80 100 120 140

X X

Figura 11.2  Gráco da Distribuição Normal. Figura 11.3  Probabilidade entre as áreas a e b.

Esta distribuição é apropriada para modelar variáveis aleatórias contínuas, que assumem valores

em algum subconjunto dos números reais. Neste caso, só faz sentido falar na probabilidade da variável

pertencer a um certo intervalo [a; b] que é dada pela área sob a curva e dentro deste intervalo.

Para se calcular a probabilidade da variável aleatória Y assumir valores entre a e b basta calcular
a área compreendida entre estes intervalos usando a Equação 11.2. Assim:

( )2
∫ 1 y−µ
b
1 −
P (a ≤ Y ≤ b) = √ e 2 σ dy
a 2πσ 2

como pode ser observado na Figura 11.3.

11.1.2 Propriedades da Distribuição Normal


As principais características dessa função são:

1) A função gera um gráco em forma de sino, sendo unimodal e simétrica;


Distribuição Normal 177

2) é denida por dois parâmetros: a média (µ) e o desvio padrão (σ ), sendo que a média controla a localização

do centro da distribuição (é o ponto de simetria), já o desvio padrão controla a dispersão da curva ao redor

da média;

3) O ponto de máximo de f (y) é o ponto Y = µ;

4) Não possui limite inferior ou superior;

5) Unidades padrões: o desvio padrão dene unidades padrões na distribuição a partir da média, isto é, a

dispersão dos dados é controlada pelas unidades de desvio padrão, como mostrado na Figura 11.7.

68,3% 95,4% 99,7%

µ−σ µ µ+σ X µ − 2σ µ µ + 2σ X µ − 3σ µ µ + 3σ X

Figura 11.4  ±1 desvio da média. Figura 11.5  ±2 desvios da média.Figura 11.6  ±

Figura 11.7  Áreas sob a curva normal.

6) Notação: Y ∼ N (µ, σ 2 ).

Exemplo: Suponha que os pesos de animais adultos da raça pastor alemão possam ser descritos por uma

distribuição normal, com média 34 kg e desvio padrão 4 kg . Neste caso, a proporção dos cães têm pesos entre

26 kg e 42 kg , por exemplo, é a proporção da área sob a curva normal entre 26 e 42. Então neste exemplo,

cerca de 95% dos cães tem pesos entre 26 e 42 kg . Em termos probabilísticos, se a variável aleatória Y
representa o peso dos cães e se um cão for selecionado ao acaso então

P (µ − 2σ < Y < µ + 2σ) = P (26 < Y < 42) = 0, 9545

O cálculo direto de probabilidades envolvendo a distribuição normal exige recursos do cálculo

avançado e, mesmo assim, dada a forma da função densidade, não é um processo muito elementar. Por isso,

elas foram tabeladas, permitindo-nos obter diretamente o valor da probabilidade desejada. Note-se, entretanto,

que a função densidade da normal depende de dois parâmetros, µ e σ, de modo que se as probabilidades

fossem tabeladas diretamente a partir dessa função, seriam necessárias tabelas de dupla entrada, complicando

consideravelmente as coisas.
178 Capítulo 11. Variáveis aleatórias contínuas

O desvio padrão representa o espalhamento na distribuição. Assim, utilizando-se a ideia de

espalhamento como interpretação, é de se esperar que uma distribuição normal com desvio padrão 2 seja

mais espalhada que uma distribuição normal com um desvio padrão 1. A Figura 11.8(a) mostra as curvas

1
com mesma média e desvios variando de
2 a 3.
Se xado o desvio padrão para a distribuição e variando-se as médias, tem-se um deslocamento da

média ao longo do eixo Y. Quanto maior for a média mais deslocada à direita estará a curva. A Figura 11.8(b)

ilustra o fato.

0.8 sigma=1/2 0.4 Média = 1


sigma=1 Média = 6
sigma=2
sigma=3

0.6 0.3

f(x)
f(y)

0.4 0.2

0.2 0.1

0.0 0.0

−5 0 5 −2 0 2 4 6 8 10

y x

(a) Relação entre os desvios xada a média da distri- (b) Relação entre as médias da distribuição, xado o des-
buição. vio padrão.

Figura 11.8  Relação entre médias e desvios da distribuição normal.

Devido as diculdades de cálculo e em se construir tabelas da função dependendo de dois parâ-

metros, recorre-se a uma mudança de variável, transformando a variável aleatória Y na variável aleatória Z.
Essa nova variável chama-se variável normal padronizada, ou reduzida.

11.2 Distribuição Normal Padrão


Denomina-se distribuição normal padrão, a distribuição normal de média zero e variância 1. As

probabilidades associadas a distribuição normal reduzida são facilmente obtidas em tabelas.

Os problemas da vida real, entretanto, não se apresentam já na forma reduzida, ao contrário,

são formulados em termos da variável normal original Y, com média µY e desvio-padrão σY . é preciso então,

antes de passarmos à sua resolução, padronizar ou reduzir a variável aleatória normal Y, transformando-a na
Distribuição Normal Padrão 179

variável aleatória Z.
O resultado da padronização é a obtenção de uma escala de distribuição denominada escala

reduzida, escala Z ou escore Z, que mede o afastamento das variáveis em relação à média em número de

desvios-padrão. Assim,

y−µ
Z= ,
σ

em que:

# Z = número de desvios padrões a contar da média;

# y = o valor que a variável aleatória assume;

# µ = média da população;
# σ = desvio padrão populacional.

Logo, substituindo-se esses valores na equação (11.2), tem-se a função densidade padrão da

distribuição normal:

1
1 − z2
f (z) = √ e 2 , para − ∞ < Z < ∞.

cujos grácos são apresentados na Figura 11.9.

68,3% 95,4% 99,7%

−1 0 1 Z −2 0 2 Z −3 0 3 Z

(a) ±1 desvio da média. (b) ±2 desvio da média. (c) ±3 desvio da média.

Figura 11.9  Áreas sob a curva normal padrão.

Quando a padronização é utilizada, a média da distribuição assume valor E(Z) = 0 e variância


V (Z) = 1. Esses valores foram obtidos através da aplicação das propriedades do valor esperado e variância,
180 Capítulo 11. Variáveis aleatórias contínuas

considerando que Y ∼ N (µ, σ 2 ):


[ ]
Y −µ
E(Z) = E
σ
1
= × E(Y − µ)
σ
1
= × (µ − µ) ⇒ E(Z) = 0.
σ

[ ]
Y −µ
V (Z) = V
σ
1
= × V (Y − µ)
σ2
1
= × σ2 ⇒ V (Z) = 1.
σ2

Notação: Z ∼ N (0, 1).


De modo inverso, a variável Normal Padronizada Z pode ser transformada em qualquer variável

Normal:

Z ≈ N (0, 1) ⇒ Y = σZ + µ ⇒ Y ≈ N (µ, σ 2 ).

11.3 Uso da Tabela da Distribuição Normal Padrão


Exemplo 1: Seja Z ∼ N (0; 1). Usando a tabela da distribuição normal padrão, calcular:

a) P(0 < Z < 1,57) g) P(-2,22 < Z < -1,35)

b) P(0 < Z < 1,08) h) P(-1,93 < Z < -0,80)

c) P(-1,89 < Z < 0) i) P(0,52 < Z < 1,23)

d) P(-0,58 < Z < 0) j) P(1,25 < Z < 2,23)

e) P(-1,23 < Z < 1,05) k) P(Z > -1,27)

f ) P(-0,85 < Z < 1,92) l) P( Z < 2,23)

Para encontrar as probabilidades dos itens do exemplo 1, basta usar a função acumulada do R, cuja sintaxe é

pnorm(q, mean = 0, sd = 1). Sendo a média igual a 0 e o desvio igual a 1, não é necessário especicá-los

na função. Assim, para o item (a), por exemplo, o cálculo ca:

pnorm(1.57) - pnorm(0)

Exemplo 2: Sabendo-se que Z ∼ N (0; 1) e usando a tabela da distribuição normal padrão, obter z tal que:
Uso da Tabela da Distribuição Normal Padrão 181

a) P(0 < Z < z) = 0,43699 g) P(Z < z) = 0,82121

b) P(0 < Z < z) = 0,475 h) P(Z < z) = 0,30234

c) P(-z < Z < 0) = 0,35314 i) P(Z > z) = 0,95254

d) P(-z < Z < 0) = 0,49492 j) P(Z > z) = 0,07493

e) P(-z < Z < z) = 0,95 k) P(Z < z) = 0,36693

f ) P(-z < Z < z) = 0,97 l) P(Z < z) = 0,5

Para encontrar as probabilidades dos itens do exemplo 2, basta usar a função qnorm do R, cuja sintaxe

é qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE). Sendo a média igual a 0 e o

desvio igual a 1, não é necessário especicá-los na função. Assim, para os itens (a) e (c), por exemplo, o

cálculo ca:

qnorm(0.5 + 0.43699)
qnorm(0.5 - 0.35314)

Exemplo 3: Seja Y ∼ N (4; 1). Determine:

a) P (Y ≤ 4); d) P (5 < Y < 7);

b) P (4 < Y < 5); e) P (Y ≤ 1);

c) P (2 < Y < 5); f) P (0 ≤ Y ≤ 2);

Para encontrar as probabilidades dos itens do exemplo 3, basta usar a função pnorm do R. Como a média é

igual a 4 e o desvio-padrão igual a 1, é necessário especicá-los na função. Assim, para os itens (a) e (b), por

exemplo, o cálculo ca:

pnorm(4, 4, 1)
pnorm(5, 4, 1) - pnorm(4, 4, 1)

Exemplo 4: Seja Y ∼ N (3, 16), ou seja, a variável Y tem média igual a µ=3 e variância σ 2 = 16. Faça o

gráco da distribuição e determine P (3 < Y < 8).

Solução:
182 Capítulo 11. Variáveis aleatórias contínuas

Exemplo 5: A estatura média dos alunos da UEL é de µ = 1, 75m e desvio padrão σ = 0, 15m. Assumindo-se

que a variável estatura (Y) seja normalmente distribuída, calcule a probabilidade de um aluno aleatoriamente

selecionado ter estatura entre 1, 70m e 1, 80m.

Solução:

Exemplo 6: Aplicação da Distribuição Normal a dados do Vestibular.

- Vagas: 60 Total de Pontos Obtidos: 1880,2 Classicação: 77 -


PROVAS A/N F PTS TPTS µ σ NP

1 Conhecimentos Gerais 39 1,667 65,013 65,013 52,318 13,712 592,6

Redação 7,502 4,6 34,509


2 Língua Port./Literatura 14 2,3 32,2 69,909 55,397 13,029 611,4
Língua Estrangeira 4 0,8 3,2

Especíca A 16 2,5 40
3 80 52,319 15,814 676,2
Especíca B 16 2,5 40
Uso da Tabela da Distribuição Normal Padrão 183

Desempenho do Primeiro e do Último Classicado no Curso

Classicação Pontuação
1 2.150,2

60 1.899,3
184 Capítulo 11. Variáveis aleatórias contínuas

Distribuição Normal
p

0 zt Z

0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586

0,1 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535

0,2 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409

0,3 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173

0,4 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793

0,5 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240

0,6 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490

0,7 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524

0,8 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327

0,9 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891

1,0 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214

1,1 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298

1,2 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147

1,3 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774

1,4 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189

1,5 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408

1,6 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449

1,7 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327

1,8 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062

1,9 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670

2,0 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169

2,1 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574

2,2 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899

2,3 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158

2,4 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361

2,5 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520

2,6 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643

2,7 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736

2,8 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807

2,9 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861

3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900

3,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929

3,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950

3,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965

3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976

3,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983

3,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989

3,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992

3,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995

3,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
Uso da Tabela da Distribuição Normal Padrão 185

Exercícios

1) Suponha que µ = 8; σ 2 = 4, ou seja, Y ∼ N (8; 4).

a) Construa o gráco de Y;

x <- seq(1.419, 14.581, length.out=100)


plot(x, dnorm(x, mean=8, sd=2), xlab=expression(x),
ylab=expression(f(x)), type="l", las=1, bty='l')
abline(h=0, col="gray")

b) Construa o gráco da função acumulada;

plot(x, pnorm(x, mean=8, sd=2), xlab=expression(x),


ylab=expression(F(x)), type="l", las=1, bty='l')
abline(h=0, col="gray")
remove(.x)

c) Calcule:

i) P (Y ≥ 9, 5); Esta probabilidade pode ser calculada usando o R, através do seguindo comando:

pnorm(c(9.5), mean=8, sd=2, lower.tail=FALSE);

ii) P (6 ≤ Y ≤ 10). Esta probabilidade pode ser calculada usando o R, através do seguindo comando:

pnorm(c(10), mean=8, sd=2, lower.tail=TRUE) -


pnorm(c(6), mean=8, sd=2, lower.tail=TRUE)

2) Em uma população de indivíduos adultos de sexo masculino, a estatura média é 1, 70 m e desvio padrão

de 0, 08 m.

a) Qual é o intervalo de alturas em que 95% da população está compreendida?

qnorm(c(0.025, 0.975), mean=1.7, sd=0.08)

b) Na mesma população, qual a probabilidade de um indivíduo ter estatura entre 1, 60 e 1, 82 m?

pnorm(c(1.82), mean=1.7, sd=0.08, lower.tail=TRUE) -


pnorm(c(1.6), mean=1.7, sd=0.08, lower.tail=T)
186 Capítulo 11. Variáveis aleatórias contínuas

c) Qual a probabilidade de se encontrar um indivíduo com estatura menor que 1, 58?

pnorm(c(1.58), mean=1.7, sd=0.08)

3) Na curva gaussiana padrão obtenha o valor de z0 tal que a área entre a média da curva e z0 seja 0, 40.

qnorm(c(.1, .9))

4) Um teste de aptidão para o exercício de certa prossão exige uma sequência de operações a serem execu-

tadas rapidamente uma após outra. Para passar no teste, o candidato deve completá-lo em 80 minutos no

máximo. Admita que o tempo para completar o teste seja uma variável aleatória N(90, 400).

a) Qual a porcentagem dos candidatos com chances de serem aprovados?

pnorm(80, mean=90, sd=20)

b) Os melhores 5% receberão um certicado especial. Qual o tempo máximo para fazer jus a tal certicado?

qnorm(0.05, mean=90, sd=20)

5) É sabido que, para adultos do sexo masculino, gozando de boa saúde, em uma certa população, a tempe-

ratura corporal segue distribuição gaussiana com média de 36,8 graus e desvio-padrão de 0,15 graus.

a) Se considerarmos 1.000 dessas pessoas, quantas se esperariam com temperatura entre 36,8 e 37,2

graus?

(prob = pnorm(c(37.2), mean=36.8, sd=.15) - pnorm(c(36.8), mean=36.8, sd=.15))


(Esp = 1000*prob)

b) Em qual intervalo de temperaturas estão 98% dos adultos masculinos sadios desta população?

qnorm(c(0.01, 0.99), mean=36.8, sd=0.15)

6) Um pesquisador deseja criar um padrão para identicar presença de infecção bacteriana (Pseudomonas sp)

no trato respiratório através de cultura de escarro. Para isto, coletaram-se dados de pessoas sabidamente

sadias e determinou-se o número de colônias encontradas em cada cultura. Foram encontrados os seguintes

resultados:

17 22 23 23 23 23 24 24 24

24 24 24 25 25 25 25 25 25

25 26 28 28 29 30 30 31 31

35 35 35 36 40 41 41 41 42

51 54 56 56 56 58 60 68 79
Uso da Tabela da Distribuição Normal Padrão 187

Determine uma faixa de normalidade de 95% para o número de colônias de bactérias no trato respiratório

de pessoas sadias, usando o método da curva de Gauss.

escarro = c(17, 22, 23, 23, 23, 23, 24, 24, 24, 24, 24, 24, 25, 25, 25, 25, 25, 25,
25, 26, 28, 28, 29, 30, 30, 31, 31, 35, 35, 35, 36, 40, 41, 41, 41, 42,
51, 54, 56, 56, 56, 58, 60, 68, 79)
(n = length(escarro))
(média = mean(escarro))
(var.amostra = var(escarro))
(var.pop = ((n-1)/n) * variância)
# ou,
(var.pop = sum((escarro - mean(escarro))^2) / n)
qnorm(c(.025, .975), mean=média, sd=sqrt(var.pop))

7) As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, com média 170 cm
e desvio-padrão 5 cm.

a) Qual o número esperado de alunos com altura superior a 165 cm?

(prob = pnorm(165, mean=170, sd=5, lower.tail=F))


(Esp = 10000*prob)

b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos?

qnorm(c(0.125, 0.875), mean=170, sd=5)

8) O peso da carcaça de um animal segue uma distribuição N (50kg ; 4kg 2 ). Se o peso de uma carcaça

é inferior a um desvio-padrão abaixo da média, ela é vendida a R$ 60, 00, caso contrário, por R$ 80, 00.
Qual o preço médio de venda de uma carcaça?

(inf = pnorm(48, mean=50, sd=2))


(sup = pnorm(48, mean=50, sd=2, lower.tail=FALSE))
(Esp = inf*60 + sup*80)

9) Mensurações de pesos foram realizadas in vivo em 142 fêmeas de bovinos da raça Nelore. A média e

desvio padrão obtidos foram: µ = 390, 19 kg e σ = 45, 23 kg . Assumindo-se que os pesos seguem uma

distribuição normal:

a) Esquematizar o gráco da distribuição;


188 Capítulo 11. Variáveis aleatórias contínuas

x = seq(280, 500, length = 142)


y = dnorm(x, mean=390.19, sd=45.23)
plot(x, y, type="l", lwd=2, col="red", bty='l',
xlab='Pesos (kg)', ylab="Probabilidade")

b) Calcular a proporção esperada de animais com pesos acima de 395 kg ;

(prob.b = pnorm(395, mean=390.19, sd=45.23, lower.tail=FALSE))


(Esp.b = 142*prob.b)

c) Calcular a proporção esperada de animais com pesos abaixo de 380, 17 kg ;

(prob.c = pnorm(380.17, mean=390.19, sd=45.23))


(Esp.c = 142*prob.c)

d) Calcular a proporção esperada animais com pesos acima de 385, 0 kg ;

(prob.d = pnorm(385, mean=390.19, sd=45.23, lower.tail=FALSE))


(Esp.d = 142*prob.d)

e) Calcular a proporção esperada de animais com pesos entre 385 e 390 kg ;

(prob.e = pnorm(390, mean=390.19, sd=45.23) -


pnorm(385, mean=390.19, sd=45.23))
(Esp.e = 142*prob.e)

f ) Se 25% dos animais com menor peso forem abatidos, qual o peso mínimo dos animais remanescentes?

qnorm(.25, mean=390.19, sd=45.23)

g) Qual o peso mínimo para um animal estar entre os 5% com maior peso?

qnorm(.05, mean=390.19, sd=45.23, lower.tail=FALSE)

10) Uma amostra de 120 suínos mestiços, com seis meses de idade, apresenta quanto ao peso (em kg):

µ = 80kg e σ = 12kg.

a) Quantos suínos têm peso entre µ ± σ?

(prob = pnorm(92, mean=80, sd=12) - pnorm(68, mean=80, sd=12))


(Esp = 120*prob)
Uso da Tabela da Distribuição Normal Padrão 189

b) Qual a probabilidade de um suíno escolhido ao acaso pesar entre 72 e 82 kg ?

(prob = pnorm(82, mean=80, sd=12) - pnorm(72, mean=80, sd=12))

c) Qual a probabilidade de um suíno pesar entre 92 e 104 kg ?

(prob = pnorm(104, mean=80, sd=12) - pnorm(92, mean=80, sd=12))

11) A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representado por uma

N (3, 50kg ; 0, 36kg 2 . Um abatedouro comprará 10.000 coelhos dessa granja e os classicará de acordo

com o peso, da seguinte forma: 20% dos mais leves como pequenos, os 40% seguintes como médios,

os 30% seguintes como grandes e os 10% restantes como extras. Quais os limites de peso para cada

classicação?

(Leves = qnorm(.2, mean=3.5, sd=0.6))


(Médios = qnorm(c(.2, .6), mean=3.5, sd=0.6))
(Grandes = qnorm(c(.6, .9), mean=3.5, sd=0.6))
(Extras = qnorm(.1, mean=3.5, sd=0.6, lower.tail=FALSE))

12) Dada a função abaixo, vericar para que valor de K pode ser considerada uma função densidade de

probabilidade. Calcular a E(X) e V (X).



 kx2 se 0 ≤ x ≤ 2;
f (x) =
 0 se x<0 ou x > 2.

k = 8/3 ; E(X) = 32/3 ; V(X) = 256/15

13) Suponha que o peso de animais recém-nascidos (em kg) pode ser considerado uma variável aleatória com

a seguinte densidade: 


1 1
0 ≤ x ≤ 2;

 x+ se

 10 10



−3 9
f (x) =
 x+ se 2 < x ≤ 6;

 40 20





 0, caso contrário.

Qual a probabilidade de, escolhendo ao acaso um animal, ele ter peso:

a) inferior a 3 kg ;
190 Capítulo 11. Variáveis aleatórias contínuas

p = 0,6625

b) entre 1 e 4 kg ;

p = 0,25

Aprender é a única coisa que a mente nunca se cansa,

nunca tem medo e nunca se arrepende.

Leonardo da Vinci.
Capítulo 12

Introdução à inferência estatística


O objetivo da inferência estatística é estudar uma determinada população baseando-se em infor-

mações obtidas através da amostra coletada.

Os modelos probabilísticos procuram medir a variabilidade de fenômenos casuais de acordo com

as ocorrências. Na prática, frequentemente o pesquisador tem alguma idéia sobre a forma da distribuição, mas

não dos valores exatos dos parâmetros que a especicam.

Exemplo: Suponha que a distribuição das estaturas dos alunos da UEL possa ser representada por um modelo

gaussiano e que os parâmetros populacionais, média e variância, fossem conhecidos e iguais, respectivamente,

a 1, 72 m e 0, 0225 m2 . Qual a probabilidade de um aluno, aleatoriamente selecionado, ter altura entre 1, 65 m


e 1, 75 m?
Se os dados seguem uma distribuição normal, então tem-se que a função densidade de probabilidade é dada

por:

1 1 y−µ 2
f (y) = √ e− 2 ( σ ) , −∞ < Y < +∞
σ 2π

∫ 1,75
1 1 y−1,72 2
∴ P (1, 65 ≤ Y ≤ 1, 75) = √ e− 2 ( 0,15 ) dy = 0, 2589
1,65 0, 15 2π

pnorm(1.75, mean=1.72, sd=0.15, lower.tail=T) - pnorm(1.65, mean=1.72, sd=0.15, lower.tail=T)


# ou
diff(pnorm(c(1.65, 1.75), mean=1.72, sd=0.15))

Nessa situação (parâmetros populacionais conhecidos), não haveria necessidade de usar a inferência estatística.

Raramente se consegue obter a distribuição exata de alguma variável, ou por que isso é muito dispendioso, ou

muito demorado ou às vezes porque consiste num processo destrutivo.

A solução é trabalhar com amostra, analisá-la e inferir propriedades para a população.

191
192 Capítulo 12. Introdução à inferência estatística

Já se discutiu a diferença entre estatísticas (amostragem) e parâmetros (população). Assim,

tem-se:

Parâmetro Estatística

Média µ ȳ

Variância σ2 s2

Desvio padrão σ s

Proporção π p

Considere:

n
yi
Ȳ =
i=1
n

em que que:

Ȳ é chamado estimador e

ȳ = 1, 73 m é, por exemplo, a estimativa.

12.1 Distribuição Amostral da Média


Considere a seguinte população: 1, 3, 5, 5, 7. Seja Y a variável aleatória valor assumido por um

elemento sorteado ao acaso dessa população.

a) Obter a distribuição de Y.

y P(Y=y)

1 1/5

1/5

Total 1

[ ]2
b) Calcular a média µY = E(Y ) e a variância σ 2 = E(Y 2 ) − E(Y ) .
Distribuição Amostral da Média 193

Solução:

c) Considerar todas as possíveis amostras de tamanho n = 2, com reposição, dessa população. Seja Y1 a

a a
variável aleatória número selecionado na 1 extração e Y2 , a variável aleatória número selecionado na 2
Y1 + Y2
extração. Obter a distribuição amostral da estatística Ȳ = (média).
2

Y1 + Y2 Y1 + Y2
Amostra Ȳ = Probabilidade Amostra Ȳ = Probabilidade
2 2
(1;1) 1/25 (5;1) 1/25
(1;3) 1/25 (5;3) 1/25
(1;5) 1/25 (5;5) 1/25
(1;5) 1/25 (5;5) 1/25
(1;7) 1/25 (5;7) 1/25
(3;1) 1/25 (7;1) 1/25
(3;3) 1/25 (7;3) 1/25
(3;5) 1/25 (7;5) 1/25
(3;5) 1/25 (7;5) 1/25
(3;7) 1/25 (7;7) 1/25
(5;1) 1/25
(5;3) 1/25
(5;5) 1/25
(5;5) 1/25
(5;7) 1/25

O número de amostras de tamanho 2 possíveis da população é: 52 = 25. Se fosse de tamanho 3, teríamos:

53 = 125, no caso de amostras com reposição. E se fosse sem reposição?


194 Capítulo 12. Introdução à inferência estatística

0.25

Tabela 12.1  Distribuição das Médias


0.20

Ȳ P (Ȳ = ȳ)
1 1/25 0.15

Probabilidades
2 2/25

0.10
4

0.05

7 1/25
0.00

1 2 3 4 5 6 7
Total 1
Médias

[ ]2
Calcular a média µȲ = E(Ȳ ) e a variância σȲ2 = E(Ȳ 2 ) − E(Ȳ ) .
Solução:

y = 1:7
probab=c(1, 2, 5, 6, 6, 4, 1)/25
require(distrEx)
Y = DiscreteDistribution(supp=y, prob=probab)
E(Y) ; var(Y) ; sd(Y)
par(mai=c(1, 1, .2, .5))
plot(probab~y, las=1, type="h", bty="l", col="blue",
xlab="Médias", ylab="Probabilidades")
points(y, prob, pch=19, col="blue")
Distribuição Amostral da Média 195

Para se retirar uma amostra de tamanho n de uma população de tamanho N, basta usar o R.
Para o exemplo dado, pode-se retirar uma amostra usando os seguintes comandos:

popul = c(1, 3, 5, 5, 7)
(amostra = sample(popul, 2, replace=T))
# ou
tilapia = read.table('http://www.uel.br/pessoal/silvano/Dados/Tilapia.txt', head=T)
attach(tilapia)
(amostra.tila = sample(Peso, 20, replace=F))

Para efetuar os procedimentos realizados de forma direta no R, é necessário a construção de uma


função, encontrada no material da Fiocruz, que execute as tarefas. Dada por:

permuta2.ou.3 <- function (x, N, n)


{
if (n!=2 && n!=3) stop("Esta função é para obter permutações
2 a 2 ou 3 a 3 apenas")
z <- matrix(0, nrow=N^n, ncol=n)
z[,1] <- rep(x, each=N^(n-1))
z[,2] <- rep(x, times=N^(n-2), each=N^(n-2))
if(n==3)
{
z[,3] <- rep(x, times=N^(n-1))
}
z
}
amostras.2 <- permuta2.ou.3(popul, 5, 2) ; amostras.2

O R, por default, calcula a variância e o desvio padrão da amostra. Para se determinar a

variância de uma população é necessário denir uma função para efetuar tal cálculo, dada por:

var.pop <- function(x)


{ Var = sum((x-mean(x))^2)/length(x) }
(var.pop(popul))
# ou, simplesmente:
n = length(popul)
(var.pop = var(popul)*(n-1)/n)

Assim, pode-se determinar as médias das amostras e a variância populacional aplicando-se:


196 Capítulo 12. Introdução à inferência estatística

(medias.2 <- round(apply(amostras.2, 1, mean), 2))


table(medias.2)
cbind(table(medias.2))
(var.pop(medias.2))

Teorema: Seja Y uma variável aleatória com média µ e variância σ2 , e seja (Y1 , Y2 , . . . , Yn ) uma amostra

aleatória simples de Y. Então:

σ2
µȲ = E(Ȳ ) = µ σȲ2 = V (Ȳ ) = .
n

Quando o tamanho da amostra aumenta, independentemente da forma da distribuição da população, a dis-

tribuição amostral de Ȳ aproxima-se cada vez mais de uma distribuição normal. Esse resultado, fundamental

na teoria da Inferência Estatística, é conhecido como Teorema Central do Limite.

Teorema: Para amostras aleatórias simples (Y1 , Y2 , . . . , Yn ), retiradas de uma população com média µ e

variância σ2 , a distribuição amostral da média Ȳ aproxima-se, para n grande, de uma distribuição normal,
2
σ
com média µ e variância , ou seja,
n
( )
σ2
Ȳ ∼ N µ, . (12.1)
n

Se a população for normal, então Ȳ terá distribuição exata normal. Aceita-se que para amostras com mais

de 30 observações a aproximação à normal já pode ser considerada boa.

Corolário: (Y1 , Y2 , . . . , Yn ) for uma


Se amostra aleatória simples de uma população qualquer, com média µ
2 1
e σ , e Ȳ = (Y1 , Y2 , . . . , Yn ), então:
n

Ȳ − µ a
Z= σ ∼ N (0, 1), (12.2)

n

a
em que ∼ signica aproximadamente distribuído. A diferença entre a estatística Ȳ e o parâmetro µ, isto é,

e = Ȳ − µ é chamado erro amostral da média.

Usando o R é possível gerar amostras da população para comprovar o Teorema. Os comandos

no R são:

require(TeachingDemos)
clt.examp(n = 50, reps = 10000, nclass =16)
Distribuição Amostral da Média 197

Exemplo 1: Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo normal com

média µ = 1, 69 m e variância igual a 0, 01 m2 . Uma amostra de dez animais foi sorteada aleatoriamente.

Qual a probabilidade da média do comprimento dessa amostra estar entre 1, 63 e 1, 69 m?

Solução:

Exemplo 2: Os camarões machos da espécie Farfantepenaeus paulensis, para serem considerados adultos,

devem apresentar um comprimento total maior ou igual a 22 mm. Suponha que numa população de camarões

machos adultos a média dos comprimentos seja igual a µ = 27, 3 mm e o desvio padrão é σ = 7, 8 mm.

a) Qual a probabilidade de que numa amostra de n = 35 camarões, obtenha-se uma média Ȳ < 22 mm?

Solução:

b) Qual deve ser o valor para a média do comprimento total, µ, a m de que P rob(Ȳ ≤ 22) = 0, 05?

Solução:
198 Capítulo 12. Introdução à inferência estatística

12.2 Distribuição Amostral da Proporção


Considere o exemplo 1 em que os jacarés serão considerados adultos se o comprimento for maior
que 1, 69 m. Seja Yi o comprimento do i-ésimo jacaré escolhido, tal que:



1, se Xi > 1, 69 m
Yi =

0, se Xi ≤ 1, 69 m

Logo, Yi será 1 para jacarés adultos e 0 para jacarés jovens. As quantidades Y1 , Y2 , · · · , Y10 também são

variáveis aleatórias, uma vez que elas assumem o valor 0 ou 1 dependendo do valor assumido Xi , que também
é uma variável aleatória. Considere os seguintes dados:

i 1 2 3 4 5 6 7 8 9 10

Xi 1,58 1,63 1,72 1,75 1,69 1,68 1,70 1,64 1,77 1,74

Yi 0 0 1 1 0 0 1 0 1 1

Portanto, a proporção π de jacarés adultos será estimada pela proporção de comprimentos maiores que 1, 69 m
encontrada na amostra, p. A estimativa obtida foi:

Y1 + Y2 + · · · + Y10 0 + 0 + 1 + ··· + 1
p= = = 0, 5
10 10

indicando que 50% de todos os jacarés são considerados adultos.

Denição: Seja π a proporção das unidades de uma população que possuem uma determinada característica

(proporção de sucessos). A população pode ser denida como uma variável Y tal que:



1, se o elemento da população tem a característica;
Y =

0, se o elemento da população não tem a característica,

sendo P (Y = 1) = π e P (Y = 0) = 1 − π.

Alguns exemplos são:

a) observar as capivaras machos;

b) observar as árvores com cancro numa oresta de eucalipto;

c) observar os eleitores do candidato A;

d) observar as pessoas que se sentem mal após tomar uma vacina.

Se amostras aleatórias de tamanho n forem tomadas de uma população com proporção π , então,
a distribuição amostral de p tem as seguintes propriedades:
Distribuição Amostral da Proporção 199
( )

n
Yi
1) E(p) = µp = E = π =⇒ p é um estimador sem viés de π ;
n i=1
( n ) √
∑ Yi π(1 − π) π(1 − π)
2) V ar(p) = σp2 = V ar = =⇒ σp = .
i=1
n n n
Se o tamanho da amostra cresce, o desvio padrão da proporção amostral decresce;

3) Se a população original tem uma distribuição qualquer, para n sucientemente grande (n > 30), p terá

distribuição aproximadamente normal:

[ ]
a π(1 − π) p−π
p ∼ N π, , ⇒ z=√ ∼ N (0, 1)
n π(1−π)
n

a
em que ∼ signica aproximadamente distribuído.

y
Quando π é desconhecida e a amostra com reposição é grande, determina-se p= , estimativa
n
de π. Logo,


p(1 − p)
σp = .
n

Exemplo 1: Deseja-se saber qual a proporção de pessoas da população portadoras de determinada doença.

Retira-se uma amostra de 400 pessoas, obtendo-se 8 portadores da doença. Determine a proporção estimada

de pessoas portadoras da doença e o desvio padrão.

Solução:

Exemplo 2: Um fabricante arma que sua vacina contra gripe imuniza 80% dos casos. Uma amostra de 25

indivíduos que tomaram a vacina foi sorteada e testes foram feitos para vericar a imunização ou não desses

indivíduos. Se o fabricante estiver correto, qual é a probabilidade da proporção de imunizados na amostra ser

inferior à 0, 75? E superior à 0, 85?


200 Capítulo 12. Introdução à inferência estatística

Solução:

S-ar putea să vă placă și