Documente Academic
Documente Profesional
Documente Cultură
O BOXPLOT
Ana Maria Lima de Farias Departamento de Estatstica (GET/UFF) Introduo O boxplot um grfico construdo com base no resumo dos cinco nmeros, constitudo por: Valor mnimo Primeiro quartil (Q1) Mediana (segundo quartil Q2) Terceiro quartil (Q3) Valor mximo
O grfico formado por uma caixa construda paralelamente ao eixo da escala dos dados (pode ser horizontal ou vertical). Essa caixa vai desde o primeiro quartil at o terceiro quartil e nela traa-se uma linha na posio da mediana. Essa caixa, que descreve os 50% centrais da distribuio, comum a todas as variantes do boxplot. Pode-se acrescentar tambm uma linha, paralela linha da mediana, para indicar a mdia. Na figura abaixo, Q1 = 5; Q2 = 7; Q3 = 8.
10
11
12
13
14
15
Na variante que usa efetivamente o resumo dos cinco nmeros, continua-se a construo do boxplot traando-se uma linha paralela escala que vai de cada extremidade da caixa ao correspondente valor extremo dos dados. praxe traarem-se essas linhas pelo meio da caixa. Na figura abaixo, o mnimo 3 e o mximo 15.
10
11
12
13
14
15
Outra variante bastante comum, que a que usamos nas atividades Conhecendo o Boxplot e Construindo Boxplots, trata de forma especial os valores atpicos, que so
1
UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA valores muito afastados da grande maioria dos dados. Suponhamos que, no nosso exemplo, todas as observaes sejam menores que ou iguais a 10, e apenas uma observao seja igual a 15. Ento 15 um valor atpico. A variante do boxplot representaria esses dados da seguinte forma:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
H diferentes opes para se estabelecerem os limites que separam os valores atpicos. Mas estabelecida uma regra, os valores que se encontram entre esses limites so chamados valores adjacentes e aqueles fora dos limites so chamados valores extremos ou atpicos. Clculo dos quartis Dada a escala de mensurao dos dados, os quartis so valores nessa escala que dividem o conjunto de dados em quatro partes, todas elas com o mesmo nmero de observaes. Isso significa que 25% das observaes so menores que o primeiro quartil, 50% so menores que o segundo quartil e 75% so menores que o terceiro quartil. Note que estamos falando de escala, de ordem. Assim, para calcularmos os quartis, temos que ordenar os dados. O clculo se inicia com a mediana, ou segundo quartil ela o valor do meio, o valor que deixa metade das observaes abaixo e a outra metade acima. Consideremos o conjunto de dados que gerou o boxplot acima; h 18 observaes.
Ordem Valor 1 3,0 2 3,5 3 4,5 4 5,0 5 5,0 6 5,5 7 6,5 8 6,5 9 6,5 10 7,5 11 7,6 12 7,9 13 8,0 14 8,0 15 9,0 16 9,5 17 18 10,0 15,0
UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA Um erro comumente cometido pelos alunos considerarem a mdia das posies, e no dos valores! Se assim fosse, todos os conjuntos de dados com 18 observaes teriam a mesma mediana 9,5... O clculo do primeiro e do terceiro quartis feito calculando-se as medianas das duas metades o primeiro quartil a mediana da metade inferior e o terceiro quartil a mediana da metade superior. Nesses clculos despreza-se a mediana. Para os dados acima, cada metade tem 9 observaes. Logo, a mediana deixar 4 observaes abaixo e 4 observaes acima, ou seja, a mediana de cada uma dessas partes ser a quinta observao: Q1 = 5,0 Q3 = 8,0
Ordem Valor 1 3,0 2 3,5 3 4,5 4 5,0 5 5,0 6 5,5 7 6,5 8 6,5 9 6,5 10 7,5 11 7,6 12 7,9 13 8,0 14 8,0 15 9,0 16 9,5 17 18 10,0 15,0
Ordem Valor
1 15
2 17
3 18
4 19
5 19
6 20
7 25,0
8 26
9 26
10 28
11 30
12 32
13 42
Como h um nmero mpar de observaes (13), a mediana deixar 6 observaes abaixo e 6 observaes acima dela. Logo, a mediana a 7a observao.
Ordem Valor
1 15
2 17
3 18
4 19
5 19
6 20
7 25,0
8 26
9 26
10 28
11 30
12 32
13 42
Q2 = 25,0 Ignorando a mediana, cada metade tem 6 observaes e a mediana de cada uma delas ser a mdia das terceira e quarta observaes: Q1 = Q3 =
18 + 19 = 18,5 2 28 + 30 = 29 2
3
UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA Determinao de Valores Atpicos A regra que adotamos para identificao dos valores atpicos se baseia na amplitude interquartil AIQ, definida como a distncia entre o primeiro e o terceiro quartis: AIQ = Q3 Q1 Note que AIQ o comprimento da caixa. Quaisquer valores abaixo de Q1 ou acima de Q3 por mais de 1,5AIQ sero considerados valores atpicos e tero tratamento especial no boxplot. Assim, sero valores atpicos os valores x tais que x < Q1 1,5AIQ ou x > Q3 + 1,5AIQ Os valores que se encontram entre Q1 1,5AIQ e Q3 + 1,5AIQ so chamados valores adjacentes e sua representao se completa (lembre-se de que j representamos os 50% centrais com a caixa!) traando uma linha que vai de Q1 at o menor valor adjacente (isto , o valor mnimo dos dados, excludos os valores atpicos) e outra que vai de Q3 at o maior valor adjacente (isto , o valor mximo dos dados, excludos os valores atpicos). Possveis valores atpicos so representados por algum carter especial. Para o nosso primeiro exemplo, com 18 observaes, obtemos Q1 1,5AIQ = 5 1,5(8 5) = 0,5 Q3 + 1,5AIQ = 8 + 1,5(8 5) =12,5 e, portanto, qualquer valor menor que 0,5 ou maior que 12,5 ser valor atpico. Resulta que o nico valor atpico 15. Logo, a linha inferior vai de 3 (valor mnimo) at Q1 = 5 e a linha superior vai de Q3 = 8 at 10 (valor mximo, desconsiderando o valor atpico 15). Para o segundo conjunto com 13 dados, temos Q1 1,5AIQ = 18,5 1,5(29 18,5) = 2,75 Q3 + 1,5AIQ = 29 + 1,5(29 18,5) =44,75
UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA e, portanto, qualquer valor menor que 2,75 ou maior que 44,75 ser valor atpico. Resulta que no h valores atpicos. Logo, a linha inferior vai de 15 (valor mnimo) at Q1 = 18,5 e a linha superior vai de Q3 = 29 at 42 (valor mximo).
A atividade Conhecendo o Boxplot (http://www.uff.br/cdme/conheceboxplot) ilustra a construo de um boxplot e tambm apresenta um software interativo que permite explorar boxplots. suas principais caractersticas. Na atividade Construindo Boxplots (http://www.uff.br/cdme/constroiboxplot) fornecido um software para construo de
Exemplo: Populao urbana vs populao rural Na Tabela 1 e na Figura 1 temos os dados sobre a populao residente por unidade da federao e pela situao do domiclio (urbano ou rural). Posio relativa das caixas a caixa da populao urbana est acima da caixa da populao rural, uma vez que a populao urbana , em geral, maior que a rural. Disperso a caixa da populao urbana mais comprida, assim como as linhas, o que caracteriza maior disperso] Valores atpicos identifique, a partir da tabela, os estados que so atpicos em termos de populao urbana e rural
Exemplo: Notas de 2 Turmas de Estatstica Econmica Na Tabela 2 e na Figura 2 temos as notas de alunos de 2 turmas de Introduo Estatstica Econmica. Turma da tarde menor disperso, mas notas mais baixas. Caixas 50% centrais da turma da tarde esto com notas entre 40 e 60, enquanto na turma da noite, as notas vo de 45 a 70.
UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA FIGURA 1
FIGURA 2
UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA Bibliografia Triola, M. F. Introduo Estatstica, 10a. edio. Rio de Janeiro: LTC Editora, 2008. Bussab, W. O. e Morettin, P. A. Estatstica Bsica, 6. edio. So Paulo: Editora Saraiva, 2009. Farias, A. M. L.; Laurencel, L. C. Estatstica Descritiva, Apostila. Departamento de Estatstica. Niteri: UFF 2008 (verso para download em http://www.professores.uff.br/anafarias//estdesc_2008.pdf Tukey, J. W. Exploratory Data Analysis, Addison-Wesley, 1977.