Documente Academic
Documente Profesional
Documente Cultură
1 - RESUMO DE DADOS
1.1 - Introduo
O que a Estatstica ?
Para muitas pessoas, a palavra estatstica faz lembrar longas colunas de nmeros, grficos
misteriosos e diagramas assustadores, que mostram de que forma o governo est gastando
o dinheiro dos impostos. No passado, esta palavra referia-se exclusivamente informaes
numricas de que os governos necessitavam para planejar sua conduta. Os estatsticos
eram pessoas que coletavam grandes quantidades de informaes numricas. Alguns
estatsticos ainda realizam este tipo de trabalho, mas existem outros que auxiliam a conduzir
e interpretar experimentos cientficos e pesquisas profissionais. As mudanas no significado
da palavra estatstica acompanharam as mudanas ocorridas no tipo de trabalho realizado
pelos estatsticos. A palavra estatstica pode ser utilizada para designar dados numricos,
como, por exemplo, estatsticas esportivas ou estatsticas financeiras. Entretanto, a palavra
pode tambm se referir estatstica como uma disciplina prpria da mesma forma que a
matemtica ou a economia.
Um documento da Comisso de Servio Civil dos Estados Unidos diz que Estatstica a
cincia que coleta, classifica e avalia numericamente fatos que serviro de base para
inferncias. um conjunto de tcnicas para se obter conhecimento preciso a partir de
informaes incompletas; um sistema cientfico para coleta, organizao, anlise,
interpretao e apresentao de informaes que possam ser colocadas sob forma
numrica.
A seguinte definio bem mais simples: A Estatstica trata de idias e mtodos que
visam a aperfeioar a obteno de concluses a partir de informaes numricas, na
presena de incerteza. Apesar desta definio no ser to abrangente quanto a anterior,
ela enfatiza o aspecto da estatstica que mais ir nos interessar neste curso, qual seja, o de
como utilizar informaes incompletas para tomar decises vlidas e tirar concluses
satisfatrias.
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 2
Princpios bsicos
Se a vida fosse estvel e rotineiramente repetitiva ou, ainda, se o objeto ao qual se destinam
as concluses de uma pesquisa pudesse ser estudado em sua plenitude, certamente pouca
necessidade teria da Estatstica.
A parte da estatstica que cuida da apresentao dos dados observados por meio de uso de
tabelas, de grficos e de medidas dentre as quais se destacam as medidas de posio e de
disperso a Estatstica Descritiva ou Anlise Exploratria de Dados.
A Estatstica no serve para corrigir erros grosseiros nem tcnicas defeituosas. Como toda
informao est contida nos dados, se esses so viciados, ser falsa qualquer concluso
que deles se tire.
A Estatstica no substitui o julgamento crtico. Ela fornece critrios que auxiliam na tomada
de decises, mas no dispensa a anlise crtica do pesquisador.
Convm ressaltar que a organizao dos dados de maneira prtica e racional para o melhor
entendimento do problema em questo, deve ser precedida de uma crtica dos dados
objetivando a eliminao de erros capazes de provocar futuros enganos de apresentao e
anlise, e dessa forma, retirando ou corrigindo os valores estranhos ao levantamento.
Esta organizao dos dados denomina-se srie estatstica, que pode ser apresentada por
meio de tabelas ou grficos.
Estas notas tem por objetivo mostrar a importncia da organizao, resumo e apresentao
dessa srie estatstica, buscando dessa forma alguma regularidade ou padro ou ainda uma
lei de comportamento (modelo) presente nas observaes.
Coletados os dados, procede-se a uma reviso crtica dos dados com a finalidade de
verificar a exatido das informaes, como tambm de obter quaisquer esclarecimentos
complementares, corrigir informaes porventura ainda precrias, ou ainda, se for o caso,
promover nova indagao a respeito de determinados aspectos.
De um modo geral, para cada elemento investigado, tem-se associado um resultado (ou
mais de um resultado) correspondendo realizao de uma certa varivel (variveis). Pode-
se conceituar varivel como sendo uma caracterstica mensurvel de acordo com alguma
escala; e dados como aquele conjunto de nmeros coletados. Todo dado um valor de uma
varivel.
Para cada tipo de dado, existem tcnicas mais apropriadas para resumir as informaes e
tambm para analis-las.
Esse item vital e de extrema importncia na apresentao de dados visto que sua medio
pode ser expressa em diversas unidades diferentes. Seu conhecimento permitir a
compreenso bsica do fenmeno que o dado est descrevendo.
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 5
1.3 - Tabelas
Na apresentao de dados por meio de tabelas, convm lembrar algumas normas gerais
para a sua construo de forma a fornecer o mximo de informaes de maneira clara e
concisa.
o ttulo deve ser conciso e adequado, precedendo a tabela, informando o fato observado,
como tambm, se possvel, local ou poca em que ocorreu;
a fonte dos dados deve ser informada no rodap da tabela, quando necessria;
a tabela deve ser delimitada no alto e na base por traos horizontais e no deve ser
delimitada nas margens. facultativo o uso de traos verticais na separao das colunas
no corpo da tabela;
quando uma tabela tiver de ocupar mais de uma pgina, deve-se sempre repetir o
cabealho da tabela nas pginas seguintes, acrescentando no ttulo a palavra
"continuao". facultativo informar no rodap da tabela a palavra "continua";
quando uma tabela possuir muitas linhas e poucas colunas, poder ser disposta em duas
ou mais partes, lado a lado, separando-se as partes por um trao duplo;
a separao da parte inteira da parte decimal de um nmero deve ser sempre feita por
uma vrgula, lembrando-se que, em situaes que utilizam-se pacotes em lngua inglesa,
o sistema ingls de escrita de nmeros, troca a vrgula pelo ponto.
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 6
Exemplo:
A distribuio de frequncia consiste num arranjo tabular dos dados por valores ou por
classes de valores, juntamente com as frequncias correspondentes, j que, quando se
resume grandes massas de dados, costuma-se distribu-los segundo os prprios valores
determinando o nmero de ocorrncias pertencentes a cada um dos valores, ou distribu-los
em classes de valores determinando a frequncia de cada classe, ou melhor, o nmero de
ocorrncias pertencentes a cada uma das classes.
Se a varivel for qualitativa ordinal ou quantitativa do tipo discreta, em geral, o resumo dos
dados ser obtido atravs da elaborao da Distribuio de Frequncia por valores.
Entretanto, quando estas variveis apresentarem um nmero grande de diferentes valores,
estes podero ser agrupados em classes, e assim, resumidos numa Distribuio de
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 7
2. Construir uma tabela, onde cada coluna dever ter, respectivamente, os seguintes
enunciados: valores observados da varivel de interesse, Frequncia simples absoluta
(freqncia ni), Frequncia simples relativa (freqncia fi) e/ou Porcentagem.
onde: Freqncia simples absoluta - nmero de vezes que cada valor ocorreu;
Freqncia simples relativa - a freqncia simples absoluta de cada valor
n
dividida pelo nmero total de dados obtidos fi = i
n
Porcentagem - 100 x fi
3. Colocar ttulo na tabela contendo as informaes necessrias, tais como: o estudo sob
avaliao, quando e onde foi realizado, a resposta de interesse e a unidade de medida.
3. Determinar a amplitude dos intervalos de classe (A) atravs da diviso da amplitude total
(R) pelo nmero de intervalos de classe (k), i.e.,
R
A=
k
Utilizar o menor valor da srie ou arredonda-lo para um valor apropriadamente menor,
obtendo assim o valor inferior da 1a classe. A seguir adicionar a este no a amplitude do
intervalo de classe (A), encontrando o limite inferior da prxima classe e assim
sucessivamente at que o no de classes seja alcanado. Este procedimento faz com que
cada classe seja mutuamente exclusiva.
4. Construir uma tabela, onde cada coluna dever ter, respectivamente, os seguintes
enunciados: Classe de valores <varivel de interesse>, Ponto mdio da classe,
Frequncia simples absoluta (freqncia ni), Frequncia simples relativa (freqncia fi)
e/ou Porcentagem.
5. Colocar ttulo na tabela contendo as informaes necessrias, tais como: o estudo sob
avaliao, quando e onde foi realizado, a resposta de interesse e a unidade de medida.
Exemplo
1.3.1.1 - Distribuio de Freqncia por valores
Quatro moedas foram lanadas 4 vezes, em cada lance, foi anotado o nmero de caras.
CKKK-(1); CCCK-(3); KKCC-(2); CCKK-(2); KKCK-(1); KKKC-(1); CKKK-(1); CCCK-(3);
KKKK-(0); CKCK-(2); KKKC-(1); CCKC-(3); CKCC-(3); KCCC-(3); CKKK-(1); KCCC-(3);
CKKC-(2); CKKK-(1); KKCC-(2); KCCC-(3); CKCC-(3); CCKC-(3); KKKC-(1); CKKC-(2);
CCCK-(3); KKKK-(0); CKKC-(2); KKKC-(1); CKKC-(2); CCCC-(4); KKKC-(1); KCKK-(1);
KKCC-(2); KCKK-(1); CKCK-(2); CCKK-(2); KCKC-(2); CKCC-(3); CKKC-(2) e CKCK-(2)
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 9
Outra soluo:
Como n=80 k n k 9
Amplitude dos intervalos = 44/9 5
53 a 58, 58 a 63, , 93 a 98
Cabe ressaltar que, no existe nenhuma regra quanto aos espaos entre as colunas.
Recomenda-se, contudo, obedecer a um princpio geral de que, havendo poucas colunas,
estas devem ser mais estreitas do que os espaos entre elas e, havendo muitas colunas, os
espaos devem ser mais estreitos do que a largura das colunas.
Conforme o objetivo desejado, as colunas podem ser ordenadas em sequncia alfabtica,
cronolgica ou numrica, sendo que a mais comum a ordem numrica, ou seja, pela
importncia de cada resultado. Desta maneira, a reduo do comprimento das colunas
comea da esquerda para a direita, dando aparncia mais esttica.
Deve-se lembrar que, no aconselhvel escrever dados numricos no topo ou no interior
das colunas, visto que alm de fugir ao objetivo de um grfico, pode produzir uma iluso de
tica bastante prejudicial.
15000
TONELADAS
10000
5000
0
SP MG RJ ES
LOCAL
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 12
NMERO DE DEFEITOS
60
50
40
30
20
10
0
A B C D
TIPO DE DEFEITO
1.4.2 - Histograma
O contorno externo de um histograma, isto , a linha mais forte da figura seguinte, chama-se
Poligonal Caracterstica do conjunto de dados obtidos num processo, fornecendo uma idia
da variao do processo analisado. A rea sob a poligonal caracterstica corresponde a
frequncia total, uma vez que se compe de retngulos cujas reas equivalem s
frequncias de cada classe.
FREQ.
CLASSE DE VALORES
Muitas vezes, porm, representa-se a distribuio dos dados do processo, de um modo mais
parecido com o diagrama de curvas, tendo-se, ento, o Polgono de Frequncia, que
obtido com a ligao dos pontos mdios de cada intervalo de classe, como pode ser visto
nas figuras a seguir.
ASSIMTRICA ASSIMTRICA
POSITIVA NEGATIVA
Por exemplo, para o nmero 179,3 os possveis ramos e folhas para folhas de 1 dgito
apresentam-se a seguir. Nota-se que nas duas primeiras opes alguns dgitos
direita foram desprezados.
Ramo Folha Representao
1 7 (Truncado) 1 | 7 = 170 ou Multiplique por 10
17 9 (Truncado ou Arredondado) 17 | 9 = 179
179 3 179 | 3 = 179,3 ou Multiplique por 10
1
A idia central do diagrama ramo-e-folha dar parte da informao logo no incio de cada
linha e o resto ao longo da linha, com os dados arrumados em grupos to prximos quanto
faa sentido. Cada linha um ramo e cada pedao da informao em um ramo uma folha.
Por exemplo, o ramo (linha) a seguir estar representando a srie de nmeros 11, 16,
17, 17 sendo cada nmero indicado por seu ltimo dgito (folha):
1 1677.
A forma mais comum e mais prtica de diagramas de ramo-e-folha a de folhas de 1
dgito. Entretanto, caso se deseje preservar mais dgitos nas folhas, pode-se utilizar folhas
de 2 dgitos ou mais, tomando-se apenas o cuidado de separar claramente as diversas
folhas. Para isso, pode-se usar vrgulas, brancos, etc.
Ele poder ser representado reduzindo-se o ramo para 1 dgito, desprezando-se com
truncamento o ltimo dgito que representava as folhas e utilizando-se a verso de 5
linhas:
2 1
2 2
2 455
2 67777
2 8899999
3 01111
3 222333333
3 4555
3 6
3
[Truncado] 2 1 = 210
A construo do diagrama ramo-e-folha no tem uma regra fixa e varia conforme o conjunto
de dados. Quando se faz um diagrama ramo-e-folha, pode-se escolher entre trabalhar com
folhas de 1 dgito, folhas de 2 dgitos, etc, assim como, verso simples, verso 2
linhas, ou verso 5 linhas. Na realidade, estas escolhas so feitas em parte por
convenincia, em parte devido aos objetivos do trabalho e, em parte por necessidade,
dependendo muito da experincia que o usurio tem com as variveis envolvidas.
Entretanto, devem ser sempre preservadas sua linguagem e idias bsicas.
A seguir encontram-se as instrues para a construo do diagrama ramo-e-folha.
1. Ordenar os dados sob estudo de forma crescente. Definir se alguns dgitos direita
sero desprezados, a forma que isto ser feito (atravs de truncamento ou
arredondamento) e aplicar o que decidir sobre os dados.
2. Dividir cada observao em duas partes: ramo (primeira parte) e folha (segunda parte),
selecionando o tipo de ramo mais adequado a ser utilizado. Neste ponto, pode-se definir
se ir se trabalhar com folhas de 1 dgito, folhas de 2 dgitos, etc.
3. Escrever os ramos (primeira parte) de cima para baixo em ordem crescente no lado
esquerdo de uma linha vertical. Colocar as folhas (segunda parte) ao lado direito da
linha vertical em ordem crescente da esquerda para a direita, sempre alinhadas com as
demais folhas dos outros ramos para no haver distoro na visualizao.
5. Colocar ttulo contendo informaes necessrias tais como: o estudo sob avaliao, a
resposta de interesse e a unidade de medida.
6. Colocar, de preferncia abaixo do diagrama, o que cada unidade apresentada
representa, e no caso de se ter desprezado dgitos direita, informar o tipo de
tratamento que o dado recebeu (truncado ou arredondado).
Importante: Nos casos em que o nmero total de observaes for muito grande e se criar um
diagrama com um nmero muito grande de ramos com muitas folhas cada, o
indicado representar os dados atravs de histograma.
Mdia
Existem vrios tipos de mdia, cada uma delas apresentando vantagens e desvantagens,
dependendo dos dados e fins desejados.
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 22
Formas de clculo:
a) Srie de valores
n
X + X 2 + ... + X n
Xi
i =1
X= 1 =
n n
onde: Xi - i-simo valor da varivel de interesse
n - nmero total de observaes
b) Distribuio de frequncia por valores
c
X n + X 2 n 2 + ... + X c n c Xn i i
X= 1 1 = i =1
c
n1 + n 2 + ... + n c
n i =1
i
Pm1n1 + Pm 2 n 2 + ... + Pm c n c Pm n i i
X= = i =1
c
n1 + n 2 + ... + n c
n
i =1
i
50% 50%
Md
a) Srie de valores
- Ordenar os dados obtidos de forma crescente.
- Determinar o nmero total de observaes obtidas.
- Determinar o valor da mediana, da seguinte forma:
n +1
Se n for mpar, a mediana o valor que se encontra na posio .
2
Se n for par, a mediana a mdia aritmtica simples dos valores que se encontram nas
n n
posies e +1.
2 2
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 24
Moda
Outras Separatrizes
Assim como procurou-se o ponto que divide a distribuio de dados em 2 partes iguais
definindo-a como mediana, por extenso, pode-se procurar valores que dividem o conjunto
de dados em 4 partes iguais chamando-os de quartis, como tambm em 10 partes iguais
chamando-os de decis ou ainda em 100 partes iguais chamando-os de centis.
Quartis
Os quartis so os 3 pontos que dividem um conjunto de dados em 4 partes iguais. Estes
valores so denominados e representados da seguinte forma: 1o Quartil ( Q1 ), 2o Quartil ( Q2 )
e 3o Quartil ( Q3).
Esquematicamente, os quartis podem ser assim representados:
Observa-se que o 1o Quartil ( Q1 ) precedido de 25% dos valores e sucedido por 75%; o 2o
Quartil ( Q2 ) tem abaixo de si 50% dos valores e acima de si tambm 50% e por esta razo
coincide com a mediana (Md); e o 3o Quartil ( Q3) precedido de 75% dos valores e seguido
por 25% dos valores.
Decis
Os decis so os 9 pontos que dividem um conjunto de dados em 10 partes iguais. Estes
valores so denominados e representados da seguinte forma: 1o Decil ( D1), 2o Decil ( D2 ), ...,
9o Decil ( D9 ).
Observa-se que o 5o decil corresponde ao valor da mediana j que tem abaixo de si 50%
dos valores e acima, tambm 50%.
Centis
Os centis so os 99 pontos que dividem um conjunto de dados em 100 partes iguais. Estes
valores so denominados e representados da seguinte forma: 1o Centil ( C1 ), 2o Centil ( C2 ),
..., 99o Centil ( C99 ).
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 28
Observa-se que o 50 o centil corresponde ao valor da mediana, j que tem tanto abaixo como
acima de si, 50% dos valores. O emprego dos centis vantajoso quando se quer ter uma
diviso percentual da distribuio.
Frmulas de clculo
SEPARATRIZES FRMULAS DE POSIO
QUARTIL n +1 2(n + 1) 3(n + 1)
PQ1 = ; PQ2 = ; PQ3 =
( Q1 a Q 3 ) 4 4 4
DECIL n+1 2(n + 1) 5(n + 1) 8(n + 1) 9(n + 1)
PD1 = ; PD2 = ;...; P D5 = ;...; P D8 = ; PD9 =
( D1 a D 9 ) 10 10 10 10 10
CENTIL n+1 2(n + 1) 50(n + 1) 98(n + 1) 99(n + 1)
PC1 = ; PC2 = ;...; PC50 = ;...; PC 98 = ; PC99 =
( C1 a C 99 ) 100 100 100 100 100
onde: n o nmero total de observaes, para srie de valores ou soma das frequncias
simples absolutas, para distribuio de frequncias por valores ou por classes de
valores.
OBS: Caso alguma posio do quadro anterior seja um valor inferior a 1 ou superior a n,
deve-se assumir, respectivamente, o valor 1 ou n.
a) Srie de valores
1. Ordenar os dados obtidos de forma crescente.
2. Determinar o nmero total de observaes obtidas.
3. Determinar a posio da separatriz no conjunto de dados, segundo quadro anterior das
frmulas das posies, sabendo que n o nmero total de observaes.
4. Determinar o valor da separatriz, da seguinte forma:
quando a posio for um nmero inteiro, o valor que se encontra nesta posio o valor
da separatriz.
quando a posio no for um nmero inteiro, toma-se a parte decimal chamando-a de d
e calcula-se o valor da separatriz com base nos 2 valores mais prximos a posio
determinada, um inferior e outro superior, com a seguinte expresso:
Separatriz = Valor inferior + d (Valor superior - Valor inferior)
X i X
DM = i =1
n
Resumindo, ento, o desvio mdio absoluto de um conjunto de dados a mdia dos valores
absolutos dos desvios de cada valor em relao a sua mdia. simbolizado por DMA e
expresso na mesma unidade de medida dos dados originais.
a) Srie de valores
n
X i X
DM = i =1
n
onde: Xi - i-simo valor da varivel de interesse
n - nmero total de observaes
X - mdia
b) Distribuio de frequncia por valores
c
X i X ni
DM = i =1
c
n
i =1
i
Pm i X ni
DM = i =1
c
n
i =1
i
Varincia
O princpio que orienta a criao da varincia o mesmo utilizado na criao do desvio
mdio absoluto. S que aqui, para contornar o fato da soma dos desvios em relao mdia
( )
n 2
ser zero, opta-se por considerar o total dos quadrados dos desvios,
i =1
X i
X . Ao se dividir,
ento, este total pelo nmero de observaes, tem-se a varincia definida por:
(X )
N 2
i X
VAR = i =1
N
Resumindo, ento, a varincia de um conjunto de dados definida como sendo a mdia dos
quadrados dos desvios de cada valor em relao a sua mdia. simbolizada por 2 para o
caso de populao.
Contudo, a sua utilizao como medida descritiva ocasiona alguma dificuldade visto que se
trata, por definio, de uma mdia quadrtica, no possuindo a mesma unidade de medida
dos dados originais. Por exemplo, se a unidade de medida g, a varincia ser expressa em
g2.
A varincia a medida de disperso mais conhecida e utilizada na estatstica,
especialmente para propsitos de inferncia.
a) Srie de valores
n
(X i X) 2
i =1
VAR =
n1
onde: Xi - i-simo valor da varivel de interesse
n - nmero total de observaes
X - mdia
UFRJ - Introduo Estatstica
Professor Otvio Figueiredo (otavio@ufrj.br) 32
Coeficiente de Variao
Q3
Md
Q1 _
AI
CII
Ponto discrepante
CEI
+ Ponto mais que discrepante