Documente Academic
Documente Profesional
Documente Cultură
Probabilidades
Brulio Roberto Gonalves Marinho Couto
Janana Giovani Noronha de Oliveira
Octvio Alcntara Torres
Reinaldo Carvalho de Morais
ESTATSTICA E PROBABILIDADES
Belo Horizonte
Junho de 2015
COPYRIGHT 2015
GRUPO NIMA EDUCAO
Todos os direitos reservados ao:
Grupo nima Educao
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prvia autorizao
por escrito da detentora dos direitos, poder ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrnicos, mecnicos, fotogrficos, gravaes ou quaisquer outros.
Edio
Grupo nima Educao
Vice Presidncia
Arthur Sperandeo de Macedo
Coordenao de Produo
Gislene Garcia Nora de Oliveira
Ilustrao e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar
Equipe EaD
CONHEA
CONHEA
Janana
Monografias.
O AUTOR
Horizonte (UniBH).
A AUTORA
Giovani
Estatstica
do
Noronha
Ensino
de
Oliveira
superior
CONHEA
CONHEA
aplicada.
O AUTOR
O AUTOR
APRESENTAO
DA DISCIPLINA
Egressos de cursos de Engenharia e
disciplina:
ferramentas
transformar-se
em
apresentar
num
especialista
generalizao
de
resultados
parciais,
Unidade
Descritiva.
apresenta
objeto
dessa
unidade,
uma
abordagem
baseada
alm
de
usarmos
como
UNIDADE 1
Introduo Estatstica
Conceitos bsicos
O papel das variveis numa base de dados: identificao,
auxiliares, variveis explicativas e varivel reposta (desfecho)
Tipos de varives
Uso do excel como um sistema de gerenciamento de dados
e dos formulrios do google docs para coleta de informaes
Reviso
003
004
006
UNIDADE 2
Anlise exploratria de dados
Sntese grfica de dados
Sntese tabulador de dados
Sntese numrica de dados
Reviso
019
020
021
038
038
048
UNIDADE 3
Introduo teoria de probabilidades
Probabilidade clssica e probabilidade frequentista
Leis bsicas de probabilidade
Unio e interseo de eventos
Tabelas de contigncia
Eventos independentes
Teorema de Bayes
Reviso
049
050
053
053
054
056
057
058
061
UNIDADE 4
Modelos probabilsticos
Varieaveis aleatrias
Modelos probabilsticos
Distribuio binomial
Distribuio Poisson
Distribuio normal
Reviso
063
064
065
071
071
072
072
076
010
013
015
017
UNIDADE 5
Estimao de mdias e propores
Teorema central do limite
Estimao pontual e por intervalos de confiana para uma
mdia populacional
Estimao pontual e por intervalos de confiana para uma
proporo populacional
Uso do excel no clculo de intervalos de confiana para
mdia e proporo
Introduo ao programa Epiinfo
Reviso
077
078
079
UNIDADE 6
Planejamento de experimentos
Clculo de tamanho de amostra baseado em intervalos
de confiana para uma proporo
Clculo de tamanho de amostra baseado em intervalos
de confiana para uma mdia
Planejamento de experimentos
Reviso
098
099
UNIDADE 7
Testes de hipteses
A construo e o significado de uma hiptese estatstica
Testes para uma amostra
Testes para duas ou mais amostras
Reviso
115
116
117
118
133
137
UNIDADE 8
Anlise de correlao e regresso
Anlise de correlao
Regresso linear simples
Regresso linear mltipla
Reviso
139
140
141
149
157
160
082
089
091
094
095
100
103
106
113
REFERNCIAS117
INTRODUO
ESTATSTICA
004
unidade 1
ESTATSTICA E PROBABILIDADES
Para melhor entendermos o que ser discutido, o mtodo estatstico ser dividido em quatro
grandes reas:
1) amostragem e coleta de dados;
2) anlise exploratria de dados (estatstica descritiva);
3) teoria de probabilidades;
4) deciso na presena de incerteza (inferncia).
A ideia por trs dessa unidade levar at voc o conhecimento fundamental que lhe permitir
entender a coleta de dados. Estudaremos conceitos fundamentais de Estatstica, questes
simples, mas essenciais para que tenhamos sucesso nas outras etapas do mtodo estatstico,
que sero discutidas nas prximas unidades. Estes so os objetivos da Unidade 1:
a) apresentar conceitos bsicos de Estatstica e Probabilidades;
b) identificar as funes e os principais tipos de dados e de variveis;
c) identificar e corrigir problemas de dados faltantes (missing);
d) configurar o Excel como instrumento de coleta de dados;
e) entender o sistema de endereamento de clulas do Excel.
f) construir formulrios de coleta de dados no Google Docs;
g) enviar formulrios de coleta de dados por meio de mala direta.
crucial que voc entenda os conceitos que sero discutidos nessa unidade. Sem o
entendimento do que seja, por exemplo, uma varivel, o seu tipo e a sua funo na base de
dados, no h como voc ser feliz nas outras etapas do processo!
005
unidade 1
ESTATSTICA E PROBABILIDADES
CONCEITOS
BSICOS
populao amostrada.
Os dois litros de sopa formam a populao
e, se a cozinheira comer/provar toda a sopa,
como
ela
retira
uma
amostra
estrato da sopa?
decisrio.
amostra
representativas.
representativa,
poder
tomar
Fazendo
uma
amostragem
Populao:
006
unidade 1
ESTATSTICA E PROBABILIDADES
Amostra:
conjunto
de
unidades
definida
como
um
conjunto
de
matriculados
na
disciplina
Estatstica e Probabilidades;
b) todas as declaraes de renda recebidas
pela Receita Federal;
infinita:
elementos
quantidade
de
todos
os
estratos
ou
de
007
unidade 1
ESTATSTICA E PROBABILIDADES
populao alvo for pequena razovel observ-la por inteiro, atravs do censo, pois mesmo
quando viveis, censos so caros e demorados. Outros exemplos de ensaios destrutivos, nos
quais impossvel aplicar censo: pesquisa sobre a fora de trao de um lote de barras de
ao para construo; pesquisa sobre contaminao de soro fisiolgico em um lote; testes de
resistncia e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.
Amostragem: processo pelo qual uma amostra de unidades da populao retirada e
observada. a parte mais importante do processo de pesquisa. O principal e fundamental
objetivo de qualquer plano de amostragem selecionar a amostra, de tal maneira que ela
retrate fielmente a populao pesquisada.
FIGURA 1 - Populao alvo, populao amostrada e amostra
Inferncia
Populao
amostrada
Amostra
008
unidade 1
ESTATSTICA E PROBABILIDADES
Vejamos
agora
alguns
selecionadas aleatoriamente no
aspectos
territrio brasileiro?
importante
para
obtermos
alguns
conceitos
IMPORTANTE
de
que
como
(N).
inferncia.
citado
Imagino
anteriormente,
mais
pesquisa
que
voc
credibilidade
que
numa
teria
pesquisa; ou resultados de
probabilsticas e no probabilsticas:
009
unidade 1
ESTATSTICA E PROBABILIDADES
Amostra probabilstica:
que
garante
representatividade
da
amostra.
Amostra no probabilstica:
AUXILIARES,
VARIVEIS
EXPLICATIVAS E
VARIVEL REPOSTA
(DESFECHO)
LEMBRE
010
unidade 1
ESTATSTICA E PROBABILIDADES
observao.
ATENO
CONCEITO
Uma
varivel
quantificao
de
varivel:
uma
011
unidade 1
ESTATSTICA E PROBABILIDADES
CARACTERSTICAS
Variveis de
identificao e auxiliares
Variveis explicativas
Varivel desfecho
A funo de cada varivel na base de dados, assim como o seu tipo, definir que tipo de anlise
ser feita. No subestime esses conceitos pois, sem eles, no h como entender os mtodos
de anlise estatstica que sero estuados nas prximas unidades.
012
unidade 1
ESTATSTICA E PROBABILIDADES
TIPOS DE
VARIVEIS
reprovado) etc.
se
resultados
muito
restrita
quantas
simples:
unidades
conta-
amostrais
observados
em
ou
cada
ou categoria.
II) V
arivel quantitativa: aquela obtida
mutuamente
altura,
de
ser
insumos,
em
observadas
simultaneamente
dosagem
produtos
concentraes
qumicos
temperatura,
outros
presso,
comprimento,
varivel
categrica
mutuamente
falhas,
voltagem,
nmero
de
corrente,
de
ligaes
conformidade de qualidade de um
produto
(aceito,
no
aceito),
dia
013
unidade 1
ESTATSTICA E PROBABILIDADES
classificao.
As
notas
obtidas
por
essa
confuso,
ou dosador.
em 1, 2, 3 e 4 (ao invs de A, B, AB e
aplicar
que
quantitativa,
aritmticas
somas
aos
resultado.
tambm
numricas,
de
nomenclatura
uma
pode
varivel
aos
mas
gerar
seja
seus
subtraes
resultados.
vlidas
operaes
aritmticas
aos
Bom,
os
conceitos
por
trs
dessa
nmeros inteiros.
Usualmente,
se
ela
obtida
por
Para
efeito
prtico,
consideraremos
quantitativas
de Engenharia.
Algumas
variveis
originalmente
de
014
unidade 1
versus
categricas.
ESTATSTICA E PROBABILIDADES
em
planilha
eletrnica,
FORMULRIOS
DO GOOGLE DOCS
PARA COLETA DE
INFORMAES
APLICAO
PRTICA
docs.google.com/forms>.
O Excel uma planilha eletrnica com
2013).
so
Ambas
as
ferramentas
<http://www.agriambi.com.br/revista/
suplemento/index_arquivos/PDF/181.pdf>
015
unidade 1
ESTATSTICA E PROBABILIDADES
PARMETROS
26,4 = 1,60
26,4 = 1,70
7,17 = 0,60
7,18 = 0,90
227,48 = 36
1779,7 = 68
pH
8,44 = 0,12
7,40 = 0,35
Tratamentos: (A) controle (gua potvel + rao); (B) efluente tratado (efluente do sistema de
filtro de aguap + rao)
Fonte: REIDEL et al., 2005.
mdia
mdia
Teste t-Student
T calculado
0,235 a
43,267
0,232 a
46,113
1,172 a
2,426
1,160 a
1,901
0,001
1,391 a
42,269
1,054 a
45,582
0,028
5,280 a
38,890
4,300 a
45,721
0,028
75 a
80,467
80 a
25,819
0,08
VARIVEIS
Sobrevivncia (%)
Tratamento A
Tratamento B
Mdias seguidas da mesma letra, na linha, no diferem significadamente pelo teste t de Student ao nvel 5% de significncia
016
unidade 1
ESTATSTICA E PROBABILIDADES
resposta,
uma
categrica
(O
peixe
de
amostragem/coleta
de
dados
e,
pessoas
tm
dificuldade
em
REVISO
tpicos
introdutrios
do
campo
da
tabelas
apresentadas
aparecem
- Uma
pequena,
mas
cuidadosamente
unidades!
representar a populao.
- A
017
unidade 1
questo
mais
importante
numa
ESTATSTICA E PROBABILIDADES
qualquer pesquisa.
Tipos de variveis:
-
Varivel qualitativa ou categrica:
aquela que expressa caractersticas ou
atributos de classificao, distribudos
PARA SABER
objetos ou entidades.
MAIS
para
rastreamento
dos
explicativas:
so
aquelas
Tambm
denominada
de
018
unidade 1
UNIDADE
ANLISE EXPLORATRIA
DE DADOS
onforme citado na Unidade 1, se voc usar tcnicas de anlise estatstica, voc poder
rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,
como exemplo, que tal se tornar um especialista em reprovao em disciplinas bsicas
020
unidade 2
ESTATSTICA E PROBABILIDADES
no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.
Agora que voc j tem acesso aos dados, qual o prximo passo para resolvermos o problema
de reprovao e abandono em Clculo, GAAL, Qumica Geral e AEDS? A primeira etapa de
qualquer anlise estatstica, ou melhor, a fase preliminar da busca das informaes agregadas
a dados j coletados, a anlise exploratria dos mesmos. Como o prprio nome diz, a
anlise exploratria dos dados o conjunto de ferramentas da Estatstica Descritiva que tm
como objetivo fazer uma sntese dos dados, organizando-os sob a forma de tabelas, grficos
e nmeros. Portanto, para entendermos e resolvermos nosso problema de reprovao,
precisamos estudar as ferramentas da Estatstica Descritiva:
a) Sntese tabular: Resumo da anlise por meio de tabelas;
b) Sntese numrica: Medidas de posio (mdia e mediana) e medidas de variabilidade (soma
dos quadrados dos resduos, varincia, desvio padro, coeficiente de variao);
c) Sntese grfica: Grficos de pizza, barra, coluna, linha, sries histricas, histograma, grfico
de Pareto, grfico misto, de coluna e de linha, diagrama de disperso e box-plot.
O objetivo desta unidade promover o conhecimento fundamental que lhe permitir entender
dados coletados, transformando dados brutos em informaes teis!
SNTESE
GRFICA DE DADOS
Uma figura vale mais que mil palavras! Isso verdade, entretanto um grfico vale mais que mil
palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe
grficos a partir de seus dados, mas tente faz-los de tal forma que a frase basta olhar
para entender seja vlida. Os grficos mais teis para anlise de dados de experimentos de
pequeno e mdio porte na rea de Cincias Exatas e Engenharia so: grficos de pizza, barras,
colunas, linha, sries histricas, histograma, grfico de Pareto, grfico misto, de coluna e de
linha, diagrama de disperso e box-plot (tabela 1). De todos esses, somente vejo sentido em
construi-los mo histogramas e diagramas de disperso. Entretanto, na prtica devemos
construir grficos usando ferramentas computacionais como o Excel.
021
unidade 2
ESTATSTICA E PROBABILIDADES
Pizza ou setor
Uma
Categrica
Colunas (verticais)
Uma
Categrica
Barras (horizontais)
Uma
Categrica
Histograma
Uma
Grficos de linha
Duas
Sries histricas
Duas
Grfico de Pareto
Uma
Categrica
Grfico misto, de
coluna e linhas
Duas
Diagrama de
disperso
Duas
Uma ou mais
Quantitativa
TIPO DE GRFICO
Box-plot
Fonte: Elaborado pelo autor.
Como fazer os grficos? Siga regras e comentrios abaixo e voc ter sucesso ao desenhar
grficos:
1. Um grfico deve conter um ttulo, entretanto este no deve ser colocado no prprio
grfico (como o Excel insiste em fazer...). Quando desenhamos um grfico usando o
Excel, por exemplo, este ser exportado para algum documento do Word ou para o
PowerPoint, ou para outros editores de texto e apresentadores de slides. O ttulo do
grfico ser ento colocado no slide ou na descrio da figura no editor de textos,
sendo desnecessrio e errado coloc-lo no meio do prprio grfico. Mesmo em
casos excepcionais, quando o grfico no exportado para nenhum outro aplicativo,
sendo impresso diretamente do Excel, o ttulo no deve ser colocado no meio da
figura. O ttulo deve ser inserido no cabealho da planilha que contm o grfico.
2. Ao escrever um relatrio, comece pelas figuras. impressionante, mas as pessoas leem
artigos cientficos, relatrios tcnicos, jornais e revistas de fofoca da mesma forma:
comeamos pelas figuras! Por isso, o ttulo de grficos e tabelas deve ser o mais claro
022
unidade 2
ESTATSTICA E PROBABILIDADES
possvel: toda informao necessria para o entendimento da figura deve estar no seu
ttulo. Essa uma tendncia das revistas cientficas (Nature, Science, por exemplo) e
tem um efeito colateral: o ttulo da figura fica muito longo. Isso no exatamente uma
regra, mas recomendao. Se voc quer que seu relatrio seja lido, invista nos ttulos de
figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:
O que? Quem? Quando? Onde? A interpretao das informaes no grfico tambm
deve ser colocada como subttulo da figura. Se necessrio, coloque notas explicativas,
usando siglas somente para coisas realmente conhecidas de quem ler o seu texto (seu
chefe ou o chefe do seu chefe...). Veja um exemplo de grfico de pizza na figura abaixo.
FIGURA 2 Principais ferramentas estatsticas encontradas em
artigos publicados no New England Journal of Medicine (NEJM).
A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou
somente tcnicas de Estatstica Descritiva na anlise dos dados. Praticamente um quarto
dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de
contingncia, ferramentas que sero discutidas na Unidade 7 deste livro.
Fonte: BAILAR & MOSTELLER,1992.
3. Caso o grfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para
entendimento. Os rtulos dos eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse mais um ponto de erro do Excel! Alm de no colocar
os rtulos nos eixos, o Excel coloca o ttulo no meio da figura e uma legenda que no tem a
menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de
um grupo de dados na figura. Veja um exemplo correto de grfico de barras na figura abaixo.
023
unidade 2
ESTATSTICA E PROBABILIDADES
Anlise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399
alunos. Quatro disciplinas tm mais de 40% de seus alunos reprovados: Clculo Diferencial, Geometria Analtica e
lgebra Linear, Clculo de Vrias Variveis e Algoritmo e Estruturas de Dados.
Fonte: Elaborado pelo autor.
4. No existe regra fixa para a escolha da escala do grfico. Qualquer escala boa
desde que os valores no grfico no fiquem muito espalhados nem muito juntos
numa nica regio da figura.
6. A
maioria dos grficos apresenta o valor zero como ponto de incio dos eixos, mas
isso no necessrio se o ponto de incio da escala devidamente marcado na
figura. Na verdade, as pessoas usualmente assumem que o valor zero est na base do
grfico. Para os grficos de linha isso no problemtico, entretanto, quando se tratar
de grficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base
da coluna. Caso isso no seja feito, ocorre uma distoro do grfico levando a uma
interpretao errada dos dados. Veja o exemplo abaixo. O primeiro grfico, como no
comea no valor zero, est errado, ele ilude o leitor: a auditoria foi um sucesso?!
024
unidade 2
ESTATSTICA E PROBABILIDADES
7. Mais de uma curva ou linha pode ser desenhada em um nico grfico com o objetivo
de comparao. Entretanto, deve-se diferenciar claramente os dados de cada linha para
que no haja erro de interpretao (use cores diferentes ou linhas pontilhadas ou mesmo
smbolos). Linhas de grade, usualmente colocadas no grfico para auxiliar a leitura das
escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.
FIGURA 5- Exemplo de grfico com legenda identificando diferentes dados.
025
unidade 2
ESTATSTICA E PROBABILIDADES
8. Os grficos devem ser desenhados no formato de paisagem, com a altura tendo
aproximadamente da sua largura. Caso isso no seja feito, poder haver distoro
da figura e da prpria informao, que fica comprometida: o primeiro grfico est
correto, mas os outros esto na categoria como mentir com estatstica...
FIGURA 6 Formato dos grficos: a figura deve ser desenhada em
formato de paisagem, com a altura tendo aproximadamente 75% da largura.
FIGURA 7 Grfico distorcido: desenhando a figura com a altura muito pequena, em relao
largura, a informao falseada e se tem a sensao de estabilidade dos dados.
026
unidade 2
ESTATSTICA E PROBABILIDADES
variando de 0 a 3. J a figura 11
quantitativas.
figura 2.
Nesse
exemplo,
(desfecho).
027
unidade 2
Ao
inserirmos
uma
ESTATSTICA E PROBABILIDADES
sugerindo que, na faixa de variao medida de fx (entre 0,2 e 1,0), a resistncia compresso
do concreto se relaciona com fx por meio de uma equao de reta.
FIGURA 9 Diagrama de disperso sem os marcadores e com linhas contnuas mostrando a
relao de x e sua funo f(x) = 2x3 cos(x+1) 3. Nesse caso o diagrama est mostrando
uma relao terica exata, tal como aquela encontrada nas disciplinas de Clculo Diferencial.
028
unidade 2
ESTATSTICA E PROBABILIDADES
Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Arajo. Mtodo Simples para Explicar a
Resistncia Compresso do Concreto de Alto Desempenho. Disponvel em: http://www2.ucg.br/nupenge/pdf/
Dario.pdf. Acesso em 14 maio 2015.
A figura 12 mostra possveis padres de relacionamento entre uma varivel explicativa (X)
e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de disperso,
voc deve interpretar o grfico gerado em um dos quatro padres mostrados na figura 12. A)
Correlao positiva: Em mdia, quando X aumenta, Y tambm aumenta, numa tendncia em
linha reta. Por exemplo, quanto maior a rea de um imvel, maior o seu preo de venda. B)
Correlao negativa: Em mdia, quando X aumenta, Y tende a diminuir. Por exemplo, quanto
mais velho um imvel, menor o seu preo de venda. C) Associao curvilinear: Em mdia,
quando X aumenta, Y tambm aumenta, mas no numa tendncia em linha reta, e sim
em curva. Isso pode ocorrer quando, por exemplo, a relao entre a varivel resposta (Y)
e a explicativa (X) for uma equao de segundo grau (parbola) ou cbica, de grau trs. D)
Sem associao: Tambm um padro importante, pois indica que no h relao entre as
duas variveis associadas, que a varivel explicativa, na verdade, no explica o desfecho! Por
exemplo, frequentemente se observa que a idade do aluno no est associada sua nota na
maioria das disciplinas que ele cursa.
029
unidade 2
ESTATSTICA E PROBABILIDADES
11. Histograma: A ideia deste grfico categorizar uma varivel quantitativa, dividindo-a
em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e
construir um grfico de colunas com o resultado. Ao se interpretar um histograma,
deve-se tentar responder s seguintes questes: Qual a forma da distribuio dos
dados? Existe um ponto central bem definido? Como a amplitude de variao dos
dados? Existe apenas um pico isolado? A distribuio simtrica? Os exemplos abaixo
podem auxili-lo na interpretao de um histograma. Procure descobrir com qual
destes oito tipos o seu histograma se parece.
Exemplo 1 - Histograma simtrico: A frequncia de dados mais alta no centro e decresce
gradualmente esquerda e direita de forma aproximadamente simtrica, em forma de sino.
030
unidade 2
ESTATSTICA E PROBABILIDADES
Exemplo
Histograma
assimtrico:
frequncia
eliminados da amostra.
fortemente
dos
dados
031
unidade 2
ESTATSTICA E PROBABILIDADES
Diferencial (n=120):
032
unidade 2
ESTATSTICA E PROBABILIDADES
13
17
18
21
10
13
17
18
21
11
14
17
20
22
11
14
17
20
22
12
14
17
20
24
12
14
17
20
24
13
15
17
20
25
13
15
17
20
25
13
17
18
21
25
13
17
18
21
25
mn = 0;
mx = 25;
R = mx mn = 25 0 = 25
Passo 2 Determinar quantas classes ou intervalos (k) sero usados para dividir os dados. O
nmero de classes deve ser algo entre 5 a 20 subintervalos. Regra emprica: k
5 k 20 . No exemplo, n 120; k
120 10.
R
R 25
Passo 3 Determinar o tamanho de cada subintervalo (h). h k . No exemplo, h k 10 . 2,5
Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10
classes de tamanho 2,5.
Passo 4 - Contar a frequncia de valores em cada classe. No exemplo, comeando em zero
(valor mnimo), teremos uma tabela de distribuio de frequncias, base para construo do
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos
valores se encaixam em cada classe.
Observe na figura 14 o smbolo --|, ele indica que o valor direita faz parte do intervalo,
mas o valor sua esquerda no! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima
de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 so contabilizados
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos
033
unidade 2
ESTATSTICA E PROBABILIDADES
entram somente na terceira classe (5,0 --| 7,5). Veja tambm o smbolo |--|, ele s pode
ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira
classe (0,0 |--| 2,5). Se no fizssemos isso, no teramos onde colocar a frequncia de
valores iguais a zero. Eventualmente voc poder se deparar com tabelas construdas
com o smbolo invertido, |--, que indica valores maiores ou iguais ao nmero colocado
esquerda e menores que o valor colocado direita. Por exemplo, 30 |-- 40 implica valores
maiores ou iguais a 30 e menores que 40. Usei a notao --| que o padro usado pelo
Excel na construo de histogramas (figura 14).
Lembre-se de que o total, a soma da coluna Frequncia, deve ser exatamente o tamanho
da amostra (n). Alm da coluna de frequncia absoluta, podemos calcular a frequncia
relativa ou percentual de cada classe (em relao ao total de valores) e a frequncia
acumulada ou percentual acumulado, til para a construo de grficos de Pareto (que
ser explicado mais frente).
FIGURA 14 Tabela de distribuio de frequncias das notas de amostra de alunos em
prova de Clculo Diferencial. Centro Universitrio de Belo Horizonte UniBH, 2014/2.
NOTA FREQUNCIA
PERCENTUAL
PERCENTUAL ACUMULADO
35
29%
29%
22
18%
48%
5%
53%
8%
60%
3%
63%
12
10%
73%
10
8%
82%
10
8%
90%
5%
95%
5%
100%
120
100%
Total
Fonte: Elaborado pelo autor.
034
unidade 2
ESTATSTICA E PROBABILIDADES
12. G
rfico de Pareto: Esta ferramenta tima para ajudar na definio de prioridades,
quando precisamos fazer um plano de ao para melhoria de qualidade de um
servio ou produto. Por exemplo, se um determinado problema ou defeito pode
ocorrer de diversas formas, como escolher os tipos de defeito prioritrios para serem
corrigidos? A ideia do efeito Pareto que 80% dos problemas esto associados
a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse o objetivo do
grfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequncia
num determinado cenrio. Por exemplo, numa amostra de 400 defeitos de fabricao
de uma pea mecnica, foram observados 16 tipos de defeito: rebarbas, dimetro
menor, dimetro maior, sem usinagem, altura menor, trincas, altura maior, borda
muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura,
estrutura pouco flexvel, base menor que o topo, cor muito clara e estrutura frgil. Ao
se construir um grfico de Pareto com os dados (figura 16), observa-se que a maioria
absoluta (66%) dos defeitos se refere somente a trs tipos: rebarbas (32%), dimetro
menor (21%) e dimetro maior (13%). Ou seja, ao fazer um plano de ao para corrigir
possveis defeitos de fabricao dessa pea, ignore 13 defeitos e priorize suas
aes em apenas esses trs. Fazendo isso, 66% do problema estar corrigido!
035
unidade 2
ESTATSTICA E PROBABILIDADES
13. Box-plot: Este grfico, tambm conhecido como diagrama em caixa ou caixa e
bigode, informa sobre a distribuio dos dados. Somente se aplica a variveis
quantitativas (figura 17), informando o menor valor (pequena linha horizontal
inferior) e valor mximo (pequena linha horizontal superior). A distncia entre o
valor mnimo e a aresta inferior da caixa cinza a amplitude em que ocorrem os
25% dos valores mais baixos. Este conhecido como 1 quartil, sendo delimitado
pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde
esto 50% dos dados. A distncia entre a aresta superior da caixa vermelha e a
pequena linha horizontal superior, que equivale ao mximo dos dados, refere-se ao
intervalo em que ocorrem 25% dos maiores valores da varivel. A linha separando
as duas caixas representa a mediana, que expressa o valor do meio se todos os
dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos
informa sobre a maneira de distribuio dos dados, tendo a vantagem de permitir
a visualizao de grupos de dados (figura 18). Nessa figura, apresentado um
resumo comparativo da taxa de aprovao de oito disciplinas de ciclo bsico de
cursos de Engenharia.
036
unidade 2
ESTATSTICA E PROBABILIDADES
FIGURA 17 Exemplo de box-plot para uma varivel quantitativa genrica: quanto maior o
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e disperso dos dados.
037
unidade 2
ESTATSTICA E PROBABILIDADES
SNTESE TABULAR
DE DADOS
FREQUNCIA
PERCENTUAL
Conceito
Aprovado
2287
49%
Reprovado
2386
51%
Instituio privada
1509
32%
Instituio pblica
3164
68%
Sexo
Feminino
1948
42%
Masculino
2725
58%
Manh
1153
25%
Noite
3520
75%
VARIVEL
Turno
Fonte: Elaborado pelo autor.
SNTESE NUMRICA
DE DADOS
A sntese numrica de variveis categricas muito simples, basta que voc apresente suas
categorias, a frequncia de valores em cada categoria e os respectivos percentuais, tal como
apresentado na tabela 3. J a sntese de variveis quantitativas mais ampla e envolve
resumir dois aspectos:
038
unidade 2
ESTATSTICA E PROBABILIDADES
X = Xi
i =1
n
J a mediana, na verdade uma medida de ordem, indicando o valor do meio, aquele que
divide os dados em duas metades:
Passo 1 Colocar os dados em ordem crescente.
Passo 2 Encontrar o valor do meio, isto :
039
unidade 2
ESTATSTICA E PROBABILIDADES
mdia
mediana
forem
Md =
30 + 40
= 35
2
ATENO
casas
no
voc
seus
o conjunto de dados.
decimais
conseguir
devo
apresentar
apresentar
nos
so
imprevisveis,
variabilidade
quantitativa.
040
unidade 2
de
uma
varivel
ESTATSTICA E PROBABILIDADES
A princpio, podemos medir a variabilidade de um dado informando o seu valor mnimo (mn) e
o valor mximo (mx), o que nos leva sua amplitude (R): R = mx mn.
Entretanto, essa uma forma muito simplista, pois envolve somente dois valores da varivel,
o mnimo e o mximo, ignorando todos os outros. Para uma medida mais adequada de
variabilidade, uma forma calcular a sua mdia ( X ) e, em seguida, calcular quanto os dados
esto distantes da mdia, em mdia! Soa estranho, mas a ideia faz sentido. Por exemplo, seja
uma amostra de n = 5 pessoas e seus respectivos nmeros de filhos:
Pessoa A B C D E
Nmero de filhos
0+1+1+2+3
7
=
= 1,4.
5
5
Isso mesmo, essas pessoas tm, em mdia, 1,4 filhos! Voc deve estar se perguntado, como
assim... um e 0,4 filho? No existe 0,4 filho!! No se preocupe, a mdia funciona como um
modelo e, como tal, uma aproximao da realidade. A mdia o melhor valor representativo
para esses dados e, caso seja necessrio resumir toda a informao num nico valor, ela
deve ser usada para substituir o verdadeiro nmero de filhos de cada pessoa. Bom, voltando
variabilidade, como calcular o quanto os dados esto distantes da mdia, em mdia? Para
cada indivduo, devemos subtrair o valor observado pela mdia, calculando um resduo:
Pessoa A B C D E
Nmero de filhos
Resduo
0
0-1,4 =
-1,4
1
1-1,4 =
-0,4
1
1-1,4 =
-0,4
2
2-1,4 =
+0,6
3
3-1,4 =
+1,6
O resduo mede a distncia de cada valor em relao mdia dos dados, ou seja, uma
medida de quanto os dados esto distantes da mdia. Para resumir os resduos num nico
valor, o ideal ento calcular uma mdia dos resduos, que refletiria o quanto os dados esto
041
unidade 2
ESTATSTICA E PROBABILIDADES
distantes da mdia, em mdia! Infelizmente, se fizermos essa mdia, ela sempre dar zero,
pois os resduos negativos anulam os positivos, dando uma soma dos resduos igual a zero.
Para resolver esse problema, ao invs de simplesmente calcular os resduos, devemos calcular
o resduo elevado ao quadrado:
Pessoa A B C D E
Nmero de filhos
Resduo
0-1,4 =
-1,4
1-1,4 =
-0,4
Resduo elevado
ao quadrado
(-1,4)2 =
(-0,4)2 =
0,16
1,96
1
1-1,4 =
-0,4
2-1,4 =
+0,6
3-1,4 =
+1,6
(-1,4)2 =
(+0,6)2 =
(+1,6)2 =
0,16
0,36
2,56
Se somarmos os resduos elevados ao quadrado teremos a soma dos quadrados dos resduos
n
( ( Xi -X )2 ), uma mtrica que aparece em vrias outras anlises estatsticas. Quanto maior
i =1
a soma dos quadrados dos resduos, maior a variabilidade dos dados! Para resumir essa
mtrica, calculamos a sua mdia, que chamada de varincia amostral ( s2 ):
n
s2 = ( Xi -X )2
i =1
n-1
Nessas frmulas, Xi representa cada um dos dados individuais, X a mdia e n o tamanho da
amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados
dos resduos por (n - 1) e no por ( n ). Isso feito porque nossos dados foram obtidos por
meio de amostragem e no por censo. Ou seja, sempre que tivermos dados amostrais, que
a situao mais comum, calcularemos a varincia amostral dividindo a soma dos quadrados
dos resduos por (n - 1). Se tivermos acesso populao toda, ou melhor, se fizermos um
2
censo (o que muito raro), ento poderemos calcular a varincia populacional ( ), dividindo
a soma dos quadrados dos resduos por (n):
2
= ( Xi -X )2
i =1
042
unidade 2
ESTATSTICA E PROBABILIDADES
importante se lembrar dessa diferena, pois ela aparece nas calculadoras cientficas e no
2
Excel, que permite o clculo tanto de s2 quanto de . Na prtica (e na dvida), sempre calcule
a varincia amostral (s2).
Uma outra mtrica de variabilidade o desvio padro amostral (s). Ele a raiz quadrada da
varincia e tem uso mais difundido que sua me (s2), porque, ao tirarmos a raiz quadrada
da varincia, o resultado tem a mesma unidade de medida que a mdia e os dados originais.
Assim, no exemplo anterior, do nmero de filhos da amostra de n=5 pessoas, a varincia
amostral :
043
unidade 2
ESTATSTICA E PROBABILIDADES
dos dados. Mas, o que um desvio padro grande? Essa resposta depende da magnitude da
mdia ( X ), isto , para sabermos se um desvio padro grande ou pequeno, vai depender do
valor da mdia. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:
Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;
Salto em altura: X = 2,2 e s = 0,8 e metros.
Em qual prova, salto em altura e tempo para 100 m, o atleta mais heterogneo, tem os
resultados com maior variabilidade? Se voc responder essa questo comparando os dois
desvios padres, estar cometendo dois erros:
1 No se pode comparar diferentes unidades de medida (s versus m);
2 Deve-se considerar a magnitude da mdia ao se avaliar um desvio padro.
Ento, como efetivamente obter o grau de variabilidade de uma varivel? Isso feito pelo
coeficiente de variao (cv), uma relao percentual entre o desvio padro e a mdia:
s
cv = x x 100 (%).
Alm de ser uma medida adimensional, o que possibilita comparaes entre diferentes
variveis, o CV pode ser interpretado de forma absoluta:
QUADRO 2 Definio e interpretao do grau de variabilidade de um conjunto de dados.
CV
INTERPRETAO
044
unidade 2
ESTATSTICA E PROBABILIDADES
2,1
x 100 = 19%;
11,5
0,8
x 100 = 36%;
2,2
Podemos dizer ento que o atleta tem pouca variabilidade nos seus resultados da corrida de
100 m e muita variabilidade nos saltos em altura.
LEMBRE
Quando voc fizer uma anlise exploratria de dados, lembre-se de corrigir os grficos produzidos pelo
Excel. Lembre-se tambm de colocar os ttulos das tabelas e das figuras o mais informativo possvel.
E, ao calcular o desvio padro, no se esquea de considerar que voc tem dados amostrais. Confira
na sua calculadora e/ou no prprio Excel qual a frmula que est sendo usada. Resuma os dados por
meio de grficos, nmeros e tabelas. Esse o primeiro e fundamental passo para entender os dados e
o problema investigado.
A anlise exploratria dos dados o primeiro passo para que voc se torne especialista na
rea investigada. Suas ferramentas de anlise no produzem concluses definitivas sobre um
problema, mas possibilitam que hipteses sejam construdas de forma consistente.
APLICAO
PRTICA
045
unidade 2
ESTATSTICA E PROBABILIDADES
em projetos de Clculo Zero? Quais so os fatores, as caractersticas que afetam o desempenho dos
alunos nessas duas disciplinas?
Vrias tcnicas de anlise exploratria de dados foram utilizadas no artigo. Por exemplo, usando um
grfico de linhas, uma srie temporal, mostrou-se no artigo a elevao no nmero de matrculas nas
duas disciplinas-alvo do trabalho, Clculo Diferencial e GAAL:
Um diagrama de disperso foi construdo mostrando claramente o efeito das faltas s aulas na nota
final de Clculo Diferencial:
046
unidade 2
ESTATSTICA E PROBABILIDADES
Alm de grficos, tabelas com a sntese numrica dos dados coletados no estudo tambm foram
apresentadas no artigo. O uso dessas ferramentas estatsticas de anlise de dados mostrou de forma
inequvoca que valia a pena implementar aes como o Clculo Zero, pois o fato de se ofertar essa
disciplina afetava o resultado dos alunos nas disciplinas obrigatrias de Clculo Diferencial e GAAL.
Esse um exemplo real de como usar a anlise exploratria dos dados e outras tcnicas de
Estatstica e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um
especialista na rea.
Referncia:
XLI CONGRESSO BRASILEIRO DE EDUCAO EM ENGENHARIA, 2013. Avaliao do Impacto do Clculo Zero no
Desempenho de Alunos Ingressantes de Cursos de Engenharia. Paran: FADEP, 2013. Disponvel em: <http://www.
fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.
047
unidade 2
ESTATSTICA E PROBABILIDADES
REVISO
dados;
PARA SABER
MAIS
048
unidade 2
UNIDADE
INTRODUO
TEORIA DE PROBABILIDADES
Contudo, foi ADOLPHE QUTELET (1796 1874) o pioneiro na tarefa de mensurar, ou seja,
quantificar uma pequena amostra do universo de interesse da investigao, almejando inferir
sobre toda a populao em estudo, baseando-se em anlises probabilsticas e embasando-se
em rigorosos mtodos cientficos.
A teoria das probabilidades, porm, s comea a fazer sentido nas engenharias por volta
de 1930, quando surgem os primeiros trabalhos prticos destinados aos engenheiros. O
primeiro foi executado pelo matemtico WILLIAM GOSSET (1876 1937), com a aplicao das
probabilidades no Controle de Qualidade em uma fbrica de Cervejas.
A teoria das probabilidades uma importante rea da estatstica que possibilita ao profissional
no mercado de trabalho calcular percentuais, trabalhar com estimativas e realizar predies
em toda e qualquer rea do conhecimento. No que tange s Engenharias, a probabilidade
est presente no controle de processos de produtos e servios, permitindo estimar o risco e o
acaso de eventos futuros. Tambm amplamente utilizada no que tange ao planejamento de
novas tcnicas e estratgias de produo e vendas, dentre outras.
050
unidade 3
ESTATSTICA E PROBABILIDADES
Suponha que voc o engenheiro responsvel pela qualidade na linha de produo de uma
grande marca de bebidas. Sabe-se que no possvel experimentar todos os produtos
antes de disponibiliz-lo ao mercado, pois ningum compraria uma bebida j provada, e que
o processo de fabricao composto por etapas, por interferncias dos funcionrios, por
equipamentos (que podem estar ou no muito bem regulados), e por uma srie de outros
fatores controlveis ou no, como at mesmo uma simples umidade excessiva no ambiente de
fabricao devido ao perodo chuvoso. No entanto, voc pode suspeitar que um determinado
lote, devido variabilidade inerente ao processo, apresente um percentual de itens no
conformes maior que o permitido pelos rgos fiscalizadores.
A teoria das probabilidades vem auxili-lo nesse processo de tomada de deciso, permitindo
inferir sobre a populao em estudo, ou mesmo sobre eventos que ainda iro ocorrer,
estimando as chances de sucesso do mesmo.
A TEORIA DAS
PROBABILIDADES
A teoria das probabilidades nasce na Idade Mdia com os tradicionais jogos de azar existentes
na Corte. Jogos de cartas e dados, ou mesmo os lanamentos de moeda so classificados
como fenmenos que envolvem o acaso, assim como a maioria dos jogos esportivos. Uma
aplicao direta da teoria das probabilidades no campo das Engenharias o processo de
deciso, seja para aumentar o investimento ou cortar despesas, no qual o profissional do
mercado de trabalho deve arriscar-se mantendo os ps no cho.
CONCEITO
Um dos principais conceitos matemticos amplamente estudado no que diz respeito teoria das
probabilidades o de conjunto. Um conjunto pode ser definido como uma coleo de objetos, itens ou
servios que possuem caracterstica (s) comum (s).
No contexto da teoria das probabilidades, o conjunto de todos os resultados possveis a ser estudado
em um experimento aleatrio denominado espao amostral.
Espao Amostral () qualquer conjunto de todos os possveis resultados em um experimento aleatrio.
051
unidade 3
ESTATSTICA E PROBABILIDADES
que,
mesmo
repetidos
vrias
vezes
sob
= ( possibilidades )(repeties)= 23 = 8
(acaso).
Os
resultados
dos
como eventos.
no
lanamento
vezes,
de
um
preciso
apelar
para
princpio
052
unidade 3
ESTATSTICA E PROBABILIDADES
Probabilidade = Quer
Tem
20 passo
10 passo
Os
eventos
so
classificados
como
LEIS BSICAS DE
PROBABILIDADES
PROBABILIDADE
CLSSICA E
P ( ) = 1;
PROBABILIDADE
FREQUENTISTA
P ( Ac ) = 1 - P ( A ), sendo Ac o evento
complementar ao evento A;
LEMBRE
nmero de orcorrncias de A
espao amostral ()
053
unidade 3
ESTATSTICA E PROBABILIDADES
DESCRIO MATEMTICA
Associatividade
(AB)C=A(BC)
(AUB)UC=AU(BUC)
Comutatividade
AB = BA
AUB = BUA
Distributividade
(AB)UC=(AUC)(BUC)
(AUB)C=(AC)U(BC)
Absoro
ACB AB=A
ACB AB=B
Modulares
A = A
A =
A =
A =A
AB = AUB
AUB = AB
Leis de De Morgan
A=A
Dupla negao
UNIO E INTERSEO
DE EVENTOS
A unio de dois eventos A e B, indicada por A U B, o evento que contm todos os elementos
de A e todos os elementos de B.
P(AUB)=P(A)+P(B)-P(AB)
P ( A U B ) = P ( A ) + P ( B ), se A e B so mutuamente exclusivos;
A interseo de dois eventos A e B, indicada por AB, o evento que contm todos os elementos
comuns a A e B.
P(A B) = P(B). P(A | B)
054
unidade 3
ESTATSTICA E PROBABILIDADES
AB
TOTAL
Positivo
156
139
37
12
344
Negativo
28
25
65
Total
184
164
45
16
409
CONCEITO
Dois ou mais eventos podem ser classificados como mutuamente exclusivos quando a realizao de um
exclui a realizao do (s) outro (s). No lanamento de uma moeda, o evento "tirar cara" e o evento "tirar
coroa" so mutuamente exclusivos, j que a realizao de um deles implica, necessariamente, na no
realizao do outro.
Portanto, em eventos mutuamente exclusivos, a probabilidade de que um ou outro se realize igual
soma das probabilidades de que cada um deles se realize.
055
unidade 3
ESTATSTICA E PROBABILIDADES
DICAS
EXEMPLO
TABELAS DE
CONTINGNCIA
As tabelas de contingncia so aplicadas na
avaliao do relacionamento das categorias
com respeito aos grupos segundo dois
modos: independncia ou homogeneidade.
Ou seja, eventos com dupla entrada.
A aplicao de tabela de contingncia
dois por dois dada quando n elementos,
selecionados
aleatoriamente
de
uma
056
unidade 3
ESTATSTICA E PROBABILIDADES
REFRIGERANTE
TOTAL
Bom
1190
795
1985
Defeito
10
15
Total
1200
800
2000
A partir dessa tabela, possvel estimar que a probabilidade dessa empresa disponibilizar um
produto (dentre cervejas e/ou refrigerantes) no mercado com algum tipo de defeito dada por:
P (defeito) = 15 = 0,0075
2000
Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam algum
tipo de defeito.
IMPORTANTE
A tabela de contingncia um processo de organizar a informao correspondente a dados dicotmicos.
De uma maneira geral, uma tabela de contingncia uma representao dos dados, quer de tipo
qualitativo, quer de tipo quantitativo, especialmente quando so de tipo bivariado, isto , podem ser
classificados segundo dois critrios.
EVENTOS
INDEPENDENTES
Um ou mais eventos pode (m) ser classificado (s) como independente (s) quando a realizao
de um dos eventos no afeta a probabilidade de ocorrncia do outro, e vice-versa.
Quando dois eventos so independentes, P ( A B ) = P ( A ) . P ( B ).
057
unidade 3
ESTATSTICA E PROBABILIDADES
EXEMPLO
Nota na prova e ter feito a prova de chinelo;
O valor de venda de um produto e a cor do cabelo das funcionrias que o fabricaram.
TEOREMA
DE BAYES
A probabilidade condicional, ou seja, as chances de um evento A ocorrer, dado que outro
evento B ocorreu, dada por:
P(A|B)=
P(AB)
P(B)
para P ( B ) > 0.
O teorema de Bayes prope que, se os eventos E1,E2,,En so parties do espao
amostral , ento:
P ( Ei | B ) =
P ( B | Ei ) . P ( Ei )
P(B)
CONCEITO
Seja B1, B2, , Bn um conjunto de eventos mutuamente exclusivos cuja unio forma o espao amostral .
Seja E outro evento no mesmo espao amostral , tal que P ( E ) > 0, ento:
P ( E ) = P ( E | B1 ) + P ( E | B2 ) + P ( E | B3 ) + ...+ P ( E | Bn )
P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ...+ P( Bn ) P ( E | Bn )
058
unidade 3
ESTATSTICA E PROBABILIDADES
Portanto,
P ( E ) = P ( Bi ) . P ( E | Bi )
EXEMPLO
0,10 . 0,70
= 0,9211
0,10.0,70+0,02.0,30
APLICAO
PRTICA
c) Dentre
as
cervejas,
qual
ser um suco?
059
unidade 3
ESTATSTICA E PROBABILIDADES
Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro lote ou do segundo
lote, independente da ordem de ocorrncia do evento.
P (cerveja com defeito )
c) P ( defeitocerveja ) =
P ( cerveja )
= 0,0850 = 0,5
0,5.0,2.0,85+0,5.0,2.0,85
0,1700
060
unidade 3
400
2000
= 0,20
ESTATSTICA E PROBABILIDADES
= 0,0150 = 0,1875
0,0800
REVISO
A teoria das probabilidades utilizada em todas as reas do conhecimento. Ela visa auxiliar
o profissional no mercado de trabalho a predizer valores futuros, estimando as chances de
ocorrncia de um evento antes que ele ocorra.
Para calcular a probabilidade, basta dividir o que se quer pelo que se tem, ou seja:
Probabilidade = Quer
Tem
20 passo
10 passo
Sendo imprescindvel, primeiro, definir o que se tem para somente depois retirar do que se
tem o que se quer.
Quando a ocorrncia de um evento no afeta a realizao ou no de um outro evento, eles so
classificados como eventos independentes.
O Teorema de Bayes aplicado em situaes cuja a probabilidade de ocorrncia de um evento
est vinculada s chances de sucesso de um outro evento.
061
unidade 3
ESTATSTICA E PROBABILIDADES
PARA SABER
MAIS
Filmes
Jennifer E. Smith
comea a ir at ao limite.
extravia.
SMITH, Jennifer E. A Probabilidade Estatstica do
Amor Primeira Vista. Rio de Janeiro: Galera Record,
2013
062
unidade 3
UNIDADE
MODELOS
PROBABILSTICOS
064
unidade 4
ESTATSTICA E PROBABILIDADES
VARIVEIS
ALEATRIAS
VARIVEIS
DISCRETAS
CONCEITO
Probabilidade
Seja
um
experimento
aleatrio
qualquer
As
variveis
aleatrias
podem
ser
065
unidade 4
ESTATSTICA E PROBABILIDADES
x1 x2 x3 ... xn
P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )
Fonte: Elaborado pelo autor.
E (x) = xi . p ( xi )
i =1
DICAS
O valor esperado, indicado por E (x) = , a mdia de uma varivel discreta.
E ( x2 ) = xi . p ( xi )
i =1
066
unidade 4
ESTATSTICA E PROBABILIDADES
DICAS
O desvio padro indicado por DP ( x ) = a raiz da varincia, ou seja:
DP ( x ) =
Var ( x )
Para uma varivel aleatria n-dimensional (tambm chamada de vetor aleatrio), com n=2,
denota-se por ( X,Y ) o vetor aleatrio, sendo:
TABELA 15 - Distribuio discreta
VALORES ASSOCIADOS
VARIVEL X
P(Y)
Valores associados
varivel Y
Probabilidade conjunta
P ( X, Y )
Probabilidade
marginal de Y
P(X)
Probabilidade marginal de X
Pois P
(X,Y) uma
f.d.p.
IMPORTANTE
S possvel realizar anlises estatsticas sobre distribuies que sejam uma funo densidade de
probabilidade, ou seja, f.d.p. Dizemos que uma ou mais variveis so uma f.d.p. quando a soma de todas
as probabilidades que compem o evento em estudo igual a 1, ou seja, 100%. Portanto, uma ou mais
variveis podem ser classificadas como f.d.p. quando:
n
p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1
i =1
067
unidade 4
ESTATSTICA E PROBABILIDADES
ATENO
As probabilidades so sempre dispostas paralelamente s suas variveis na construo da tabela
bidimensional. Portanto, se invertermos as posies de X e Y na tabela anterior, teremos a seguinte
distribuio de probabilidades:
P(X)
Valores associados
varivel Y
Probabilidade conjunta
P ( X, Y )
Probabilidade
marginal de X
P(Y)
Probabilidade marginal de Y
Pois P
(X,Y) uma
f.d.p.
O valor esperado da distribuio conjunta, indicado por E ( X, Y), dado pelo produto entre
cada valor associado varivel X, com cada valor associado varivel Y e sua respectiva
probabilidade conjunta, ou seja:
n
E ( X, Y ) = xi . yj . p ( xi , yj )
i =1 j =1
E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +
+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )
Para a tabela de distribuio a seguir:
TABELA 16 - Distribuio discreta
X
P(Y)
P (a, d )
P ( b, d)
P ( c, d )
P(d)
P ( a, e )
P ( b, e )
P ( c, e )
P(e)
P ( a, f )
P ( b, f )
P ( c, f )
P(f)
P(X)
P ( a )
P ( b )
P(c)
068
unidade 4
ESTATSTICA E PROBABILIDADES
VARIVEIS
E (x) = x .f ( x ) dx
CONTNUAS
probabilidades
aos
infinitos
dada por:
Var ( x ) = E ( x2 ) - [ E ( x ) ]2,
por:
E ( x ) = x2 . f ( x ) dx
2
f (x) 0, x C R;
A
+ oo
Para
uma
varivel
aleatria
contnua
P ( a x b) =
(probabilidade
f ( x ) dx
correspondente
f ( x, y ) d x d y =1
x . y . f ( x, y ) d x d y
069
unidade 4
ESTATSTICA E PROBABILIDADES
IMPORTANTE
ndependentemente de a classificao da varivel aleatria ser dada como discreta ou contnua, sendo
a e b constantes e x e y variveis aleatrias, valem as propriedades:
E(X)=
Var ( x ) = 2
E(a)=a
Var ( a ) = 0
E(ax)=a.E(x)
Var ( a x ) = a2 . Var ( x )
E(abx)=ab.E(x)
E(axby)=a.E(x)b.E(y)
CONCEITO
Duas variveis aleatrias X e Y so independentes se o produto das distribuies marginais for igual
distribuio conjunta, ou seja:
p ( x ) . p ( y ) = p ( x , y ) para distribuio discreta;
f ( x ) . f ( y ) = f ( x , y ) para distribuio contnua.
070
unidade 4
ESTATSTICA E PROBABILIDADES
MODELOS
PROBABILSTICOS
ou falha;
probabilsticos.
Esses
modelos
so
dadas por:
DISTRIBUIO
BINOMIAL
A probabilidade de ocorrncia de um
determinado
distribuio
n
P ( X = x ) = ( x ). px. ( 1 - p )n-x
na
evento
n
sendo: ( x ) a combinao de n elementos
n
n!
x a x, ou seja: ( x ) =
e p a
( n- x) ! . x!
probabilidade de sucesso.
071
unidade 4
ESTATSTICA E PROBABILIDADES
P(X=x)=
e- . x
x!
tamanho
da
amostra
em
eventos
DISTRIBUIO
POISSON
NORMAL
pode
DISTRIBUIO
relacionado
quantidade
determinado
evento
com
razes,
tanto
na
teoria
dessa
distribuio.
Sua
delegacia etc.
A probabilidade de ocorrncia de um
diversas
distribuio
072
unidade 4
ESTATSTICA E PROBABILIDADES
1 - No toca o eixo x.
2 - S tem uma moda.
073
unidade 4
ESTATSTICA E PROBABILIDADES
Como o clculo da rea abaixo da curva a integral da f.d.p. nos limites desejados e esse
clculo , muitas vezes, longo, a rea sob a curva pode ser simplificada pela transformao:
z=
x-
w
Sendo z uma varivel aleatria com distribuio normal, mdia zero e varincia 1, e x sendo
uma varivel aleatria com distribuio normal, mdia e varincia 2.
A rea total limitada pela curva normal e pelo eixo das abscissas 1u.a. (uma unidade de
rea), ou seja, 100%, sendo as reas sob a curva limitadas pela distncia entre o desvio padro
e a mdia. Essa rea apresentada na tabela a seguir.
TABELA 18 - rea sob a curva da normal
074
unidade 4
ESTATSTICA E PROBABILIDADES
Sendo a primeira coluna e a primeira linha o nmero inteiro mais a primeira casa decimal e
a segunda casa decimal, respectivamente, do nmero z calculado pela estatstica de teste
x-
z=
e, no centro da tabela, as probabilidades correspondentes rea entre zero e esse
APLICAO
PRTICA
Uma grande indstria compra diversos novos processadores de texto no final de cada ano, sendo que o nmero
exato deles depende da frequncia dos reparos no ano anterior. Suponha que o nmero de processadores,
indicado por X, que so comprados a cada ano, tenha a seguinte distribuio de probabilidade:
P(X)
0,10
0,30
0,40
3
0,20
Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante este ano e um desconto de 50.X2
(em reais) for fornecido em relao a qualquer compra, quanto a empresa espera gastar E ( X ) em novos
processadores no final do ano?
E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2
E ( X ) = 1,7
075
unidade 4
ESTATSTICA E PROBABILIDADES
REVISO
A distribuio discreta usada em casos cujos dados analisados podem ser alocados em uma
tabela de probabilidades, sendo que aquelas localizadas no centro da tabela so classificadas
como probabilidade conjunta e as localizadas nas laterais, como probabilidades marginais.
Probabilidades marginais so aquelas que correspondem a apenas uma das variveis em
estudo, e as probabilidades conjuntas so as que correspondem a duas variveis analisadas
concomitantemente.
A distribuio contnua usada em casos cujos dados analisados podem ser alocados em um
intervalo contnuo.
No que tange as distribuies de probabilidade, cabe ressaltar:
TABELA 20 - Reviso das medidas de tendncia central
DISTRIBUIO
LIMITAES
QUANDO USAR
Binomial
Poisson
Normal
PARA SABER
MAIS
MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro. LTC, 2014.
Para uma fundamentao matemtica mais aprofundada sobre o assunto, consulte a seguinte obra:
MONTGOMERY, Douglas; RUNGER, George Estatstica aplicada e probabilidade para engenheiros. 3 ed.
Rio de Janeiro: LTC, 2009.
076
unidade 4
UNIDADE
ESTIMAO DE MDIAS
E PROPORES
para construir a quarta rea do mtodo estatstico, que a deciso na presena de incerteza
ou estatstica inferencial.
A estatstica inferencial recebe esse nome por ser um conjunto de mtodos e tcnicas que
permitem, a partir dos dados provenientes de uma amostra, inferir informaes sobre toda
a populao alvo do estudo. Logicamente existe uma incerteza associada a esse processo,
mas ela quantificada atravs dos nveis de confiana e margens de erro do estudo. Essa a
grande contribuio da estatstica inferencial, permitir que se conhea o nvel de incerteza da
informao antes de tomar decises.
Existe uma infinidade de tcnicas de estatstica inferencial, como os intervalos de confiana,
testes de hipteses paramtricos e no paramtricos, anlises de correlao e regresso,
dentre outras. Para que voc tenha noo da quantidade de tcnicas, imagine que exista um
curso de graduao em Estatstica com durao de quatro anos em que o aluno passa a maior
parte do tempo estudando tcnicas de estatstica inferencial. E ainda assim esse tempo no
suficiente para estudar todas as tcnicas!
A boa notcia que em todas essas tcnicas existe um ponto em comum, conceitos que
so utilizados em todas elas, como estimativa pontual, intervalos de confiana e testes
de hipteses. Esses conhecimentos esto presentes em todas as tcnicas de estatstica
078
unidade 5
ESTATSTICA E PROBABILIDADES
TEOREMA CENTRAL
DO LIMITE
079
unidade 5
ESTATSTICA E PROBABILIDADES
diferentes
se
terem
selecionarmos
mdias
vrias
diferentes,
amostras
padro de
n 25
Consequentemente,
probabilidade
figura abaixo.
X-
tende ao infinito.
Podemos dizer ainda que X normalmente
distribudo com mdia X = e desviopadro X =
EXEMPLO
z=
73,6 - 75
= -2
35
25
Ento,
P(
080
unidade 5
ESTATSTICA E PROBABILIDADES
Distribuio amostral
de X para n = 2
Distribuio amostral
de X para n = 5
081
unidade 5
Distribuio amostral
de X para n = 30
ESTATSTICA E PROBABILIDADES
Note nos grficos acima que a aproximao pela distribuio normal razovel para amostras com
30 ou mais observaes. Por essa razo, a utilizao do teorema central do limite adequada quando
o tamanho da amostra for ao menos 30 ou quando a distribuio da varivel aleatria X for normal.
Nos prximos tpicos, voc vai descobrir como aplicar o teorema central do limite para
obter estimativas intervalares para mdias e propores populacionais a partir da mdia e
propores amostrais. Na Unidade 7, o TCL ser utilizado para realizar testes de hipteses
sobre os parmetros populacionais.
Neste tpico, voc vai aprender a obter uma estimativa para mdia populacional e calcular
a preciso dessa estimativa. Voc vai entender por que apresentar a margem de erro e o
nvel de confiana da pesquisa to importante quanto apresentar a estimativa pontual para
mdia. Aps a leitura deste tpico, voc ter um novo olhar sobre as estatsticas que lhe so
apresentadas diariamente em jornais ou revistas.
Considere que uma montadora desenvolveu um novo modelo e est elaborando a ficha tcnica
do veculo. Uma informao relevante para o cliente o consumo mdio de combustvel. Sabese que o consumo est relacionado ao tipo de combustvel (etanol ou gasolina ), maneira
de conduzir, ao tipo de via (cidade ou estrada), qualidade do combustvel, dentre outras
variveis. O consumo pode variar tambm entre os veculos de mesmo modelo, por essa razo
podemos tratar o consumo de combustvel como uma varivel aleatria.
Para definir o consumo mdio de combustvel do novo modelo de veculo, a montadora coletou
dados sobre distncia percorrida e consumo de combustvel de 35 veculos. Com esses dados,
calculou o consumo mdio na estrada e na cidade tanto para gasolina quanto para etanol. Os
resultados so apresentados na tabela abaixo:
TABELA 21 - Reviso das medidas de tendncia central
TRAJETO
ETANOL (KM/L)
GASOLINA (KM/L)
Cidade
8,7
12,5
Estrada
10,4
15,2
082
unidade 5
ESTATSTICA E PROBABILIDADES
Os
35
veculos
que
participaram
do
Onde:
desvio-padro
populacional
da
varivel aleatria X;
amostral
figura abaixo:
/2 n
083
unidade 5
ESTATSTICA E PROBABILIDADES
IC [ ; ( 100 - ) % ] =
montadora.
Entretanto,
como
E = Z
35
/2 n
E = 1,96
= 1,325
Soluo:
Para resolver a questo acima, podemos
utilizar a equao:
IC [ ; 95% ] =
a equao:
084
unidade 5
ESTATSTICA E PROBABILIDADES
E = Z
/2 n
Logo:
E = 1,96 *
35
= 0,663
Felizmente,
quando
trabalhamos
com
Ento:
segue:
ESTIMAO POR
INTERVALOS DE
CONFIANA PARA
mais de 30 observaes.
2. A
UMA MDIA
POPULACIONAL
(AMOSTRAS
PEQUENAS)
pelo
desvio-padro
desvio-padro
do
aproximao
populacional
do
().
085
unidade 5
ESTATSTICA E PROBABILIDADES
Para contornar o problema 2, vamos precisar utilizar uma nova distribuio de probabilidades,
a distribuio t-student. Essa distribuio muito semelhante distribuio normal: tem
forma de sino, simtrica e tem mdia zero. A diferena que a distribuio t-student
mais achatada (tem caudas mais pesadas). Com isso, as estimativas obtidas a partir dessa
distribuio sero menos precisas.
FIGURA 26 - Comparao entre a distribuio normal e a distribuio t-student (5 gl)
A figura abaixo ilustra parte da tabela dos valores mais utilizados para distribuio t-student.
Para construo de intervalos de confiana, devemos olhar os valores para rea em duas
086
unidade 5
ESTATSTICA E PROBABILIDADES
Exemplo:
Uma equipe de engenharia est desenvolvendo uma nova mistura para concreto e deseja
estimar a resistncia mdia do produto compresso. Como o teste de resistncia
compresso um ensaio destrutivo, o mximo que a equipe conseguiu para realizao do
estudo foram 10 corpos de prova. A resistncia mdia compresso da amostra foi de 2.500
psi e o desvio-padro foi de 45 psi. Sabendo que a resistncia do concreto compresso segue
uma distribuio normal, obtenha uma estimativa intervalar para a verdadeira resistncia
mdia populacional com 95% de confiana.
Soluo:
Observe que o tamanho da amostra pequeno, n = 10, e o desvio-padro foi obtido da amostra
(no conhecemos o desvio-padro populacional). Nesse caso, para construir o intervalo de
confiana, necessrio utilizar a distribuio t-student e a margem de erro deve ser calculada
utilizando a equao:
087
unidade 5
ESTATSTICA E PROBABILIDADES
E = t (
/2 ; n - 1) n
Onde t 2 ; n-1 obtido da tabela t-student, sendo os parmetros: 2 a rea em cada uma
das duas caudas e n - 1 os graus de liberdade.
Como o intervalo de 95% de confiana, sabemos que a significncia o = 5% (para consultar
a tabela usamos o valor em decimal, 0,05). Os graus de liberdade so obtidos calculando n-1,
ou seja, 10 - 1 = 9. Assim, encontramos que o valor de t0,025;9 de 2,262.
FIGURA 28: Tabela t-student - encontrando t 0,025;9
088
unidade 5
ESTATSTICA E PROBABILIDADES
089
unidade 5
ESTATSTICA E PROBABILIDADES
p e desvio-padro p =
p e q.
Sabemos que o TCL vlido apenas
da equao:
candidato A.
E = Z
Exemplo:
/2 pq
n
E
IC [ p ; ( 100 - ) % ]= p
satisfeitos,
uma
conformes do fornecedor B.
dizemos
que
temos
confiana:
E= 1,96
0,52 0,48
= 0,0196
2.500
Soluo:
Uma estimativa pontual para a verdadeira
proporo de tubos no conformes dada por:
090
unidade 5
ESTATSTICA E PROBABILIDADES
p = 21 = 0,14
150
Verificamos que a aplicao do teorema
central do limite adequada, pois n . p = 21
= 150 * 0,86 = 129, ou seja, ambos
en.q
so maiores que 5, indicando que a amostra
suficientemente grande. Podemos estimar
a margem de erro do estudo pela equao:
E = Z
/2
E = 1,645
USO DO EXCEL
NO CLCULO DE
INTERVALOS
DE CONFIANA
PARA MDIA E
PROPORO
Agora que voc j sabe exatamente como
so obtidos os intervalos de confiana,
pq
0,14 0,86
= 0,047
150
E
IC [ p ; 90% ] = p
maneiras:
utilizando
distribuio
proporo
de
tubos
no
conformes
utilizando
julgar convenientes.
distribuio
normal.
091
unidade 5
ESTATSTICA E PROBABILIDADES
; o tamanho da
amostra n; e o nvel de confiana desejado. Note que a clula B7 deve ser configurada como
porcentagem.
Nas linhas 9 a 11 so realizados clculos intermedirios como erro padro da mdia x (ou x ),
o valor de z relativo ao nvel de confiana desejado e a margem de erro resultante. As frmulas
utilizadas para cada um dos clculos so apresentadas exatamente sua direita. Por exemplo,
na clula B9 foi inserida a frmula = B4/RAIZ(B6), que o desvio-padro dividido pela raiz do
tamanho da amostra. Nas linhas 13 e 14 apresentado o intervalo de confiana, sendo limite
inferior do intervalo o valor de
+ E.
092
unidade 5
ESTATSTICA E PROBABILIDADES
= implementada na clula
p.q
n
093
unidade 5
ESTATSTICA E PROBABILIDADES
INTRODUO AO
PROGRAMA EPIINFO
O software EpiInfo uma ferramenta muito til para anlise de dados. Esse software foi
desenvolvido pelo Centro de Controle de Doenas (CDC) para anlise de dados epidemiolgicos,
entretanto pode ser utilizado em qualquer rea, inclusive em engenharia. O software est
disponvel no site www.cdc.gov/epiinfo
Veja no material web da disciplina os vdeos de instalao do EpiInfo e de introduo anlise
de dados utilizando essa ferramenta.
APLICAO
PRTICA
Um fabricante de anis para pistes de motor deseja verificar se seu produto atende as especificaes
do cliente. Para isso, resolveu estimar o dimetro mdio dos anis produzidos. A partir de uma amostra
094
unidade 5
ESTATSTICA E PROBABILIDADES
Ento:
anis.
segue:
Soluo:
REVISO
,
n
IC [ ;99% ] = x E
Precisamos, portanto, encontrar a margem
de deciso:
E = Z
/2 n
Logo:
E = 2,575 *
0,02
40
= 0,008
095
unidade 5
ESTATSTICA E PROBABILIDADES
Qualitativo parmetro p
Amostra grande ( n 30 )
Aplicvel quando np 5 e nq 5
O intervalo de
confiana pode ser
obtido pela equao 4.
PARA SABER
MAIS
Caso voc tenha se interessado pelo assunto desta unidade e deseja aprofundar nesse contedo,
recomendo a leitura do captulo 5 do livro texto:
McCLAVE, James T. George Benson, Terry Sincich. Estatstica para administrao e economia. trad.
Fabrcio Pereira Soares e Fernando Sampaio Filho; rev. tc. Galo Carlos Lopez Noriega. So Paulo:
Pearson Prentice Hall, 2009.
Se voc deseja uma leitura mais formal e tem interesse em demonstraes das equaes, leia o captulo
8 do livro texto:
096
unidade 5
ESTATSTICA E PROBABILIDADES
aplicada
probabilidade
para
097
unidade 5
UNIDADE
PLANEJAMENTO DE
EXPERIMENTOS
os mtodos utilizados para seleo das amostras ou sequer a justificativa para o tamanho
amostral. Nesta unidade voc vai aprender a planejar um experimento de pequeno e mdio
porte na rea de Engenharia e Cincias Exatas, bem como calcular o tamanho mnimo de
uma amostra que tenha representatividade estatstica.
A tmpera consiste essencialmente em aquecer uma pea de ao a uma certa temperatura e, a seguir, resfrila rapidamente em um banho, usualmente gua, leo ou solues salinas. Seu objetivo , em geral, aumentar
a dureza do ao e tornar mais elevadas suas resistncias trao, compresso e ao desgaste
099
unidade 6
ESTATSTICA E PROBABILIDADES
100
unidade 6
ESTATSTICA E PROBABILIDADES
proporo populacional
Desconhecendo estimativa de p
Z/220,25
n=
E2
n=
Z/2 pq
n=
2
E
1,962 x 0,25
0,022
n = 2.401
Onde:
normal padro
populacional.
para o estudo.
101
unidade 6
ESTATSTICA E PROBABILIDADES
CONFIANA PARA
UMA PROPORO
POPULAO FINITA
sempre
acontecer,
ou
CLCULO DE TAMANHO
DE AMOSTRA BASEADO
EM INTERVALOS DE
seja,
IMPORTANTE
proporo populacional
n=
assim
arredondaramos
para
(z/ )2
Npq
2
(z/2)2 + (N - 1) E2
pq
233
Considere
102
unidade 6
que
desejamos
estimar
ESTATSTICA E PROBABILIDADES
CLCULO DE TAMANHO
DE AMOSTRA BASEADO
que
normalmente
n = 89
exemplo,
n=
EM INTERVALOS DE
CONFIANA PARA
UMA MDIA
estimar
uma
mdia
populacional.
Os
empresa
fabricante
de
baterias
n = 60
103
unidade 6
ESTATSTICA E PROBABILIDADES
necessrio
para
atender
exigncias do estudo.
n=
Z(/2)
E
Onde:
n: o tamanho da amostra
Z/2: escore z que separa uma rea de
1U
tilizao
: o desvio-padro populacional
uma
amostra
87
necessrio
piloto
de
observaes.
em lugar de .
de 27 baterias.
2,575 x 6
E
3U
tilize o valor de estimado por outros
estudos realizados anteriormente.
n = 26,5 27
Ao calcular tamanho de amostra para
estimativa de uma mdia populacional,
aquela
regra
de
coletar
2C
omece o processo de coleta sem o
ou
alternativa,
anterior,
da
para a estimativa.
valendo
dessa
aproximadamente
continua
emprica
normal padro
regra
n=
da
devemos
sempre
104
unidade 6
ESTATSTICA E PROBABILIDADES
CLCULO DE TAMANHO
DE AMOSTRA BASEADO
EM INTERVALOS DE
CONFIANA
PARA UMA MDIA
POPULAO FINITA
Nos
tpicos
anteriores
tamanho
da
amostra
necessria,
apresentamos
de novos recrutas):
n=
{ 1,965x 30 }
n = 139
situaes:
n=
N2 (Z/2)2
(N - 1) E2 + 2(Z/2)2
n=
Exemplo 10
Suponha que o exrcito brasileiro deseje
encomendar uma remessa de uniformes
para os novos recrutas. Para melhor
adequao dos tamanhos dos uniformes,
o sargento decidiu obter uma estimativa da
altura mdia deles. Dos 100 novos recrutas,
o sargento deseja obter a estimativa
a partir de uma amostra com 95% de
105
unidade 6
n = 58,3 59
ESTATSTICA E PROBABILIDADES
PLANEJAMENTO DE
EXPERIMENTOS
O
planejamento
de
experimentos,
Um experimento um procedimento no
AGUIAR, 1996).
desenvolvimento do produto.
Experimentos
de
que
tenham
sido
mal
qualidade
de
interesse.
figura
equivocadas.
mtodos e os procedimentos:
106
unidade 6
ESTATSTICA E PROBABILIDADES
Entradas
SISTEMA
Y
Varaveis resposta
(PRODUTO/PROCESSO
(Caractersticas de
Qualidade)
Fatores controlveis
(especificados pelo pesquisador)
Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.
107
unidade 6
ESTATSTICA E PROBABILIDADES
seguinte maneira:
aleatorizao e blocagem.
fornecedor B
Tcnica de mistura 3 cimento do
fornecedor C
sob
as
mesmas
condies
fornecedor D
foram
produzidos
para
cada
tcnica,
especficas
que
poderiam
de
cada
impactar
na
fornecedor
resistncia
108
unidade 6
ESTATSTICA E PROBABILIDADES
experimentais.
garante
Esse
princpio
desvantagem,
outras
tcnica de mistura.
em
relao
os
unidades
conjuntos
homogneos
experimentais.
No
de
exemplo
109
unidade 6
ESTATSTICA E PROBABILIDADES
FIGURA 34 - Blocagem dos cimentos para cada tipo de tcnica de mistura do concreto
FORNECEDOR A
FORNECEDOR B
FORNECEDOR C
FORNECEDOR D
Tc. 1
Tc. 1
Tc. 1
Tc. 1
Tc. 2
Tc. 2
Tc. 2
Tc. 2
Tc. 3
Tc. 3
Tc. 3
Tc. 3
Tc. 4
Tc. 4
Tc. 4
Tc. 4
TERMINOLOGIA
BSICA
Agora que voc j aprendeu quais so os princpios bsicos do DOE, vamos aprender alguns
termos comuns e muito teis para o bom planejamento do experimento. Sero apresentados
seis termos bsicos, a saber: Unidade Experimental, Fatores, Nveis de um Fator, Tratamento,
Ensaio e Varivel Resposta (ou desfecho). Para melhor entendimento, vamos utilizar o exemplo
sobre resistncia compresso do concreto, do tpico anterior, e definir cada termo.
A Unidade Experimental a unidade bsica para a qual ser feita a medida da resposta. No
nosso exemplo, cada unidade experimental corresponde a um corpo de prova do concreto
utilizado no estudo.
Os Fatores so os tipos distintos de condies que so manipuladas as unidades
experimentais. Ou seja, so as variveis controlveis que podem exercer influncia sobre a
varivel resposta. E desejamos conhecer essa influncia. No exemplo citado temos um nico
fator: tcnica de mistura.
Os Nveis de um fator so os diferentes modos de presena de um fator no estudo considerado.
No exemplo citado, os nveis do fator tcnica de mistura so os diferentes tipos de tcnica:
Tcnica 1, Tcnica 2, Tcnica 3 e Tcnica 4. Podemos dizer, portanto, que nosso fator tem
quatro nveis.
110
unidade 6
ESTATSTICA E PROBABILIDADES
Tcnica 4.
tinta A.
Em
alguns
estudos
podemos
de tinta.
111
unidade 6
ESTATSTICA E PROBABILIDADES
T2=mdio e T3 = Alto.
APLICAO
PRTICA
poderia
ser
resolvido
pela
aleatorizao.
tratamentos existentes.
c) A temperatura ambiente poderia ser um fator,
SOLUO:
a) U
nidade Experimental: Cada trouxa de
secagem.
por exemplo.
ordem
de
realizao
dos
ensaios
112
unidade 6
ESTATSTICA E PROBABILIDADES
roupas por caractersticas semelhantes de fabricao, como leveza do pano, tamanho das peas.
A quantidade das mesmas tambm deve ser controlada para que cada ensaio seja feito de forma
mais homognea possvel. Por exemplo, se tiver disponvel trs peas de moletom, deve-se alocar
uma a cada trouxa de roupas, ou se tiver seis peas jeans, deve-se alocar duas para cada trouxa
de roupas.
REVISO
Nesta unidade voc aprendeu que, para calcular o tamanho amostral, diversos fatores devem
ser levados em considerao. Em especial voc aprendeu a calcular o tamanho amostral em
quatro situaes: quando o objetivo do estudo a estimativa de uma proporo populacional,
sendo o tamanho populacional finito ou infinito. E quando o objetivo do estudo a estimativa
de uma mdia populacional, novamente, sendo o tamanho populacional finito ou infinito. O
quadro abaixo resume essas situaes:
QUADRO 4 - Equaes para clculo de tamanho amostral segundo objetivos do estudo
Estimar uma proporo populacional
Z/2 pq
E2
(Z/ )2
Nqp
2
n=
(Z/ )2 + (N - 1) E2
pq
2
N2 (Z/2)2
(N - 1) E2 + 2(Z/2)2
Voc aprendeu tambm que em qualquer rea do conhecimento a coleta de dados deve ser
sempre precedida pelo planejamento do experimento. Essa prtica assegura a confiabilidade
dos resultados e simplifica os mtodos de anlise. Por outro lado, a no observncia dessa
prtica inviabiliza a utilizao dos resultados a despeito de qualquer tcnica estatstica, por
mais sofisticada que seja.
Neste sentido, os princpios bsicos que voc aprendeu foram: rplica, aleatorizao e
113
unidade 6
ESTATSTICA E PROBABILIDADES
em
qualquer
experimentos,
planejamento
saber:
Unidade
Identificar
as
principais
variveis
PARA SABER
da UFMG, 1996.
MAIS
aplicada
probabilidade
para
aplicada
probabilidade
para
114
unidade 6
UNIDADE
TESTES DE
HIPTESES
o tempo de durao de um fusvel seja de 1.000 horas, contra a hiptese de que tal valor
seja diferente de 1.000 horas. Essa seria uma afirmao sobre uma mdia, uma vez que a
varivel de interesse tempo de durao quantitativa. Nesse caso, o objetivo testar
se a hipottica mdia de 1.000 horas verdadeira.
No exemplo em questo, seria impraticvel observar o tempo de durao de todos os fusveis
fabricados, ou seja, da populao de interesse. De forma que necessria a utilizao de
dados amostrais. O engenheiro poderia selecionar alguns fusveis, calcular o valor da mdia e
comparar com o valor proposto de 1.000 horas.
Voc ir aprender que, alm de avaliar afirmaes sobre mdias, as hipteses estatsticas
tambm podem ser testadas para outros parmetros de interesse, como propores (em caso
de variveis categricas), desvio-padro, medianas, etc.
116
unidade 7
ESTATSTICA E PROBABILIDADES
A CONSTRUO E O
SIGNIFICADO DE UMA
HIPTESE ESTATSTICA
Exemplo 7.1
Uma
ser
determinado
de
nula e alternativa?
hiptese
estatstica
assunto,
ou
pode
atravs
SOLUO:
A hiptese nula o tempo de secagem, igual
a 30 minutos.
Um teste estatstico tem como objetivo o
fornecimento de evidncias para subsidiar a
deciso de rejeitar ou no rejeitar uma hiptese
sobre algum parmetro de uma populao
atravs de dados obtidos por uma amostra.
H1: 30 minutos
Alm da definio acerca das hipteses,
o nvel de significncia tambm deve ser
escolhido pelo analista.
CONCEITO
CONCEITO
117
unidade 7
ESTATSTICA E PROBABILIDADES
podemos
fazer
testes
unilaterais
ou
TESTES PARA
UMA AMOSTRA
probabilidades
associadas.
TESTES DE GRANDES
AMOSTRAS PARA
tipo I.
UMA MDIA
POPULACIONAL
quantitativas).
118
unidade 7
ESTATSTICA E PROBABILIDADES
Exemplo 7.2
Uma indstria realiza o empacotamento
do produto caf em gros. Um dos
objetivos que a embalagem contenha
500 gramas de caf. natural que em
situaes como essa exista alguma
variao no peso do produto empacotado.
Dessa forma, podem ter pacotes com
498 gramas, com 502 gramas, com 501
gramas, com 499 gramas, ou qualquer
outro valor prximo do especificado.
No
entanto,
indstria
geralmente
a) pacotes
com
volume
muito
as
hipteses
de
interesse
Estabelea
rgos de fiscalizao.
invivel
verificar
todos
os
produtos
119
unidade 7
ESTATSTICA E PROBABILIDADES
-
Z = x
frmula
permite
que
mdia
probabilidade
distribuio
das
mdias
amostrais,
normal
seguintes itens:
Z: E
score
da
distribuio
normal
padronizada
distribuio
da
x = n
120
unidade 7
sx = n
ESTATSTICA E PROBABILIDADES
502 - 500
= 4,0
s/36
O nmero obtido significa que 502 gramas encontram-se a 4,0 desvios-padro de distncia da
mdia populacional de 500 gramas. Mas esse valor perto ou longe da mdia populacional?
Quando Z = 0, pode-se afirmar que a mdia amostral exatamente igual ao valor
hipottico da mdia populacional.
Quando Z = 1, a probabilidade do valor da mdia amostral ter sido obtido devido
flutuao amostral de aproximadamente 34%, pois 68% dos dados encontram-se a
at um desvio-padro de distncia da mdia, conforme a figura 8.1
FIGURA 8.1: rea da distribuio normal padronizada
de acordo com o nmero de desvios-padro.
121
unidade 7
ESTATSTICA E PROBABILIDADES
4 - Observe pela Figura 8.1 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor por dois, obtemos os 95%.
122
unidade 7
ESTATSTICA E PROBABILIDADES
padronizada.
na
regio
em
vermelho,
123
unidade 7
ESTATSTICA E PROBABILIDADES
124
unidade 7
ESTATSTICA E PROBABILIDADES
4 etapa: Concluso
Z=
de
tamanho
igual
120
= 120,2
Estabelea
as
hipteses
de
interesse
H0: = 120 centmetros
H1: 120 centmetros
125
unidade 7
ESTATSTICA E PROBABILIDADES
O valor crtico de 1,645 positivo (ou negativo) foi obtido pela combinao da linha e coluna
relativas rea igual a 0,050 (0,100 dividido por 2)5 da tabela da distribuio normal padro da
figura 8.4.
5 - O valor 0,10 refere-se aos 10% escolhidos como nvel de significncia pelo pesquisador. Tal valor consiste
na probabilidade de rejeitar a hiptese nula, dado que ela verdadeira, ou seja, probabilidade de tomar uma
deciso equivocada em relao hiptese.
126
unidade 7
ESTATSTICA E PROBABILIDADES
127
unidade 7
ESTATSTICA E PROBABILIDADES
4 etapa: Concluso
1
etapa:
as
hipteses
de
interesse
Estabelea
H0: = 10 milmetros
H1: 10 milmetros
2 etapa: Obteno da estatstica de teste
Nesse caso, devemos utilizar o escore t no
lugar do Z:
TESTES DE HIPTESES
PARA AMOSTRAS
PEQUENAS
t=
- = 10,2 - 10,0
0,2/16 = 4,0
s/n
128
unidade 7
ESTATSTICA E PROBABILIDADES
Para saber o valor crtico, devemos consultar a tabela t. Como a amostra conta com 16
elementos, temos 15 graus de liberdade. Como o nvel de significncia igual a 5%, devemos
procurar o escore t na coluna do 0,05 (rea em duas caudas, pois o teste bilateral)
129
unidade 7
ESTATSTICA E PROBABILIDADES
4 etapa: Concluso
Como o valor 4,0 obtido pela estatstica de teste supera a valor crtico 2,13 obtido pela
distribuio t, rejeitamos a hiptese de que a mdia seja de 10 milmetros. Portanto, o processo
encontra-se fora de controle.
130
unidade 7
ESTATSTICA E PROBABILIDADES
TESTE PARA
UMA PROPORO
Quando
variveis
trabalhamos
com
1
etapa:
Estabelea
as
hipteses
de
interesse
H0: = 0,30
No teste de hipteses, o valor do erro padro
H1: 0,30
Sp =
Observao
Enquanto
mdia
(1n -)
1:
p-
Sp
Exemplo 7.5
a seguir:
de
uma
determinada
131
unidade 7
ESTATSTICA E PROBABILIDADES
Sp =
= 0,00428 = 0,0655
(1n -) = 0,30 (149- 0,30) = 0,21
49
p-
0,0655
4 etapa: Concluso
O valor - 0,53, obtido pela estatstica de teste, encontra-se fora da regio de rejeio, sendo
prximo de zero e longe do valor crtico de -1,96. Dessa forma, no rejeitamos a hiptese
nula. Portanto, no h indcios de que a proporo de trabalhadores estressados na empresa
estudada seja diferente de 30%.
No prximo tpico voc ver situaes em que o pesquisador tem como interesse comparar
os valores dos parmetros de duas amostras.
132
unidade 7
ESTATSTICA E PROBABILIDADES
MAIS AMOSTRAS
padro
pelos
respectivos
Exemplo 7.6
TESTE PARA A
COMPARAO
DE DUAS MDIAS EM
obtido foi
AMOSTRAS
INDEPENDENTES
mdio
= 88 minutos e desvio-padro
significncia 1%.
1
Etapa:
Estabelea
as
hipteses
interesse
utilizamos
estatstica de teste:
Z=
seguinte
H0: A = B
H1: A B
2 Etapa: Obteno da estatstica de teste
s s22
+
n1 n2
2
1
133
unidade 7
de
ESTATSTICA E PROBABILIDADES
Z=
s s
+
n1 n2
2
1
2
2
80 - 88
6 10
+
50 40
2
-8
36 100
+
50 40
-8
-8
-8
= 1,7944 = -4,46
3,22
0,72 + 2,5
=
O valor crtico de 2,33 positivo (ou negativo) foi obtido pela combinao da linha e coluna
relativas rea igual a 0,005 (0,010 dividido por 2) da tabela da distribuio normal padro.
4 Etapa: Concluso
Como o valor de Z = - 4,46 bem inferior ao valor crtico - 2,33, obtido pela tabela da
distribuio normal padronizada, rejeitamos a hiptese nula. No h indcios de que o tempo
mdio de secagem das tintas seja diferente.
DE DUAS PROPORES
Quando se deseja testar a hiptese de que as propores em duas populaes so iguais, o
procedimento anlogo ao teste para a comparao de mdias. A frmula a seguinte:
134
unidade 7
ESTATSTICA E PROBABILIDADES
1 - p
2
p
Z=
p (1 - p) + p (1 - p)
n1
n2
= x1 e p2 = x2 (propores amostrais)
Onde p
n2
n1
x1 + x2
p = n1 + n2 (proporo amostral combinada)
Exemplo 7.7
Um especialista acredita que a proporo de trabalhadores com estresse ocupacional no
turno da manh seja estatisticamente diferente do turno da tarde. Uma amostra de 100
trabalhadores foi estudada, sendo 50 pela manh e 50 a tarde. No turno da manh contou-se
10 trabalhadores nessa situao. No turno da tarde contou-se 15. Teste a hiptese de que as
propores sejam diferentes nos respectivos turnos. Nvel de significncia: 5%.
1 Etapa: Estabelea as hipteses de interesse
H0: p1 = p2
H1: p1 p2
2 Etapa: Obteno da estatstica de teste
Aplicando a frmula, temos:
x1 + x2 10 + 15
25
p = n1 + n2 = 50 + 50 = 100 = 0,25
10
1 =
p
50 = 0,20
15
2 =
p
50 = 0,30
Z=
1 - p
2
p
p (1 - p) + p (1 - p)
n1
n2
- 0,10
0,20 - 0,30
- 0,10
0,0075
- 0,10
0,0866 = -1,15
135
unidade 7
ESTATSTICA E PROBABILIDADES
O valor crtico de 1,96 positivo (ou negativo) foi obtido pela combinao da linha e coluna
relativas rea igual a 0,025 (0,050 dividido por 2) da tabela da distribuio normal padro.
4 Etapa: Concluso
O Z calculado de - 1,15 encontra-se fora da regio crtica. No rejeitamos a hiptese nula.
Portanto, no h diferena na proporo de trabalhadores com estresse entre os turnos da
manh e tarde.
APLICAO
PRTICA
136
unidade 7
ESTATSTICA E PROBABILIDADES
da amostra e o conhecimento ou no do
desvio-padro
desconhecemos o desvio-padro e a
populacional.
Quando
REVISO
Nessa
unidade
aprendemos
os
verificar
conhecida
como
hiptese
uma
afirmao
sobre
uma
alternativa,
variveis categricas).
de processos.
137
unidade 7
ESTATSTICA E PROBABILIDADES
PARA SABER
MAIS
Mrio.
Introduo
Estatstica:
Douglas;
aplicada
RUNGER,
George
probabilidade
para
138
unidade 7
UNIDADE
ANLISE DE CORRELAO E
REGRESSO
A relao entre variveis quantitativas pode ser modelada atravs de anlise de correlao e
regresso. Com a evoluo da informtica nos ltimos 20 anos, essas tcnicas tm sido cada
vez mais utilizadas no ambiente empresarial.
Nesta unidade, voc aprender a desenvolver clculos para correlao e regresso tanto
passo a passo como atravs do software Microsoft Excel.
140
unidade 8
ESTATSTICA E PROBABILIDADES
ANLISE DE
CORRELAO
Quando temos interesse em investigar o quanto duas variveis quantitativas esto associadas,
podemos utilizar uma medida conhecida como coeficiente de correlao.
CONCEITO
O coeficiente de correlao mede o grau de intensidade do relacionamento linear entre duas variveis
quantitativas.
DIAGRAMA DE
DISPERSO
Antes de calcular a correlao entre duas variveis, interessante representar os dados num
diagrama de disperso.
CONCEITO
Diagrama de disperso: Consiste na representao grfica de duas variveis quantitativas no plano
cartesiano.
A figura 8.1 se refere a uma pesquisa com anncios de vendas de 58 imveis. As variveis so:
REA DO IMVEL (em metros quadrados) e VALOR DO IMVEL (em R$ mil).
141
unidade 8
ESTATSTICA E PROBABILIDADES
700
600
500
400
300
200
100
0
50
100
150
200
250
300
6 - Associao negativa: Duas variveis apresentam associao negativa quando o crescimento de uma se
associa diminuio da outra, ou o contrrio, a queda em uma se associa ao acrscimo da outra.
142
unidade 8
ESTATSTICA E PROBABILIDADES
50
40
30
20
10
0
0
10
15
20
X
Fonte: Elaborado pelo autor
13
13
12
12
11
11
10
0
10
X
143
unidade 8
15
20
ESTATSTICA E PROBABILIDADES
O grau de intensidade da relao linear entre duas variveis quantitativas dado pelo
coeficiente de correlao de Pearson.
COEFICIENTE DE
CORRELAO DE PEARSON
O coeficiente de correlao linear de Pearson consiste na medida do grau de intensidade
da relao linear entre duas variveis quantitativas, podendo assumir valores entre -1 e 1.
Podemos afirmar que duas variveis esto positivamente correlacionadas se elas caminham
no mesmo sentido, ou seja, quando uma delas aumenta de valor, o valor da outra tambm
aumenta. Nesse caso, quanto mais prxima de 1, maior a intensidade da associao entre
as variveis.
( x -x ) ( y - y )
sxsy ( n - 1)
144
unidade 8
ESTATSTICA E PROBABILIDADES
X - Temperatura ( Celsius) 100 110 120 130 140 150 160 170 180 190
Y - Resultado (porcentagem) 45
51
54
61
66
70
74
78
85
89
80
70
60
50
40
30
20
10
0
0
50
100
150
200
X - Temperatura ( C)
Fonte: HINES et al (2006), pag.369
A figura 8.4 apresenta indcios de que as variveis esto fortemente associadas. Para
confirmar essa suspeita, podemos calcular o coeficiente de correlao, conforme a tabela 8.1:
145
unidade 8
ESTATSTICA E PROBABILIDADES
( )
100 - 145 = -45
110 - 145 = -35
120 - 145 = -25
130 - 145 = -15
140 - 145 = -05
150 - 145 = +05
160 - 145 = +15
170 - 145 = +25
180 - 145 = +35
190 - 145 = +45
( )
45 - 67,3 = -22,3
51 - 67,3 = -16,3
54 - 67,3 = -13,3
61 - 67,3 = -06,3
66 - 67,3 = -01,3
70 - 67,3 = +02,7
74 - 67,3 = +06,7
78 - 67,3 = +10,7
85 - 67,3 = +17,7
89 - 67,3 = +21,7
( )( )
(-45) (-22,3) = 1003,5
(-35) (-16,3) = 570,5
(-25) (-13,3) = 332,5
(-15) (-6,3) = 94,5
(-5) (-1,3) = 6,5
(5) (2,7) = 13,5
(15) (6,7) = 100,5
(25) (10,7) = 267,5
(35) (17,7) = 619,5
(45) (21,7) = 976,5
= 1
( )( ) =
3985
Cor ( X, Y ) = r =
3985
3985
=
= + 0,99
( 30,3) (14,7) (10 -1) 4008,7
O valor + 0,99 obtido pelo coeficiente de correlao confirma que as variveis esto fortemente
associadas, conforme indcio dado pelo diagrama de disperso (figura 8.4).
O exemplo 8.2 se refere a uma situao em que as variveis apresentam correlao negativa.
Exemplo 8.2
O quadro abaixo representa o PREO (em R$) e a QUANTIDADE DEMANDADA de uma
determinada mercadoria.
Preo (X)
Quantidade (Y)
10
11
12
13
14
15
16
17
18
19
200 171 168 165 170 147 120 130 105 124
Soluo:
Antes de calcular o coeficiente de correlao, interessante construir o diagrama de disperso
para ter uma ideia da direo e da forma da associao entre as variveis.
146
unidade 8
ESTATSTICA E PROBABILIDADES
Y - Quantidade
200
180
160
140
120
100
8
10
12
14
16
18
20
X - Preo
Fonte: Elaborado pelo autor
( )
-4,5
-3,5
-2,5
-1,5
-0,5
0,5
1,5
2,5
3,5
4,5
( )
-225
-73,5
-45
-22,5
-10
-1,5
-45
-50
-157,5
-117
( )(
) =
-747
=1
Cor ( X, Y ) = r =
50
21
18
15
20
-3
-30
-20
-45
-26
( )( )
-747
=
( 3,0) (29,6) (10 -1)
-747
= - 0,93
799,2
147
unidade 8
ESTATSTICA E PROBABILIDADES
USO DA TECNOLOGIA
PARA O CLCULO DO
COEFICIENTE DE
CORRELAO
clculos em centmetros ou em
metros;
A correlao no se aplica a mais
de duas variveis;
= CORREL (matriz1;matriz2)
Onde os parmetros (matriz1 e matriz2)
variveis
quantitativas.
devem
coeficiente
ser
de
148
unidade 8
ESTATSTICA E PROBABILIDADES
REGRESSO
LINEAR SIMPLES
A regresso linear simples tem como objetivo estimar uma equao que relacione
matematicamente duas variveis, sendo que uma delas explicada pela outra. A varivel
explicada geralmente denominada varivel resposta ou varivel dependente. A varivel
explicativa denominada varivel explanatria ou varivel independente.
A anlise de regresso mltipla tem por objetivo estimar uma equao que relacione
matematicamente uma varivel resposta a duas ou mais variveis explicativas.
A figura 8.7 reapresenta os dados relativos figura 8.1 onde a varivel resposta VALOR se
correlaciona REA DO IMVEL.
149
unidade 8
ESTATSTICA E PROBABILIDADES
Observe que os pontos do diagrama no caem exatamente sobre a reta de regresso, mas a
reta capaz de resumir o padro geral de comportamento dos dados. Uma das tcnicas mais
utilizadas para obteno dessa reta conhecida como mtodo dos mnimos quadrados.
CONCEITO
Mtodo dos mnimos quadrados: uma tcnica estatstica utilizada para resumir um conjunto de
variveis quantitativas numa equao. Ela se baseia na minimizao da distncia quadrtica de cada
ponto em relao reta.
150
unidade 8
ESTATSTICA E PROBABILIDADES
Onde:
^ =
^0 +
^ 1X
Y
tentativa, ou observao;
X = 0;
^
^
A estimativa dos parmetros 0 e 1
coeficiente
regresso,
chamado
frmulas:
de regresso;
^
XY - nXY
1 =
X2 - nX2
^
o = Y - 1X
Exemplo 8.3
Um professor acredita que a NOTA na
prova de estatstica esteja relacionada ao
nmero de HORAS DE ESTUDO dos alunos.
Para tentar convencer os estudantes dessa
relao, o professor resolve fazer a pesquisa
levantando dados de sete estudantes,
conforme o quadro abaixo.
151
unidade 8
ESTATSTICA E PROBABILIDADES
Horas de
estudo (X)
20
15
35
26
30
24
18
Nota na
prova (Y)
72
62
87
77
90
83
68
Horas de
estudo (X)
20
15
35
26
30
24
18
MDIA (X) = 24
Nota na
prova (Y)
72
62
87
77
90
83
68
MDIA(Y) = 77
X.Y
400
225
1225
676
900
576
324
2
X = 4.326
1440
930
3045
2002
2700
1992
1224
XY = 13.333
152
unidade 8
ESTATSTICA E PROBABILIDADES
^ 1 = XY - nXY
X2 - nX2
13.333 - 7 . 24. 77
13.333 -12.936
397
=
=
= 1,35
2
4.326 - 4.032
294
4.326 - 7.24
153
unidade 8
ESTATSTICA E PROBABILIDADES
Nos intervalos de entrada e sada, insira o endereo das variveis explanatria (X horas de
estudo) e resposta (Y nota na prova), respectivamente. Em seguida, aperte OK.
154
unidade 8
ESTATSTICA E PROBABILIDADES
Aps rodar a regresso, o Excel apresenta trs quadros. O primeiro mostra, dentre outras
estatsticas, o valor do R-quadrado. No exemplo em questo, o valor observado igual a 0,843.
Isso significa que o modelo explica aproximadamente 84,3% da variabilidade em Y a partir da
variao em X.
TABELA 8.3 - Estatsticas para anlise de regresso
Estatstica de regresso
R mltiplo
0,918
R-Quadrado
0,843
R-quadrado ajustado
0,811
Erro padro
4,470
Observaes
7
Fonte: Elaborado pelo autor
A tabela 8.4 diz respeito ao teste de significncia do modelo, conhecido como teste F, que
produziu uma estatstica igual a 26,8, que implica num valor p prximo de zero. Dessa forma,
rejeitamos a hiptese de que o modelo no se ajusta bem aos dados. Portanto, o modelo
estatisticamente significativo.
155
unidade 8
ESTATSTICA E PROBABILIDADES
Regresso
Resduo
Total
SQ
MQ
F
Valor p
1 536,085 536,085 26,8271 0,00353
5 99,915 19,983
6
636
Interseo
Varivel X 1
Stat t
6,88
5,18
valor-P
0,00
0,00
A equao estimada :
= 44,6 +1,35 . X1
Y
Dessa forma, o modelo se mostra til tanto para analisar o impacto que a varivel explanatria
exerce sobre a varivel resposta, quanto para previso.
156
unidade 8
ESTATSTICA E PROBABILIDADES
REGRESSO
LINEAR MLTIPLA
Na regresso linear simples, uma varivel resposta pode ser explicada por uma varivel
explanatria. Na figura 8.7, o valor do imvel pode ser previsto com base no seu tamanho
(em metros quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que a varivel
explanatria X explica 45% da variao na varivel Y. No exemplo em questo, outras variveis
tambm podem ser utilizadas para explicar melhor a variao de Y (preo do imvel), como
por exemplo a idade do imvel, o preo do condomnio, o nmero de banheiros, etc.
Dessa forma, na regresso mltipla, uma varivel resposta se relaciona a duas ou mais
variveis explanatrias. O objetivo tambm predizer os valores de Y com base nas variveis
explanatrias.
Na maioria das vezes, uma varivel resposta se relaciona a mais de uma varivel explanatria.
Nessa situao, tambm podemos utilizar o mtodo dos mnimos quadrados para obter uma
equao que relacione as variveis. Nesse caso, temos uma regresso mltipla:
Yi = 0 + 1 X1 + 2 X2 + + k Xk + i
Onde:
Yi = varivel resposta (varivel dependente);
0 = intercepto (valor assumido por Y quando todas as demais variveis assumem valor igual
a zero);
1, 2,..., k = coeficientes angulares;
k = nmero de variveis explanatrias (variveis independentes).
157
unidade 8
ESTATSTICA E PROBABILIDADES
158
unidade 8
ESTATSTICA E PROBABILIDADES
Axis Title
Chart
Title
800.000,00
700.000,00
600.000,00
500.000,00
400.000,00
300.000,00
200.000,00
100.000,00
-
y
=
1868,2x
+
239876
R
=
0,55094
Series1
Linear
(Series1)
50
100
150
200
Axis Title
159
unidade 8
250
300
ESTATSTICA E PROBABILIDADES
Soluo
DADOS > ANLISE DE DADOS > REGRESSO > OK
Nos intervalos de entrada e sada, insira o endereo das variveis explanatria e dependente,
respectivamente, assim como foi feito para a regresso simples. Em seguida, aperte OK.
Aps rodar a regresso mltipla, o Excel produz tabelas. Segue a primeira:
TABELA 8.7 - Resultados do teste de adequao do modelo de regresso mltipla (teste F)
ANOVA
Regresso
Resduo
Total
gl
2
55
57
SQ
MQ
557.278.841.710 278.639.420.855
360.283.037.601
6.550.600.684
917.561.879.310
F
42,5
Valor p
0,000
A sada da ltima coluna se refere aos valores p do teste dos coeficientes da regresso. A
hiptese nula de que cada coeficiente igual a zero, individualmente, versus a hiptese
alternativa de que seja diferente de zero, respectivamente.
Interseo
Varivel X 1
Varivel X 2
Coeficientes
86.873
1.335
67.719
Erro padro
60.689
285
24.091
Stat t
1,43
4,68
2,81
valor-P
0,16
0,00
0,01
A equao estimada :
Y = 86.873 + 1.335X1 + 67.719X2
Na ltima coluna temos os valores p, que mostram que as variveis so significativas e o
intercepto no, conforme os testes t para cada coeficiente separadamente. O intercepto no
caso no tem significado prtico nesse exemplo.
160
unidade 8
ESTATSTICA E PROBABILIDADES
Dessa forma, o modelo se mostra til tanto para analisar o impacto que cada uma das variveis
explanatrias exerce sobre a varivel resposta, mantendo constantes as outras variveis,
quanto para previso.
APLICAO
PRTICA
Os exemplos de anlise de regresso utilizados nesta unidade contm uma varivel explicativa, no caso
da regresso simples, ou duas variveis explicativas, no caso da regresso mltipla. Tais situaes
ilustram a utilizao dos modelos de regresso para situaes mais simples. Na verdade, esses modelos
podem ser utilizados com um nmero bem maior de variveis explicativas.
Por exemplo, para prever o preo de revenda de um automvel, o analista de dados pode utilizar diversas
variveis, como: idade, nmero de quilmetros rodados, presena de vidros eltricos, presena de ar
condicionado, consumo de combustvel na estrada, consumo de combustvel na cidade, estado de
conservao dos pneus, estado de conservao da pintura, etc.
Nesse sentido, os modelos de regresso se mostram muito teis para a realizao de previses. Outro
exemplo: imagine o gestor de uma empresa de varejo de alimentos que tem que tomar a deciso sobre a
quantidade de itens em estoque. Nesse caso, ele no pode estocar muito, pois os produtos podem perder
161
unidade 8
ESTATSTICA E PROBABILIDADES
diversas
variveis
explanatrias,
tanto
REVISO
quantitativas
PARA SABER
simultaneamente,
MAIS
Economia,
Administrao
162
unidade 8
ESTATSTICA E PROBABILIDADES
Bookman, 2007.
LEVINE, David; BERENSON, Mark; STEPHAN,
David. Estatstica: teoria e aplicaes usando o Microsoft Excel em portugus. 6
ed.Rio de Janeiro: LTC, 2011, 812 p.
MONTGOMERY, Douglas, RUNGER, George.
Estatstica aplicada e probabilidade para
engenheiros. 3.ed. Rio de Janeiro: LTC,
2009.
MOORE, David. A estatstica bsica e sua
prtica. Rio de Janeiro: LTC, 2014.
TRIOLA, Mrio. Introduo Estatstica. 10
ed. Rio de Janeiro: LTC. 2008. 722p.
163
unidade 8
REFERNCIAS
BORNIA,
Antnio
Cezar.
BORROR,
Connie.
Carlos
Acesso
Pedroso.
Noes
de
GOLDSMAN,
<https://docs.google.com/forms>.
Naresh
K..
Pesquisa
de
164
SINCICH,
Terry.
Estatstica
para
SOARES,
Jos
Francisco;
SIQUEIRA,
MONTGMOMERY,
Douglas
C;
RUNGER,
Harbra, 1981.
Avaliaes
Urbanos.
Disponvel
em:
de
Imveis
<http://goo.gl/6uFFSt>.
WERKEMA,
Maria
Cristina
Catarino;
Horizonte:
Fundao
Cristiano
Ottoni,
WALPOLE,
Ronald.
Probabilidade
Nilza
Nunes.
Amostragem
Norean,
DE
VEAUX,
Richard,
165
www.animaeducacao.com.br