Documente Academic
Documente Profesional
Documente Cultură
Roteiro Geral
Roteiro do Módulo
1. Introdução
2. Coleta de dados
3. Modelos probabilísticos 8. Regressão e Correlação:
4. Distribuições amostrais e estimação a) Modelagem de relação
5. Testes de significância b) Correlação
6. Comparações de médias c) Regressão linear simples
7. Tabelas de contagem d) Regressão linear múltipla
8. Regressão e correlação e) Verificação do modelo
9. Referências
3 4
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
5 6
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
7 8
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Exemplo
• Diagrama de dispersão:
• Tempos de processamento e cargas de
trabalho no computador
√ Pesquisa sobre tempos de processamento de
usuários de sistema multiusuário
√ Quando mais pessoas utilizam o sistema, maior
o tempo de execução de uma tarefa particular
√ Variáveis:
Número de terminais
√ Há uma tendência (padrão)
–
– Tempo médio por tarefa
– Não é uma relação exata
√ Há uma dispersão em torno da tendência
9 10
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Modelagem de Relação
• Questão para o exemplo anterior:
• Regressão: √ Como o tempo por tarefa se altera quando
√ Predição ou explicação do comportamento de uma mudamos a quantidade de terminais?
variável em termos do comportamento de outra – Variável resposta (Y): tempo médio por tarefa
– Variável explicativa (X): número de terminais
• Variável resposta (Y)
√ Variável cujo comportamento queremos predizer
ou explicar
• Variáveis explicativas (X’s)
√ Variáveis que ajudam a entender, explicar ou
predizer o comportamento de Y
√ Em geral, são controladas ou não aleatórias
11 12
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
15 16
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
19 20
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Importante
Tendência e Dispersão
• Verificação visual pode não ser confiável:
• Tendência:
√ Padrão observado no diagrama de dispersão
Qual relação é • Dispersão:
a mais forte?
√ Flutuação dos dados em torno da tendência
√ Às vezes é tão grande que impede a visualização
de tendência
Relação de
Regressão = tendência + dispersão residual
• Identificação visual:
√ Observações muito diferentes do restante dos
dados
√ Valores surpreendentemente distantes da curva
de tendência (no contexto de regressão)
• Podem afetar bastante as conclusões
√ Aparentemente tendência é não linear
• Suspeita inicial:
√ Dispersão não aparenta ser homogênea
√ Tratar-se de um erro.
√ Prováveis outliers
27 28
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
• Relações fortes:
√ Se dispersão residual for pequena em
comparação com a amplitude dos valores
assumidos pela curva de tendência
Relação muito forte
√ B: valor atípico
– Excêntrico
√ Não tem ‘má’ aparência (conforme tendência)
√ Curva de tendência explica maior parte da
– Mas apresenta valor muito alto
variação de Y
29 30
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
• Visualização gráfica:
√ Padrões tendência-mais-dispersão não são os
únicos padrões a serem observados
• Outros padrões possíveis
√ Subconjuntos dos dados com relações distintas
√ Existência de clusters
– O que define esses grupos?
√ Relação entre peso e preço é diferente para os
dois tipos de carros (nacionais e importados)
33 34
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
• Regressão:
√ Escolhe uma variável como resposta e usa a
explanatória para explicar ou predizer seu
comportamento
• Correlação:
√ Trata simetricamente ambas as variáveis
– Mesma importância
√ Separação em dois grandes conglomerados
√ Aplicável somente se ambas as variáveis
– Inferior: espécie diferente
forem aleatórias
– Superior: mistura de duas espécies
35 36
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Importante
• Experimento aleatorizados:
• Dados observacionais: √ Maneira de concluirmos confiavelmente
√ X e Y podem não ter nenhuma relação causal direta sobre relações causais
√ Pode haver variável oculta que é a causa real de √ Muitas vezes é impossível, fisica ou
mudanças em Y, mas também está associada a X eticamente realizar experimentos que
– Por exemplo: água potável responderiam conclusivamente se a relação é
√ Tempo é frequentemente uma variável oculta causal ou não
43 44
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Correlação
49 50
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
51 52
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Propriedades Propriedades
54 55
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
56 57
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
• Estatística de teste:
• Para estimar quão grande é a verdadeira
correlação é necessário que p-valor
ofereça evidência contra H0
√ Teste relacionado com inclinação da reta de
regressão das duas variáveis • IC’s para ρ são difíceis de serem obtidos
√ Suposição do teste:
– Variáveis são conjuntamente normais, com
mesma variância
√ Valor de r (e da estatística t0) pode ser
influenciado pelo tamanho da amostra
√ Importante ponderar a significância prática
das correlações estatisticamente significantes
58 59
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Importante
62 63
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Função Linear
Tendência Linear do Dados
67
Pesquisa Quantitativa - 2016
y • β1 : declividade da reta
(x2,y2) √ define o aumento ou diminuição da variável Y
(x1,y1)
y2-y1 = ∆ y β1 = tg α por uma unidade de variação de X
x2-x1 = ∆ x • β0 = intercepto em y
√ define o valor médio de Y sem a interferência
x variação de y de X (com X=0).
β1 = variação de x
√ Nem sempre a interpretação de β0 é aplicável
LFB2
Exemplo
• Escolha da reta da tendência linear:
β1: a cada redução de 1% na alíquota há 1,9 % de aumento √ Não há uma única reta possível de representar a
de arrecadação
tendência linear de crescimento dos rendimentos
β0=0: Se não há redução na alíquota não há de aumento de
√ Como escolher a melhor reta?
arrecadação 71
Pesquisa Quantitativa - 2016
• Erro de predição:
√ Ocorre ao usarmos para predizer o resultado real .
erro
72 73
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
75 76
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
77 78
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Exemplo
• Estimativas de mínimos quadrados do
intercepto e da inclinação: • Salários aumentam com a experiência?
√ Ajuste da reta de regressão aos dados:
> salario.fit <- lm(salarios ~ tempo, data = bancarias)
> coef(salario.fit)
• Coeficientes da regressão:
√ Reta de mínimos quadrados
√ e
• Reta de mínimos quadrados Salario = 349,4 + 0,59 Tempo de serviço
• Interpretação
• Diagrama de dispersão e a reta de regressão:
√ 349,4
– Rendimento médio para
bancárias sem experiência
√ 0,59
– Aumento do rendimento
médio para cada semana de
experiência
Relação
linear = tendência linear + dispersão residual
83 84
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
• Modelo estatístico:
• Modelo mais comum:
86 87
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
89 90
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
91 92
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
√ σ: desvio padrão populacional dos erros aleatórios √ Muito ruído = muita flutuação em torno da
tendência
94 95
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
96 97
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
98 99
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Exemplo • Conclusão:
√ Existe uma forte evidência de que o salário
• Há relação linear entre salário e tempo de serviço? médio das bancárias cresce com o aumento do
> summary(salario.fit) tempo de serviço
Call: (p-valor = 0,006)
lm(formula = salarios ~ tempo, data = bancarias)
Residuals:
√ A variação dos salários ao longo da reta de
Min 1Q
-153.77 -50.54
Median
-15.88
3Q
37.61
Max
211.05
regressão, em função do tempo de serviço
Coefficients:
explica somente 12% dessa variação
Estimate Std. Error t value Pr(>|t|)
(Intercept) 349.3781 18.0965 19.306 < 2e-16 ***
– 88% restantes devem-se a outras diferenças entre
tempo 0.5905 0.2070 2.853 0.00603 ** essas funcionárias
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (R2 = 0,125)
Residual standard error: 82.23 on 57 degrees of freedom
Multiple R-squared: 0.1249, Adjusted R-squared: 0.1096
F-statistic: 8.138 on 1 and 57 DF, p-value: 0.006029
100 101
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
102 103
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Exemplo
ANOVA para Regressão
• Há relação linear entre salário e tempo de serviço?
• Equação da Anova para Regressão > anova(salario.fit)
√ Coeficiente de determinação:
106 107
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
108 109
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Exemplo
Erros Padrão das Predições
• Relação entre salários e experiência:
• Erro padrão da estimativa da média (%0 ): √ xP = 125 semanas
• Intervalo de confiança para %0 :
> pred.tempo <- data.frame(tempo = 125)
> predito <- predict(salario.fit, int = "c", newdata = pred.tempo, se.fit = T)
• Erro padrão de predição do próximo valor > predito$fit#valor predito e IC
fit lwr upr
real ( 0 ) 1 423.1847 392.0403 454.3291
> predito$se.fit# erro padrão da estimativa
[1] 15.55303
110 111
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
112 113
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Verificação do Modelo
• Bandas de confiança e de predição de 95%
• Uso dos resíduos para verificação do modelo:
√ 4 : estimativas dos erros (não observados)
116 117
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
118 119
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Exemplo
• Gráfico de 4 versus 4 5 :
• Análise de resíduos do modelo linear da
relação entre salários e experiência:
• Gráficos:
√ Resíduos vs. explicativa
√ Resíduos vs. valores ajustados
√ Normalidade
√ Assimetria a direita
– Alguns resíduos muito grandes
√ Não há indicação de correlação serial
127 128
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
129 130
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Valores Atípicos em X
• Quando forem percebidos possíveis
pontos influentes:
• Podem ter grande influência na posição da
√ Analisar a relação sem incluir os pontos
reta de mínimos quadrados:
influentes
√ Reportar sua existência e influência com os
resultados da análise
√ Pontos influentes:
– À medida que outlier se afasta, arrasta com ele a
reta ajustada de regressão de mínimos quadrados
141 142
Pesquisa Quantitativa - 2016 Pesquisa Quantitativa - 2016
Bibliografia Recomendada
150
Pesquisa Quantitativa - 2016