Sunteți pe pagina 1din 46

Manuela Neves/ISA - 2010/2011 1 / 46

Estatstica (2010/2011)
Slides de apoio ` as Aulas
Estatstica (2010/2011)
Manuela Neves/ISA - 2010/2011 2 / 46
Docentes:
Manuela Neves (manela@isa.utl.pt)(respons avel)
Fernanda Valente (fvalente@isa.utl.pt)
Maria Emlia Pinto (mila@isa.utl.pt)
Maria Jo ao Martins (mjmartins@isa.utl.pt)
Marta Mesquita (martaoliv@isa.utl.pt)
O que e a Estatstica ?
Manuela Neves/ISA - 2010/2011 3 / 46

E a ci encia que se ocupa da recolha e tratamento de informac ao, i.e., da


obtenc ao de uma amostra, sua descric ao e interpretac ao e, com apoio da
teoria da probabilidade efectuar infer encias para a populac ao e previs oes
da evoluc ao futura do fen omeno em estudo.
Principais t opicos da Unidade Curricular e Calendarizac ao:
q Estatstica Descritiva. A Regress ao Linear Simples. Introduc ao ao
software (3 semanas)
q Introduc ao aos Modelos Probabilsticos (6 semanas)
q Introduc ao ` a Infer encia Estatstica intervalos de conanca e testes
de hip oteses (5 semanas)
Objectivos de cada captulo
Manuela Neves/ISA - 2010/2011 4 / 46
Estatstica Descritiva:
sumariar e descrever os aspectos relevantes num conjunto de dados.
Recurso a tabelas, gr acos e indicadores num ericos. Introduc ao ` a
regress ao linear simples.
Teoria da Probabilidade:
apresentar os modelos mais usuais de fen omenos naturais nos quais
se sup oe intervir o acaso - fen omenos aleat orios.
Infer encia Estatstica:
tirar conclus oes para a populac ao a partir do estudo da amostra;
tomar decis oes quanto ao(s) valor(es) de caractersticas importantes da
populac ao de onde foi retirada a amostra.
Veja-se o seguinte esquema...
Manuela Neves/ISA - 2010/2011 5 / 46
Amostra
com as principais
caractersticas realadas
Organizao e
sintetizao dos
dados
Estatstica Descritiva
Populao
Amostra
conjunto de dados
desorganizados
Probabilidade
Inferncia Estatstica
Inferir para a populao
as concluses tiradas da
anlise dos dados
reduzidos
Refer encias Bibliogr acas
Manuela Neves/ISA - 2010/2011 6 / 46
Neves, M. M. (2009) - Introduc ao ` a Estatstica e ` a Probabilidade. Apontamentos de Apoio
` a Unidade Curricular.
(2010) - Folhas de exerccios de apoio ` as aulas pr aticas com algumas resoluc oes.
Murteira, B.; Ribeiro, C.S.; Silva, J.A. e Pimenta, C.(2002)- Introduc ao ` a Estatstica, Mc
Graw Hill - cota Bisa - U10-681 (existe edic ao de 2008).
Murteira, Bento (1993) - An alise explorat oria de dados. Estatstica Descritiva. Mc
Graw-Hill -cota Bisa - U10-401.
Pestana, D.D. e Velosa, S.F. (2002)- Introduc ao ` a Probabilidade e ` a Estatstica .
Fundac ao Calouste Gulbenkian - cota Bisa - U10-677(existe edic ao de 2008).
Daniel W. W. (1991)- Biostatistics: A Foundation for analysis in the Health Sciences.
John-Wiley & Sons - cota Bisa - U10-481.
...Antes de comec ar!!!...
Manuela Neves/ISA - 2010/2011 7 / 46
q Os captulos I - Estatstica Descritiva e II - Introduc ao ` a Teoria da
Probabilidade iniciam-se com assuntos que s ao leccionados na
disciplina Matem atica do Ensino Secund ario.
Essa parte inicial cont em mat eria de revis ao. Os slides s ao
preparados com o objectivo de facilitar essa revis ao, bem como
uniformizar os smbolos e notac oes que iremos usar.
q A unidade curricular Estatstica e leccionada no 3
o
semestre
comum a todas as licenciaturas do ISA (com excepc ao de
Arquitectura Paisagista).
O acompanhamento adequado dos assuntos que trataremos
necessita que os alunos tenham adquirido formac ao em C alculo e
An alise, especicamente tenham conhecimentos de:
...Antes de comec ar!!!...
Manuela Neves/ISA - 2010/2011 8 / 46
q sucess oes, func oes reais de vari aveis reais, diferenciabilidade,
primitivac ao e c alculo integral em IR e em IR
2
;
q embora muitos resultados da teoria da probabilidade e da estatstica
necessitem de conceitos de s eries num ericas e s eries de func oes, a
sua utilizac ao ser a omitida sempre que fosse necess aria para a
deduc ao de resultados, atendendo a que esta mat eria n ao foi
leccionada na unidade curricular Matem atica e Inform atica.
Ainda assim opt amos por incluir a utilizac ao deste t opico nos
apontamentos te oricos preparados para apoio ` a unidade curricular.
...Antes de comec ar!!!...
Manuela Neves/ISA - 2010/2011 9 / 46
V arias unidades curriculares dos actuais planos de licenciatura (1
o
Ciclo)
do ISA e dos mestrados (2
o
Ciclo) utilizam os conhecimentos leccionados
nesta unidade curricular quer como conceitos base, quer para o
tratamento das suas aplicac oes.
Queremos, por isso, deixar aqui um alerta aos nossos alunos existindo
no plano curricular do 1
o
Ciclo apenas esta unidade curricular de
Probabilidade e Estatstica, e fundamental cumprir-se o programa
proposto.
Tal exige de alunos e professores um trabalho sistem atico e coerente que
tem que se iniciar no 1
o
dia de aulas.
Os assuntos considerados revis ao constituem trabalho individual, sob
pena de n ao se conseguir atingir as metas propostas.
Captulo I- Estatstica Descritiva
Manuela Neves/ISA - 2010/2011 10 / 46
Objectivos da Estatstica Descritiva:
q condensar, sob a forma de tabelas, os dados observados;
q fazer a representac ao gr aca;
q calcular indicadores de localizac ao e de dispers ao.
Conceitos b asicos em Estatstica (denic ao e um exemplo):
q populac ao ou universo conjunto de todos os elementos que t em uma
caracterstica de interesse em comum (ex: todas as arvores de uma dada esp ecie)
q unidades estatsticas s ao os elementos da populac ao (ex: as arvores)
q vari avel caracterstica de interesse (ex: A altura de arvores de uma
esp ecie e a altura observada de uma arvore).
q amostra subconjunto da populac ao, efectivamente observado.
Estatstica descritiva a uma dimens ao
Manuela Neves/ISA - 2010/2011 11 / 46
Ao(s) valor(es) da(s) caracterstica(s) de interesse observadas nos
elementos da amostra costuma chamar-se dado(s).
Os dados podem ser de natureza
quantitativa discreta (contagens - n
o
de peras em cada pereira,
n
o
de machos por ninhada de coelhos) ou
contnua (peso, comprimento, altura, tempo )
qualitativa nominal (sexo de um indivduo, categoria taxon omica
de uma esp ecie) ou
ordinal (classicac oes nais atribudas no ensino
b asico (1 a 5))
Estatstica descritiva a uma dimens ao
Manuela Neves/ISA - 2010/2011 12 / 46
Exemplo 1.
Num estudo para analisar a taxa de germinac ao de um certo tipo de
cereal foram semeadas cinco sementes em cada um de 50 vasos iguais
com o mesmo tipo de solo.
O n umero de sementes germinadas em cada vaso est a registado a
seguir:
1 0 1 2 1 3 2 0 0 1 4 0 2 1 0
2 4 1 2 0 3 5 3 0 2 1 3 3 0 4
0 2 5 3 0 2 5 1 1 0 4 4 1 2 1
0 5 1 2 3
Neste caso os dados s ao de natureza discreta, com um n umero
pequeno de valores distintos.
Condensam-se ent ao numa tabela da forma
Descric ao dos dados por tabelas
Manuela Neves/ISA - 2010/2011 13 / 46
Tabela de frequ encias
Caso de dados de natureza discreta, com um n umero pequeno de valores distintos
a
.
i
.
)
.
1
.
0 12 0.24 0.24
1 12 0.24 0.48
2 10 0.20 0.68
3 7 0.14 0.82
4 5 0.10 0.92
5 4 0.08 1
a
.
n
o

de sementes germinadas;
i
.
frequ encia absoluta;
)
.
=
n

n
frequ encia relativa;
1
.
frequ encia relativa acumulada
Descric ao dos dados por tabelas
Manuela Neves/ISA - 2010/2011 14 / 46
Exemplo 2.
Um dos principais indicadores da poluic ao atmosf erica nas grandes
cidades e a concentrac ao de ozono na atmosfera. Num dado Ver ao
registou-se 78 valores dessa concentrac ao, numa dada cidade:
3.5 6.2 3.0 3.1 5.1 6.0 7.6 7.4 3.7 2.8 3.4 3.5
1.4 5.7 1.7 4.4 6.2 4.4 3.8 5.5 4.4 2.5 11.7 4.1
6.8 9.4 1.1 6.6 3.1 4.7 4.5 5.8 4.7 3.7 6.6 6.7
2.4 6.8 7.5 5.4 5.8 5.6 4.2 5.9 3.0 3.3 4.1 3.9
6.8 6.6 5.8 5.6 4.7 6.0 5.4 1.6 6.0 9.4 6.6 6.1
5.5 2.5 3.4 5.3 5.7 5.8 6.5 1.4 1.4 5.3 3.7 8.1
2.0 6.2 5.6 4.0 7.6 4.7
Agora s ao dados de natureza contnua
Descric ao dos dados por tabelas
Manuela Neves/ISA - 2010/2011 15 / 46
Para dados de natureza contnua - como e este caso - (ou quando
temos dados de natureza discreta com um elevado n umero de valores
distintos) elabora-se a tabela de frequ encias procedendo assim:
q Determina-se max(r
i
) e min(r
i
),
max(r
i
) min(r
i
) amplitude total.
q Escolhe-se um n umero de subintervalos classes
q Para cada classe calcula-se a frequ encia absoluta, n
i
e a frequ encia relativa, )
i
Exemplo de uma regra para escolha do n umero de classes:
Regra de Sturges toma-se como n umero de classes
o inteiro n mais pr oximo de 1 + (log
2
n) = 1 +
log
10
u
log
10
2
Descric ao dos dados por tabelas
Manuela Neves/ISA - 2010/2011 16 / 46
Voltemos ao exemplo: :in(r
i
) = 1.1 :or(r
i
) = 11.7
Pela regra de Sturges : 7.285 considere-se : = 7
amplitude das classes = 1.51 considere-se = 1.5
(veremos que, com esta escolha, ser a necess ario considerar 8 classes para se inclurem todas as
observac oes)
Uma tabela de frequ encias possvel e:
c
.
a

.
i
.
)
.
1
.
]1.0, 2.5] 1.75 10 0.128 0.128
]2.5, 4.0] 3.25 16 0.205 0.333
]4.0, 5.5] 4.75 18 0.231 0.564
]5.5, 7.0] 6.25 26 0.333 0.897
]7.0, 8.5] 7.75 5 0.064 0.962
]8.5, 10.0] 9.25 2 0.026 0.987
]10.0, 11.5] 10.75 0 0.00 0.987
]11.5, 13.0] 12.25 1 0.013 1
a

.
ponto m edio da classe c
.
M etodos gr acos
Manuela Neves/ISA - 2010/2011 17 / 46
M etodos gr acos usados para representar um conjunto de dados
dois dos principais s ao:
q o diagrama de barras para dados de natureza discreta, com
um n umero pequeno de valores distintos e
q o histogramapara dados de natureza contnua, ou quando o
n
o
de valores distintos e muito elevado.
0 1 2 3 4 5
0
2
4
6
8
1
0
1
4



0
5
1
0
1
5
2
0
2
5
Diagrama de barras (exemplo 1) e histograma (exemplo 2) das frequ encias absolutas
Indicadores num ericos
Manuela Neves/ISA - 2010/2011 18 / 46
As tabelas e gr acos constituem um primeiro conjunto de ferramentas
usadas pela Estatstica Descritiva para resumir e descrever um conjunto
de dados
Outro conjunto de ferramentas que permite caracterizar um conjunto de
dados e constitudo pelos indicadores num ericos tamb em chamados
indicadores amostrais. Falaremos nas:
q medidas de localizac ao e
q medidas de dispers ao.
Medidas de localizac ao que iremos estudar:
m edia, mediana, quantis e moda
A m edia. Propriedades
Manuela Neves/ISA - 2010/2011 19 / 46
Considere-se r
1
, r
2
, , r
a
, uma amostra de n observac oes.
Denic ao Chama-se m edia aritm etica, m edia emprica ou
simplesmente m edia e representa-se por a a
r =
a
1
+a
2
+a
3
++a
n
a
=

n
.=1
a
.
a
Propriedades da m edia
q Sejam r
1
, r
2
, ..., r
a
observac oes cuja m edia e r e considere-se
j
i
= o + /r
i
, . = 1, ..., n.
As observac oes transformadas j
1
, j
2
, ..., j
a
t em m edia
j = o + /r.
q Se r
1
, ..., r
a
s ao n observac oes de m edia r e
j
1
, ..., j
n
s ao : observac oes de m edia j,
a m edia das n + : observac oes e dada por
n r + : j
n + :
.
A mediana e a moda
Manuela Neves/ISA - 2010/2011 20 / 46
Denic ao A mediana e o valor que divide a amostra ordenada em duas
partes iguais (i.e., com o mesmo n umero de observac oes cada).
Dada a amostra r
1
, ..., r
a
, seja r
(1)
... r
(a)
a amostra ordenada.
A mediana e dada por:
=

(
+1
2
)
u mpar

(/2)
+
(/2+1)
2
u par
Denic ao A moda, no, e a observac ao mais frequente (se existir).
Caso discreto e a observac ao que tem maior frequ encia.
Caso contnuo s o faz sentido denir-se sobre dados agrupados e
um valor da classe que tem maior frequ encia ( ver medidas para dados
agrupados)
Os quantis empricos
Manuela Neves/ISA - 2010/2011 21 / 46
Se considerarmos a amostra ordenada dividida em quatro partes, cada
uma com o mesmo n umero de observac oes, os pontos da divis ao
chamam-se quartis empricos ou apenas quartis e costumam
representar-se por Q
1
, Q
2
e Q
3
.

E claro que Q
2
r.
Generalizac ao do conceito de quartil
Denic ao Chama-se quantil de ordem 0, (0 0 1), o valor Q

0
tal que h a
uma proporc ao 0 de observac oes inferiores ou iguais a Q

0
e uma
proporc ao (1 0) de observac oes maiores ou iguais a esse valor. Uma
f ormula de c alculo pode ser
Q

0
=

a
(n 0)
+ a
(n 0+1)
2
se a 0 inteiro
a
([n 0]+1)
se a 0 n ao inteiro
onde [a 0] designa o maior inteiro contido em a 0.
Nota: Q

0.25
Q
1
; Q

0.5
Q
2
e Q

0.75
Q
3
Medidas de localizac ao dados agrupados
Manuela Neves/ISA - 2010/2011 22 / 46
Dados agrupados em c (c < n) classes (ou grupos). Sejam
r

1
, r

2
, ..., r

c
pontos m edios de cada classe (ou valores de cada grupo);
n
1
, n
2
, ..., n
c
as frequ encias absolutas de cada classe (ou grupo)
M edia agrupada =

a =
a
1
a

1
+a
2
a

2
++a
c
a

c
a
=

c
.=1
a
.
a

.
a
Moda amostral para dados agrupados:
1
o
determina-se a classe modal classe com maior frequ encia.
2
o
de v arias f ormulas que existem, vamos aqui considerar:
no r
nia
I
+
)
I+1
)
I1
+)
I+1
sendo I a classe modal; )
I1
e )
I+1
a frequ encia relativa da classe anterior e posterior ` a
classe modal, respectivamente, a
r.n
I
limite inferior da classe I e amplitude da
classe I.
Medidas de localizac ao dados agrupados
Manuela Neves/ISA - 2010/2011 23 / 46
Quantil de ordem 0 :
q Identica-se a primeira classe cuja frequ encia relativa acumulada
seja superior ou igual a 0 seja / essa classe e 1
I
a frequ encia
relativa acumulada correspondente.
q Uma das f ormulas usadas para determinar o quantil de ordem 0 e:
Q

0
r
nia
I
+
0 1
I1
)
I
com 1
I1
frequ encia relativa acumulada da classe anterior ` a
classe /
Nota: A mediana para dados agrupados obt em-se considerando na
f ormula acima 0 = 0.5.
Indicadores de dispers ao
Manuela Neves/ISA - 2010/2011 24 / 46
q Amplitude total
|c|
= :or(r
i
) :in(r
i
)
q Amplitude inter-quartil 1Q = Q
3
Q
1
.
q Vari ancia
1
s
2

= s
2
=

a
i=1
(r
i
r)
2
n 1
q Desvio padr ao s

= s=

Vari ancia
Outra f ormula de c alculo da vari ancia: :
2
=
n

r
2
i
(

r
i
)
2
n(n 1)
Uma medida de dispers ao relativa (as acabadas de indicar s ao medidas de dispers ao
absolutas) e o coeciente de variac ao que s o se calcula quando as observac oes
t em todas o mesmo sinal. Permite a comparac ao entre distribuic oes e dene-se como :
CV =
:
r
100%
1
Vamos considerar esta denic ao de vari ancia
Vari ancia e desvio padr ao
Manuela Neves/ISA - 2010/2011 25 / 46
Propriedades
q :
2
a
0
q Sejam r
1
, ..., r
a
, observac oes com vari ancia :
2
a
considere-se j
i
= o + /r
i
, i = 1, ..., n.
As observac oes transformadas t em como vari ancia
:
2

= /
2
:
2
a
.
Para o desvio padr ao tem-se :

= /:
a
.
Dados agrupados em c classes - a vari ancia calcula-se:

c
i=1
n
i
r
2
i
n
r
2
A caixa de bigodes
Manuela Neves/ISA - 2010/2011 26 / 46
Um modo gr aco que permite facilmente interpretar a localizac ao e a
dispers ao de um conjunto de dados, efectuando em simult aneo a sua
sntese o diagrama de extremos e quartis.
Se nesse gr aco identicarmos as observac oes que se afastam do
padr ao geral dos dados (candidatos a outliers) e h abito design a-lo por
caixa de bigodes. Existem v arios crit erios para classicar uma
observac ao como um outlier , vamos considerar:
Denic ao Um valor r
i
e um candidato a outlier se
r
i
< 1
1
ou r
i
1
S
sendo 1
1
barreira inferior e 1
S
barreira superior denidas como:
1
1
= Q
1
1.5(Q
3
Q
1
) 1
S
= Q
3
+ 1.5(Q
3
Q
1
)
A caixa de bigodes
Manuela Neves/ISA - 2010/2011 27 / 46
Como desenhar uma caixa de bigodes?
Marcar o valor adjacente inferior e o menor valor do conjunto dos
dados (podendo ser o mnimo) maior ou igual ` a barreira inferior;
Marcar o valor adjacente superior e o maior valor do conjunto dos
dados (podendo ser o m aximo) menor ou igual ` a barreira superior.
Marcar a mediana, primeiro e terceiro quartis (que v ao permitir
desenhar uma caixa) e marcar os candidatos a outliers
Ver o seguinte exemplo:
Exemplo Caixa de bigodes referente os dados do exemplo 2.
2 4 6 8 10 12
Caixas de bigodes paralelas
Manuela Neves/ISA - 2010/2011 28 / 46
Quando se pretende comparar v arias amostras, o recurso a caixas de
bigodes paralelas e uma ferramenta muito util, permitindo de forma f acil
obter uma primeira interpretac ao e comparac ao dos conjuntos de dados.
Exemplo As seguintes caixas de bigodes referem-se a um conjunto de
dados InsectsSprays disponveis no package datasets do R. S ao
contagens de insectos em unidades agrcolas experimentais, ` as quais
foram aplicados 6 tipos de insecticidas.
Refer encia: Beall, G., (1942) The Transformation of data from entomological eld
experiments, Biometrika, 29, 243;262.
Caixas de bigodes paralelas
Manuela Neves/ISA - 2010/2011 29 / 46
A B C D E F
0
5
1
0
1
5
2
0
2
5
InsectSprays data
Type of spray
I
n
s
e
c
t

c
o
u
n
t
Estatstica descritiva a duas dimens oes
Manuela Neves/ISA - 2010/2011 30 / 46
Nas aulas anteriores, em cada unidade estatstica, estud amos uma unica
vari avel. Muitas vezes, por em, interessa registar os valores de mais do
que uma vari avel e procurar a exist encia de alguma relac ao entre as
vari aveis. Vamos tratar neste curso o caso de duas vari aveis
observadas na unidade estatstica.
Exemplo Peso e altura de uma pessoa; Comprimento e largura das
folhas de uma esp ecie vegetal, etc.
Consideremos o seguinte exemplo, retirado de Estatstica, Teoria e
M etodos, Pierre Dagnielie, 1
o
volume (1973).
Exemplo Foram registados os pesos das folhas e das razes de 1000
p es de Cichorium intybus, sendo os valores dos pesos das folhas e das
razes agrupados em classes de 80 g e 40 g, respectivamente.
Exemplo (cont.)
Manuela Neves/ISA - 2010/2011 31 / 46
Construu-se ent ao o seguinte quadro de correlac ao, quadro de dupla
entrada ou tabela de conting encia.
Razes 40 80 120 160 200 240 280 320
Folhas 79 119 159 199 239 279 319 359
0 79 2 2
80 159 49 46 5 2 102
160 239 86 137 46 11 280
240 319 27 153 89 25 7 301
320 399 5 45 91 40 6 187
400 479 10 33 21 16 1 1 82
480 559 1 4 11 10 3 29
560 639 2 1 2 4 1 10
640 719 1 3 2 6
720 799 1 1
Totais 169 392 270 112 42 11 3 1 1000
Estatstica Descritiva a duas dimens oes
Manuela Neves/ISA - 2010/2011 32 / 46
Objectivos Estudo em simult aneo de duas s eries de observac oes, pondo
em evid encia relac oes existentes entre elas.
N ao s ao relac oes determinsticas que interessam ` a Estatstica, mas e o
comportamento em m edia (relac ao estatstica) das duas caractersticas.
Se duas vari aveis est ao ligadas por uma relac ao estatstica diz-se haver
correlac ao entre elas.
Correlac ao positiva se as duas caractersticas variam no mesmo sentido
e negativa caso contr ario.
Tabelas e representac ao gr aca
Manuela Neves/ISA - 2010/2011 33 / 46
Sejam (r
1
, j
1
), (r
2
, j
2
), ..., (r
a
, j
a
) observac oes efectuadas em n
unidades estatsticas.
Para o estudo das caractersticas e pesquisa de exist encia de relac ao
entre as vari aveis:
elaborac ao de tabelas; representac ao gr aca e c alculo de
indicadores.
q Se n e grande e util considerar uma tabela de conting encia (como
no exemplo do wideslide 29).
q Se n n ao for muito elevado, as observac oes podem representar-se
gracamente num diagrama de dispers ao (scatterplot ) ou nuvem
de pontos (aqui cada par observado (r
i
, j
i
) e marcado num
sistema de eixos cartesianos).
Tabela de conting encia
Manuela Neves/ISA - 2010/2011 34 / 46
j
1
j
2
... j
q
a
1
i
11
i
12
... i
1q
i
1.
a
2
i
21
i
22
... i
2q
i
2.
. . . . . .
. . . . . .
. . . . . .
a

i
1
i
2
... i
q
i
.
i
.1
i
.2
... i
.q
i
n
I
n umero de indivduos para os quais foi observado o par (r
i
, j
)
).
n
I.
=

q
=1
n
I
e n
.
=

I=1
n
I
frequ encias marginais
de r e j, respectivamente.
Nuvem de pontos
Manuela Neves/ISA - 2010/2011 35 / 46
Exemplo Pretende-se estudar o efeito da aplicac ao de diferentes
quantidades de um dado fertilizante (r) na produc ao de relva (j). A relva
e semeada uniformemente numa dada area na qual s ao marcados ao
acaso 10 talh oes de 1 m
2
, a cada um dos quais e aplicada uma certa
quantidade de fertilizante. A relva e depois cortada, seca e pesada sendo
os dados obtidos e a nuvem de pontos correspondente:
50 100 150 200 250
1
0
0
1
5
0
2
0
0
2
5
0
x
y
a (g/m
2
) (g/m
2
)
25 84
50 80
75 90
100 154
125 148
150 169
175 206
200 244
225 212
250 248
Indicadores num ericos
Manuela Neves/ISA - 2010/2011 36 / 46
M edias marginais de r e j, respectivamente, s ao
r =

n
.=1
a
.
a
j =

n
.=1

.
a
(r, j) centro de gravidade da nuvem de pontos.
Dispers oes marginais de r e j, respectivamente
:
2
a
=

n
.=1
(a
.
a)
2
a1
:
2

n
.=1
(
.
)
2
a1
Mas... h a uma medida que d a informac ao sobre as duas vari aveis em
simult aneo.
Denic ao Dadas as vari aveis r e j, chama-se covari ancia de r e j a
cou(a, g) =

=1
(

)(g

g)
u1
.
Exerccio: Mostre que co(r, j) =
a

n
.=1
a
.

.

n
.=1
a
.

n
.=1

.
a(a1)
.
Propriedades da covari ancia
Manuela Neves/ISA - 2010/2011 37 / 46
1. Seja (r
i
, j
i
) uma s erie de n observac oes e considere-se:
r

i
= o + /r
i
j

i
= c + dj
i
.
co(r

, j

) = /d co(r, j).
2. co(r, j) :
a
:

Nota 1
Import ancia da covari ancia co(r, j) 0 h a correlac ao positiva;
co(r, j) < 0 h a correlac ao negativa.
Desvantagem da covari ancia fortemente afectada por mudancas de
escala nas observac oes (ver propriedade 1.)
Nota 2 co(r, j) = :
a
:

(j
i
j) /(r
i
r) = 0 i
portanto, se co(r, j) = :
a
:

todos os pontos observados se


encontram sobre uma recta denida como j j = /(r r)
O coeciente de correlac ao. Propriedades
Manuela Neves/ISA - 2010/2011 38 / 46
Denic ao O coeciente de correlac ao e denido como
r = r
g
=
cou(a, g)
s

s
g
com s

= 0 e s
g
= 0
Propriedades do coeciente de correlac ao
1. tem sempre o mesmo sinal da covari ancia;
2. 1 1; (se v
i
= 1 todos os valores observados se encontram sobre uma
recta).
3. Se (a, j) t em coeciente de correlac ao v
i
e
a

.
= o + /a
.
e j

.
= c + dj
.
(/d 0), tem-se
v
i

= v
i
se (/d 0)
v
i

= v
i
se (/d < 0)
Ent ao o coeciente de correlac ao n ao e afectado, em valor absoluto, por
transformac oes lineares.
O coeciente de correlac ao. Interpretac ao
Manuela Neves/ISA - 2010/2011 39 / 46
(a) = 1 todos os pontos observados se encontram sobre uma recta de declive positivo.
(b) 1 todos os pontos observados se encontram pr oximos de uma recta de declive positivo.
(c) 0 a nuvem apresenta um aspecto arredondado ou alongado segundo um dos eixos.
(d) 1 todos os pontos observados se encontram pr oximos de uma recta de declive negativo.
(e) = 1 todos os pontos observados se encontram sobre uma recta de declive negativo.
Nota: O coeciente de correlac ao mede a nitidez da ligac ao existente entre duas vari aveis, quando
essa ligac ao e linear ou aproximadamente linear

A regress ao linear simples
Manuela Neves/ISA - 2010/2011 40 / 46
Se : 1 e a nuvem de pontos sugere a exist encia de uma relac ao linear
entre os valores observados.
Faz sentido determinar a equac ao de uma recta que possa traduzir bem
a relac ao observada, i.e., pretende-se determinar g = u + ba
recta de regress ao, que permita:
q descrever a relac ao entre j (vari avel resposta ou dependente) e
r (vari avel explicativa ou independente);
q prever um valor de j para um dado valor de r.
Mas ... a equac ao j = o + /r n ao e vericada para todos os pares (r
i
, j
i
)
(note-se que s o o seria se co(r, j) = :
a
:

)
Na verdade para cada par (r
i
, j
i
) tem-se g
I
= u + b a
I
+ c
I
A regress ao linear simples
Manuela Neves/ISA - 2010/2011 41 / 46
A u + b a
I
designe-se por g
I
s ao os valores de j estimados pela recta para cada r
i
.
Ent ao pode-se escrever g
I
= g
I
+ c
I
c
I
= g
I
g
I
s ao chamados resduos.
Portanto obter a recta determinar u e b.
M etodo usado m etodo dos mnimos quadrados u e b s ao
determinados de modo a minimizar a soma dos quadrados dos resduos
ou seja, minimizar
a

i=1
c
2
i
=
a

i=1
(j
i
j
i
)
2
=
a

i=1
(j
i
o / r
i
)
2
= Q(o, /)
A regress ao linear simples
Manuela Neves/ISA - 2010/2011 42 / 46
Pretende-se ent ao determinar os minimizantes de uma func ao de duas
vari aveis. As condic oes de estacionaridade s ao:
{
Q
o
= 0
Q
o
= 0

{
2

(j
i
o / r
i
) = 0
2

r
i
(j
i
o / r
i
) = 0
A estas equac oes chama-se equac oes normais
Algumas conclus oes podem ser tiradas destas equac oes:
q

(j
i
o / r
i
) = 0

(j
i
j
i
) =

c
I
= 0 a soma dos
resduos e nula.
q

(j
i
j
i
) = 0 g = g a m edia dos valores observados e igual ` a
m edia dos valores estimados.
A regress ao linear simples
Manuela Neves/ISA - 2010/2011 43 / 46
q a recta de regress ao passa no ponto (r, j) .
q Soluc ao do sistema
b=
a

a
.

.

a
.

.
a

a
2
.
(

a
.
)
2
=

)(g

g)

)
2
=
cc(a,)
~
2
i
= :
~

~
i
u = g ba
A b chama-se coeciente de regress ao de j sobre r.
Observac oes:
q / tem o mesmo sinal que co(r, j) e :.
q Dado r
i
e sendo r

i
= r
i
+ 1 tem-se
j
i
= o + / r
i

j

i
= o + / (r
i
+ 1).
b =

g

I
g
I
, b representa a variac ao esperada para j
quando r aumenta uma unidade.
Precis ao da recta de regress ao
Manuela Neves/ISA - 2010/2011 44 / 46
Um dos objectivos da recta de regress ao e o de predizer o valor de uma
vari avel conhecendo o valor assumido pela outra mas e necess ario
avaliar o grau de precis ao atingido pelas estimativas.
O m etodo dos mnimos quadrados permite uma importante
decomposic ao de

(j
i
j)
2
.

(j
i
j)
2
=

(j
i
j
i
)
2
+

( j
i
j)
2
cujas parcelas se costuma
representar por
SQ
T
= SQ
11
+ SQ
1
, isto e:
soma dos quadrados totais =
soma dos quadrados devidos aos resduos +
soma dos quadrados devidos ` a regress ao.
O coeciente de determinac ao
Manuela Neves/ISA - 2010/2011 45 / 46
Vamos designar por
1
2
=
oQ
1
oQ
T
a percentagem de variabilidade explicada pela regress ao
A H
2
chama-se coeciente de determinac ao e e uma medida de
precis ao da recta de regress ao.
Observe-se que no contexto que estamos a considerar - a regress ao
linear simples se tem
H
2
=
oQ
1
oQ
T
=
/
2

(r
i
r)
2

(j
i
j)
2
=
co
2
(r, j)
:
4
a
.
:
2
a
:
2

=
co
2
(r, j)
:
2
a
:
2

= r
2
.

Ultimas notas ...


Manuela Neves/ISA - 2010/2011 46 / 46
Trat amos aqui a regress ao linear simples como uma t ecnica descritiva.
Em Estatstica e Delineamento voltar-se- a a abordar a regress ao mas em
contexto inferencial.
Nessa altura e necess ario recorrer a modelos de probabilidade o que
exige admitir certos pressupostos. O gr aco dos resduos, c
I
, v.s. os
valores ajustados, g
I
, constitui uma ferramenta essencial na validac ao
desses pressupostos.
Por exemplo, nesse gr aco :
n ao deve existir qualquer padr ao aparente;
n ao deve vericar-se um aspecto de funil;
a exist encia de um ou mais resduos destacados, alerta para a
ocorr encia de observac oes que estejam a afectar o ajustamento;
...

S-ar putea să vă placă și