Sunteți pe pagina 1din 17

Regresso e Correlao linear

1. Introduo: regresso versus correlao

Em experimentos que procuram determinar a relao existente entre duas


variveis, por exemplo, a dose de uma droga e a reao, concentrao e
densidade tica, peso e altura, idade da vaca e a produo de leite, etc., dois
tipos de situaes podem ocorrer:

(a) uma varivel (X) pode ser medida acuradamente e seu valor escolhido
pelo experimentador. Por exemplo, a dose de uma droga a ser ministrada
no animal. Esta varivel a varivel independente. A outra varivel (Y),
dita varivel dependente ou resposta, est sujeita a erro experimental, e
seu valor depende do valor escolhido para a varivel independente. Assim,
a resposta (reao, Y) uma varivel dependente da varivel independente
dose (X). Este o caso da Regresso.

(b) as duas variveis quando medidas esto sujeitas a erros experimentais,


isto , erros de natureza aleatria inerentes ao experimento. Por exemplo,
produo de leite e produo de gordura medidas em vacas em lactao,
peso do pai e peso do filho, comprimento e a largura do crnio de animais,
etc. Este tipo de associao entre duas variveis constitui o problema da
Correlao.

Atualmente, se d tcnica de correlao uma importncia menor do que a


da regresso. Se duas variveis esto correlacionadas, muito mais til
estudar as posies de uma ou de ambas por meio de curvas de regresso,
as quais permitem, por exemplo, a predio de uma varivel em funo de
outra, do que estud-las por meio de um simples coeficiente de correlao.

2. Regresso linear simples

O termo regresso usado para designar a expresso de uma varivel


dependente (Y) em funo de outra (X), considerada independente. Diz-se
regresso de Y em (sobre) X. Se a relao funcional entre elas expressa
por uma equao do 1 grau, cuja representao geomtrica uma linha
reta, a regresso dita linear.
Para introduzir a idia de regresso linear simples, consideremos o seguinte
exemplo:

Tabela 1. Tempo, em minutos, e quantidade de procaina 1 hidrolizada, em


10-5 moles/litro, no plasma canino.

Quantidade Y2
Tempo (X) hidrolizada (Y) X .Y X2
2 3,5 7,0 4,0 12,3
3 5,7 17,1 9,0 32,5
5 9,9 49,5 25,0 98,0
8 16,3 130,4 64,0 265,7
10 19,3 193,0 100,0 372,5
12 25,7 308,4 144,0 660,5
14 28,2 394,8 196,0 795,2
15 32,6 489,0 225,0 1062,8
Total 69 141,2 1589,2 767,0 3299,5
1
anestsico local

A simples observao dos dados apresentados na Tabela 1, mostra que no


intervalo estudado a quantidade de procaina hidrolizada varia em funo do
tempo.
Na resoluo de problemas de regresso, o primeiro passo traar o
diagrama de disperso correspondente, marcando, em um sistema
cartesiano bidimensional, os diversos pares de valores observados (xi , yi).
Os dados da Tabela 1 esto apresentados na Figura 1.

Y 35

30

25

20

15

10

0
0 5 10 15 20
X

Figura 1. Diagrama de disperso dos dados da Tabela 1.


fcil ver observando essa figura, que os pontos relativos aos dados de
tempo e quantidade de procaina hidrolizada esto praticamente sobre uma
reta. Parece ento razovel estabelecer que a variao da quantidade de
procaina hidrolizada (Y) pode ser considerada como uma funo linear do
tempo (X).

Postulada a existncia de uma relao linear entre duas variveis, pode-se


representar o conjunto de pontos ( x i , y i ) pela equao da reta:

yx

que expressa o valor de Y como funo do valor de X, onde , conhecido


como erro ou resduo, a distncia que um resultado y em particular se
encontra da linha de regresso da populao, representada pela equao:

E( y / x ) x ,

em que indica o intercepto da linha com o eixo do Y e o coeficiente


angular ou inclinao da reta.
Se [y E(y/x)] positivo, y maior do que E(y/x); se negativo, y
menor do que E(y/x); e a soma dos i' s igual a zero ( i 0 ). Logo, a
mdia dos erros nula, isto , E ( i ) 0 .
Como veremos a seguir, os parmetros e da linha de regresso da
populao so estimados a partir da amostra aleatria de observaes
(x i , y i ) .

Regresso linear: estimao de parmetros

Considerando, ento, que observaes x 1 , x 2 ,..., x k sejam obtidas sobre a


varivel independente x, tal que y 1 , y 2 , ..., y k sejam as observaes feitas
sobre a varivel dependente y, todas sujeitas a erros experimentais, pode-se
querer saber como que y varia, em mdia, para um dado x. Ou seja, como
os y s' variam aleatoriamente, deseja-se conhecer a distribuio do y
quando x conhecido. Isto feito por meio da esperana condicionada de
y dado x, simbolizada por E(y/x), que depende em geral de x. E(y/x)
tambm chamada de funo de regresso de y em x.
A Figura 2 mostra as distribuies de y dados certos valores de x, supondo
a funo de regresso de y em x linear.
Modelo. A reta da Figura 2 simbolizada por E( y / x ) x , onde e
so os parmetros a serem estimados.

Figura 2. Normalidade dos resultados y para determinado valor de x.

A partir de agora, se o modelo acima for desenvolvido num contexto


paramtrico, uma hiptese simplificadora e muito simples deve ser feita, a
saber: a distribuio da varivel aleatria y, para um dado x, normal. Mais
'
especificamente, fixado um x i (X no uma varivel aleatria), os y s
constituem variveis independentes normais N( x i , 2 ) ; o que eqivale
dizer que as mdias das distribuies de y/x esto sobre a verdadeira reta
x ou seja, E(yi) = E() + E(xi) + E(i) = + xi, onde E(i) = 0, e que
para um dado valor de x, a varincia do erro sempre 2, denominada
varincia residual, isto , E[yi E(yi/xi)]2 = E(i)2 = 2 (propriedade
homocedstica). Estes conceitos esto ilustrados na Figura 2. parte do
fato que 2 desconhecido, a reta na qual as mdias esto localizadas
tambm desconhecida. Assim, um objetivo importante da anlise estatstica
estimar os parmetros e para que se conhea totalmente a funo de
regresso E(y/x). A teoria mostra que a melhor maneira de estim-los por
meio do mtodo dos quadrados mnimos, que consiste em minimizar a
soma dos quadrados das distncias y i y i , onde y i a bx i representa a
equao de regresso estimada, tal que a e b so os estimadores de
e , respectivamente.
Sendo, ento, y i y i a diferena entre o valor observado e o estimado pela
equao de regresso para cada observao, a qual rotulada por ei,
procura-se estimar e , de modo que e i2 ( y i y i ) 2 seja o menor
possvel. As diferenas ei = y i y i so chamadas desvios da regresso ou
erros de estimativas. Se todos os desvios (ei) so iguais a zero, implica
que cada ponto (xi, yi) se encontra diretamente sobre a linha ajustada; os
pontos esto to prximos quanto possveis da linha.
Estimadores. Dado um conjunto de n pares de observaes (x 1, y1), (x2,
y2), ... , (xn, yn), pode-se mostrar, usando mtodos de clculo infinitesimal
no utilizado aqui, que os estimadores de quadrados mnimos so:

b
( x x)(y y )
i i a
y bx
(x x) i
2

Dividindo-se o numerador e o denominador de b por (n 1), v-se que

Cov( X, Y ) [ ( x i x )( y i y )] / n 1
b
s 2X [ ( x i x ) 2 ] / n 1

b denominado coeficiente de regresso de Y em X; simboliza-se por bY.X


Frmulas de clculo:

( x i )( y i )
( x i x )( y i y) x i y i
n

( x i ) 2
(x i x ) 2 x i2
n

Note-se que, alm da suposio da normalidade do y, outras hipteses


usadas pelo mtodo de mnimos quadrados so:

(a) para qualquer valor especfico de x, , o desvio padro dos y/x

resultados y, no se modifica. Esta hiptese de variabilidade constante em


todos os valores de x conhecida como homoscedasticidade, e

(b) a relao (verdadeira) entre y e x suposta linear; mais claramente,


E(y/x) = + x.

Vejamos agora o clculo da equao de regresso usando como exemplo


os dados apresentados na Tabela 1:

x y 69.141,2
xy n
1589,2
8 371,35
b Y .X 2,16
( x ) 2 (69) 2
171,88
x n
2
767
8

141,2 69
a y bx ( 2,16 ) 17,65 (2,16 . 8,63) = - 0,98
8 8
Portanto, a equao de regresso linear :

y i 0,98 2,16.x i (1)

ou, como a y bx e y y bx bx ,

y i y b( x i x ) = 17,65 + 2,16 (xi 8,63) (2)

Note que as equaes (1) e (2) so equivalentes; entretanto, em (2) fica


mais evidente que a reta de regresso passa pelo ponto ( x , y) . O
coeficiente angular da reta (b) positivo, tal como sugerido pelo prprio
diagrama de disperso.
Para traar a reta de regresso, basta dar valores quaisquer para X dentro
do intervalo estudado e calcular os respectivos valores de Y (Figura 3). Os
valores calculados de Y no coincidem necessariamente com os valores
observados de Y. A curva resultante denominada de regresso de Y para
X, visto que Y avaliado a partir de X.

Y 35 y 2,1606 x 0,985

30

25

20

15

10

0
0 5 10 15 20
X

Figura 3. Quantidade de procaina hidrolizada ( Y ) em funo do tempo


(X).

O mais importante objetivo de um estudo de regresso usar o modelo


linear desenvolvido para estimar a resposta esperada correspondente a um
nvel especfico da varivel controlada. De acordo com o modelo linear, a
resposta esperada para um valor x da varivel controlada dada por
E ( y / x ) x e a estimada, por y a bx , que um estimador no
viciado para a mdia E ( y / x ) . Isto , como pode ser mostrado,
E( y / x ) E(a ) x E(b) x .

Interpretao do coeficiente de regresso (b)


Obtida uma reta de regresso, o primeiro passo na sua interpretao
verificar o sinal de b. Se for positivo, indica que, quanto maior o valor de
X, maior o valor de Y; se negativo, indica que quanto maior o valor de X,
menor o valor de Y.

Uma interpretao mais informativa para o coeficiente de regresso (b)


que ele representa em quanto varia a mdia de Y para o aumento de uma
unidade da varivel X. Esta variao pode ser negativa, situao em que
para um acrscimo de X corresponde um decrscimo de Y. Esse
coeficiente, juntamente com o intercepto (a), o qual determina o ponto em
que a reta corta o eixo de Y, esto representados na Figura 4.

y a bx

b
)b

a + bx a + bx + b

)b
1
a

x x+1

Figura 4. Representao do modelo y a bx

No exemplo: yi 0,98 2,16x i para x = 14, y = 29,26 e para x = 15,


y = 31,42. A diferena entre os valores de y 2,16, exatamente o valor
de b; ou seja, para cada acrscimo de 1 em X, y acresce de 2,16. O
intercepto a = -0,98 representa a quantidade de procaina hidrolizada para o
tempo zero, o qual, neste caso, no possui significado biolgico.

Observaes:
(1) A regresso de y em x, E( y / x ) 0,98 2,16.x i , representa, no caso do
exemplo, a reta de regresso da quantidade de procaina hidrolizada sobre
o tempo. Ou seja, E(y/x) nada mais do que a mdia da distribuio de
todas as quantidades de procaina hidrolizada em um dado tempo (x).

(2) O estimador de mnimos quadrados da varincia de y dado x (2),


referido como quadrado mdio residual, dado pela frmula

2 [ ( x i x )( ( y i y)] 2
( y i y)
(x i x)
2 , cuja estimativa,
s 2 2
n2

no exemplo, 0,82. O que est se supondo que esse valor constante


para cada x fixado (propriedade homoscedstica)

(3) H situaes nas quais X tambm aparece como uma varivel aleatria.
Nesses casos, pode ser que estejamos tambm interessados na regresso de
X em Y. Tm-se:

b X .Y
( x x )( y y)
x i x b X.Y ( y i y) , onde
( y y) 2

Exemplo de regresso linear em planta

Tabela 2. rea foliar (Y) e comprimento vs. largura (X) de 20 folhas de


bromlia selecionadas ao acaso:

X 0,08 0,15 0,08 0,05 0,08 0,11 0,08 0,10 0,06 0,05
Y 0,07 0,12 0,06 0,04 0,06 0,09 0,06 0,08 0,05 0,04

X 0,06 0,03 0,16 0,09 0,05 0,08 0,11 0,14 0,09


Y 0,05 0,03 0,13 0,07 0,03 0,06 0,09 0,11 0,08
Y 0,14

0,12

0,1

0,08

y 0,8054 0,0002
0,06
r 2 0,9849
0,04

0,02

0
0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18

Figura 5. rea foliar (Y) em funo do comprimento x largura (X) da folha


de bromlia.

3. Correlao

Vimos que numa anlise de regresso linear simples, se determina, por


meio de estimativas dos parmetros, como uma varivel X exerce, ou
parece exercer efeito sobre uma outra varivel Y.
Quando X e Y so ambas variveis aleatrias, pode ser til o conhecimento
de uma medida que relacione as duas variveis quando elas mantm entre
si uma relao dada por uma linha reta. Tal medida dada pelo coeficiente
de correlao (). Assim, correlao definida como a quantificao do
grau em que duas variveis aleatrias esto relacionadas, desde que a
relao seja linear.
Na anlise de correlao se procura, ento, determinar o grau de
relacionamento entre as duas variveis, ou seja, se procura medir a
covariabilidade entre elas.
Na anlise de regresso necessrio distinguir a varivel dependente e a
varivel independente; na de correlao, tal distino no necessria.
No que segue, os dados so supostos normalmente distribudos.

Definio: Sejam x1, x2, ..., xn; y1, y2, ..., yn os valores observados de X e Y,
respectivamente. Chama-se coeficiente de correlao (amostral) entre X e
Y, o nmero dado por:
r
Cov( X, Y )

( y y )( x x) / n 1
i i

(y y )(x x)
i i

Var ( X).Var ( Y ) (x x) . (y y )
i
2
i
2
(x x) (y y )
i
2
i
2

n1 n1
Uma frmula equivalente de clculo de r, de fcil manuseio, :

x i y i ( x i y i ) / n x i y i nx y
r
[ x i2 ( x i ) 2 / n ][ y i2 ( y i ) 2 / n ] ( x i2 nx 2 )( y i2 ny 2 )

Propriedades

(1) O nmero r varia entre -1 e + 1

Y X sobre Y
Y Y X sobre Y
Y sobre X
Y sobre X
Y

X X X
r =1 0<r<1 r=0
(a) (b) (c)
Y Y

Y sobre X
Y sobre X
X sobre Y X
X sobre Y X
-1 < r < 0 X r = -1
(d) (e)

Figura 6. Retas de regresso e o coeficiente de correlao linear.

O valor numrico de r mede a intensidade da relao linear e o sinal de r


indica o sentido da relao. Nas Figuras (a) e (e) h correlao perfeita: o
valor de Y determinado exatamente por uma reta linear em X, ou seja, os
pontos esto dispostos de forma tal, que as retas de regresso de Y sobre X
e de X sobre Y coincidem. Em (c), caso em que r = 0, o qual interpretado
como ausncia de relao linear, os dois coeficientes de regresso b Y.X
(Y em X) e b X.Y (X em Y) so tambm zero e, portanto, as retas de
regresso so perpendiculares.
importante assinalar que r = 0 no implica em ausncia de relao entre
duas variveis. YIsto mostrado na Figura 7, onde apesar de r = 0,

evidente que existe uma relao parablica entre X e Y. Portanto, r = 0


somente implica ausncia de relao linear entre as duas variveis.

X
Figura 7. Relao parablica entre X e Y, onde: r = 0.

(2) r2 igual ao coeficiente de determinao da regresso linear simples


( y i a bx i ). Note que 0 r2 1.

O coeficiente de determinao pode ser interpretado como a proporo da


variabilidade total observada entre os valores de Y, explicada pela regresso
linear de Y sobre X ou seja,

s 2Y s 2Y / X
r2
s 2Y
n
2
( y i y i )
onde: a variao dos valores de Y que ainda
s 2Y / X i 1
n2
permanece, depois de se levar em conta a relao linear entre Y e X (devido
ao fato que nem todos os pontos esto sobre a reta de regresso), que
parte no explicada pela regresso; e (s 2Y s 2Y / X ) a variao em Y
explicada pela regresso. Note que s 2Y / X envolve a soma dos desvios
elevados ao quadrado das observaes reais (y i) dos valores ajustados (
n
y i ), isto , e i2 , a qual a quantidade minimizada ao se ajustar a linha de
i 1
mnimos quadrados (veja Figura 8).
O coeficiente de determinao , portanto, uma medida descritiva da
qualidade do ajustamento obtido pela equao de regresso estimada.
particularmente importante quando usado para fazer previses e ser
tanto mais til quanto mais prximo de um (1,0) estiver o seu valor. Se
r2 = 1, todos os dados na amostra situam-se na linha de mnimos quadrados;
se r2 = 0, no h uma relao linear entre X e Y.
Para o exemplo apresentado na Tabela 1, pode-se mostrar que
r2 = (0,997)2 = 0,994. Esse valor implica em uma relao linear forte entre
o tempo e a quantidade de procaina hidrolizada; em particular 99,4 % da
variabilidade entre os valores observados de procaina hidrolizada
explicada pela relao linear entre essa varivel e o tempo. O restante
1 0,994 = 0,006 (0,6 %) da variao no explicada por essa relao.

(3) Das frmulas do coeficiente de regresso e de correlao tm-se:

sY sX
b Y .X r b X .Y r
sX sY

onde: sX e sY so os desvios padro de X e Y, respectivamente.

Retas de regresso e o coeficiente de correlao linear

A equao da reta Y a 1 b1X ou a reta de regresso de Y em X, como


visto, pode ser escrita sob a forma:

Y Y b 1 (X X ) ou Y Y b 1 (X X )

s
Como b 1 b Y.X r s
Y

sY s
Y Y r (X X ) ou y r Y x (1)
sX sX

De modo semelhante, a reta de regresso de X em Y, X a 2 b 2 Y , pode ser


escrita como:
sX s s
X X r (Y Y ), onde b 2 b X.Y r X , ou x r X y (2)
sY sY sY

As declividades das retas (1) e (2) somente sero iguais quando r = 1.


Neste caso, as duas retas sero idnticas e h correlao linear perfeita
entre as variveis X e Y [Se r = 1, a equao (2) pode ser obtida da de (1)
y s
x ou x X y]
ou seja, sY sY . Quando r = 0, as retas de regresso
sX
esto em ngulo reto e no h correlao linear entre X e Y. Tais fatos esto
ilustrados na Figura 6. Dessa forma, o coeficiente de correlao linear
mede o afastamento angular entre as duas retas de regresso.
s s
Note que: b1 b 2 r s r s r , onde: r2 = coeficiente de determinao.
Y X 2

X Y

Correlao e causa
importante salientar que o coeficiente de correlao define apenas o
sentido da variao conjunta das variveis. A observao que duas variveis
tendem variar simultaneamente em uma direo ou em direes contrrias,
onde os dados provavelmente indicariam uma correlao, positiva ou
negativa, alta, no implicaria necessariamente na presena de uma relao
de causa e efeito entre elas. Assim, na Figura 9, nota-se que existe uma
correlao negativa entre o consumo de protenas e o coeficiente de
natalidade. Entretanto, isto no implica em afirmar que um aumento no
consumo de protenas determina reduo da fertilidade. Portanto, uma
correlao observada pode ser falsa (correlao espria), isto , pode ser
devido a uma terceira e desconhecida varivel causal.

Figura 9. Diagrama de disperso para o consumo individual dirio de


protenas de origem animal e a natalidade, em 28 pases.

Exemplo de correlao

Tabela 2. Amostra de pares de valores referentes aos pesos (kg) ao nascer


(X) e aos 12 meses (Y) de 10 animais da raa Nelore:

X 29 32 28 23 28 34 27 24 27 20
Y 219 262 202 138 190 215 188 164 185 150
x y 272.1913
xy 53202
r n 10
2 2 2 2
( x nx )( y ny ) (7552 10.27,2 2 )(377.743 10.191,3 2 )
r = 0,87

Portanto, o grau de associao linear entre X e Y est quantificado em 87%.

4. Testes sobre o coeficiente de regresso () e correlao ()


A hiptese H0: = 0, pode ser testada usando a estatstica:

b b
,
Var (b) Var (b)

que tem distribuio t com n 2 graus de liberdade,

[ ( x i x )( y i y)] 2
(y i y) 2

onde: (x i x) 2
.
var (b) n2
(x i x) 2

( y i ) 2
(y i y)
2
y i2
n

Exemplo. Testar H0 : = 0 contra H1 : 0 empregando os dados


apresentados na Tabela 1.
Soluo:
n=8 b = 2,16
2 2 ( y) 2 (141,20) 2
( y y) y 3.299,42 807,24
n 8

(371,35) 2
807,24
171,88
6 0,82
Var (b) 0,0048
171,88 171,88
b 2,16 0
t obs 31,30
Var (b) 0,0048

= 5% gl = n - 2 = 6 tc (0,05; 6) = 2,447

RC = {t > 2,447 ou t < -2,447}

Concluso: como tobs RC, rejeita-se H0, com nvel de significncia de


5%. Sendo b = +2,16, h evidncia de que os valores de Y realmente
crescem com os valores de X.

Para testar H0 : = 0 contra H1 : 0, pode-se usar a estatstica


r
Var (r )

que, para amostras retiradas de uma populao para a qual = 0, segue


1 r2
uma distribuio t com n 2 graus de liberdade, onde: Var (r ) .
n2
r n2
Assim, t
1 r2

Exemplo. Dos dados da Tabela 2,

0,87 10 2 2,46
t obs 5,02
1 (0,87) 2 0,49

Se = 0,01, tc (0,01; 8) = 3,355.

Como tobs > tc, a hiptese nula rejeitada ao nvel de significncia de 1%.
Portanto, h evidncia de que as variveis X e Y so correlacionadas.

Obs.: pode-se mostrar que

b r n2

var(b) 1 r2

Assim, para se testar a hiptese = 0, pode-se usar a estatstica


r n2
t ( n 2) , que de clculo mais fcil. No exemplo apresentado na
1 r2
Tabela 1,
b r n2 0,997 8 2
31,30
var(b) 1 r 2
1 (0,997) 2
Bibliografia

BHATTACHARYYA, G. K.; JOHNSON, R. A. Statistical concepts


and methods. New York: John Wiley & Sons, Inc., 1977.

BUSSAB, W.O.; MORETTIN, P.A. Estatstica bsica. So Paulo:


Saraiva, 2003.

ELANDT-JOHNSON, R. C. Probability models and statistical methods


in Genetics. New York: John Wiley & Sons, Inc., 1971.

MAGALHES, M. N.; LIMA, A. C. P. Noes de probabilidade e


estatstica. So Paulo: Edusp, 2002.

RAO, P. V. Statistical research methods in the life sciences. Pacific Grove:


Brooks/Cole Publishing Company, 1998.

SOARES, J.F.; FARIAS, A.A.; CESAR, C.C. Introduo estatstica.


Rio de Janeiro: Guanabara Koogan S.A., 1991.
THOMPSON, S. K. Sampling. New York: John Wiley & Sons, Inc., 1992.

ZAR, J. H. Biostatistical analysis. New Jersey: Prentice Hall, 1999.

S-ar putea să vă placă și