Documente Academic
Documente Profesional
Documente Cultură
The contents of this document are the sole responsibility of the authors. O contedo do presente documento de nica responsabilidade dos autores.
Regresso Multivariada
Wagner Oliveira de Araujo
waoa@bol.com.br
Resumo. Este meta-artigo descreve sinteticamente Regresso Multivariada referente a disciplina de estatstica do curso Sociedade, Tecnologia e Meio Ambiente nvel mestrado.
1 Introduo
A regresso mltipla envolve trs ou mais variveis. H ainda uma nica varivel dependente, porm duas ou mais variveis independentes(explanatrias). A teoria uma extenso da anlise de regresso linear simples. A anlise tem por objetivo estabelecer uma equao que possa ser usada para predizer valores de y para valores dados das diversas variveis independentes. As variveis independentes adicionais para melhorar a capacidade de predio em confronto com a regresso linear simples. A equao de regresso tem a seguinte forma y1 = 0 + 1 x11 + 2 x12 + . . . + q x1q + 1 y2 = 0 + 1 x21 + 2 x22 + . . . + q x2q + 2 . . . yn = 0 + 1 xn1 + 2 xn2 + . . . + q xnq + n
1.1 O problema
Utilizar vrios preditores (X) para predizer a varivel dependente(y) Determinar uma medida do grau de ajustamento global Ponderar cada preditor (X) e determinar a sua importncia O que a regresso mltipla ? A Regresso/Correlao Mltipla (RCM) um procedimento analtico de dados baseado no critrio dos mnimos quadrados, que determina as relaes lineares entre um conjunto de preditores e um nico critrio e determina qual a melhor combinao do conjunto de preditores para predizer esse critrio singular.
Mestrando em Sociedade, Tecnologia e Meio Ambiente Responsvel pelo texto do artigo. Orientador, Centro Universitrio de Anpolis UniEVAGLICA
A RCM a simples extenso da regresso bivariada a duas ou mais variveis preditoras. H muitas frmulas matemticas que podem servir para expressar relaes entre mais de duas variveis, mas a mais comumente usadas em estatstica so as equaes lineares da forma y1 = 0 + 1 x11 + 2 x12 + . . . + q x1q y2 = 0 + 1 x21 + 2 x22 + . . . + q x2q . . . yn = 0 + 1 xn1 + 2 xn2 + . . . + q xnq (1)
Aqui, y1 , y2 , . . . , yn a varivel a ser predita, x11 , x12 , . . . , x1q so as q variveis conhecidas, sobre as quais se basearo as predies, e 1 , 1 , . . . , q so constantes numricas a serem determinadas com base nos dados observados. Notao matricial 0 0 1 x11 x12 . . . x1q y1 y2 1 x21 x22 . . . x2q 1 1 . = . . . . . + . . . . . . . . . . . . . . . n q 1 xn1 xn2 . . . xnq yn ou y = X +
Onde as constantes 0 e 1 so determinadas pela resoluo simultnea do sistema de equaes. y = n0 + 1 X Xy = 0 X + 1 X 2 Pode ser escrita como y =
Xy X2
ou = (X X)1 X y O processo de regresso signica, portanto, que os pontos plotados no grco so denidos, modelados ou regredidos, a uma reta que corresponde menor distncia possvel entre cada ponto plotado e a reta. Em outras palavras, busca-se reduzir ao mnimo possvel os somatrios dos desvios entre y1 e yn . y1 = 0 + 1 X equao da reta a partir dos dados coletados; y = a + bX equao da reta a partir das estimativas; Poderia ser resolvido pela seguinte frmula, conforme Tabela1 : y = n0 + 1 X Xy = 0 X + 1 X 2 Ou pela seguinte expresso: = (X X)1 X y
Tabela 1: Tabela de valores n X y Xy X2 1 30 430 12900 900 2 21 335 7035 441 3 35 520 18200 1225 4 42 490 20580 1764 5 37 470 17390 1369 6 20 210 4200 400 7 8 195 1560 64 8 17 270 4590 289 9 35 400 14000 1225 10 25 480 12000 625 Soma 270 3800 112455 8302
1 1 1 1 1 1 1 1 1 1 30 21 35 42 37 20 8 17 35 25
1 1 1 1 1 1 1 1 1 1
30 21 35 42 37 20 8 17 35 25
430 335 520 490 470 210 195 270 400 480
Recordando o conceito de matriz inversa A.A1 = I (M atriz Identidade) Sendo A= Sendo A1 = Sendo I= A.A1 = I (M atriz Identidade) Resolvendo a expresso acima 2 1 4 3 passo 1
2 1 4 3 a b c d 1 0 0 1
a b c d
1 0 0 1 1 0 0 1
2a + c 2b + d 4a + 3c 4b + 3d
Aplicando este conceito na multiplicao das matrizes (X X)1 Encontrando 0, 8204 0, 0267 (X X)1 = 0, 0267 0, 0010 Agora 0, 8204 0, 0267 0, 0267 0, 0010 Xy
1 1 1 1 1 1 1 1 1 1 30 21 35 42 37 20 8 17 35 25 1 1 1 1 1 1 1 1 1 1
(y)
1 1 1 1 1 1 1 1 1 1 30 21 35 42 37 20 8 17 35 25
30 21 35 42 37 20 8 17 35 25
3800 112455
500
400
350
300
250
200
150
100
10
Figura 1: Representao da reta y = 117, 0702 + 9, 7381X Exemplo 1 Cdigo Regresso no MatLab
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
X=[1,30;1,21;1,35;1,42;1,37;1,20;1,8;1,17;1,35;1,25] y=[430;335;520;490;470;210;195;270;400;480] x=[1;2;3;4;5;6;7;8;9;10] b=inv(X*X)*X*y c=inv(X*X) d=X*y c*d b01=b(1,1) b11=b(2,1) w=b01+b11*x plot(x,y,-*,x,w,-) grid on xlabel(Conjunto de pontos da matriz X) ylabel(Conjunto de pontos do vetor y) title(Curva dos mnimos quadrados)
>> X = 1 1 1 1 1 1 1 1 1 1 30 21 35 42 37 20 8 17 35 25
y = 430 335 520 490 470 210 195 270 400 480
x = 1 2 3 4 5 6 7 8 9 10
b = 117.0702 9.7381
d = 3800 112455
b01 = 117.0702
b11 = 9.7381
w = 126.8083 136.5464 146.2846 156.0227 165.7609 175.4990 185.2372 194.9753 204.7134 214.4516 >>
Referncias
FREUND, J. E.; SIMON, G. A. Estatstica Aplicada: economia, administrao e contabilidade. 9.ed. Porto Alegre: Bookman, 1997. HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys. 5.ed. New Jersey-USA: Prentice-Hall, 1998. MANLY, B. J. F. Mtodos Estatsticos Multivariados: uma introduo. 3.ed. Porto Alegre: Bookman, 2005. RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons, Inc, 2002. STEVENSON, W. J. Estatstica: aplicada administrao. 1.ed. So Paulo: HARBRA, 2001.