Sunteți pe pagina 1din 4

Regresia liniara multipl

Regresia liniara multipla explica legtura dintre o variabil cantitativ Y


(variabila explicat sau dependent) i m variabile cantitative liniar independente Xj,
j=1,m (variabilele explicative , independente). Regresia liniar multipl gsete un
set de coeficieni cu ajutorul crora variabila dependent este aproximat ct mai
bine printr-o combinaie liniar a variabilelor independente. Relaia liniar este
pentru un individ oarecare i:
yi = a0 + a1xi1 + a2xi2 + + amxim + ei, i=1,n,
unde xij sunt valorile luate de un individ oarecare, i, pentru cele m variabile, yi este
valoarea luata de individul i pentru variabila dependent, ei este diferena dintre
estimare i valuarea real pentru individul i iar n este numrul de indivizi.
Coeficienii aj sunt estimai dup criteriul minimizrii sumei ptratelor
n

diferenelor ei:

ei2 minim.

i 1

ei 0.

i 1

S presupunem c

i 1

1
ei 0 . Rezult c
n

i 1

Estimarea parametrilor a0, a1, ..., am, astfel nct

ei c , deci

i 1

ei nc .

Rescriem modelul de regresie n felul urmtor:


yi = (a0 + c) + a1xi1 + a2xi2 + + amxim + (ei c).
n

(ei c)

i 1
i 1
2

Interpretarea modelului n spaiul indivizilor


Spaiul indivizilor este spaiul n care puncte sunt indivizii, observaiile.
Coordonatele unui punct n acest spaiu sunt date de o linie a tabelului X i valoarea
Y corespunztoare. Rezult n puncte ntr-un spaiu m+1 dimensional. Minimizarea
sumei ptratelor rezidurilor const n a cuta o ax de ecuaie:
Y = a0+a1X1 + ... + amXm astfel nct acesta s treac ct mai aproape de
norul constituit de cele n puncte.
Interpretarea modelului n spaiul variabilelor
m
n spaiul variabilelor, R , se reprezint variabila Y i fiecare din variabilele
Xj, j=1,m. Coordonatele variabilei Y sunt date de vectorul Y, iar coordonatele
variabilei Xj sunt date de coloanele matricei X.

Respectnd criteriul de optim rezult c

Matriceal relaia de legtur dintre variabila dependent i variabilele


independente se scrie:
Y = Xa + e
unde Y este vectorul coloan al valorilor variabilei explicate, X este
matricea cu n linii i m+1 coloane a valorilor variabilelor explicative, completat cu
o coloan avnd valori 1, coeficienii termenului a0, iar e este vectorul coloan al
valorilor reziduale.

(ei2

2cei c )
2

i 1

(ei c) ei2

i 1
i 1
2

ceea ce contrazice ipoteza.

y a0 a1 x1 a2 x 2 ... am x m e
n

deoarece

ei 0 , rezult:

i 1

ei2

2c nc nc

i 1

ei2

nc

2
i

s fie minim, este

i 1

echivalent cu a proiecta ortogonal vectorul Y pe spaiul generat de vectorii Xj,


j=1,m.
Definiie. Fie o matrice X cu n linii i m coloane (n>m) de rang m (coloane
n
liniar independente). Orice vector uR poate fi scris ntr-un mod unic ca suma a
doi vectori:
- un vector aparinnd spaiului E generat de coloanele matricei X. Acesta
se scrie ca produs Xd , unde d este un vector coloan de dimensiune m, iar Xd este
proiecia ortogonal a lui u pe spaiul E
t
- un vector w ortogonal pe E, deci ortogonal i pe coloanele lui X, adic X w
=0.
u = Xd + w
Proiectorul ortogonal pe spaiul E generat de coloanele matricei X este
aplicaia liniar care face s corespund vectorului u proiecia sa ortogonal pe E.
t -1 t
Acest proiector se determin astfel: P = X(X X) X .

t -1 t
t -1 t
t -1 t
t -1 t
Pu = X(X X) X u = X(X X) X (Xd w) = X(X X) X Xd + X(X X) X w = Xd

Dac notm cu b vectorul valorilor estimate pentru a, proiecia ortogonal


a vectorului Y pe spaiul generat de coloanele Xj este produsul Xb, deci:
Xb = PY, unde P este proiectorul ortogonal pe spaiul generat de coloanele matricei
X.
t -1 t
Conform definiiei de mai sus: Xb = X(X X) X Y. Vectorul care
minimizeaz suma abaterilor reziduale este:
t -1 t
b = (X X) X Y.
Valorile estimate sunt: Y X b .
Mrimea coeficienilor b este influenat de ordinul de mrime al variabilelor
independente. Aceste variabile au diverse forme de exprimare (uniti de msur
diverse). Acest lucru face dificil compararea efectelor modificrii valorilor
coeficienilor asupra variabilei dependente. Din acest motiv se calculeaz
coeficienii standardizai:

b j

Xj
Y

b j , j =1, m.

Putem interpreta coeficienii standardizai astfel: creterea cu 1 a abaterii standard a


variabilei Xj genereaz o cretere cu b j a abaterii standard a variabilei Y.

ESS (Error Sum of Square) =

ei2 .

i 1
Relaia dintre sume este:
TSS = RSS + ESS.
Valorile medii ale acestor indicatori sunt calculate innd cont de numrul gradelor
de libertate ale fiecruia:
ESS
TSS
RSS
MST =
, MRS =
, MSE=
.
n m 1
n 1
m
Coeficieni de corelaie/determinare
Coeficientul de determinare, R2, se calculeaz ca raport ntre variaia explicat i
RSS
variaia total: R2 =
. Coeficientul de corelaie liniar este R = R 2 . R2 este
TSS
sensibil la raportul dintre valorile n i m n eantioanele mici. Daca valoarea lui m
este mare n raport cu n, R2 tinde sa aib valori mari. Un indicator mai des utilizat
este R ajustat prin uilizarea gradelor de libertate in calcul:
2 1 MSE .
Radj
MST

Indicatori de analiz a mdelului


Indicatori de evaluare a modelului

Pot fi grupai in mai multe clase:


- indicatori de analiz a varianei,
- coeficieni de corelaie/determinare,
- indicatori de evaluare a modelului.

Evaluarea modelului se face prin dou teste statistice:


- un test de semnificaie global, pe baza distribuiei F, care arat dac modelul este
util n estimarea valorilor Y,
- un set de teste de semnificaie pentru coeficienii estimai, b.

Indicatori de analiz a varianei


Indicatorii de analiz a varianei se focalizeaz asupra relaiei dintre variana total,
variana explicat i variana rezidual. Acetia sunt:
n
2
yi y ,
TSS (Total Sum of Square) =

i 1

RSS (Regression Sum of Square) =

yi y2 ,
i 1

Testul de relevan global


Ipoteza nul, H0: a1 = a2 = ... = am = 0
Ipoteza alternativ, H1: cel puin un coeficient aj, j =1, m, este diferit de 0.
Distribuia F este o distribuie statistic continu, care apare n testarea egalitii
varianelor pentru dou distribuii. Testul F utilizat n acest caz are n vedere
variana explicat i variana rezidual. Valoarea calculat pentru test este: F =
MSR
. Valoarea critic este calculat pentru m grade de libertate i n-m-1 grade de
MSE
libertate: FC m, n m 1 .

Ipoteza nul este respins dac valoarea calculat este mai mare dect valoarea
critic.
Teste asupra coeficienilor individuali de regresie
Coeficienii b sunt estimatori impartiali ai coeficienilor a, cu condiia ca valorile
reziduale, e, s fie distribuite normal i independent. Variaiile coeficienilor b se
obin cu ajutorul matricei (XtX)-1. Matricea de covarian a coeficienilor de regresie
estimati se obine dup cum urmeaz:
C = MSE(XtX)-1.
Elementele de pe diagonala principal reprezint variaiile coeficienilor de regresie
estimai, iar celelelte elemente sunt covarianele ntre coeficieni.
Testarea coeficienilor individuali de regresie se realizeaz prin teste t (Student) in
care statistica t se calculeaz astfel:
bj
tj
, j = 0, m.
sb j
n aceast expresie, sb j C jj este abaterea standard estimat a coeficientului bj.
Ipotezele:
H0: aj = 0
H1: aj 0
Ipoteza nul este respins atunci cnd statistica testului nu se afl n intervalul de

semnificaie: tCritic 2 , n m 1 , tCritic 2 , n m 1 .

Analiza canonic
Analiza canonic descrie relaiile liniare dintre dou mulimi de variabile
ce descriu acelai grup de indivizi. A fost propus i formalizat pentru prima dat
de Hoteling n 1936. La un studiu mai atenta se poate observa c analiza canonic
este o generalizare a regresiei liniare multiple. Contrar ns regresiei liniare, n care
exist o variabil dependent (explicat) i o mulime de variabile independente
(explicative), n analiza canonic rolul jucat de cele dou mulimi de variabile este
acelai. Analiza canonic determin n ce msur cele dou grupuri de variabile
reflect sau nu, aceai realitate.
Date prelucrate
Datele sunt prezentate n doua matrice X i Y cu n linii respectiv p i q
coloane, avnd forma urmtoare:

y1 y j y q
x11 x j x p
1
1
1
1
1

Xnp = x1i xij xip , Ynq = y1i yij yiq .

j
p
j
q

xn xn xn
yn yn yn
Datele pot fi sau centrate sau standardizate. In continuare va fi prezentate
varianta de analiz cu datele centrate.
Coloanele tabelului X definesc p variabile cantitative iar coloanele tabelului
Y definesc q variabile cantitative. Se presupune c matricea X este de rang p iar
matricea Y este de rang q.
AC se desfoar n k etape avnd ca rezultat extragerea a k perechi de
i i
i
variabile noi numite variabile canonice (z ,u ),i =1,k. Variabilele z fac parte din
i
spaiul W1 generat de coloanele matricei X iar variabilele u fac parte din spaiul W2
generat de coloanele matricei Y. Variabilele dintr-o pereche canonic sunt maxim
corelate ntre ele i complet necorelate fa de celelalte variabile canonice din
acelai spaiu.

Etapele analizei
1 1
1. Se determin un cuplu de variabile canonice (z ,u ) ca o combinaie
1
1
p
1
liniar de variabilele vechi: z este combinaie liniar de variabilele X ,...,X iar u
1
q
este combinaie liniar de variabilele Y ,...,Y . Variabilele canonice sunt maxim
corelate ntre ele.
1
1
1
1
z = Xa , u = Yb
x11 ... x1 p a11 a11 x11 ... a1p x1 p z11


1
...
z = ...
= ...
... =
xn1 ... xnp a1n a11 xn1 ... a1p xnp z1p

b1 y ... b1 y u 1
q 1q
1 11
1
1
u =
=
...
...
b1 y ... b1 y u 1
q nq q
1 n1
Variabilele canonice sunt maxim corelate ntre ele, deci nmulindu-le cu
1 1
1
1
valori constante, corelaia dintre ele se menine: R(z ,u ) = R(z ,u ). Pentru a
asigura unicitatea lor ele se determin sub restricia de normalitate:

1 t 1

(z ) z = 1.
1
Soluia problemei puse la acest pas este urmtoarea: z este primul vector
1
propriu al matricei P1P2 corespunztor celei mai mari valori proprii, iar u este
primul vector propriu al matricei P 2P1 corespunztor aceleai valori proprii. P 1 i P2
sunt proiectorii liniari ortogonali pe spaiile W 1 i W2 generate de coloanele
matricelor X i Y. Valoarea proprie 1 este coeficientul de corelaie ntre variabilele
1

W1

z1

canonice z i u .

Pentru un z1 oarecare dat, z1Rn, vectorul din spaiul W2 care face un unghi
minim cu z1 este proiecia ortogonal a lui z1 pe spaiul W2. Prin urmare, R2(z1,u1)
este maximal dac u1 este coliniar cu proiecia ortogonal a lui z1 pe spaiul W2 (vezi
figura 1).
1
Proiecia vectorului z pe spaiul W2 este deci i proiecia acestuia pe axa
1
vectorului u . Deoarece vectorii sunt normai iar corelaia dintre ei este cosinusul
unghiului dintre ei, avem: P2z1 = R(z1, u1)u1.
n mod simetric , pentru u1 dat R2(z1,u1) este maximal dac z1 este coliniar
cu proiecia ortogonal a lui u1 pe spaiul W1, deci:
P1u1=R(z1,u1)z1.
P1P2z1=P1R(z1,u1)u1=R(z1,u1)P1u1=R2(z1,u1)z1
P1P2z1= R2(z1,u1)z1, unde R2(z1,u1) este maximal
z1 este vector propriu al matricei P1P2 corespunztor celei mai mari valori
proprii 1 = R2(z1,u1)
P2P1u1=P2R(z1,u1)z1=R(z1,u1)P2z1=R2(z1,u1)u1
z1 este vector propriu al matricei P2P1 corespunztor celei mai mari
valori proprii 1 = R2(z1,u1)

P1u1
W2

P2z1

Figura 1

u1

S-ar putea să vă placă și