Sunteți pe pagina 1din 2

Calculul factorilor canonici

Variabilele canonice sunt combinații liniare de variabilele celor două grupe, astfel:
zi = Xai, ui = Ybi, i=1,k
unde ai şi bi sunt factorii canonici corespunzători.
Se poate observa că matricele P1P2 şi P2P1 sunt de ordinul n. În imensa majoritate a situațiilor numărul de indivizi
este mult mai mare decât numărul de variabile. Prin urmare, operațiunile de determinare a vectorilor şi valorilor proprii sunt
foarte costisitoare pe astfel de matrice.
Variabila canonică zk este vector propriu al matricei P1P2. Deci:
P1P2zk = R2(zk,uk)zk.
Deoarece P1 = X(XtX)-1Xt si P2 = Y(YtY)-1Yt (definiția proiectorilor ortogonali), iar zk = Xak, se obţine:
X(XtX)-1XtY(YtY)-1Yt Xak = R2(zk,uk) Xak.
Înmulțind aceasta relație la stânga cu (XtX)-1Xt rezultă:
(XtX)-1XtY(YtY)-1Yt Xak = R2(zk,uk) ak.
1 1 t 1 1
Dacă se efectuează următoarele notaţii: V11 = XtX, V22 = Y Y, V12 = XtY , V21 = Yt X , se obţine:
n n n n
V11-1V12V22-1V21 ak = R2(zk,uk) ak.
În mod asemănător se obţine relaţia: V22-1V21V11-1V12 bk = R2(zk,uk) bk.
Deoarece matricele de observații X și Y sunt centrate, V11 este matricea de covarianţă între variabilele din grupa X,
V22 este matricea de covarianţă între variabilele din grupa Y, V12 este matricea de covarianță între variabilele din grupa X
şi grupa Y iar V21 este matricea de covarianţă între variabilele din grupa Y şi grupa X.
În concluzie ak este vectorul propriu de ordinul k al matricei V111V12V221V21 corespunzător valorii proprii k =
R2(zk,uk), iar bk este vectorul propriu de ordinul k al matricei V22-1V21V11-1V12 corespunzător aceleiași valori proprii. Aceste
matrice au dimensiunile p respectiv q, valori de regulă mai mici decât n, numărul de instanțe. Numărul de etape se determină
după relaţia m = min (p,q).

Legăturile dintre factori


Ştim că P2 zk  R( zk , uk )uk . Înlocuind P2  Y (Y tY )Y t , zk  Xak şi uk  Ybk , rezultă: Y (Y tY )1Y t Xak  R( zk , uk )Y  bk .
Se înmulțește această relaţie la stânga cu (Y tY ) 1Y t şi rezultă: V221V21ak  R( zk , uk )bk .
Relațiile dintre factori sunt deci următoarele:
1 1
bk  V22 V21ak
R( z k , uk )
1
ak  V111V12bk .
R ( z k , uk )

Varianța explicată și redundanța informațională

Cantitatea de varianță explicată de fiecare cuplu de variabile canonice, pentru fiecare din grupe, este dată de suma
corelațiilor dintre variabilele canonice și variabilele grupelor:
p
VXk =  R( z , X
j 1
k j)
2
, k = 1,m

q
VYk =  R(u ,Y )
j 1
k j
2
, k = 1,m ,

unde R( z k , X j ) 2 este coeficientul de determinare (raportul de corelație) între variabila canonică zk a cuplului k și variabila
Xj din prima grupă (cu elementele în coloana j a matricei X), iar R(uk , Y j )2 este același lucru dar pentru grupa a doua și
VX k VY
variabila uk a cuplului. În exprimare proporțională valorile sunt: și k .
p q
m m
Varianța totală explicată de cele m rădăcini canonice este: VX = VX
k 1
k pentru prima grupă și VY = VY
k 1
k .

Redundanța este dată de informația comună celor două grupe extrasă de rădăcinile (cuplurile) canonice. Informația comună
este reflectată de corelațiile canonice. Dacă avem o anumită cantitate de informație extrasă de o variabilă canonică dintr-o
grupă, partea din această informație care se găsește și în cealaltă grupă este aflată cu ajutorul corelației canonice astfel:
SXk = VXk ·αk, k = 1, m,
SYk = VYk ·αk, k = 1, m.
m m
Redundanța la nivelul celor m rădăcini canonice este: SX = k 1
SX k , SY =  SY
k 1
k .

Relevanța rădăcinilor canonice. Testul de relevanță Bartlett χ2


2
Testul Bartlett χ este cel mai utilizat test statistic pentru evaluarea corelațiilor canonice. Rezultatul testului pentru o oarecare
rădăcină canonică arată dacă rădăcina respectivă indică dependență între cele două grupe de variabile sau dimpotrivă, cele două grupe
de variabile sunt independente.
Ipoteza H0: coeficientul de corelație R(zk,uk) indică existența legăturii liniare dintre cele două grupe de variabile
Ipoteza alternativă, H1: coeficientul de corelație R(zk,uk) indică lipsa legăturii
Pentru rădăcina canonică (zk,uk) testul se aplică astfel:
1. Se calculează numărul gradelor de libertate aferent rădăcinii canonice de ordin k:
dfk = ( p  k  1)(q  k  1)
unde p și q sunt numărul de variabile din prima și din a doua grupă.
2. Se calculează statistica testului:
 p  q 1 
 k2    n  1   log k
 2 

 1  Rz , u   , unde m


m
i 2
unde n este numărul de instanțe iar λk este un indicator numit lambda Wilks care se calculează astfel: k  i

i k
este numărul rădăcinilor canonice.
3. Se determină valoarea critică a testului folosind distribuția χ : ck2  , df k  , pentru un prag de semnificație, α.
2

4. Se aplică testul astfel: dacă  k2  ck2  , df k  ipoteza H0 este acceptată cu un nivel de încredere 1-α, altfel este respinsă.

Implementare și exemple

S-ar putea să vă placă și