Sunteți pe pagina 1din 2

Analiza canonică

Analiza canonică (AC) descrie relațiile liniare dintre două mulțimi de variabile ce descriu același grup de indivizi. Spre
deosebire de regresia liniară multiplă care studiază legătura dintre o variabilă dependentă (explicată) și o mulțime de
variabile independente (explicative), analiza canonică nu tratează cele două grupe de variabile diferențiat. Rolul jucat de
cele două mulțimi de variabile este același. Analiza canonică determină măsura în care două fenomene, descrise fiecare
prin câte un grup de variabile, sunt legate între ele.

Date prelucrate
Datele sunt prezentate în doua matrice X şi Y cu n linii respectiv p şi q coloane, având forma următoare:
 x11  x1 j  x1 p   y11  y1 j  y1q 
   
     
   
Xnp =  xi1  xij  xip  , Ynq =  yi1  yij  yiq  .
     
   
 xn1  xnj  xnp   yn1  ynj  ynq 
   
Datele pot fi sau centrate sau standardizate. În continuare va fi prezentat modelul de analiză cu datele centrate.
Coloanele tabelului X definesc p variabile cantitative iar coloanele tabelului Y definesc q variabile cantitative. Se
presupune că matricea X este de rang p iar matricea Y este de rang q. Coloanele celor două matrice sunt liniar independente,
cu alte cuvinte nu există două variabile perfect corelate.
AC se desfășoară în k etape având ca rezultat extragerea a k perechi de variabile noi numite variabile canonice (zi,ui), i =1,k.
Variabilele zi fac parte din spațiul W1 generat de coloanele matricei X iar variabilele ui fac parte din spațiul W2 generat de
n
coloanele matricei Y. W1 și W2 sunt spații n-dimensionale (incluse în R ) în care fiecare element este o combinație liniară
a coloanelor din X (pentru W1) sau din Y (pentru W2). Variabilele dintr-o pereche canonică sunt maxim corelate între ele și
complet necorelate față de celelalte variabile canonice din același spațiu.

Calculul variabilelor și factorilor canonici

Calculul variabilelor canonice


1. Se determină un cuplu de variabile canonice (z1,u1) ca o combinație liniară de variabilele cauzale: z1 este combinație
liniară de variabilele X1,...,Xp iar u1 este combinație liniară de variabilele Y1,...,Yq. Variabilele canonice sunt maxim corelate
între ele.
z1 = Xa1, u1 = Yb1
 a11 
 
z1 = a11‧X1+a21‧X2+...+ap1‧Xp = Xa1, unde a1=  ...  ,
a 
 p1 

b11 
 
u1 = b11‧Y1+b21‧Y2+...+bp1‧Yp = Xa1, unde b1=  ... 
b 
 q1 
Variabilele canonice sunt maxim corelate între ele, deci înmulțindu-le cu valori constante, corelația dintre ele se menține:
R(z1,u1) = R(z1,u1). Pentru a asigura unicitatea lor, ele se determină sub restricția de normalitate:
(z1)tz1 = 1.
Soluția problemei puse la acest pas este următoarea: z1 este primul vector propriu al matricei P1P2 corespunzător celei mai
mari valori proprii, iar u1 este primul vector propriu al matricei P2P1 corespunzător aceleiași valori proprii. P1 și P2 sunt
proiectorii liniari ortogonali pe spațiile W1 și W2 generate de coloanele matricelor X și Y. Valoarea proprie 1 este
coeficientul de corelație între variabilele canonice z1 și u1.
Un proiector ortogonal pe un spațiu n-dimensional este o matrice pătratică n×n prin care se obține proiecția ortogonală în
spațiul respectiv a unui vector din afara spațiului.

Pentru un z1 oarecare dat, z1Rn, vectorul din spațiul W2 care face un unghi minim cu z1 este proiecția ortogonală a lui z1
pe spațiul W2. Prin urmare, R2(z1,u1) este maximal dacă u1 este coliniar cu proiecția ortogonală a lui z1 pe spațiul W2.
Proiecția vectorului z1 pe spațiul W2 este în același timp și proiecția acestuia pe axa vectorului u1. Deoarece vectorii sunt
normați iar corelația dintre ei este cosinusul unghiului dintre ei, avem: P2z1 = R(z1, u1)u1.
În mod simetric, pentru u1 dat, R2(z1,u1) este maximal dacă z1 este coliniar cu proiecția ortogonală a lui u1 pe spațiul W1,
deci:
P1u1=R(z1,u1)z1.
P1P2z1=P1R(z1,u1)u1=R(z1,u1)P1u1=R2(z1,u1)z1
 P1P2z1=R2(z1,u1)z1, unde R2(z1,u1) este maximal
z1 este vector propriu al matricei P1P2 corespunzător celei mai mari valori proprii 1 = R2(z1,u1)
P2P1u1=P2R(z1,u1)z1=R(z1,u1)P2z1=R2(z1,u1)u1
 z1 este vector propriu al matricei P2P1 corespunzător celei mai mari valori proprii 1 = R2(z1,u1)

2. Se determină al doilea cuplu de variabile canonice, z2 şi u2 astfel încât R2(z2,u2) să fie maxim, sub restricțiile:
z 2 t z 2  1, u2 t u2  1
 .
z 2 t z1  0, u2 t u1  0

Procedând ca la pasul 1, obținem că soluțiile problemei sunt vectorii proprii ai matricelor P1P2 și P2P1 corespunzători celei
de-a doua valori proprii ca mărime. Valoarea proprie 2 este coeficientul de corelație între variabilele canonice z2 și u2:
P1P2z2 = α2·z2, P2P1u2 = α2 ·u2.

În plus fată de pasul 1 trebuie demonstrat că z2 şi z1 respectiv u2 şi u1 nu sunt deloc corelate , deci ( z 2 ) t z1  0 și (u2 )t u1  0.
Dezvoltăm produsul  2 ( z 2 ) t z1 astfel:
 2 ( z 2 ) t z1 = ( z2 )t P2 P1z1 deoarece (P1P2z2 )t = (α2·z2)t
  ( z ) t z = ( z )t P P P z , deoarece proiecția unui vector in propriul spațiu este vectorul însuși, P1·z = z , sau (z )tP1 =
2 2 1 2 1 2 1 1 2 2 2
(z2)t.
  ( z ) t z = ( z )t P P z , deoarece P z =z
2 2 1 2 1 2 1 1 1 1
  ( z ) t z =  ( z )t z , deoarece P1P2z = α ·z
2 2 1 1 2 1 1 1 1

Deci:  2 ( z 2 ) t z1 = 1 ( z2 )t z1 .
Cum 1   2 , rezultă că ( z2 )t z1  0 .
În mod asemănător:
 2 (u2 )t u1 = (u2 )t P1P2u1 = (u2 )t P2 P1P2u1 = (u2 )t P2 P1u1 = 1 (u2 )t u1
 (u ) u  0 .
2 t 1

k. Se determină cuplul k de variabile canonice (zk,uk) astfel încât acestea să fie maxim corelate, varianța lor să fie 1 iar
raportul de corelație cu variabilele canonice determinate la pașii anteriori să fie 0.
 ( R 2 ( zk , uk ))
 Maxz k ,u k

 ( zk )t zk  1, (uk )t uk  1
( z )t z  0, (u )t u  0, i  1, k  1
 k i k i

Soluțiile problemei sunt vectorii proprii ai matricelor P1P2 şi P2P1 corespunzători valorii proprii de ordinul k.
Variabilele canonice ale aceleiași grupe sunt două câte două necorelate. Un cuplu de variabile canonice se mai numește și
rădăcină canonică (canonical root).
Se poate arăta că și variabilele canonice de ordin diferit din grupe diferite sunt necorelate:
(zr)tuk = ( P1zr )t uk  ( zr )t P1uk  ( zr )t R( zk , uk ) zk  R( zk , uk )( zr )t uk , rezultă că (zr)tuk =0, deoarece corelația canonică R(zk,uk)
este diferită de 0.

S-ar putea să vă placă și