Sunteți pe pagina 1din 24

Analiza statistică multidimensională

Analiza în componente
principale
Octombrie 2023

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul
variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
  n
 p2 
D=
 
 pi = 1
 i=1
 
0 pn 

• Produsul scalar a două variabile xj și xk este:


n
j
x ,x k
= x' Dx =  pi xik xij
j k
acesta fiind covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
i =1

• Observație:
• Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Cosinusul unghiului dintre două variabile centrate este coeficientul de corelație dintre acestea
x j , xk s jk
cos  jk = = = rjk
x j  xk s j sk
Analiza statistică multidimensională
Rotirea sistemului de coordonate
• În sistemul inițial de axe punctul A are coordonatele (x1, x2). Dacă rotim axele cu un anumit unghi ,
coordonatele punctului în noul sistem de coordonate vor fi (x1*, x2 *) definite astfel:
• x1* = cos() x1 + sin() x2
• x2* = - sin() x1 + cos() x2

• Observație: Variația totală a punctelor reprezentate în sistemul de axe inițial este în totalitate conservată prin
reprezentarea grafică în noul sistem de axe.

• EXEMPLU: Sistemul de axe se rotește cu 45 de grade.


Observatie x1 x2 (x1)' (x2)'
1 7 10 12.02 2.12
2 5 11 11.31 4.24
3 10 14 16.97 2.83
4 3 5 5.66 1.41
5 5 10 10.61 3.54
media 6 10 11.31 2.83
dispersia 5.6 8.4 13 1
dispersia totala 14 14

(x1)'=cos(45) x1+ sin(45) x2

(x2)'= - sin(45) x1+ cos(45) x2


Analiza statistică multidimensională

4. Vectori și valori proprii


 Definiție: Fie o matrice ARnxn. Un număr   C se numește valoare proprie a matricei A, dacă există un vector
nenul x Cn astfel încât:

Ax= x

Vectorul x0 se numește vector propriu al matricei A asociat valorii proprii  .

 Valorile proprii ale matricei A sunt zerourile polinomului caracteristic:

P( )=det( In-A)

Observație: Orice matrice A are exact n valori proprii complexe, nu neapărat distincte.
Analiza statistică multidimensională

4. Vectori și valori proprii


 Exemplu:
Determinați valorile și vectorii proprii pentru matricea:

P( )=det( In-A)=0 

  
Analiza statistică multidimensională
Analiza în componente principale (ACP)
I. Definire şi utilizare
• este o metodă descriptivă
• pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
• pentru vizualizarea corelaţiilor existente între variabile
• construieşte variabile noi, artificiale şi reprezentări grafice care permit vizualizarea relaţiilor între
variabile cât şi existenţa eventuală a unor grupuri de indivizi sau grupuri de variabile

• II. În practică, se lucrează cu datele centrate şi reduse.

• Tabelul de date se transformă în Z = (zij) x ij − x j


zij =
sj
Analiza statistică multidimensională

II. Principiul metodei


• ACP sintetizează variabilitatea iniţială a datelor privind cele p variabile iniţiale în câteva componente necorelate
între ele, numite componentele principale. Fiecare componentă principală este extrasă ca o combinaţie liniară
de variabile iniţiale. Metoda constă în extragerea celui mai mic număr de componente care preiau cea mai mare
parte a varianţei datelor iniţiale, adică în reducerea datelor iniţiale cu o pierdere minimă de „informaţie”.

• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie

• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.

• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă

Valorile proprii
 s 2 s12  s1n 
 1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22  s 2n  componentă principală.
S= 21

    2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
 n1 s n 2  s 2n 
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale

• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:

Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p

 r
j=1
2
( c, x j
)
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale

ACP înlocuieşte variabilele iniţiale x1, x2, ..., xp,


care sunt corelate, prin variabile noi,
componentele principale c1, c2, ....,
combinaţii liniare ale variabilelor iniţiale xj,
necorelate între ele, de dispersie maximală şi
legate foarte mult de variabilele iniţiale xj,
în sensul păstrării informaţiei cât mai mult posibil
Analiza statistică multidimensională
Exemplu de calcul
Analiza în Componente Principale
Matricea X Matricea standardizata Z
Observatie x1 x2 x3 X1std X2std X3std
1 7 10 11 0.59 0.00 1.34
2 5 11 10 -0.27 0.33 0.99 Matricea de Corelatie R Column 1 Column 2 Column 3
3 10 14 8 1.88 1.30 0.30 Column 1 1 0.840042 0.219708
4 3 5 9 -1.13 -1.63 0.65 Column 2 0.840042 1 0.080211
5 5 10 3 -0.27 0.00 -1.42 Column 3 0.219708 0.080211 1
6 7 12 5 0.59 0.65 -0.73
7 3 6 4 -1.13 -1.30 -1.08
8 5 12 7 -0.27 0.65 -0.04
Media 5.63 10.00 7.13 0.00 0.00 0.00
Abaterea medie patratica 2.33 3.07 2.90 1.00 1.00 1.00
Analiza statistică multidimensională
Exemplu calcul
Analiza în Componente Principale

Componentele principale
sunt: Zu

c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza statistică multidimensională
IV. Interpretarea rezultatelor

1. Calitatea reprezentărilor pe planurile principale 

• ACP: o reprezentare a indivizilor într-un spaţiu de dimensiune mai mică decât


p  problema este de a aprecia pierderea informaţiei survenite şi de a şti câţi
factori trebuie reţinuţi
• Calitatea reprezentării pe un plan de dimensiune k:
(1+2+...+k)/ (1+2+...+p)
    

◼ Aprecierea procentului de inerţie trebuie să facă să intervină numărul de variabile iniţiale. Un


procent de 10% nu are aceeaşi semnificaţie pe un tabel de 20 de variabile ca pe un tabel de 100 de
variabile.

◼ Când se lucrează pe date centrate reduse, se reţin componentele principale corespunzătoare


valorilor proprii superioare lui 1.
Analiza statistică multidimensională
c 

IV. Interpretarea rezultatelor r(xj,c2) .xj

2. Corelaţii între componente şi variabilele iniţiale r(xj,c1) c

Pentru a da o semnficaţie unei componente principale, c, se


calculează coeficienţii de corelaţie liniară r(c,xj) şi reţinându-se
cei mai mari în valoare absolută
r(c,xj)=1/2uj
Nu se vor lua în consideraţie punctele care
nu sunt apropiate de circumferinţă c2

Contribuţia variabilei j la axa k: x2


x6
r 2 (c k , x j ) x3
CTRV( j, k) = = (ukj ) 2 x4
k x5 c1
x1
Proporția explicată de factorii principali din
variația unei variabile (Communality):
coeficientul de determinate R2
Analiza statistică multidimensională
IV. Interpretarea rezultatelor

3. Reprezentarea indivizilor
c1 este foarte corelată cu o variabilă xj ~ indivizii care au o coordonată puternică pozitivă pe axa 1 sunt
caracterizaţi printr-o valoare a lui xj net superioară mediei

1
Contribuţia individului i la componenta ck : CTRI(i,k) = p i c k2i
k

• Când ponderile sunt toate egale cu 1/n, contribuţiile nu aduc mai multe informaţii decât coordonatele

• Nu este de dorit ca un individ să aibă o contribuţie excesivă (mai mare ca ponderea pi a individului) pentru că
acesta ar fi un factor de instabilitate
Analiza statistică multidimensională
V. Folosirea variabilelor și indivizilor suplimentari
• Înglobarea indivizilor ilustrativi şi variabilelor pasive într-un ACP se realizează astfel:
• pentru indivizii ilustrativi, este suficient a calcula:
c j = x ilustr  u j
• pentru variabilele pasive, trebuie distins intre variabilele pasive continue şi variabilele pasive discrete :
• dacă variabila este continuă calculăm r(cj,y), y fiind variabila pasivă.
• dacă variabila este discretă atunci calculăm: r(c j , y k )

unde yk este centrul de greutate pentru indivizii din categoria k.


Analiza statistică multidimensională

V. Rotirea axelor
 Logica analizei componentelor principale se bazează pe ideea fundamentală că se pot face anumite transformări
asupra observațiilor inițiale, care să determine maximizarea varianței individuale pentru anumite variabile și
minimizarea varianței pentru alte variabile prin construirea unor noi fariabile, numite componente principale.

 Transformările care asigură maximizarea varianțelor individuale ale unor variabile sunt reprezentate de
transformările de coordonate corespunzătoare efectuării unor rotații ortogonale ale axelor originale.

 Dacă vom considera că în sistemul inițial de axe punctul reprezentat de cea de-a t-a observație are coordonatele
(xt1, xt2) atunci rotația axelor cu un anumit unghi () va determina o modificare a coordonatelor acestui punct,
respectiv a valorilor celor două observații astfel:
Analiza statistică multidimensională

Exemplul 1
In tabelul de mai jos avem informatii din anul 2008 despre 92 de tari cu privire la rata mortalitatii, rata
natalitatii, rata fertilitatii, cheltuielile publice pentru educatie, acces la facilitati sanitare, speranta de viata, acces
la surse de apa, cheltuielile publice pentru sanatate si forta de munca de sex feminin. Dorim sa vizualizam
relatiile intre variabilele precizate mai sus.
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplu 2
Pentru 50 de angajati s-au inregistrat date referitoare la:
- varsta
- venit
- numar salariati din intreprindere
- timpul de acasa la servici
- de cate ori pe luna lucrati mai mult de doua ore noaptea?
Analizati interdependentele intre aceste variabile si posibilele grupuri de indivizi utilizand ACP.
Analiza statistică multidimensională

Exemplul 2

S-ar putea să vă placă și