Documente Academic
Documente Profesional
Documente Cultură
Analiza în componente
principale
Octombrie 2023
Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul
variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
n
p2
D=
pi = 1
i=1
0 pn
• Observație:
• Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Cosinusul unghiului dintre două variabile centrate este coeficientul de corelație dintre acestea
x j , xk s jk
cos jk = = = rjk
x j xk s j sk
Analiza statistică multidimensională
Rotirea sistemului de coordonate
• În sistemul inițial de axe punctul A are coordonatele (x1, x2). Dacă rotim axele cu un anumit unghi ,
coordonatele punctului în noul sistem de coordonate vor fi (x1*, x2 *) definite astfel:
• x1* = cos() x1 + sin() x2
• x2* = - sin() x1 + cos() x2
• Observație: Variația totală a punctelor reprezentate în sistemul de axe inițial este în totalitate conservată prin
reprezentarea grafică în noul sistem de axe.
Ax= x
Observație: Orice matrice A are exact n valori proprii complexe, nu neapărat distincte.
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza în componente principale (ACP)
I. Definire şi utilizare
• este o metodă descriptivă
• pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
• pentru vizualizarea corelaţiilor existente între variabile
• construieşte variabile noi, artificiale şi reprezentări grafice care permit vizualizarea relaţiilor între
variabile cât şi existenţa eventuală a unor grupuri de indivizi sau grupuri de variabile
• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie
• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.
• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă
Valorile proprii
s 2 s12 s1n
1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22 s 2n componentă principală.
S= 21
2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
n1 s n 2 s 2n
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale
• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:
Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p
r
j=1
2
( c, x j
)
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Componentele principale
sunt: Zu
c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza statistică multidimensională
IV. Interpretarea rezultatelor
3. Reprezentarea indivizilor
c1 este foarte corelată cu o variabilă xj ~ indivizii care au o coordonată puternică pozitivă pe axa 1 sunt
caracterizaţi printr-o valoare a lui xj net superioară mediei
1
Contribuţia individului i la componenta ck : CTRI(i,k) = p i c k2i
k
• Când ponderile sunt toate egale cu 1/n, contribuţiile nu aduc mai multe informaţii decât coordonatele
• Nu este de dorit ca un individ să aibă o contribuţie excesivă (mai mare ca ponderea pi a individului) pentru că
acesta ar fi un factor de instabilitate
Analiza statistică multidimensională
V. Folosirea variabilelor și indivizilor suplimentari
• Înglobarea indivizilor ilustrativi şi variabilelor pasive într-un ACP se realizează astfel:
• pentru indivizii ilustrativi, este suficient a calcula:
c j = x ilustr u j
• pentru variabilele pasive, trebuie distins intre variabilele pasive continue şi variabilele pasive discrete :
• dacă variabila este continuă calculăm r(cj,y), y fiind variabila pasivă.
• dacă variabila este discretă atunci calculăm: r(c j , y k )
V. Rotirea axelor
Logica analizei componentelor principale se bazează pe ideea fundamentală că se pot face anumite transformări
asupra observațiilor inițiale, care să determine maximizarea varianței individuale pentru anumite variabile și
minimizarea varianței pentru alte variabile prin construirea unor noi fariabile, numite componente principale.
Transformările care asigură maximizarea varianțelor individuale ale unor variabile sunt reprezentate de
transformările de coordonate corespunzătoare efectuării unor rotații ortogonale ale axelor originale.
Dacă vom considera că în sistemul inițial de axe punctul reprezentat de cea de-a t-a observație are coordonatele
(xt1, xt2) atunci rotația axelor cu un anumit unghi () va determina o modificare a coordonatelor acestui punct,
respectiv a valorilor celor două observații astfel:
Analiza statistică multidimensională
Exemplul 1
In tabelul de mai jos avem informatii din anul 2008 despre 92 de tari cu privire la rata mortalitatii, rata
natalitatii, rata fertilitatii, cheltuielile publice pentru educatie, acces la facilitati sanitare, speranta de viata, acces
la surse de apa, cheltuielile publice pentru sanatate si forta de munca de sex feminin. Dorim sa vizualizam
relatiile intre variabilele precizate mai sus.
Analiza statistică multidimensională
Exemplul 1
Analiza statistică multidimensională
Exemplul 1
Analiza statistică multidimensională
Exemplul 1
Analiza statistică multidimensională
Exemplu 2
Pentru 50 de angajati s-au inregistrat date referitoare la:
- varsta
- venit
- numar salariati din intreprindere
- timpul de acasa la servici
- de cate ori pe luna lucrati mai mult de doua ore noaptea?
Analizati interdependentele intre aceste variabile si posibilele grupuri de indivizi utilizand ACP.
Analiza statistică multidimensională
Exemplul 2