Sunteți pe pagina 1din 15

Analiza statistică multidimensională

Analiza în componente
principale
Octombrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională
IV. Interpretarea rezultatelor

1. Calitatea reprezentărilor pe planurile principale 

• ACP: o reprezentare a indivizilor într-un spaţiu de dimensiune mai mică decât


p  problema este de a aprecia pierderea informaţiei survenite şi de a şti câţi
factori trebuie reţinuţi
• Calitatea reprezentării pe un plan de dimensiune k:
(1+2+...+k)/ (1+2+...+p)
    

◼ Aprecierea procentului de inerţie trebuie să facă să intervină numărul de variabile iniţiale. Un


procent de 10% nu are aceeaşi semnificaţie pe un tabel de 20 de variabile ca pe un tabel de 100 de
variabile.

◼ Când se lucrează pe date centrate reduse, se reţin componentele principale corespunzătoare


valorilor proprii superioare lui 1.
Analiza statistică multidimensională
c 

IV. Interpretarea rezultatelor r(xj,c2) .xj

2. Corelaţii între componente şi variabilele iniţiale r(xj,c1) c

Pentru a da o semnficaţie unei componente principale, c, se


calculează coeficienţii de corelaţie liniară r(c,xj) şi reţinându-se
cei mai mari în valoare absolută
r(c,xj)=1/2uj
Nu se vor lua în consideraţie punctele care
nu sunt apropiate de circumferinţă c2

Contribuţia variabilei j la axa k: x2


x6
r 2 (c k , x j ) x3
CTRV( j, k) = = (ukj ) 2 x4
k x5 c1
x1
Proporția explicată de factorii principali din
variația unei variabile (Communality):
coeficientul de determinate R2
Analiza statistică multidimensională
IV. Interpretarea rezultatelor

3. Reprezentarea indivizilor
c1 este foarte corelată cu o variabilă xj ~ indivizii care au o coordonată puternică pozitivă pe axa 1 sunt
caracterizaţi printr-o valoare a lui xj net superioară mediei

1
Contribuţia individului i la componenta ck : CTRI(i,k) = p i c k2i
k

• Când ponderile sunt toate egale cu 1/n, contribuţiile nu aduc mai multe informaţii decât coordonatele

• Nu este de dorit ca un individ să aibă o contribuţie excesivă (mai mare ca ponderea pi a individului) pentru că
acesta ar fi un factor de instabilitate
Analiza statistică multidimensională
V. Folosirea variabilelor și indivizilor suplimentari
• Înglobarea indivizilor ilustrativi şi variabilelor pasive într-un ACP se realizează astfel:
• pentru indivizii ilustrativi, este suficient a calcula:
c j = x ilustr  u j
• pentru variabilele pasive, trebuie distins intre variabilele pasive continue şi variabilele pasive discrete :
• dacă variabila este continuă calculăm r(cj,y), y fiind variabila pasivă.
• dacă variabila este discretă atunci calculăm: r(c j , y k )

unde yk este centrul de greutate pentru indivizii din categoria k.


Analiza statistică multidimensională

V. Rotirea axelor
 Logica analizei componentelor principale se bazează pe ideea fundamentală că se pot face anumite transformări
asupra observațiilor inițiale, care să determine maximizarea varianței individuale pentru anumite variabile și
minimizarea varianței pentru alte variabile prin construirea unor noi fariabile, numite componente principale.

 Transformările care asigură maximizarea varianțelor individuale ale unor variabile sunt reprezentate de
transformările de coordonate corespunzătoare efectuării unor rotații ortogonale ale axelor originale.

 Dacă vom considera că în sistemul inițial de axe punctul reprezentat de cea de-a t-a observație are coordonatele
(xt1, xt2) atunci rotația axelor cu un anumit unghi () va determina o modificare a coordonatelor acestui punct,
respectiv a valorilor celor două observații astfel:
Analiza statistică multidimensională

Exemplul 1
In tabelul de mai jos avem informatii din anul 2008 despre 92 de tari cu privire la rata mortalitatii, rata
natalitatii, rata fertilitatii, cheltuielile publice pentru educatie, acces la facilitati sanitare, speranta de viata, acces
la surse de apa, cheltuielile publice pentru sanatate si forta de munca de sex feminin. Dorim sa vizualizam
relatiile intre variabilele precizate mai sus.
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplu 2
Pentru 50 de angajati s-au inregistrat date referitoare la:
- varsta
- venit
- numar salariati din intreprindere
- timpul de acasa la servici
- de cate ori pe luna lucrati mai mult de doua ore noaptea?
Analizati interdependentele intre aceste variabile si posibilele grupuri de indivizi utilizand ACP.
Analiza statistică multidimensională

Exemplul 2
Analiza statistică multidimensională

Analiza de
corespondente simplă
Analiza statistică multidimensională
II. Analiza de corespondenţe simplă

• se formează tabelul de asociere N= n ij ( )


i =1, m1 , j=1, m 2
• nij – numărul observaţiilor care au modalitatea i a variabilei 1 şi modalitatea j a variabilei 2
• se construiesc matricile frecvenţelor cumulate pe linii şi frecvenţelor cumulate pe coloane:
n1. 0 0 0  n.1 0 0 0 
0 n 0 0  0 n 0 0 
D1 =   D2 =  
2 . .2
0 0  0  0 0  0 
   
0 0 0 n  0 0 0 n 2

 m1.  .m

• unde m1 numărul modalităţilor primei variabile şi ni.=  n ij


j
• unde m2 numărul modalităţilor variabilei a doua şi n.j=  n ij
i
Analiza statistică multidimensională
II. Analiza de corespondenţe simplă

• ACP pentru tabelul pofilelor linii


• tabelul de date: D1−1N
−1
• metrica: M= nD 2
• ponderile: D=D1/n

• ACP pentru tabelul pofilelor coloane


• tabelul de date: ND −2 1
−1
• metrica: M= 1nD
• ponderile: D=D2/n

S-ar putea să vă placă și