Sunteți pe pagina 1din 17

Capitolul 3, Analiza datelor, 2019

Analiza corespondenţelor

- Analiza corespondenţelor este o metodă de reducere a


dimensionalităţii, fiind considerată echivalentul analizei
componentelor principale pentru variabile categoriale.
- analiza se va baza pe un tabel de contingenţă şi nu pe o
matrice de corelaţie.
- Rândurile/coloanele matricii analizate reprezintă puncte
reprezentate într-un spațiu Euclidian multidimensional
Capitolul 3, Analiza datelor, 2019

- scopul analizei corespondențelor este acela de a redefini


dimensiunile spațiului astfel încât dimensiunile principale
să preia un procent cât mai mare posibil din varianța totală,
denumită inerţie.
- reprezentrea grafică a datelor inițiale într-un grafic cu
număr redus de dimensiuni.
- inerţia, măsura variației obţinută pe baza tabelului de
contingență, prin intermediul valorii statisticii chi pătrat
2 .
Capitolul 3, Analiza datelor, 2019

- Statistica chi pătrat reprezintă statistica pe baza căreia se


testează semnificația asocierii dintre categoriile
reprezentate pe coloane și cele reprezentate pe linii
- Această inerție este descompusă pe mai multe dimensiuni.
Dacă tabelul are dimensiunea r*c atunci numărul maxim
de dimensiuni posibil este min(r-1,c-1).
- În analiză se vor păstra primele k dimensiuni care cumulat
rețin un procent semnificativ din inerția totală (80-90%) .
Capitolul 3, Analiza datelor, 2019

- principiul pe baza căruia se construieşte soluția, este


descompunerea unei matrici (datele au fost centrate si
normalizate) cu ajutorul valorilor proprii și a vectorilor
proprii pentru matrici pătratice simentrice sau cu ajutorul
metodei SVD (singular value decomposition) pentru
matrici rectangulare.
- în acest context pătratul valorilor singulare reprezintă
procentul de inerție explicat (inerții principale).
Capitolul 3, Analiza datelor, 2019

NOTAȚII
- volumul eşantionului utilizat este n
- matricea inițială a frecvenţelor va fi compusă din elemente nij . –
- 2 variabile catgoriale, prima cu I categorii iar a doua cu J categorii,
această matrice va avea I linii și J coloane. Analiza se dezvoltă pe o
matrice a corespondențelor, notată P, ale cărei elemente se obţin
folosind relaţia:

nij
pij =
n
Capitolul 3, Analiza datelor, 2019

Pentru fiecare linie respectiv coloană din matricea P se calculează


frecvențelr relative marginale (mase) folosind relaţiile:
J
ni.
pi. =  pij = = ri
j =1 n

I n. j
p. j =  pij = = cj
i =1 n

Ipoteza nulă a testului chi pătrat, conform căreia cele două variabile
categoriale analizate sunt independente, se scrie astfel:

pij = rc
i j
Capitolul 3, Analiza datelor, 2019

Valoarea statisticii testului se bazează pe comparaţia dintre frecvenţele


observate 𝑛𝑖𝑗 şi cele teoretice, aşteptate dacă variabilele ar fi
independente, notate 𝑛̂𝑖𝑗 .

( n − n ˆ ) 2

 2 =  ij ij
i j nˆij

unde

ni.  n. j
nˆij =
n
Capitolul 3, Analiza datelor, 2019

Inerția totală, o măsură a variației din date, determinate de existența


diferențelor semnificative între categoriile variabilei reprezentate pe linii
în ceea ce privește variabila reprezentată pe coloane se calculează astfel:

2 ( pij − pˆ ij ) 2
= 
n i j pˆ ij

Matricea care este descompusă se numeşte matricea reziduurilor


standardizate (S), iar elementele sale se obţin folosind următoarea
relaţie:
𝑝𝑖𝑗 −𝑟𝑖 𝑐𝑗
𝑠𝑖𝑗 =
√𝑟𝑖 𝑐𝑗
Capitolul 3, Analiza datelor, 2019

Această relaţie se transpune matriceal astfel:

𝑆 = 𝐷𝑟 −1⁄2 (𝑃 − 𝑟𝑐 𝑇 )𝐷𝑐 −1⁄2

unde:

r, c sunt vectorii maselor pe linii respectiv coloane

𝐷𝑟 , 𝐷𝑐 sunt matrici diagonale ce conţin masele


2
Urma matricii 𝑆𝑆 𝑇 = ∑𝑖 ∑𝑗 𝑠𝑖𝑗 reprezintă inerţia totală şi măsoară
varianţa totală asociată tabelului de contingenţă (suma pătratelor
elementelor matricii reziduurilor standardizate).
Capitolul 3, Analiza datelor, 2019

Metoda SVD aplicată matricii S va conduce la descompunerea


următoare:

𝑆 = 𝑈Σ𝑉 𝑇

Unde U şi V sunt matrici alcătuite din vectori singulari ortonormali,


îndeplinind condiţia 𝑈 𝑇 𝑈 = 𝑉 𝑇 𝑉 = 𝐼 iar Σ este matrice diagonală ce
conţine valorile singulare.
- vectorii singulari din matricea V sunt vectori proprii ai matricii 𝑆 𝑇 𝑆
- vectorii singulari din matricea U sunt vectori proprii ai matricii
𝑆𝑆 𝑇 .
𝑆 𝑇 𝑆 = 𝑉Σ𝑈 𝑇 𝑈Σ𝑉 𝑇 = 𝑉Σ 2 𝑉 𝑇
Capitolul 3, Analiza datelor, 2019

𝑆𝑆 𝑇 = 𝑈Σ𝑉 𝑇 𝑉Σ𝑈 𝑇 = 𝑈Σ 2 𝑈 𝑇
Pătratul valorilor singulare din matricea Σ 2 reprezintă valorile proprii ale
matricii 𝑆 𝑇 𝑆 sau 𝑆𝑆 𝑇 redate în matricea diagonală Λ. Aceste valori 𝜆 se
numesc inerţii principale iar suma lor reprezintă inerţia totală.

Coordonatele principale ale elementelor de pe linii sunt date de:


−1/2
𝐹 = 𝐷𝑟 𝑈Σ (10.13)

iar coordonatele principale ale elementelor de pe coloane sunt date de:


−1⁄2
𝐺= 𝐷𝑐 𝑉Σ (10.14)
Capitolul 3, Analiza datelor, 2019

Pentru o hartă cu două dimensiuni se vor folosi primele două coloane ale
matricilor F şi G şi procentul inerţiei explicate de cele 2 dimensiuni va fi
(𝜆1 + 𝜆2 )⁄𝑖𝑛𝑒𝑟ţ𝑖𝑒 𝑡𝑜𝑡𝑎𝑙ă.
Capitolul 3, Analiza datelor, 2019

EXEMPLU

Poziţia respondenţilor faţă de afirmaţia “Când ţara mea are rezultate


bune în sport sunt mândru sa fiu...(naţionalitatea)“ (UK, US, Rusia,
Spania sau Franţa).
a fost exprimată prin alegerea unei valori între 1 şi 5, unde 1 reprezintă
acord total iar 5 semnifică dezacord total.

- au fost analizate răspunsurile a 6066 respondenţi. Fiecare coloană


conţine numărul respondenţilor dintr-o anumită ţară care au selectat
un anumit nivel pe scala 1-5.
Capitolul 3, Analiza datelor, 2019

Tabelul de contingenţă – frecvenţe absolute


UK SUA Rusia Spania Franta Total
1 230 400 1010 201 365 2206
2 329 471 530 639 478 2447
3 177 237 141 208 305 1068
4 34 28 21 72 50 205
5 6 12 11 14 97 140
Total 776 1148 1713 1134 1295 6066

Frecvenţe relative
UK SUA Rusia Spania Franta Medie
1 29.64 34.84 58.96 17.72 28.19 36.37
2 42.40 41.03 30.94 56.35 36.91 40.34
3 22.81 20.64 8.23 18.34 23.55 17.61
4 4.38 2.44 1.23 6.35 3.86 3.38
5 0.77 1.05 0.64 1.23 7.49 2.31
Total 100.0 100.0 100.0 100.0 100.0 100.0
Capitolul 3, Analiza datelor, 2019

HARTA SIMETRICĂ- reprezentare în coordonate principale


Capitolul 3, Analiza datelor, 2019

Analiza corespondenţelor a fost realizată în R cu ajutorul funcţiei ca() (Nenadic,


Greenacre, 2007).

Rezultaele analizei corespondenţelor


Capitolul 3, Analiza datelor, 2019

Referinţe
Greenacre, M., & Blasius, J. (2006). Multiple correspondence analysis and related methods. Chapman and Hall/CRC.

Nenadic, O., Greenacre, M. (2007) Correspondence Analysis in R, with two- and three-dimensional graphics: The ca package. Journal of
Statistical Software 20(3):1-13.

S-ar putea să vă placă și