Sunteți pe pagina 1din 20

Tema 3

Analiza corespondenţelor

PROFESOR COORDONATOR: ZAMFIR IONELA CĂTĂLINA

STUDENT: PÎRVU BIANCA-DANIELA


GRUPA 1076
SERIA B
Contents
Introducere .................................................................................................................................................... 3
Analiza corespondenţelor.............................................................................................................................. 4
Metoda 1 de calcul .................................................................................................................................... 5
Statistica hi2 .......................................................................................................................................... 6
Gradele de libertate ............................................................................................................................... 6
p-value asociat testului .......................................................................................................................... 7
Metoda 2 de calcul .................................................................................................................................... 7
Metoda 3 de calcul .................................................................................................................................... 8
Anexe .......................................................................................................................................................... 17
Bibliografie: ............................................................................................................................................ 17
Tabel figuri.............................................................................................................................................. 17
Cod R ...................................................................................................................................................... 17
Introducere
Setul de date folosit în realizarea Analizei Corespondențelor este următorul:

Figure 1matrice date


Am extras aceste date în urma unui formular realizat pe tema “Preferinţele în domeniul fast-food”.
( https://forms.gle/u6BErYYEv3MubHUp6 )
Liniile sunt reprezentate de cele mai populare companii fast-food, iar coloanele indică preferinţele
clienţiilor, adică ce apreciază aceştia cel mai mult la companiile enumerate.

Analiza corespondenţelor
Din punct de vedere teroretic, Analiza Corespondențelor este o metodă de reducere a dimensionalității,
urmărind asocierea dintre categorii, pe baza unui tabel de contingență. În cazul datelor prezentate în
următorul tabel, prin efectuarea Analizei Corespondențelor se urmărește existența unei asocieri între
frecvențele formate din două date categoriale.

Figure 2 Tabel contingenta

În continuare, vom arăta cum se calculează și se interpretează analiza


corespondenței folosind două pachete din mediul R: FactoMineR pentru analiză
și respectiv factoextra pentru vizualizarea datelor.
Pentru tabelul de contingență dat, se poate utiliza testul hi-pătrat pentru a
evalua dacă există o dependență semnificativă între categoriile din linii și respectiv
coloane
Metoda 1 de calcul
Calculăm valorile proprii, unde numărul maxim de dimeniuni se calculează după formula:
nr maxim de dimensiuni = min(nr_linii - 1, nr_coloane - 1) = min(9-1, 5-1) = 4
Reamintim că examinăm valorile proprii pentru a determina numărul de
axe care trebuie luate în considerare.
Valorile proprii corespund cantității de informații reținută de fiecare axă.
Dimensiunile sunt ordonate descrescător și listate în funcție de cantitatea de
varianță explicată în soluție. Dimensiunea 1 explică cea mai mare varianță a
soluției, urmată de dimensiunea 2.
Procentul cumulativ explicat se obține prin adăugarea proporțiilor
succesive ale variației explicate pentru a obține totalul curent. De exemplu, 57,66%
plus 27,04% este egal cu 84,71% și așa mai departe. Prin urmare, aproximativ
84,71% din variație se explică prin primele două dimensiuni.

Figure 3 Valorile proprii

inertia totala = suma valorilor proprii #0.1437951

Figure 4 Valoarea inerţiei


Statistica hi2
statistica hi2 calc pe matricea de contingenta
O metodă riguroasă este utilizarea statisticii hi-pătrat pentru examinarea
asocierii dintre variabilele linii și coloane.
O statistică hi-pătrată ridicată înseamnă o legătură puternică între variabilele linie și
coloană.

Figure 5 testul hi2

Gradele de libertate
Gradele de libertate se calculează cu aajutorul formulei:
gradele de libertate = (nr_linii - 1) * (nr_coloane - 1) = (9 - 1) * (5 - 1) = 8 * 4 = 32

Figure 6 Grade de libertate


p-value asociat testului
În exemplul presupus, variabilele linie și coloană sunt asociate statistic
semnificativ

Figure 7 p-value

În exemplul prezentat, asocierea este foarte semnificativă (hi-pătrat:


98.64345, p = 1.026349e-08).

Metoda 2 de calcul
O a doua metoda de calcul al testului este reprezentată de funcţia chisq.test

Figure 8 chisq.test
Metoda 3 de calcul
O metodă alternativă pentru a determina numărul de dimensiuni este de a
privi un Scree Plot, care este graficul valorilor proprii/varianțelor ordonate de la
cea mai mare la cea mai mică. Numărul de componente este determinat în acel
punct dincolo de care valorile proprii rămase sunt toate relativ mici și de
dimensiuni comparabile.

Figure 9 rezultate AC

Figure 10 summary al rez AC


Scree plot-ul poate fi produs folosind funcția fviz_screeplot() din pachetul factoextra.

Figure 11 Screeplot
Punctul
în care
scree plot-ul arată o îndoire (așa-numitul „cot”) poate
fi considerat ca indicând o dimensionalitate optimă.
si contributia unei coloane la cele doua dimensiuni

Figure 12 si contributia unei coloane la cele 2 dim


Corrplot contribuţii

Figure 13 corpplot contribuţii

Trasăm scree plot-ul cu o linie întreruptă roșie


specificând valoarea proprie medie
Figure 14 screeplot

Conform graficului de mai sus sunt reprezentate contribuţia totală la cele 2 dimensiuni alese.
Linia punctată roșie din graficul de mai sus indică valoarea medie
așteptată, dacă contribuțiile au fost uniforme.

si contributia unei linii la cele doua dimensiuni


Figure 15 si contributia unei linii la cele 2 dim

contributie cantitate la cele doua dim = (c1*L1 + c2*L2) / (L1 + L2)


Constributie cantitate= (9.777433e-04* 0.08292124 + 37.5720123* 0.03888792) / (0.08292124 +
0.03888792)= 11.99

contributie KFC la cele doua dim = (r1*L1 + r2*L2) / (L1 + L2)


Contributia KFC= (1.589573e+00*0.08292124 +1.030388 * 0.03888792) / (0.08292124 +
0.03888792)=1.411
Figure 16 corrplot contributia unei linii la cele 2
dim

Figure 17screeplot

Conform graficului de mai sus sunt reprezentate contribuţia totală la cele 2 dimensiuni alese.
Linia punctată roșie din graficul de mai sus indică valoarea medie
așteptată, dacă contribuțiile au fost uniforme.
Figure 18 vectorul centrului de greutate pt matricea profil linieşi vectorul centrului de greutate pt matricea profil coloana

vectorul centrului de greutate pt matricea profil linieşi vectorul centrului de greutate pt matricea profil
coloana

Figure 19 symetric plot

Graficul de mai sus se numește grafic simetric (symetric plot) și prezintă un


model global în cadrul datelor. Liniile sunt reprezentate prin puncte
albastre și coloanele prin triunghiuri roșii.
Distanța dintre orice punct de linie sau punct de coloană oferă o măsură a
asemănării(similarităţii) sau a disimilarităţii lor. Punctele de linie cu profil similar
sunt incluse pe harta factorilor. Același lucru este valabil și pentru punctele de
coloană.

Acest grafic arată că:


Salad Box,Pizza Hut,Dominos sunt sunt preferate din punct de vedere calitativ;
McDonald’s este preferatul din punct de vedere al preţului si al ofertelor
Pentru a crea un biplot asimetric, punctele liniilor (sau coloanelor) sunt
reprezentate grafic din coordonatele standard (S), iar profilurile coloanelor (sau
liniilor) sunt reprezentate grafic din coordonatele principale
"rowprincipal": coloanele sunt reprezentate în spațiul liniilor;

Figure 20 biplot rowprincipal

Am folosit, săgețile argument, care sunt vectori de două elemente logice ce


specifică dacă graficul trebuie să conțină puncte (FALSE, implicit) sau săgeți
(TRUE). Prima valoare stabilește liniile și a doua valoare stabilește coloanele.
Dacă unghiul dintre două săgeți este mic, atunci există o asociere puternică
între rândul și coloana corespunzătoare.
Pentru a interpreta distanța dintre o linie şi o coloană, trebuie proiectate
perpendicular punctele de linie pe săgeata coloanei.
Este evident că McDonald’s la categoria de linii are o contribuție importantă la
polul pozitiv al primei dimensiuni, în timp ce categoriile Pizza Hut, Domino’s şi Salad_Box au o
contribuție majoră la polul negativ al primei dimensiuni;
Dimensiunea 2 este definită în principal de categoria linie KFC.
Anexe
Bibliografie:
o Seminar Analiza Datelor – Zamfir Ionela Cătălina
o Curs Analiza Datelor – Stancu Stelian

Tabel figuri
Figure 1matrice date ..................................................................................................................................... 3
Figure 2 Tabel contingenta ........................................................................................................................... 4
Figure 3 Valorile proprii ............................................................................................................................... 5
Figure 4 Valoarea inerţiei ............................................................................................................................. 5
Figure 5 testul hi2 ......................................................................................................................................... 6
Figure 6 Grade de libertate ........................................................................................................................... 6
Figure 7 p-value ............................................................................................................................................ 7
Figure 8 chisq.test ......................................................................................................................................... 7
Figure 9 rezultate AC .................................................................................................................................... 8
Figure 10 summary al rez AC ....................................................................................................................... 8
Figure 11 Screeplot ....................................................................................................................................... 9
Figure 12 si contributia unei coloane la cele 2 dim .................................................................................... 10
Figure 13 corpplot contribuţii ..................................................................................................................... 11
Figure 14 screeplot...................................................................................................................................... 12
Figure 15 si contributia unei linii la cele 2 dim .......................................................................................... 13
Figure 16 corrplot contributia unei linii la cele 2 dim ................................................................................ 14
Figure 17screeplot....................................................................................................................................... 14
Figure 18 vectorul centrului de greutate pt matricea profil linieşi vectorul centrului de greutate pt matricea
profil coloana .............................................................................................................................................. 15
Figure 19 symetric plot ............................................................................................................................... 15
Figure 20 biplot rowprincipal ..................................................................................................................... 16

Cod R
library(FactoMineR)
library(factoextra)
library(ggplot2)
install.packages("gplots", dependencies = TRUE)
library(gplots)
library(corrplot)
library(psych)

f<-read.table("date_t3.txt", sep="\t", header=TRUE,row.names=1)


View(as.matrix(f))

# Metoda 1 - pt testul hi2


rez=CA(f, graph = F)
eig=get_eigenvalue(rez)
eig

# nr maxim de dimensiuni = min(nr_linii - 1, nr_coloane - 1) = min(9-1, 5-1) = 4

s <- sum(eig[,1])
s # inertia totala = suma valorilor proprii #0.1437951

chi2 <- s*sum(as.matrix(f)) #98.64345


chi2 # statistica hi2 calc pe matricea de contingenta

df <- (nrow(f) - 1) * (ncol(f) - 1) #=32


df # gradele de libertate = (nr_linii - 1) * (nr_coloane - 1) = (9 - 1) * (5 - 1) = 8 * 4 = 32

p <- pchisq(chi2, df, lower.tail = F) #=1.026349e-08=0.00000001026349< 0.05 => acceptam H1 -> AC


poate fi folosita
p # p-value asociat testului

# metoda 2 - cu fct
X2 <- chisq.test(f)
X2
X2$observed
round(X2$expected,3)

#Metoda 3
print(rez)
summary(rez, nb.dec = 2, ncp = 2) # nb.dec = nr de zecimale; ncp = nr de dim afisat
rez$eig
windows()
fviz_screeplot(rez)

rez$col

windows()
corrplot(rez$col$contrib, is.corr=FALSE)
windows()
fviz_contrib(rez, choice = "col", axes = 1:2)

# linia punctata rosie inseamna o contributie asteptata daca era distributie uniforma

rez$row
windows()
corrplot(rez$row$contrib, is.corr=FALSE)
windows()
fviz_contrib(rez, choice = "row", axes = 1:2)

rez$call$marge.col # se noteaza cu ml si se numeste vectorul centrului de greutate pt matricea profil linie


rez$call$marge.row # se noteaza cu mc si se numeste vectorul centrului de greutate pt matricea profil
coloana

windows()
fviz_ca_biplot(rez)
# interpretam asocierile; NU DISTANTA

windows()
fviz_ca_biplot(rez, map ="rowprincipal", arrow = c(TRUE, TRUE),repel = TRUE)
# interpretam unghiurile ascutite dintre doua sageti de culori diferite
# la gf asta ca sa interpretam dist dintre o linie si o coloana, ducem proiectia perpendiculara a pct care
# rep linia pe sageata care rep coloana

S-ar putea să vă placă și