Sunteți pe pagina 1din 12

ACADEMIA DE STUDII ECONOMICE DIN BUCUREȘTI

Facultatea de Cibernetica, Statistica si Informatica Economica

PROIECT

ANALIZA DATELOR

ANALIZA CORESPONDENTELOR

Mazilu Andreea Raluca

Grupa 1061, Seria B

Prof. Matei Maer Monica Mihaela

1
Cuprins

Contents
1. Metoda folosită ..................................................................................................................................... 3
2. Prezentarea datelor .............................................................................................................................. 4
2.1. Prezentarea situatiei si a datelor ...................................................................................................... 4
2.2. Tabelul datelor .................................................................................................................................. 4
3. Analiza corespondentelor ..................................................................................................................... 6
3.1. Tabel de contingenta ......................................................................................................................... 7
3.2. Testul chi patrat ................................................................................................................................. 8
3.3. Rezultatele analizei corespondentelor .............................................................................................. 9
3.4. Harta corespondentelor ................................................................................................................... 10
Bibliografie: ................................................................................................................................................. 11
Anexe .......................................................................................................................................................... 11

2
1. Metoda folosită

Scopul analizei corespondenţelor este de a descrie legăturile sau corespondenţele dintre două
variabile sau două grupe de variabile, respectiv de a studia simultan liniile şi coloanele unui tabel
de contingenţă, pentru a descrie structura liniilor în funcţie de legătura lor cu coloanele sau
invers, structura coloanelor în funcţie de legătura lor cu liniile tabelului analizat.

Analiza se aplică în general asupra variabilelor calitative, nominale, dar nu sunt excluse nici
cele ordinale. În cazul proiectului meu voi folosi variabile ordinale reprezentate de
caracteristicile unor maşini, date folosite si la primul proiect.

Punctul de pornire îl reprezintă tabelul de contingenţă, unde liniile şi coloanele joacă un rol
simetric. Se acordă aceeaşi importanţă oricărei linii sau coloane, dacă frecvenţele absolute
aferente sunt diferite.

De asemenea, această analiză este o metodă de reducere a dimensionalităţii, rândurile şi


coloanele sunt reprezentate într un spaţiu Euclidian multidimensional, iar scopul nostru este
acela de a redefini dimensiunile spaţiului astfel încât dimensiunile principale să preia un procent
maxim posibil din varianţa totală, numita si inerţie. Acest lucru ne va permite reprezentarea
grafică a datelor iniţiale într un grafic cu număr redus de dimensiuni.

Din punct de vedere teoretic această metodă este considerată ca o extensie a analizei
componentelor principale, dar ea poate constitui şi o etapă de trecere spre procedee mai generale
de studiere a relaţiilor dintre variabilele calitative, cum sunt modelele logliniare.

3
2. Prezentarea datelor

2.1. Prezentarea situatiei si a datelor

In cele ce urmeaza am realizat o analiza a celor mai importante caracteristici ale celor mai
cunoscute 25 de autovehicule. Scopul final este acela de a stabili care dintre aceste caracteristici
sunt definitorii in alegerea unei masini personale.

Tabelul ce urmeaza contine caracteristicile a 25 de autoturisme. Tabelul prezentat mai jos


contine 25 de linii corespunzatoare marcilor de autoturisme analizate si 7 coloane, reprezentand
pretul si alte caracteristici tehnice precum urmeaza:

 I1- Pret(euro)-Price(euro)
 I2. Viteza maxima atinsa(km/h)- Maximum speed
 I3- Puterea motorului(cai putere) –Power(hp)
 I4- Volumul motorului(cm3) -Engine displacement
 I5-Volumul rezervorului(litrii)– Fuel tank volume
 I6-Masa proprie(kg)- Kerb Weight
 I7- Consumul de carburant(l/100km)- Fuel consumption (economy) - combined

Datele au fost preluate de pe www.auto-data.net

2.2. Tabelul datelor


Datele cu care lucram sunt prezentate in urmatorul tabel:

4
Column1 I1 I2 I3 I4 I5 I6 I7
Audi A8 71.816 250 335 4.172 90 1.835 7.5
Dacia - Logan II 8 173 90 1.461 50 1.059 3.5
BMW - X5 52.23 250 400 2.993 80 2.275 6.8
Opel - Corsa E 7.8 207 140 1.364 45 1.199 5.9
Renault - Laguna 7.7 210 173 1.995 66 1.505 4.6
Ford - Fiesta Active 13 190 120 1.499 40 1.204 4.4
Mercedes-Benz - GLS 92.353 250 585 5.461 100 2.505 12.3
Dacia - Duster II 9.6 172 114 1.598 50 1.24 6.9
Hummer - H3T 31.143 160 305 5.327 102 2.299 16.8
Jeep - Compass III 29.198 190 170 1.956 60 1.619 5.7
Suzuki - Verona 7.002 200 156 2.492 65 1.535 8.8
Volkswagen Golf V 4 187 105 1.896 55 1.287 5.2
Volkswagen - Passat Alltrack 39.095 231 220 1.984 66 1.602 6.9
Skoda - Octavia 28.461 250 245 1.984 50 1.59 6.4
Mercedes-Benz - A-class Sedan 55.2 250 224 1.991 43 1.39 6.1
Jeep - Renegade 31.389 196 170 1.956 55 1.66 6.6
Volkswagen - Tiguan Allspace 39.475 220 220 1.984 60 1.669 7.8
Volkswagen - Touareg 59.99 235 286 2.967 75 1.995 6.9
Mercedes GLA 56.3 300 250 1.995 50 1.99 6.2
Seat - Leon III 30.305 226 184 1.968 50 1.36 4.8
Citroen - C4 L sedan 15 189 116 1.587 60 1.33 7.1
Dacia - Sandero II 7.7 166 90 1.461 50 1.09 3.8
Chevrolet - Aveo II Sedan 91.7 171 86 1.229 46 1.085 5.5
Nissan - Qashqai II 96.99 182 110 1.461 55 1.32 3.8
Audi A1 9.9 203 116 999 40 1.105 4.8
Audi A5 Coupé 12.99 215 150 1.968 54 1.635 4.5
Audi Q3 13.69 211 150 1.498 60 1.46 6
Citroën C4 Cactus 8 189 99 1.56 45 1.07 3.1
Citroën CElysée 13 183 99 1560 50 1.09 3.8
Nissan Juke 8.25 215 190 1.618 46 1.225 6
Toyota Corolla 10.3 180 90 1.364 55 1.3 4.1
BMW Seria 1 120 10.9 260 143 1.995 65 1.7 6.5
BMW Seria 3 320 17.29 260 184 1.995 54 1.9 6.8
BMW Seria 5 520 17.5 260 190 1.998 52 1.995 6.9
BMW X3 8.65 260 177 2.01 50 1.09 6.2

5
3. Analiza corespondentelor

Analizand corelatia dintre indicatori, s-a observant o corelatie puternica intre indicatorul I3-
reprezentat de caii putere si de indicatorul I6- reprezentat de masa automobilului. Pentru a
reprezenta harta cu doua dimensiuni, am hotarat sa folosesc acesti doi indicatori in analiza mea.
Astfel, se va analiza situatia masinilor cu privire la performanta acestora studiate prin caii putere
pe care ii poate atinge si prin masa autovehiculelor, indicator ce este cunoscut ca fiind intr-o
relatie direct proportionala cu siguranta pe care o ofera.

Folosind functia qnorm pentru variabila cai putere, am sesizat ca 33% dintre autoturisme vor
avea valori sub 140.224 cai putere, iar restul de 66% peste 227.3696 cai putere. Analog si in
cazul masei autoturismelor: vom avea greutati sub 1.348739 mii kg in procent de 33%, restul de
66% aflandu-se peste greutatea de 1.680574 mie kg.

Pentru evidentierea tabelului din figura 1.am notat cu caii putere valori mici autoturismele
care se aflau sub valoarea scrisa mai sus, de 140.224, caii putere valori mari, autoturismele peste
valoarea de 227.3696, iar cu caii putere valori medii, pe cele cu valori situate intre cele doua
extremitati. Acelasi lucru si pentru masa masinilor.

Figure 1

6
Figure 2 Echilibrarea autovehiculelor pe variabile

In tabelul din figura 2 putem observa ca valorile pentru cai putere nu sunt foarte echilibrate, majoritatea
masinilor avand un numar mediu spre mic de cai putere, iar cele cu un numar mare de cai putere situandu-
se pe ultima pozitie, doar 7 din observatiile noastre depasind valoarea maxima.

Cat despre masa masinilor putem spune ca valorile sunt destul de echilibrate, diferenta dintre ele nefiind
foarte mare.

3.1. Tabel de contingenta

Figure 3 Tabel de contingenta

Analiza corespondentelor se bazeaza pe un tabel de contingenta reprezentat in figura 3 si nu pe o


matrice de corelatie. Prima casuta din tabel ne sugereaza faptul ca avem 6 autovehicule care se
incadreaza atat in categoria masinilor cu un numar mare de cai putere, dar care au si o greutate
mare. Continuand analiza observam ca avem o singura masina cu un numar mare de cai putere si

7
cu o greutate medie si nicio masina care sa aiba un numar mare de cai putere, dar totusi sa aiba o
masa mai mica sau egala decat 1340 kg.

De asemenea, avem 3 masini cu o forta a motorului medie si cu o masa mare, 10


autoturisme cu o forta a motorului medie si cu o greutate tot aflata la jumatate si un numar de 2
masini cu o greutate mica si o putere a motorului medie. Pentru categoria masinilor cu o forta a
motorului mica, avem doar masini ce cataresc putin in cea mai mare masura atingand numarul
13.

3.2. Testul chi patrat

Cel mai important concept cu care se operează în cadrul acestei metode este inerţia, măsura
variaţiei obtinuta pe baza tabelului de contingenta, prin intermediul valorii statistice chi patrat.
Statistica chi patrat reprezinta statistica pe baza careia se testeaza semnificatia asocierii dintre
categoriile reprezentate pe coloane-valori cai putere si categoriile reprezentate pe linii-valori
masa autoturisme.

Inerţia totala este o masura a variaţiei (suma pătratelor elementelor matricii reziduurilor
standardizate) din date, determinata de existenţa diferenţelor semnificative între categoriile
variabilei reprezentate pe linii în ceea ce priveşte variabila reprezentata pe coloane.

In analiza am pastrat primele dimensiuni care au cumulat un procent semnificativ de peste


80%.

Figure 4 Testul chi patrat

Testul chi patrat, evidentiat in figura 4 ne demonstreaza faptul ca avem o asociere puternica a
variabilelor, acestea nefiind independente. Valoarea statisticii chi patrat este semnificativa din
punct de vedere statistic deoarece valoarea probabilitatii p-value este foarte aproape de zero.

8
3.3. Rezultatele analizei corespondentelor

Figure 5 Rezultatele analizei corespondentelor

Valoarea inertiei totale este de 1.141597, iar cele doua dimensiuni explica 100% din
aceasta, cea mai mare contributie la inertie este data de prima dimensiune in valoare de 70,5%.

Indicatorul din coloana qlt ne ofera o masura a calitatii reprezentarii punctului pe harta
corespondentelor pe care o vom afisa in cele ce urmeaza. Autovehiculele noastre inregistrand
valori de 1, ceea ce sugereaza ca vor fi foarte bine reprezentate in grafic. Coordonatele principale
ale punctelor se gasesc in coloanele k=1 si k=2.

In coloana cor avem reprezentata contributia axei principale la inertia punctului respectiv.
Putem astfel vedea ca valoarea mica si mare a fortei motorului se coreleaza puternic cu prima
dimensiune, iar valoarea medie a cailor putere se coreleaza puternic cu cea de a doua
dimensiune. Cat despre masa autovehiculelor observam ca autovehiculele cu masa mica si mare
se coreleaza foarte puternic cu prima dimensiune, iar cele cu masa medie cu dimensiunea 2.

Inr-reprezinta cat contribuie fiecare variabila la intertia totala, astfel putem observa ca atat
variabilele de pe linii cat si cele de pe coloane contribuie aproximativ in mod egal.In coloana
mass avem explicat in ce proportie reflecta media.

In ultima coloana ctr avem calculate contributiile absolute ale punctelor la inertia axei.

9
3.4. Harta corespondentelor

Figure 6 Harta simetrica- reprezentare in coordonate principale

In concordanta cu cele aflate la rezultatele analizei corespondentelor, avem in figura 6 o reprezentare in


coordonate principale a autoturismelor pentru care am analizat puterea motorului(CP) si masa/greutatea
lor.

Vedem ca autoturismele care au valori mici ale puterii motorului se comporta asemanator cu cele care
au o greutate mica. Acestea sunt puternic corelate cu prima dimensiune care preia 70,5% din informatia
initiala.

Autoturismele cu o masa mare si cu un numar mare de cai putere contribuie la inertia celei de a doua axe.
Autoturismele care sunt din categoria celor cu masa mare sunt si din categoria celor cu un numar mare de
cai putere, cele din categoria cu masa medie sunt si in categoria celor cu un numar mediu de cai putere.
Astfel putem spune ca exista asociere intre variabila cai putere si variabila greutate.

Pentru harta noastra cu două dimensiuni procentul inerţiei explicate de cele 2 dimensiuni va fi
(λ1 + λ2) ⁄ inerţie totala.

10
Bibliografie:
1. Suportul de curs si de seminar
2. Analiza datelor cu R, Monica Mihaela Maer Matei, Ed. Universitara
3. www.auto-data.net

Anexe
Codul folosit
path <-"C:\\Users\\X\\Desktop"
m<-read.table(file.path(path, "proiect3.txt"),sep="\t",dec=".", header=TRUE,row.names=1)
View(m)
library(ca)
c<-cor(m)
c<-round(c,2)
#cea mai puternica corelatie se afla intre I3 si I6
m<-data.frame(m$I3,m$I6)
summary(m)
sd(m$m.I3)#104.8995
sd(m$m.I6)#0.3893057
qnorm(0.33,185.2,102.2384) #33% dintre valori ar trebui sa fie sub 140.224
qnorm(0.66,185.2,102.2384) #66% dintre valori sunt sub 227.3696
m$Xc<-rep(0,35)
m$Xc[which(m$m.I3<=140.224)]<-"valori cai putere mici"
m$Xc[which(m$m.I3>140.224 & m$m.I3<=227.3696)]<-"valori cai putere medii"
m$Xc[which(m$m.I3>227.3696)]<-"valori cai putere mari"
table(m$Xc)
is.factor(m$Xc)
m$Xc<-factor(m$Xc)
is.factor(m$Xc)
levels(m$Xc)
summary(m)
#facem si Yc
qnorm(0.33,1.520,0.3893057) #30% dintre valori ar trebui sa fie sub 1.348739
qnorm(0.66,1.520,0.3893057) #60% dintre valori sunt sub 1.680574
m$Yc<-rep(0,35) #vector de 0
m$Yc[which(m$m.I6<=1.348739)]<-"masa mica masini"
m$Yc[which(m$m.I6>1.348739 & m$m.I6<=1.680574)]<-"masa medie masini"
m$Yc[which(m$m.I6>1.680574)]<-"masa mare masini"
table(m$Yc)
is.factor(m$Yc)
m$Yc<-factor(m$Yc)
is.factor(m$Yc)
levels(m$Yc)

11
#tabel de contingenta
tc<-table(m$Xc,m$Yc)
tc
chisq.test(tc) #asociere puternica
library(ca)
ac<-ca(tc)
ac
summary(ac)
plot(ac)

12

S-ar putea să vă placă și