Sunteți pe pagina 1din 31

ACADEMIA DE STUDII ECONOMICE DIN BUCUREȘTI

Facultatea de Cibernetica, Statistica si Informatica Economica

PROIECT
ANALIZA DATELOR

Mazilu Andreea Raluca

Grupa 1061, Seria B

Prof. Matei Maer Monica Mihaela


1
Cuprins

1. Prezentarea datelor ............................................................................................................... 3


1.1.Prezentarea situatiei si a datelor ........................................................................................................ 3
1.2. Tabelul datelor ................................................................................................................................... 3
2. Analiza distributiilor variabilelor ........................................................................................ 5
2.1. Analiza variabilelor ............................................................................................................................. 5
2.2. Boxploturi........................................................................................................................................... 6
3. Analiza componentelor principale ....................................................................................... 8
3.1 Analiza corelatiilor ........................................................................................................................ 8
3.2 Solutia oferita de ACP ................................................................................................................. 13
3.2.1. Standardizarea unei variabile ................................................................................................... 13
3.2.2. Valorile si vectorii proprii pentru matricea de corelatie initiala ................................................... 14
3.2.3. Determinarea numarului de componente pastrate in analiza ..................................................... 14
3.2.4. Coeficientii combinatiilor liniare ................................................................................................... 15
3.2.5. Matricea Factor ............................................................................................................................. 17
3.2.6. Cercul corelatiilor .......................................................................................................................... 18
3.2.7. Sinteza rezultatelor oferice de PCA .............................................................................................. 20
Bibliografie .................................................................................................................................. 22
Lista de figuri .............................................................................................................................. 22
Lista de tabele.............................................................................................................................. 22
Index de termeni ......................................................................................................................... 23
Anexe ............................................................................................................................................ 23

2
1. Prezentarea datelor

1.1.Prezentarea situatiei si a datelor

In cele ce urmeaza am realizat o analiza a celor mai importante caracteristici ale celor mai
cunoscute 25 de autovehicule. Scopul final este acela de a stabili care dintre aceste caracteristici
sunt definitorii in alegerea unei masini personale.

Tabelul ce urmeaza contine caracteristicile a 25 de autoturisme. Tabelul prezentat mai jos


contine 25 de linii corespunzatoare marcilor de autoturisme analizate si 7 coloane, reprezentand
pretul si alte caracteristici tehnice precum urmeaza:

 I1- Pret(euro)-Price(euro)
 I2. Viteza maxima atinsa(km/h)- Maximum speed
 I3- Puterea motorului(cai putere) –Power(hp)
 I4- Volumul motorului(cm3) -Engine displacement
 I5-Volumul rezervorului(litrii)– Fuel tank volume
 I6-Masa proprie(kg)- Kerb Weight
 I7- Consumul de carburant(l/100km)- Fuel consumption (economy) - combined

Datele au fost preluate de pe www.auto-data.net

1.2. Tabelul datelor


Datele cu care lucram sunt prezentate in urmatorul tabel (AutoData 2018):

3
Column1 I1 I2 I3 I4 I5 I6 I7
Audi A8 71.816 250 335 4.172 90 1.835 7.5
Dacia - Logan II 8 173 90 1.461 50 1.059 3.5
BMW - X5 52.23 250 400 2.993 80 2.275 6.8
Opel - Corsa E 7.8 207 140 1.364 45 1.199 5.9
Renault - Laguna 7.7 210 173 1.995 66 1.505 4.6

Ford - Fiesta Active 13 190 120 1.499 40 1.204 4.4


Mercedes-Benz - GLS 92.353 250 585 5.461 100 2.505 12.3
Dacia - Duster II 9.6 172 114 1.598 50 1.24 6.9
Hummer - H3T 31.143 160 305 5.327 102 2.299 16.8
Jeep - Compass III 29.198 190 170 1.956 60 1.619 5.7
Suzuki - Verona 7.002 200 156 2.492 65 1.535 8.8
Volkswagen Golf V 4 187 105 1.896 55 1.287 5.2
Volkswagen - Passat
Alltrack 39.095 231 220 1.984 66 1.602 6.9
Skoda - Octavia 28.461 250 245 1.984 50 1.59 6.4
Mercedes-Benz - A-class
Sedan 55.2 250 224 1.991 43 1.39 6.1
Jeep - Renegade 31.389 196 170 1.956 55 1.66 6.6
Volkswagen - Tiguan
Allspace 39.475 220 220 1.984 60 1.669 7.8

Volkswagen - Touareg 59.99 235 286 2.967 75 1.995 6.9


Mercedes GLA 56.3 300 250 1.995 50 1.99 6.2
Seat - Leon III 30.305 226 184 1.968 50 1.36 4.8

Citroen - C4 L sedan 15 189 116 1.587 60 1.33 7.1


Dacia - Sandero II 7.7 166 90 1.461 50 1.09 3.8
Chevrolet - Aveo II
Sedan 91.7 171 86 1.229 46 1.085 5.5

Nissan - Qashqai II 96.99 182 110 1.461 55 1.32 3.8

4
2. Analiza distributiilor variabilelor

2.1. Analiza variabilelor


Media Asimetrie Boltire Abaterea Q1 Q2 Q3
standard
I1 36.89363 0.7339104 0.5768992 29.3377 9.200 30.724 55.475

I2 210.625 0.5772296 0.3077323 35.59533 185.75 203.50 238.75

I3 203.9167 1.616423 2.827609 116.8235 115.50 171.50 246.25

I4 2.282542 1.825312 2.306143 1.15123 1.56500 1.97600 2.11925

I5 60.95833 1.168005 0.4491854 17.12989 50 55 66

I6 1.568458 0.8004059 0.2359109 0.4033012 1.27525 1.52000 1.71050

I7 6.679167 2.141897 5.170679 2.846199 5.10 6.30 6.95

Figure 1 Analiza variabilelor

 Pentru I1, putem spune ca în medie, pretul autovehiculelor este de 36.89 mii Euro,
valoare proportionala cu minimul si maximul. Prima cuartila are valoarea 9.2 mii euro, ceea ce
inseamna ca 25% din autovehicule au o valoare mai mica de aceasta valoare, iar 75% mai mare
9.1 mii de euro. Mediana este de 30,72mii euro, deci 50% din preturile autovehiculelor au
valoarea mai mica de 30,72, restul fiind peste acest prag. A treia cuartila este in valoare de
55,465mii euro, ceea ce inseamna ca 75% preturi sunt mai mici de 55,465mii euro, restul de 25%
fiind peste acest nivel.

In medie, pretul se abate cu 29,3377 de la medie, o valoare destul de mare in raport media,
gradul de imprastiere fiind si el la fel de mare.

Indicele de asimetrie este de 0,73>0, ceea ce inseamna ca avem o asimetrie la dreapta si


predomina valorile preturilor mari

Cat despre boltire, avem o valoare de 0,57<3 si avem o distributie platicurica

 Variabila pentru care se manifesta o asimetrie foarte puternica este variabila I7, aceasta
reprezinta consumul mixt de carburant pe 100 de km si are valoarea de 2, 14>0, ceea ce
sugereaza o puternica asimetrie la dreapta, cu valori ale consumului foarte mari.

De asmenea, tot pentru aceasta variabila, boltirea este de 5,17>3. Distributia consumului de
combustibil fiind una leptocurtica.

5
Figure 2 Boxploturi I1-I4

2.2. Boxploturi
Fig.2 Din . Boxplotul indicatorului I1- Pretul(mii euro) reiese că pretul in mii de euro al
autoturismelor este o variabilă care are asimetrie la dreapta, lucru ce denotă că s-au înregistrat
predominant valori mai mici decât media. Acest lucru arată că la nivelul pretului, majoritatea
autovehiculelor de pe piata actual au un pret relativ mai mic decat piata. Analizând bolitrea seriei
variabile I1, care este de 0,57, observăm că distribuția este platicurtică. Astfel, distribuția seriei
este plata, arată că datele nu sunt foarte grupate și apropiate de medie și apar frecvențe mai mici
pentru anumite valori, indicând un grad scazut de omogenitate. Se observă din Boxplot că
variabila nu prezintă Outlieri, deci nu avem valori aberante pentru variabila pret.

Din Boxplotul reprezentat în Fig.3. reiese că viteza maxima atinsa este o variabilă care are o
asimetrie foarte mică la dreapta de 0.57, deci distribuția acestei serii se aproapie de distribuția
normală, deci valorile sunt dispersate aproape egal în jurul mediei. Coeficientul de aplatizare este
de 0,30, lucru ce susține o distribuție platicurstica si in acest caz.

Fig. 4 prezinta indicatorul I3, indicator folosit pentru a ingloba informatiile despre puterea
motorului, iar din analiza acestui grafic aflam că puterea motorului este o variabilă care are
asimetrie de 1,61 la dreapta, lucru ce denotă că s-au înregistrat predominant valori mai mici
decât media. Acest lucru arată că la nivelul pietei de autoturisme majoritatea masinilor analizate
au un numar mai mic de cai putere. Analizând bolitrea seriei variabile I3, care este de 2,82,
6
foarte apropiat de 3, lucru ce susține apropierea de o distribuție mezocurtica. Distribuția acestora
evidențiază că rezultatele sunt aproape simetric împrăștiate față de medie. Totuși se observă din
Boxplot că variabila prezintă și un Outlier, deci în analiza unui autoturism, mai exact al masinii
BMW - X5, avem un numar de cap putere de 400, ceea ce este mult peste medie.

Din boxplotul prezentat in figura 5, in care analizam volumul motorului, o componenta


foarte importanta de care trebuie tinut cont in alegerea unei masini putem observa urmatoarele.
Asimetria acestui indicator este de 1, 82, ceea ce denota o asimetrie la dreapta cu o identificare a
faptului ca in analiza noastra exista un numar de autoturisme care detin un volum al motorului
mic; Coeficientul de aplatizare este de 2,30, destul de apropiat de 3, lucru ce susține o usoara
apropiere de o distribuție mezocurtica. Si in acest grafic putem observa ca variabila volumului
prezinta un numar de 3 outlieri, mai exact, masinile: Mercedes-Benz – GLS, Hummer si Audi A8
au un volum mult mai mare, fapt ce reiese din faptul ca sunt masini extreme de mari si cu o
capacitate mult mai mare decat media. Valorile aberante observate, sunt valorile datelor care sunt
departe de celelalte valori date, si pot afecta puternic rezultatele analizei. Outliersii in cazul
nostru reprezinta caracteristici iesite din comun, peste medie si sunt datorate masinilor
perfomante si de lux.

Figure 3 Boxploturi I5-I7

7
In boxplotul figurii 6, in care analizam indicatorul I5, cel al volumului rezervorului(litrii),
putem observa ca avem o asimetrie de 1, 16, o asimetrie la dreapta lucru ce denotă că s-au
înregistrat predominant valori ale volumului rezervorului mai mici decât media. Boltirea de 0,44
scoate in evidenta o distributie platicurtica si ne arată că datele nu sunt foarte grupate și
apropiate de medie și apar frecvențe mai mici pentru anumite valori, indicând un grad scazut de
omogenitate. Observam de asemenea si valorile aberante produse de Mercedes-Benz – GLS si de
Hummer, care la fel ca mai sus avand un volum al mototului mare, reiese ca trebuie sa aiba si un
rezervor pe masura.

Din Boxplotul reprezentat în Fig.7. reiese că masa proprie a masinilor este o variabilă care
are o asimetrie foarte mică la dreapta de 0.80, deci distribuția acestei serii se aproapie de
distribuția normală, astfel valorile sunt dispersate aproape egal în jurul mediei. Coeficientul de
aplatizare este de 0,23, lucru ce susține o distribuție platicurtica si in acest caz. Outlierul surprins
provine de la valorile peste medie in ceea ce priveste masa proprie a masinii BMW X5.

Din boxplotul prezentat in figura 8, in care analizam consumul de carburant, putem observa
urmatoarele. Variabila pentru care se manifesta o asimetrie foarte puternica este variabila I7,
aceasta reprezinta consumul mixt de carburant pe 100 de km si are valoarea de 2, 14>0, ceea ce
sugereaza o puternica asimetrie la dreapta, cu valori ale consumului foarte mari.De asmenea, tot
pentru aceasta variabila, boltirea este de 5,17>3. Distributia consumului de combustibil fiind una
leptocurtica. Si in acest grafic putem observa ca variabila volumului prezinta un numar de 2
outlieri, mai exact, masinile: Mercedes-Benz – GLS, Hummer au un consum mult extreme de
mare, fapt ce reiese din faptul ca sunt masini extreme de mari si cu o capacitate mult mai mare
decat media. Valorile aberante observate, sunt valorile datelor care sunt departe de celelalte
valori date, si pot afecta puternic rezultatele analizei.

3. Analiza componentelor principale


3.1 Analiza corelatiilor

Primul pas in analiza componentelor principale este investigarea matricii de corelatie. Aceasta ne
va oferi identificarea redundantelor informationale si justificarea utilizarii ACP.

Analiza a Componentelor principale este o tehnica de analiza a datelor care are drept scop
descompunerea variabilitatii totale din spatiul cauzal initial sub forma unui numar redus de
componente, fara ca aceasta forma sa contina redundante informationale.

Aceste componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre
ele, fiecare fiind o combinatie liniara de variabile originale (Liliana n.d.).
8
Scopul analizei datelor pe cazul autovehiculelor prezentate mai sus este acela de a afla cativa
indicatori relevanti pe baza carora se poate obtine o ierarhizare cat mai corecta a autoturismelor.

Table 1 Matricea de corelatie

In figura de mai sus(Fig.9) avem matricea de corelatie a datelor noastre aproximata la doua
zecimale. Coeficientii de corelatie dintre oricare doua variabile sunt reprezentati in aceasta
figura.

Identificam valori ale coeficientilor de corelatie care reflecta corelatii puternice pozitive, 0,91;
0,93. Insa pentru a decide daca un coeficient de corelatie este diferit de zero din punct de vedere
statistic, vom folosi probabilitatile p-value asociate acestora

Cu mici exceptii, coeficienti de corelatie sunt semnificativi, ceea ce demnostreaza utilizarea


aplicarii ACP (Liliana n.d.).

In continuare, voi face grafica dependentei dintre I4 si I5, deoarece este o corelatie de 0,93 foarte
aproape de 1.

Figure 4 Dependenta I4- I5


9
In figura 10 se observa ca pe masura ce I4 creste, creste si I5 foarte mult. Panta este pozitiva,
aratand o mare dependenta intre aceste doua variabile si desi pe grafic sunt putine puncte, acest
fapt determina de fapt, faptul ca sunt valorile suntsuprapuse, iar cele doua variabile sunt corelate
pozitiv.

Vom sintetiza apoi informatia din matricea de corelatie si vom determina probabilitatile asociate
coeficientilor de corelatie.
Figure 5 Probabilitatea asociata coeficientilor de corelatie

Matricea P arata probabilitatea asociata coeficientilor de corelatie, adica p-value, unde p-value
arata probabilitatea de a gresi atunci cand respingem ipoteza nula ea, fiind adevarata.

De exemplu, I1 si I7. P-value este 0.4059, rezulta nu se respinge H0, deci coeficientul de
corelatie nu este semnificativ din punct de vedere statistic.

Exemplul 2, I3 si I7, p-value este 0.0012, deci foarte mic. Astfel, respingem ipoteza nula si vom
accepta H1, astfel incat coeficientul de corelatie este semnificativ din punct de vedere statistic.

De asemenea, o modalitate mult mai sugestiva de a vizualiza informatiile este prin reprezentarea
unui grafic ce contine culori ce indica intensitatea si semnul coeficientului de corelatie.

10
Figure 6 Reprezentarea matricii de corelatie

In figura 12 se poate observa ca cele mai puternice legaturi exista intre I3-I6, intre variabila care
masoara viteza maxima si variabila care masoara volumul rezervorului, deoarece cu cat permite
mai multi litrii de combustibil, cu atat viteza maxima a masinii este mai mare. Si intreI4-I5, adica
intre volumul motorului si volumul rezervorului. In celulele cu alb, acel coeficient de corelatie
nu este semnificativ statistic (STEFANESCU n.d.).

Tot pentru a reprezenta coeficientii de corelatie dintre oricare doua variabile, vom folosi un
grafic ce indica legatura dintre variabile.

11
Figure 7 Legatura dintre variabile

In figura reprezentata mai sus(Fig. 13), avem legatura dintre variabilele analizei noastre. Pe
diagonala principala sunt reprezentate distributiile variabilelor. In triunghiul de deasupra
diagonalei se afla valorile coeficientilor de corelatie si masura in care acestia sunt semnificativi
statistic, prin intermediul stelutelor (*** foarte semnificativ)

Iar in triunghiul aflat sub diagonala se regasesc dependentele dintre oricare doua variabile, prin
intermediul unui nor de puncte si al unei curbe care marcheaza dependenta respectiva

In concluzie, matricea de corelaţie arată legătura strânsă existentă între toate cele şapte variabile
considerate, prognozând o mai bună reprezentare a acestora într-un număr substanţial redus de
noi variabile, componente principale. Existenţa unor corelaţii puternice între variabilele analizate
diminuează semnificaţia individuală a acestora din urmă, pe de o parte, şi evidenţiază existenţa
redundanţelor informaţionale, pe de altă parte: există o cantitate semnificativă de informaţie
disipată în legăturile dintre variabile. În demersul nostru, ne propunem atât reducerea

12
dimensionalităţii spaţiului cauzal iniţial, cât şi eliminarea acestor redundanţe informaţionale, şi
de aceea utilizăm metoda analizei componentelor principale (Monica 2018).

3.2 Solutia oferita de ACP

3.2.1. Standardizarea unei variabile

Vom standardiza pretul, si vom obtine o medie extrem de mica, aproape de zero si o abatere
standard egala cu 1.

Apoi plecand de la standardizarea datelor iniţiale, prezentam valorile proprii rezultate în urma
analizei componentelor principale. Este de menţionat că doar valorile proprii mai mari decât
unitatea sunt de reţinut pentru că doar acele componente principale care au varianţa mai mare
decât cea a variabilelor originale standardizate (medie nulă şi varianţa egală cu 1) ar trebui
extrase, potrivit criteriului lui Kaiser.

Table 2 Matricile c1, c2, c3 Table 3 Matricea c4

In figurile de mai sus(Fig. 14 si Fig 15) avem evidentiate cele 4 matrici de corelatie si de
covarianta, atat pe datele initiale, cat si pe cele standardizate. Se poate observa ca matricile de
corelatie pe date initiale, corelatie pe date standardizate si covarianta pe date standardizate
coincid. Pe cand matricea de covarianta a datelor initiale este diferita. Acest lucru se datoreaza
faptului ca lucram cu date standardizate (Monica 2018).

13
3.2.2. Valorile si vectorii proprii pentru matricea de corelatie initiala

Figure 8 Valorile proprii ale matricii initiale de corelatie

Valorile proprii ale matricii initiale de corelatie sunt indicate in sectiunea $values din Fig 16, iar
vectorii proprii in sectiunea $vectors.

3.2.3. Determinarea numarului de componente pastrate in analiza

Pentru determinarea numarului de componente pastrate in analiza noastra, ne vom folosi de


sinteza procentului de informatie aflat in functia de summary a matricii acp, de o reprezentare
care indica modul in care descresc valorile proprii ale matricii de corelatie, denumit screeplot si
de criteriul lui Kaiser (Monica 2018).

Figure 9 Scree plot

14
Figure 10 Componentele variabilei initiale

In graficul din Fig 18, proportion of variance indica cat la suta din informatia totala preia fiecare
componenta principala. Putem observa ca primele 2 preiau 84% din informatii din datele initiale,
asa ca acestea vor fi si componentele pe care le vom alege.

Graficul din Fig 17 reprezinta un grafic de tip screeplot ce ne permite sa vizualizam importanta
fiecarei componente principale in preluarea informatiei din datele noastre initiale. Este unul
dintre criteriile folosite pentru a facilita decizia asupra numarului de componente principale
pastrate in analiza. De asemenea, se considera ca punctul in care panta curbei reprezentate devine
nesimnificativa, marcheaza numarul de componente care trebuie retinute. Astfel, trebuie ales acel
punct dupa care valoriile proprii ramase sunt mici si sunt comparabile ca marime.

In cazul actual se observa ca aplicand acest criteriu se poate decide ca alegerea primelor doua
componente principale, care preiau 84% din informatia initiala, este optima.

3.2.4. Coeficientii combinatiilor liniare


Coeficientii utilizati in construirea componentelor principale sunt redati in tabelul de mai
jos(Fig.19). Elementele lipsa corespund unor valori nesimnificative

Figure 11 Coeficientii combinatiilor liniare

Pentru a interpreta noile componente principale, analizam coeficientii de corelatie dintre


variabilele initiale si acestea. Se poate observa ca prima componenta coreleaza destul de
puternic, dar in sens negativ cu toate cele sapte variabile.

Dupa aceasta interpretare a noilor componente principale ne vom folosi de matricea datelor
standardizata( Fig. 20) . Aceasta indica cu autovehiculul Audi A8 era descrisa initial de valorile
de pe prima coloana din matricea standardizata. In Fig. 20 voi afisa doar primele 7 variabile.

15
I1 I2 I3 I4 I5 I6 I7

1.190358 1.106184 1.641251 1.695380 0.660899 0.288396


Audi A8 1 6 1.122063 7 1 8 3
- - - - - - -
Dacia - 0.984863 1.057020 0.975117 0.713620 0.639720 1.263220 1.116986
Logan II 2 8 7 7 2 6 6
BMW - 0.522753 1.106184 1.678457 0.617129 0.042454
X5 1 6 9 8 1.111605 1.751896 3
- - - - - - -
Opel - 0.991680 0.101839 0.547121 0.797878 0.931607 0.916085 0.273756
Corsa E 3 2 6 4 7 5 9
- - - - - -
Renault - 0.995088 0.017558 0.264644 0.249769 0.294319 0.157347 0.730506
Laguna 9 5 2 1 9 3 3
Ford - - - - -
Fiesta - 0.680612 1.223495 0.903687 0.800775
Active 0.814434 -0.57943 -0.71832 6 3 8 5
Mercedes
-Benz - 1.890378 1.106184 3.262043 2.760923 2.279155 2.322189 1.974855
GLS 8 6 2 6 2 4 7
Table 4 Matricea datelor standardizata

Calculul autovehiculului Audi A8 pentru prima variabila are un rezultat de -2.850958

Matricea componentelor principale o vom memora sub denumirea de” scoruri” si va avea
urmatoarele componente evidentiate in Fig. 21, unde asemanator cazului de mai sus, afisez doar
primele 7 variabile:

Column
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7
1
- - - - -
2.912275 0.62325 0.3878291 0.755312 0.598199 0.6829073 0.083320
Audi A8 5 17 65 71 67 63 49
- - -
Dacia - 2.502405 0.63244 0.0310951 0.606057 0.236623 0.0819642 0.051398
Logan II 24 07 12 37 62 9 15
- - - - -
BMW - 2.690259 0.96965 0.5183446 0.677595 0.554596 0.3944846 0.155626
X5 41 94 47 13 12 31 69
Opel - 1.784746 0.13793 - 0.336328 0.264040 0.0960876 0.189946
Corsa E 11 32 0.6638471 73 55 9 38
16
99
Renault - - - -
- 0.697512 0.23954 0.7581672 0.811395 0.135141 0.2140159 0.060570
Laguna 23 7 23 25 93 94 13
Ford - - -
Fiesta 2.191855 0.13946 0.2680084 0.031585 0.205081 0.3826290 0.250204
Active 89 65 77 85 21 25 53
Mercede - - -
s-Benz - 6.183664 0.30814 0.4663894 0.166900 0.500908 0.5813307 0.116628
GLS 46 17 13 44 23 79 74
Table 5 Scoruri

Astfel obtinem o noua matrice 25 x 7. Iar daca pastram doar primele doua componente
principale=>-2,91 si -0,62 pentru Audi A8, atunci varianta primei componente principale, adica
prima coloana, este lambda 1, in valoare de 4.828879

Si nu in ultimul rand construiesc o matrice de corelatie a componentelor principale si obtin o


noua matrice in scoruri cu noile caracteristici care nu sunt corelate intre ele si unde primele 2
componente preiau maxim de informormatie din datele initiale.

Odată determinat numărul de componente principale reţinute în analiză, mai departe vom incepe
un proces de interpretare a componentelor principale. Astfel, se va determina matricea factor
pentru cele doua componente reprezentative rezultate (Maer n.d.).

3.2.5. Matricea Factor

Matricea factor, ale cărei elemente (factor loadings), este prezentată:

Figure 12 Coeficientii de corelatie intre variabilele initiale si componentele principale

Matricea factor este foarte importantă în analiza noastră, întrucât elementele sale (cunoscute şi
sub denumirea de intensităţi ale factorilor) sunt coeficienţii de corelaţie între variabilele
originale şi componentele principale
17
Se observă că noile componente principale prezintă corelaţii foarte puternice, dar în sens negativ
cu toate cele şapte variabile iniţiale, de peste 84%.

De la I3 si pana la I7, exista o corelatie inversa puternica, ceea ce inseamna ca prima


componenta principala preia informatii din cele 5 variabile.

A doua componenta se coreleaza puternic si invers cu al primii doi indicatori ( pretul si viteza
maxima atinsa)

3.2.6. Cercul corelatiilor


Reprezentarea cercului corelatiilor:

Figure 13 Cercul corelatiilor

Daca proiectam I7, adica consumul de carburant pe drepata OX obtinem un coeficient de


corelatie foarte mic, iar pentru I1 si I2, adica pentru pret si viteza maxim avem un coeficient de
corelatie mult mai mare decat al celorlalte variabile.

In continuare, vom exemplifica reprezentarea celor 25 de autovehicule in noul spatiu.

Functia PCA va furniza astfel graficele de la Fig 23 si Fig 24 . In prima figura sunt reprezentate
variabilele initiale ca vectori intr-un grafic bidimensional in care prima axa este data de prima
componenta principala care preia 66,11% din informatii, iar cea de a doua axa este data de ce-a
de-a doua componenta principala care preia 18,42% din informatie. Astfel, sunt reprezentate atat
intensitatea corelatiei dintre variabilele initiale, cat si corelatiile dintre variabilele initiale si
componentele principale (Maer n.d.).

18
Figure 14 Reprezentarea variabilelor initiale

Cu cat unghiul dintre vectori este mai mic, cu atat coeficientul de corelatie este mai mare.

Figure 15 Reprezentarea autovehiculelor in functie de noile caracteristici

Din punct de vedere al performantei automobilelor, se observa din cele doua grafice reprezentate
mai sus ca masinile centrate tabelului sunt foarte asemanatoare din punct de vedere al celei de-a
doua componente. Acestea se asemeana foarte mult prin caracteristicile lor. Un caz particular ar
19
fi Hummer, care desi are un pret extrem de mare, asemanandu-se cu Mercedes-Benz GLS, are
cea mai mica viteza din toate autovehiculele ilustrate. Se oberva astfel ca automobilele situate la
dreapta primei dimensiuni, care preia 66,11% din informatii au un pret mult mai crescut decat
medie, iar cele de deasupra axei Ox, reflecta viteza maxima pe care o pot atinge.

3.2.7. Sinteza rezultatelor oferice de PCA


O sinteza a informatiilor este prezentata in tabelul din Fig , care este furnizat prin folosirea
pachetului FactoMineR. Avem afisate, dupa cum se observa valorile proprii ale matricii de
corelatie sau variantele componentelor principale. Iar

- distr-reprezinta distanta fata de centrul norului de puncte;

-dim- reprezinta coordonatele pentru fiecare dimensiune;

-cos2- reprezinta calitatea reprezentarii pe fiecare axa;

-ctr-reprezinta contributia la constructia axei (Maer n.d.).

Figure 16 Sinteza rezultatelor oferice de PCA

20
Astfel, pentru interpretarea solutiei oferite de analiza componentelor principale, ne sunt utile
informatiile afisate pentru fiecare variabila. De exemplu, contributia pretului la prima
componenta este de 5,65%, observand astfel ca alte elemente precum viteza, puterea, masa,
consumul de carburant sunt elementele care contribuie cel mai mult la constructia primei
componente. Pe cand pretul si viteza contribuie foarte mult la construactia celei de-a doua
componente.

Insumand elementele cos2 asociate tuturor dimensiunilor pentru o anumita variabila se va obtine
1. Iar in cazul nostru, cand informatia dintr-o variabila este preluata in proportie de 84% din total
de primele doua componente, atunci variabila se va reprezenta pe circumferinta cercului de
corelatie ilustrat mai sus. Cos2 sugereaza calitatea reprezentarii, precum am mentionat, ceea ce
inseamna ca cu cat variabilele noastre se apropie de de circumferinta cercului, cu atat este mai
importanta interpretarei celor doua componente principale alese (Maer n.d.).

21
Bibliografie
AutoData. www.auto-data.net. Noiembrie 2018.

Liliana, conf. univ. dr.Spircu. Analiza datelor Aplicatii economice. Bucuresti.

Maer, Matei Monica Mihaela. Analiza datelor cu R. Bucuresti: Ed. Universitara.

Monica Mihaela Maer Matei. Suport de curs si seminar. Bucuresti, 2018.

STEFANESCU, Conf.univ.dr.Maria Viorica. Analiza datelor. Bucuresti.

Lista de figuri
Figure 1 Analiza variabilelor .......................................................................................................................... 5
Figure 2 Boxploturi I1-I4................................................................................................................................ 6
Figure 3 Boxploturi I5-I7................................................................................................................................ 7
Figure 4 Dependenta I4- I5 ........................................................................................................................... 9
Figure 5 Probabilitatea asociata coeficientilor de corelatie ....................................................................... 10
Figure 6 Reprezentarea matricii de corelatie ............................................................................................. 11
Figure 7 Legatura dintre variabile ............................................................................................................... 12
Figure 8 Valorile proprii ale matricii initiale de corelatie ........................................................................... 14
Figure 9 Scree plot ...................................................................................................................................... 14
Figure 10 Componentele variabilei initiale ................................................................................................. 15
Figure 11 Coeficientii combinatiilor liniare ................................................................................................. 15
Figure 12 Coeficientii de corelatie intre variabilele initiale si componentele principale ........................... 17
Figure 13 Cercul corelatiilor ........................................................................................................................ 18
Figure 14 Reprezentarea variabilelor initiale .............................................................................................. 19
Figure 15 Reprezentarea autovehiculelor in functie de noile caracteristici ............................................... 19
Figure 16 Sinteza rezultatelor oferice de PCA ............................................................................................ 20

Lista de tabele
Table 1 Matricea de corelatie ....................................................................................................................... 9
Table 2 Matricile c1, c2, c3 Table 3 Matricea c4 . 13
Table 4 Matricea datelor standardizata ...................................................................................................... 16
Table 5 Scoruri ............................................................................................................................................ 17

22
Index de termeni
Boxploturi........................................................................................................................................ 2, 6, 7, 22
corelatie ............................................ 2, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 22, 25, 26, 27, 28, 30
PCA ........................................................................................................................................ 2, 18, 20, 22, 30
Standardizarea ........................................................................................................................................ 2, 13
Valorile proprii...................................................................................................................................... 14, 22
variabile ..................................................................... 2, 6, 8, 9, 10, 11, 12, 13, 15, 16, 18, 22, 25, 26, 27, 29

Anexe
Codul folosit
path <-"C:\\Users\\X\\Desktop\\Analiza datelor"

performanta<-read.table(file.path(path, "proiect.txt"),sep="\t",dec=".", header=TRUE)

attach(performanta)

library(moments)

mean(I1)

mean(I2)

mean(I3)

mean(I4)

mean(I5)

mean(I6)

mean(I7)

skewness(I1)

skewness(I2)

skewness(I3)

skewness(I4)

skewness(I5)

skewness(I6)

skewness(I7)

kurtosis(I1)

23
kurtosis(I2)

kurtosis(I3)

kurtosis(I4)

kurtosis(I5)

kurtosis(I6)

kurtosis(I7)

sd(I1)

sd(I2)

sd(I3)

sd(I4)

sd(I5)

sd(I6)

sd(I7)

cor(I1, I2)

hist(I1, freq=F, main="Histograma I1", col="plum2")

lines(density(I1), col="black", lwd=2)

par(mfrow=c(2,2))

boxplot(I1, col="plum")

boxplot(I2)

boxplot(I3)

boxplot(I4)

boxplot(I5)

boxplot(I6)

boxplot(I7)

quantile(I1)

quantile(I2)

quantile(I3)
24
quantile(I4)

quantile(I5)

quantile(I6)

quantile(I7)

path <-"C:\\Users\\X\\Desktop\\Analiza datelor"

m<-read.table(file.path(path, "proiect.txt"),sep="\t",dec=".", header=TRUE,row.names=1)

attach(m)

#analiza matricei de corelatie dintre oricare 2 variabile

c<-cor(m)

c<-round(c,2)

#aproximez la 2 zecimale

View(c)

#Identificam valori ale coeficientilor de corelatie care reflecta corelatii puternice pozitive, 0,91; 0,93. Insa pentru a
decide daca un coeficient de corelatie este diferit de zero din punct de vedere statistic, vom folosi probabilitatile p-
value asociate acestora

#reprezentarea grafica a dependentei dintre I4 si I5, deoarece este o corelatie f mare

# de 0,93 care este foarte aproape de unu, f reprez

plot(I4,I5)

abline(lm(I5~I4))

plot(I2,I7)

abline(lm(I7~I2))

library(ggplot2)

windows()

ggplot(m,aes(x=I5,y=I4))+geom_point(shape=16,size=5,col='red')+geom_text(label=row.names(m),vjust=0,hjust=0,
size=5,col='blue')

# acest grafic evidentiaza pozitionarea autovehiculelor din punct de vedere al performantei

#sintetizarea informatiei din matricea de corelatie

install.packages("Hmisc")

25
library(Hmisc)

install.packages("corrplot")

library(corrplot)

install.packages("PerformanceAnalytics")

library(PerformanceAnalytics)

c2<-rcorr(as.matrix(m))

c2

#matricea P arata probabilitatea asociata coef de corelatie adica p-value

#O modalitate mult mai sugestiva de a vizualiza informatiile este prin reprezentarea unui grafic ce contine culori ce
infica intensitatea si semnul coeficientului de corelatie

windows()

corrplot(c2$r,type="upper",p.mat = c2$P,sig.level = 0.01,insig="blank")

#upper pune doar partea de deasupra pt cda este simetrica

#sig.level=0.01 adica sa considere semnif coef de cor care au asociat p-value <0.01

# O alta modalitate de a reprezenta coeficientii de corelatie dintre oricare doua variabile este urmatoarea

windows()

chart.Correlation(m,histogram=TRUE,pch=19)

#Fig. Legatura dintre variabile

# Pe diagonala principala sunt reprezentate distributiile variabilelor. In triunghiul de deasupra diagonalei se afla
valorile coeficientilor de corelatie si masura in care acestia sunt semnificativi statistic, prin intermediul stelutelor
(*** si explicatii).

#Iar in triunghiul aflat sub diagonala se regasesc dependentele dintre oricare doua variabile,

#prin intermediul unui nor de puncte si al unei curbe care marcheaza dependenta rescpectiva.

library(scatterplot3d)

windows()

grafic3d<-scatterplot3d(m[,1:3],pch=4,angle=30)

26
text(grafic3d$xyz.convert(m[,1:3]),labels=rownames(m))

#standardizarea unei variabile

I1S<-scale(I1,center=TRUE,scale=TRUE)

ms<-scale(m,center=TRUE,scale=TRUE)

#daca scale era false aveam variabila centrata

mean(I1S)

#valoare f mica, practic 0

sd(I1S)

#Plecând de la standardizarea datelor iniţiale, se prezintă mai jos valorile

#proprii rezultate în urma analizei componentelor principale.

#vectori proprii, valori proprii pt matricea de corelatie

c1<-round(cor(m),2)

c2<-round(cor(ms),2)

c3<-round(cov(m),2)

c4<-round(cov(ms),2)

#daca lucram cu date standardizate, matricea de corelatie si covarianta sunt identice

#lucram de acum pe c1-calculam vect proprii si val proprii pentru matricea de corelatie

vprop<-eigen(c1)

vprop

#pe primul rand sunt val proprii, apoi vect proprii pe coloane

#norma primului vector propriu

v1<-vprop$vectors[,1]

v2<-vprop$vectors[,2]

norma<-sum(v1^2)

#corelatia dintre v1 si v2
27
corelatie<-cor(v1,v2)

#generati 6000 valori dintr-o distrb normala de medie 3 si abatere std 1.2

x<-rnorm(6000,3,1.2)

x<-matrix(x,nrow=1000)

xc<-scale(x,center=TRUE,scale=FALSE) #matrice covarianta

pi<-t(xc)%*%xc

cov(xc)

acp<-princomp(m,cor=TRUE) #matricea m

#lucram pe date standardizate-facem acp pe matricea de corelatie- acei vectori sunt proprii ai matricii de corelatie

summary(acp)

View(acp)

#comp 1,...comp 7->reprezinta componentele principale z1,...z7, adica combinatiile liniare ale variabilei initiale

eigen(cor(m))

#proportion of var- cat la suta din inf totala preia fiecare componenta principala

#primele 2 preiau 84% din informatii din datele initiale

plot(acp,type="l")

#discutia se pune daca luam si a treia componenta

#criteriul lui Kaiser- pastrez in analiza atatea comp princ cate valori proprii peste 1 am- criteriu valabil atunci cand
avem date standardizate =>pastram 2 componente

#Coeficientii utilizati in construirea componentelor principale sunt redati in tabelul de mai jos. Elementele lipsa
corespund unor valori nesimnificative

acp$loadings

#eigen si loadings-aceiasi vectori proprii dar cu semn opus

# in loadings valorile extrem de mici (0.01) nu le mai afiseaza

# atunci cand un vect propriu este inmultit cu o constanta el ramane acelasi vector propriu

#cum obtinem prima componenta principala Z1

#matricea datelor standardizata


28
ms<-scale(m,center=TRUE,scale=TRUE)

#Audi A8 era descrisa initial de valorile de pe prima coloana din ms

#calcul al autovehiculului Audi A8 pt prima variabila

acp$loadings[,1]%*%ms[1,]

#matricea componentelor principale

scoruri<-acp$scores

#Avem o matrice noua 25 x 7

# daca pastram doar primele 2 com princ=>-2,91 si -0,62 pentru Audi A8

#varianta primei componente prin adica prima coloana este lambda 1

var(scoruri[,1])

cor(scoruri) #valori f mici pt ca asa am construit

#am obt o noua matrice in scoruri cu noile caract care nu sunt corelate intre ele si primele 2 comp preiau max de
inform din datele initiale

cor(scoruri[ ,1:2],m)

acp$sdev

ponderi<-acp$loadings

c11<-acp$sdev[1]*ponderi[1,1]

#Matricea factor

matriceafactor<-cor(m,scoruri[,1:2])

#Se observă că noile componente principale prezintă corelaţii foarte

#puternice, dar în sens negativ cu toate cele şapte variabile iniţiale, de peste 85%.

#reprezentarea cercului corelatiilor

valori<-seq(0,2*3.14,length=100)

plot(cos(valori),sin(valori),type="l",xlab="Comp1",ylab="Comp2")

text(matriceafactor[,1],matriceafactor[,2],rownames(matriceafactor))

abline(h=0)

29
abline(v=0)

#reprez celor 25 de autovehicule in noul spatiu

#scorurile sunt de fapt coordonatele entitatilor in noul spatiu

plot(scoruri[,1],scoruri[,2],xlab = "Axa 1",ylab = "Axa 2")

text(scoruri[,1],scoruri[,2],labels=rownames(scoruri),pos=3)

abline(h=0)

abline(v=0)

#am folosit rez de la acp si am reprez entitatile in noul spatiu

install.packages(FactoMineR)

library(FactoMineR)

acp2<-PCA(m)

#tablul Individual factor map PCA arata....

summary(acp2)

#dim 1= coef de corelatie(dim din cercul corelatiilor)

#cos2=cos^2= suma elementelor obtinem varianta primei comp principale

#coef de corelatie, pt a arata contributia fiecarei var initiale la varianta componentelor principale

Primele 10 date standardizate

I1 I2 I3 I4 I5 I6 I7

Audi A8 1.1903581 1.1061846 1.122063 1.6412517 1.6953801 0.6608998 0.2883963


- - - - - - -
Dacia - Logan II 0.9848632 1.0570208 0.9751177 0.7136207 0.6397202 1.2632206 1.1169866

BMW - X5 0.5227531 1.1061846 1.6784579 0.6171298 1.111605 1.751896 0.0424543


- - - - - - -
Opel - Corsa E 0.9916803 0.1018392 0.5471216 0.7978784 0.9316077 0.9160855 0.2737569
- - - - - -
Renault - Laguna 0.9950889 0.0175585 0.2646442 0.2497691 0.2943199 0.1573473 0.7305063
Ford - Fiesta - - - -
Active -0.814434 -0.57943 -0.71832 0.6806126 1.2234953 0.9036878 0.8007755

Mercedes-Benz - 1.8903788 1.1061846 3.2620432 2.7609236 2.2791552 2.3221894 1.9748557

30
GLS

- - - - - -
Dacia - Duster II 0.9303259 1.0851144 0.7696796 0.5946176 0.6397202 0.8144245 0.0775889
- -
Hummer - H3T 0.1960148 1.4222373 0.8652654 2.6445264 2.3959102 1.8114048 3.5559115
- - -
Jeep - Compass III 0.2623118 -0.57943 -0.290324 0.2836459 0.0559451 0.1253199 -0.344026

Primele 10 scoruri

Comp.1
Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7

- - - - -
Audi A8 2.9122755 0.6232517 0.3878292 0.7553127 0.5981997 0.6829074 0.0833205
- - -
Dacia - Logan II 2.5024052 0.6324407 0.0310951 0.6060574 0.2366236 0.0819643 0.0513982
- - - - -
BMW - X5 2.6902594 0.9696594 0.5183446 0.6775951 0.5545961 0.3944846 0.1556267
-
Opel - Corsa E 1.7847461 0.1379332 0.6638472 0.3363287 0.2640406 0.0960877 0.1899464
- - -
Renault - Laguna 0.6975122 0.239547 0.7581672 0.8113953 0.1351419 -0.214016 0.0605701
Ford - Fiesta - -
Active 2.1918559 0.1394665 0.2680085 0.0315859 0.2050812 0.382629 0.2502045
Mercedes-Benz - - - -
GLS 6.1836645 0.3081417 0.4663894 0.1669004 0.5009082 0.5813308 0.1166287
-
Dacia - Duster II 1.6951326 1.1047056 0.0900537 0.2947464 0.0549357 0.2035277 0.1052516
- - -
Hummer - H3T 4.3998119 3.5799987 0.3069776 0.6960201 -0.135636 0.1510893 0.2075133
- - -
Jeep - Compass III 0.5485787 0.345466 0.0709644 0.2950328 0.4230064 0.1891832 0.1005216

31

S-ar putea să vă placă și