PROIECT
ANALIZA DATELOR
2
1. Prezentarea datelor
In cele ce urmeaza am realizat o analiza a celor mai importante caracteristici ale celor mai
cunoscute 25 de autovehicule. Scopul final este acela de a stabili care dintre aceste caracteristici
sunt definitorii in alegerea unei masini personale.
I1- Pret(euro)-Price(euro)
I2. Viteza maxima atinsa(km/h)- Maximum speed
I3- Puterea motorului(cai putere) –Power(hp)
I4- Volumul motorului(cm3) -Engine displacement
I5-Volumul rezervorului(litrii)– Fuel tank volume
I6-Masa proprie(kg)- Kerb Weight
I7- Consumul de carburant(l/100km)- Fuel consumption (economy) - combined
3
Column1 I1 I2 I3 I4 I5 I6 I7
Audi A8 71.816 250 335 4.172 90 1.835 7.5
Dacia - Logan II 8 173 90 1.461 50 1.059 3.5
BMW - X5 52.23 250 400 2.993 80 2.275 6.8
Opel - Corsa E 7.8 207 140 1.364 45 1.199 5.9
Renault - Laguna 7.7 210 173 1.995 66 1.505 4.6
4
2. Analiza distributiilor variabilelor
Pentru I1, putem spune ca în medie, pretul autovehiculelor este de 36.89 mii Euro,
valoare proportionala cu minimul si maximul. Prima cuartila are valoarea 9.2 mii euro, ceea ce
inseamna ca 25% din autovehicule au o valoare mai mica de aceasta valoare, iar 75% mai mare
9.1 mii de euro. Mediana este de 30,72mii euro, deci 50% din preturile autovehiculelor au
valoarea mai mica de 30,72, restul fiind peste acest prag. A treia cuartila este in valoare de
55,465mii euro, ceea ce inseamna ca 75% preturi sunt mai mici de 55,465mii euro, restul de 25%
fiind peste acest nivel.
In medie, pretul se abate cu 29,3377 de la medie, o valoare destul de mare in raport media,
gradul de imprastiere fiind si el la fel de mare.
Variabila pentru care se manifesta o asimetrie foarte puternica este variabila I7, aceasta
reprezinta consumul mixt de carburant pe 100 de km si are valoarea de 2, 14>0, ceea ce
sugereaza o puternica asimetrie la dreapta, cu valori ale consumului foarte mari.
De asmenea, tot pentru aceasta variabila, boltirea este de 5,17>3. Distributia consumului de
combustibil fiind una leptocurtica.
5
Figure 2 Boxploturi I1-I4
2.2. Boxploturi
Fig.2 Din . Boxplotul indicatorului I1- Pretul(mii euro) reiese că pretul in mii de euro al
autoturismelor este o variabilă care are asimetrie la dreapta, lucru ce denotă că s-au înregistrat
predominant valori mai mici decât media. Acest lucru arată că la nivelul pretului, majoritatea
autovehiculelor de pe piata actual au un pret relativ mai mic decat piata. Analizând bolitrea seriei
variabile I1, care este de 0,57, observăm că distribuția este platicurtică. Astfel, distribuția seriei
este plata, arată că datele nu sunt foarte grupate și apropiate de medie și apar frecvențe mai mici
pentru anumite valori, indicând un grad scazut de omogenitate. Se observă din Boxplot că
variabila nu prezintă Outlieri, deci nu avem valori aberante pentru variabila pret.
Din Boxplotul reprezentat în Fig.3. reiese că viteza maxima atinsa este o variabilă care are o
asimetrie foarte mică la dreapta de 0.57, deci distribuția acestei serii se aproapie de distribuția
normală, deci valorile sunt dispersate aproape egal în jurul mediei. Coeficientul de aplatizare este
de 0,30, lucru ce susține o distribuție platicurstica si in acest caz.
Fig. 4 prezinta indicatorul I3, indicator folosit pentru a ingloba informatiile despre puterea
motorului, iar din analiza acestui grafic aflam că puterea motorului este o variabilă care are
asimetrie de 1,61 la dreapta, lucru ce denotă că s-au înregistrat predominant valori mai mici
decât media. Acest lucru arată că la nivelul pietei de autoturisme majoritatea masinilor analizate
au un numar mai mic de cai putere. Analizând bolitrea seriei variabile I3, care este de 2,82,
6
foarte apropiat de 3, lucru ce susține apropierea de o distribuție mezocurtica. Distribuția acestora
evidențiază că rezultatele sunt aproape simetric împrăștiate față de medie. Totuși se observă din
Boxplot că variabila prezintă și un Outlier, deci în analiza unui autoturism, mai exact al masinii
BMW - X5, avem un numar de cap putere de 400, ceea ce este mult peste medie.
7
In boxplotul figurii 6, in care analizam indicatorul I5, cel al volumului rezervorului(litrii),
putem observa ca avem o asimetrie de 1, 16, o asimetrie la dreapta lucru ce denotă că s-au
înregistrat predominant valori ale volumului rezervorului mai mici decât media. Boltirea de 0,44
scoate in evidenta o distributie platicurtica si ne arată că datele nu sunt foarte grupate și
apropiate de medie și apar frecvențe mai mici pentru anumite valori, indicând un grad scazut de
omogenitate. Observam de asemenea si valorile aberante produse de Mercedes-Benz – GLS si de
Hummer, care la fel ca mai sus avand un volum al mototului mare, reiese ca trebuie sa aiba si un
rezervor pe masura.
Din Boxplotul reprezentat în Fig.7. reiese că masa proprie a masinilor este o variabilă care
are o asimetrie foarte mică la dreapta de 0.80, deci distribuția acestei serii se aproapie de
distribuția normală, astfel valorile sunt dispersate aproape egal în jurul mediei. Coeficientul de
aplatizare este de 0,23, lucru ce susține o distribuție platicurtica si in acest caz. Outlierul surprins
provine de la valorile peste medie in ceea ce priveste masa proprie a masinii BMW X5.
Din boxplotul prezentat in figura 8, in care analizam consumul de carburant, putem observa
urmatoarele. Variabila pentru care se manifesta o asimetrie foarte puternica este variabila I7,
aceasta reprezinta consumul mixt de carburant pe 100 de km si are valoarea de 2, 14>0, ceea ce
sugereaza o puternica asimetrie la dreapta, cu valori ale consumului foarte mari.De asmenea, tot
pentru aceasta variabila, boltirea este de 5,17>3. Distributia consumului de combustibil fiind una
leptocurtica. Si in acest grafic putem observa ca variabila volumului prezinta un numar de 2
outlieri, mai exact, masinile: Mercedes-Benz – GLS, Hummer au un consum mult extreme de
mare, fapt ce reiese din faptul ca sunt masini extreme de mari si cu o capacitate mult mai mare
decat media. Valorile aberante observate, sunt valorile datelor care sunt departe de celelalte
valori date, si pot afecta puternic rezultatele analizei.
Primul pas in analiza componentelor principale este investigarea matricii de corelatie. Aceasta ne
va oferi identificarea redundantelor informationale si justificarea utilizarii ACP.
Analiza a Componentelor principale este o tehnica de analiza a datelor care are drept scop
descompunerea variabilitatii totale din spatiul cauzal initial sub forma unui numar redus de
componente, fara ca aceasta forma sa contina redundante informationale.
Aceste componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre
ele, fiecare fiind o combinatie liniara de variabile originale (Liliana n.d.).
8
Scopul analizei datelor pe cazul autovehiculelor prezentate mai sus este acela de a afla cativa
indicatori relevanti pe baza carora se poate obtine o ierarhizare cat mai corecta a autoturismelor.
In figura de mai sus(Fig.9) avem matricea de corelatie a datelor noastre aproximata la doua
zecimale. Coeficientii de corelatie dintre oricare doua variabile sunt reprezentati in aceasta
figura.
Identificam valori ale coeficientilor de corelatie care reflecta corelatii puternice pozitive, 0,91;
0,93. Insa pentru a decide daca un coeficient de corelatie este diferit de zero din punct de vedere
statistic, vom folosi probabilitatile p-value asociate acestora
In continuare, voi face grafica dependentei dintre I4 si I5, deoarece este o corelatie de 0,93 foarte
aproape de 1.
Vom sintetiza apoi informatia din matricea de corelatie si vom determina probabilitatile asociate
coeficientilor de corelatie.
Figure 5 Probabilitatea asociata coeficientilor de corelatie
Matricea P arata probabilitatea asociata coeficientilor de corelatie, adica p-value, unde p-value
arata probabilitatea de a gresi atunci cand respingem ipoteza nula ea, fiind adevarata.
De exemplu, I1 si I7. P-value este 0.4059, rezulta nu se respinge H0, deci coeficientul de
corelatie nu este semnificativ din punct de vedere statistic.
Exemplul 2, I3 si I7, p-value este 0.0012, deci foarte mic. Astfel, respingem ipoteza nula si vom
accepta H1, astfel incat coeficientul de corelatie este semnificativ din punct de vedere statistic.
De asemenea, o modalitate mult mai sugestiva de a vizualiza informatiile este prin reprezentarea
unui grafic ce contine culori ce indica intensitatea si semnul coeficientului de corelatie.
10
Figure 6 Reprezentarea matricii de corelatie
In figura 12 se poate observa ca cele mai puternice legaturi exista intre I3-I6, intre variabila care
masoara viteza maxima si variabila care masoara volumul rezervorului, deoarece cu cat permite
mai multi litrii de combustibil, cu atat viteza maxima a masinii este mai mare. Si intreI4-I5, adica
intre volumul motorului si volumul rezervorului. In celulele cu alb, acel coeficient de corelatie
nu este semnificativ statistic (STEFANESCU n.d.).
Tot pentru a reprezenta coeficientii de corelatie dintre oricare doua variabile, vom folosi un
grafic ce indica legatura dintre variabile.
11
Figure 7 Legatura dintre variabile
In figura reprezentata mai sus(Fig. 13), avem legatura dintre variabilele analizei noastre. Pe
diagonala principala sunt reprezentate distributiile variabilelor. In triunghiul de deasupra
diagonalei se afla valorile coeficientilor de corelatie si masura in care acestia sunt semnificativi
statistic, prin intermediul stelutelor (*** foarte semnificativ)
Iar in triunghiul aflat sub diagonala se regasesc dependentele dintre oricare doua variabile, prin
intermediul unui nor de puncte si al unei curbe care marcheaza dependenta respectiva
In concluzie, matricea de corelaţie arată legătura strânsă existentă între toate cele şapte variabile
considerate, prognozând o mai bună reprezentare a acestora într-un număr substanţial redus de
noi variabile, componente principale. Existenţa unor corelaţii puternice între variabilele analizate
diminuează semnificaţia individuală a acestora din urmă, pe de o parte, şi evidenţiază existenţa
redundanţelor informaţionale, pe de altă parte: există o cantitate semnificativă de informaţie
disipată în legăturile dintre variabile. În demersul nostru, ne propunem atât reducerea
12
dimensionalităţii spaţiului cauzal iniţial, cât şi eliminarea acestor redundanţe informaţionale, şi
de aceea utilizăm metoda analizei componentelor principale (Monica 2018).
Vom standardiza pretul, si vom obtine o medie extrem de mica, aproape de zero si o abatere
standard egala cu 1.
Apoi plecand de la standardizarea datelor iniţiale, prezentam valorile proprii rezultate în urma
analizei componentelor principale. Este de menţionat că doar valorile proprii mai mari decât
unitatea sunt de reţinut pentru că doar acele componente principale care au varianţa mai mare
decât cea a variabilelor originale standardizate (medie nulă şi varianţa egală cu 1) ar trebui
extrase, potrivit criteriului lui Kaiser.
In figurile de mai sus(Fig. 14 si Fig 15) avem evidentiate cele 4 matrici de corelatie si de
covarianta, atat pe datele initiale, cat si pe cele standardizate. Se poate observa ca matricile de
corelatie pe date initiale, corelatie pe date standardizate si covarianta pe date standardizate
coincid. Pe cand matricea de covarianta a datelor initiale este diferita. Acest lucru se datoreaza
faptului ca lucram cu date standardizate (Monica 2018).
13
3.2.2. Valorile si vectorii proprii pentru matricea de corelatie initiala
Valorile proprii ale matricii initiale de corelatie sunt indicate in sectiunea $values din Fig 16, iar
vectorii proprii in sectiunea $vectors.
14
Figure 10 Componentele variabilei initiale
In graficul din Fig 18, proportion of variance indica cat la suta din informatia totala preia fiecare
componenta principala. Putem observa ca primele 2 preiau 84% din informatii din datele initiale,
asa ca acestea vor fi si componentele pe care le vom alege.
Graficul din Fig 17 reprezinta un grafic de tip screeplot ce ne permite sa vizualizam importanta
fiecarei componente principale in preluarea informatiei din datele noastre initiale. Este unul
dintre criteriile folosite pentru a facilita decizia asupra numarului de componente principale
pastrate in analiza. De asemenea, se considera ca punctul in care panta curbei reprezentate devine
nesimnificativa, marcheaza numarul de componente care trebuie retinute. Astfel, trebuie ales acel
punct dupa care valoriile proprii ramase sunt mici si sunt comparabile ca marime.
In cazul actual se observa ca aplicand acest criteriu se poate decide ca alegerea primelor doua
componente principale, care preiau 84% din informatia initiala, este optima.
Dupa aceasta interpretare a noilor componente principale ne vom folosi de matricea datelor
standardizata( Fig. 20) . Aceasta indica cu autovehiculul Audi A8 era descrisa initial de valorile
de pe prima coloana din matricea standardizata. In Fig. 20 voi afisa doar primele 7 variabile.
15
I1 I2 I3 I4 I5 I6 I7
Matricea componentelor principale o vom memora sub denumirea de” scoruri” si va avea
urmatoarele componente evidentiate in Fig. 21, unde asemanator cazului de mai sus, afisez doar
primele 7 variabile:
Column
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7
1
- - - - -
2.912275 0.62325 0.3878291 0.755312 0.598199 0.6829073 0.083320
Audi A8 5 17 65 71 67 63 49
- - -
Dacia - 2.502405 0.63244 0.0310951 0.606057 0.236623 0.0819642 0.051398
Logan II 24 07 12 37 62 9 15
- - - - -
BMW - 2.690259 0.96965 0.5183446 0.677595 0.554596 0.3944846 0.155626
X5 41 94 47 13 12 31 69
Opel - 1.784746 0.13793 - 0.336328 0.264040 0.0960876 0.189946
Corsa E 11 32 0.6638471 73 55 9 38
16
99
Renault - - - -
- 0.697512 0.23954 0.7581672 0.811395 0.135141 0.2140159 0.060570
Laguna 23 7 23 25 93 94 13
Ford - - -
Fiesta 2.191855 0.13946 0.2680084 0.031585 0.205081 0.3826290 0.250204
Active 89 65 77 85 21 25 53
Mercede - - -
s-Benz - 6.183664 0.30814 0.4663894 0.166900 0.500908 0.5813307 0.116628
GLS 46 17 13 44 23 79 74
Table 5 Scoruri
Astfel obtinem o noua matrice 25 x 7. Iar daca pastram doar primele doua componente
principale=>-2,91 si -0,62 pentru Audi A8, atunci varianta primei componente principale, adica
prima coloana, este lambda 1, in valoare de 4.828879
Odată determinat numărul de componente principale reţinute în analiză, mai departe vom incepe
un proces de interpretare a componentelor principale. Astfel, se va determina matricea factor
pentru cele doua componente reprezentative rezultate (Maer n.d.).
Matricea factor este foarte importantă în analiza noastră, întrucât elementele sale (cunoscute şi
sub denumirea de intensităţi ale factorilor) sunt coeficienţii de corelaţie între variabilele
originale şi componentele principale
17
Se observă că noile componente principale prezintă corelaţii foarte puternice, dar în sens negativ
cu toate cele şapte variabile iniţiale, de peste 84%.
A doua componenta se coreleaza puternic si invers cu al primii doi indicatori ( pretul si viteza
maxima atinsa)
Functia PCA va furniza astfel graficele de la Fig 23 si Fig 24 . In prima figura sunt reprezentate
variabilele initiale ca vectori intr-un grafic bidimensional in care prima axa este data de prima
componenta principala care preia 66,11% din informatii, iar cea de a doua axa este data de ce-a
de-a doua componenta principala care preia 18,42% din informatie. Astfel, sunt reprezentate atat
intensitatea corelatiei dintre variabilele initiale, cat si corelatiile dintre variabilele initiale si
componentele principale (Maer n.d.).
18
Figure 14 Reprezentarea variabilelor initiale
Cu cat unghiul dintre vectori este mai mic, cu atat coeficientul de corelatie este mai mare.
Din punct de vedere al performantei automobilelor, se observa din cele doua grafice reprezentate
mai sus ca masinile centrate tabelului sunt foarte asemanatoare din punct de vedere al celei de-a
doua componente. Acestea se asemeana foarte mult prin caracteristicile lor. Un caz particular ar
19
fi Hummer, care desi are un pret extrem de mare, asemanandu-se cu Mercedes-Benz GLS, are
cea mai mica viteza din toate autovehiculele ilustrate. Se oberva astfel ca automobilele situate la
dreapta primei dimensiuni, care preia 66,11% din informatii au un pret mult mai crescut decat
medie, iar cele de deasupra axei Ox, reflecta viteza maxima pe care o pot atinge.
20
Astfel, pentru interpretarea solutiei oferite de analiza componentelor principale, ne sunt utile
informatiile afisate pentru fiecare variabila. De exemplu, contributia pretului la prima
componenta este de 5,65%, observand astfel ca alte elemente precum viteza, puterea, masa,
consumul de carburant sunt elementele care contribuie cel mai mult la constructia primei
componente. Pe cand pretul si viteza contribuie foarte mult la construactia celei de-a doua
componente.
Insumand elementele cos2 asociate tuturor dimensiunilor pentru o anumita variabila se va obtine
1. Iar in cazul nostru, cand informatia dintr-o variabila este preluata in proportie de 84% din total
de primele doua componente, atunci variabila se va reprezenta pe circumferinta cercului de
corelatie ilustrat mai sus. Cos2 sugereaza calitatea reprezentarii, precum am mentionat, ceea ce
inseamna ca cu cat variabilele noastre se apropie de de circumferinta cercului, cu atat este mai
importanta interpretarei celor doua componente principale alese (Maer n.d.).
21
Bibliografie
AutoData. www.auto-data.net. Noiembrie 2018.
Lista de figuri
Figure 1 Analiza variabilelor .......................................................................................................................... 5
Figure 2 Boxploturi I1-I4................................................................................................................................ 6
Figure 3 Boxploturi I5-I7................................................................................................................................ 7
Figure 4 Dependenta I4- I5 ........................................................................................................................... 9
Figure 5 Probabilitatea asociata coeficientilor de corelatie ....................................................................... 10
Figure 6 Reprezentarea matricii de corelatie ............................................................................................. 11
Figure 7 Legatura dintre variabile ............................................................................................................... 12
Figure 8 Valorile proprii ale matricii initiale de corelatie ........................................................................... 14
Figure 9 Scree plot ...................................................................................................................................... 14
Figure 10 Componentele variabilei initiale ................................................................................................. 15
Figure 11 Coeficientii combinatiilor liniare ................................................................................................. 15
Figure 12 Coeficientii de corelatie intre variabilele initiale si componentele principale ........................... 17
Figure 13 Cercul corelatiilor ........................................................................................................................ 18
Figure 14 Reprezentarea variabilelor initiale .............................................................................................. 19
Figure 15 Reprezentarea autovehiculelor in functie de noile caracteristici ............................................... 19
Figure 16 Sinteza rezultatelor oferice de PCA ............................................................................................ 20
Lista de tabele
Table 1 Matricea de corelatie ....................................................................................................................... 9
Table 2 Matricile c1, c2, c3 Table 3 Matricea c4 . 13
Table 4 Matricea datelor standardizata ...................................................................................................... 16
Table 5 Scoruri ............................................................................................................................................ 17
22
Index de termeni
Boxploturi........................................................................................................................................ 2, 6, 7, 22
corelatie ............................................ 2, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 22, 25, 26, 27, 28, 30
PCA ........................................................................................................................................ 2, 18, 20, 22, 30
Standardizarea ........................................................................................................................................ 2, 13
Valorile proprii...................................................................................................................................... 14, 22
variabile ..................................................................... 2, 6, 8, 9, 10, 11, 12, 13, 15, 16, 18, 22, 25, 26, 27, 29
Anexe
Codul folosit
path <-"C:\\Users\\X\\Desktop\\Analiza datelor"
attach(performanta)
library(moments)
mean(I1)
mean(I2)
mean(I3)
mean(I4)
mean(I5)
mean(I6)
mean(I7)
skewness(I1)
skewness(I2)
skewness(I3)
skewness(I4)
skewness(I5)
skewness(I6)
skewness(I7)
kurtosis(I1)
23
kurtosis(I2)
kurtosis(I3)
kurtosis(I4)
kurtosis(I5)
kurtosis(I6)
kurtosis(I7)
sd(I1)
sd(I2)
sd(I3)
sd(I4)
sd(I5)
sd(I6)
sd(I7)
cor(I1, I2)
par(mfrow=c(2,2))
boxplot(I1, col="plum")
boxplot(I2)
boxplot(I3)
boxplot(I4)
boxplot(I5)
boxplot(I6)
boxplot(I7)
quantile(I1)
quantile(I2)
quantile(I3)
24
quantile(I4)
quantile(I5)
quantile(I6)
quantile(I7)
attach(m)
c<-cor(m)
c<-round(c,2)
#aproximez la 2 zecimale
View(c)
#Identificam valori ale coeficientilor de corelatie care reflecta corelatii puternice pozitive, 0,91; 0,93. Insa pentru a
decide daca un coeficient de corelatie este diferit de zero din punct de vedere statistic, vom folosi probabilitatile p-
value asociate acestora
plot(I4,I5)
abline(lm(I5~I4))
plot(I2,I7)
abline(lm(I7~I2))
library(ggplot2)
windows()
ggplot(m,aes(x=I5,y=I4))+geom_point(shape=16,size=5,col='red')+geom_text(label=row.names(m),vjust=0,hjust=0,
size=5,col='blue')
install.packages("Hmisc")
25
library(Hmisc)
install.packages("corrplot")
library(corrplot)
install.packages("PerformanceAnalytics")
library(PerformanceAnalytics)
c2<-rcorr(as.matrix(m))
c2
#O modalitate mult mai sugestiva de a vizualiza informatiile este prin reprezentarea unui grafic ce contine culori ce
infica intensitatea si semnul coeficientului de corelatie
windows()
#sig.level=0.01 adica sa considere semnif coef de cor care au asociat p-value <0.01
# O alta modalitate de a reprezenta coeficientii de corelatie dintre oricare doua variabile este urmatoarea
windows()
chart.Correlation(m,histogram=TRUE,pch=19)
# Pe diagonala principala sunt reprezentate distributiile variabilelor. In triunghiul de deasupra diagonalei se afla
valorile coeficientilor de corelatie si masura in care acestia sunt semnificativi statistic, prin intermediul stelutelor
(*** si explicatii).
#Iar in triunghiul aflat sub diagonala se regasesc dependentele dintre oricare doua variabile,
#prin intermediul unui nor de puncte si al unei curbe care marcheaza dependenta rescpectiva.
library(scatterplot3d)
windows()
grafic3d<-scatterplot3d(m[,1:3],pch=4,angle=30)
26
text(grafic3d$xyz.convert(m[,1:3]),labels=rownames(m))
I1S<-scale(I1,center=TRUE,scale=TRUE)
ms<-scale(m,center=TRUE,scale=TRUE)
mean(I1S)
sd(I1S)
c1<-round(cor(m),2)
c2<-round(cor(ms),2)
c3<-round(cov(m),2)
c4<-round(cov(ms),2)
#lucram de acum pe c1-calculam vect proprii si val proprii pentru matricea de corelatie
vprop<-eigen(c1)
vprop
#pe primul rand sunt val proprii, apoi vect proprii pe coloane
v1<-vprop$vectors[,1]
v2<-vprop$vectors[,2]
norma<-sum(v1^2)
#corelatia dintre v1 si v2
27
corelatie<-cor(v1,v2)
#generati 6000 valori dintr-o distrb normala de medie 3 si abatere std 1.2
x<-rnorm(6000,3,1.2)
x<-matrix(x,nrow=1000)
pi<-t(xc)%*%xc
cov(xc)
acp<-princomp(m,cor=TRUE) #matricea m
#lucram pe date standardizate-facem acp pe matricea de corelatie- acei vectori sunt proprii ai matricii de corelatie
summary(acp)
View(acp)
#comp 1,...comp 7->reprezinta componentele principale z1,...z7, adica combinatiile liniare ale variabilei initiale
eigen(cor(m))
#proportion of var- cat la suta din inf totala preia fiecare componenta principala
plot(acp,type="l")
#criteriul lui Kaiser- pastrez in analiza atatea comp princ cate valori proprii peste 1 am- criteriu valabil atunci cand
avem date standardizate =>pastram 2 componente
#Coeficientii utilizati in construirea componentelor principale sunt redati in tabelul de mai jos. Elementele lipsa
corespund unor valori nesimnificative
acp$loadings
# atunci cand un vect propriu este inmultit cu o constanta el ramane acelasi vector propriu
acp$loadings[,1]%*%ms[1,]
scoruri<-acp$scores
var(scoruri[,1])
#am obt o noua matrice in scoruri cu noile caract care nu sunt corelate intre ele si primele 2 comp preiau max de
inform din datele initiale
cor(scoruri[ ,1:2],m)
acp$sdev
ponderi<-acp$loadings
c11<-acp$sdev[1]*ponderi[1,1]
#Matricea factor
matriceafactor<-cor(m,scoruri[,1:2])
#puternice, dar în sens negativ cu toate cele şapte variabile iniţiale, de peste 85%.
valori<-seq(0,2*3.14,length=100)
plot(cos(valori),sin(valori),type="l",xlab="Comp1",ylab="Comp2")
text(matriceafactor[,1],matriceafactor[,2],rownames(matriceafactor))
abline(h=0)
29
abline(v=0)
text(scoruri[,1],scoruri[,2],labels=rownames(scoruri),pos=3)
abline(h=0)
abline(v=0)
install.packages(FactoMineR)
library(FactoMineR)
acp2<-PCA(m)
summary(acp2)
#coef de corelatie, pt a arata contributia fiecarei var initiale la varianta componentelor principale
I1 I2 I3 I4 I5 I6 I7
30
GLS
- - - - - -
Dacia - Duster II 0.9303259 1.0851144 0.7696796 0.5946176 0.6397202 0.8144245 0.0775889
- -
Hummer - H3T 0.1960148 1.4222373 0.8652654 2.6445264 2.3959102 1.8114048 3.5559115
- - -
Jeep - Compass III 0.2623118 -0.57943 -0.290324 0.2836459 0.0559451 0.1253199 -0.344026
Primele 10 scoruri
Comp.1
Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7
- - - - -
Audi A8 2.9122755 0.6232517 0.3878292 0.7553127 0.5981997 0.6829074 0.0833205
- - -
Dacia - Logan II 2.5024052 0.6324407 0.0310951 0.6060574 0.2366236 0.0819643 0.0513982
- - - - -
BMW - X5 2.6902594 0.9696594 0.5183446 0.6775951 0.5545961 0.3944846 0.1556267
-
Opel - Corsa E 1.7847461 0.1379332 0.6638472 0.3363287 0.2640406 0.0960877 0.1899464
- - -
Renault - Laguna 0.6975122 0.239547 0.7581672 0.8113953 0.1351419 -0.214016 0.0605701
Ford - Fiesta - -
Active 2.1918559 0.1394665 0.2680085 0.0315859 0.2050812 0.382629 0.2502045
Mercedes-Benz - - - -
GLS 6.1836645 0.3081417 0.4663894 0.1669004 0.5009082 0.5813308 0.1166287
-
Dacia - Duster II 1.6951326 1.1047056 0.0900537 0.2947464 0.0549357 0.2035277 0.1052516
- - -
Hummer - H3T 4.3998119 3.5799987 0.3069776 0.6960201 -0.135636 0.1510893 0.2075133
- - -
Jeep - Compass III 0.5485787 0.345466 0.0709644 0.2950328 0.4230064 0.1891832 0.1005216
31