Sunteți pe pagina 1din 28

Proiect analiza datelor

Daia Lavinia-Mihaela
Grupa 1035
1. Descrierea datelor
Proiectul vizeaza evidentierea legaturii dintre un set de 10 variabile avand fiecare un set de 30 de
observatii. Obiectele au fost luate de pe http://epp.eurostat.ec.europa.eu si reprezinta 30 de tari ,
majoritatea fiind state membre UE, dar sunt prezentate si state ca : Japonia, Turcia, Statele Unite.
Acestea sunt caracterizate de urmatorul set de variabile luate pentru anul 2007:
I1- rata angajarii pentru femeile avand varste intre 20 si 64 de ani; unitate de masura: %
I2- rata angajarii pentru barbatii avand varsta cuprinsa intre 20 si 64 de ani; unitate de masura: %
I3- GDP/cap de locuitor; unitate de masura :%
I4- cheltuieli cu cercetarea si dezvoltarea, prezentate ca procent din GDP
I5- speranta de viata pentru femeile trecute de 65 de ani; unitate de masura: ani
I6- speranta de viata pentru barbatii trecuti de 65 de ani; unitate de masura: ani
I7- cheltuieli cu educatia, prezentate ca procent din GDP
I8- cheltuieli cu protectia sociala, prezentate ca procent din GDP
I9- consumul de energie final; unitatea de masura fiind echivalentul a 1000 de tone de petrol
consumate
I10- numarul autovehiculelor ; unitatea de masura fiind numarul de masini la 1000 de locuitori

Obiectele sunt reprezentate de statele urmatoare: Belgia, Bulgaria, Republica Ceha, Danemarca,
Germania, Estonia, Irlanda, Grecia, Spania, Franta, Italia, Cipru, Letonia, Lituania, Luxemburg,
Ungaria, Malta, Olanda, Austria, Polonia, Portugalia, Romania, Slovenia, Slovacia, Finlanda,
Suedia, Marea Britanie, Japonia, Turcia, Statele Unite.

matricea initiala a datelor

Matricea de corelatie a datelor

Interpretarea valorilor matricei de corelatie a datelor:


Se poate observa ca exista o corelatie puternic pozitiva (coeficientul de corelatie este aproape de
1) intre:
-

I6 si I5 ( speranta de viata pentru barbatii trecuti de 65 de ani si speranta de viata pentru


femei trecute de 65 de ani)
I8 si I4 (Cheltuieli cu proctectia sociala si cheltuieli cu cercetarea si dezvoltarea ambele
calculate ca procent din GDP)

Se poate observa existenta unei corelatii puternic negative (valoare apropiata de -1) intre:
-

I8-I3 (cheltuieli cu protectia sociala si GDP/cap de locuitor)


I7-I3 (cheltuieli cu educatia si GDP/cap locuitor)

STATISTICI DESCRIPTIVE
> date<-read.table("matrice.txt", header=TRUE)
> attach(date)
> summary(date)

INDICATORI OBTINUTI IN EXCEL

Medie
Std
Q1
Q2
64.40
1213.244
58.175
64.600
I1
79.10
4.5770747 75.850
79.100
I2
28.10
11.23085
20.90
28.10
I3
1.280
0.9487323 0.6300
1.2800
I4
8.650
3.201991
7.175
8.650
I5
8.500
2.835572
6.975
8.500
I6
4.965
1.225128
4.2825
4.9650
I7
0.2850
0.4842704 0.1325
0.2850
I8
23110
106670.8
6381.75
23110.00
I9
468.0
136.0581
384.75
468.00
I10
Tabel intocmit pe baza datelor obinute in programul R

Q3
69.300
82.175
36.95
2.0325
10.650
10.350
5.3675
0.5375
58696.50
503.00

Skewness

Kurtosis

5.198795
-0.232869
0.66804947
0.7297862
0.2956746
0.1379825
-0.227778
2.296455
3.425998
0.1991963

28.02998
2.336588
2.942585
2.448517
2.338018
2.783343
4.188944
8.637386
15.64643
3.249242

Pentru I1 am obtinut o medie de 64.40. I1 reprezinta rata de angajare pentru femeile avand varste
intre 20-65 de ani , deci pentru cele 30 de tari avem o medie de angajare de 64.40% care este mai
mica decat 79.10% care reprezinta media ratei de angajare pentru barbatii avand varste intre 2065 ani.
Pentru I3 am obtinut o valoare a mediei egala cu 28.10% GDP/cap de locuitor.
Pentru I4 care reprezinta cheltuieli cu cercetare si dezvoltare am obtinut o valoare de 1.280 si
aceasta valoare este calculata ca procent din GDP
Dupa calcularea mediilor variabilelor I5 si I6 putem observa ca speranta de viata a femeilor este
putin mai mare decat cea a barbatilor (8650>8500)
Cu o valoare a mediei variabilei I7 putem preciza ca avem o medie a cheltuilelilor cu educatia de
4.965

Pentru I7 I8 si I10 putem oberva si valorile minime precum si pe cele maxime luate de o
variabila in cadrul seriei sale. Quantilel ne ofera o analiza procentuala exacta, putem observa
astfel ca avem cheltuieli cu protectia sociala (I8) cuprinse intre 0.53 si 2.25 %GDP cu o
probabilitate cuprinsa intre 75% si 100%.

Reprezentarea grafica : Boxplot, Histograma, Densitatea de probabilitate

Fig 1 Boxplot(I1)

Fig 2 Histograma (I1)

Fig 3 Densitate de probabilitate(I1)

Fig 3 si Fig 6: Graficile arata densitatea de probabilitate a variabilelor I1 (stanga) si I2 (dreapta).


Putem observa faptul ca ratele de angajare pentru femei au o densitate mare in jurul valorii de
70%, fata de cele alea barbatilor care au valoarea preponderenta de 80% cu o densitate de de
probabilitate aproape dubla. Putem observa deasemnea lipsa procentajelor scazute de angajare in
cazul barbatilor care inregistreaza cea mai mica densitate pentru o rata de 65%. Contrastul este
mare daca ne uitam la curba variabilei I1 care inregistreaza valori foarte mici cuprinse intre 20%
si 40%. Acest fapt este datorat includerii in analiza a unui stat musulman ca Turcia.

Fig 4 Boxplot(I2)

Fig 6 Densitate de Probabilitate (I2)


Fig 4:

Fig 5 Histograma(I2)

Fig 7 Boxplot (I3)

Fig 8 Histograma (I3)

Fig 9 Densitate de probabilitate (I3)

Fig7

Fig8: Similar in histograma de mai jos putem vedea ca GDP-ul/cap de locuitor se afla in
majoritatea tarilor intre 20 -30% .Valorile minime de 10 -15 % au freventa cea mai redusa. Cu
cat valaorea variabilei I3 creste cu atat inregistram fluctuatii mari in cadrul frecventelor, acest
lucru ne duce la concluzia ca avem tari cu nivele de trai considerabil diferite intre ele printre cele
care depasesc media.

Fig 10 Boxplot (I4)

Fig 11 Histograma (I4)

Fig 12 Densitate de probabilitate (I4)

Fig10

Fig11: Figura de mai jos reprezinta histograma variabilei I4 ( Cheltuielile R&D ca procent din
GDP). Aceasta ne arata cu ce frecvente apar procentajele mai mari sau mai mici ale cheltuielilor
in cadrul celor 34 de tari. Putem concluziona astfel ca majoritatea statelor investesc intre 0.5 si
1.0 % din GDP in cercetare si dezvoltare.

Fig 13 Boxplot (I5)

Fig 14 Histograma (I5)

Fig 15 Densitate de probabilitate (I5)

Pentru Variabilele I5 si I6 (fig 13 si fig 16) interpretare boxplot: boxplot-urile variabilelor I5


(sus) si I6 (mai jos). Ne arata distributia observatiilor in cadrul celor doua serii. Putem observa ca
speranta de viate medie a femeilor si barbatilor de peste 65 de ani este situate intre 8 si 10 ani.
Deasemenea, putem dedeuce ca avem un segement mai important de observatii care se situeaza
mai aproape de medie, in cazul sexului feminin, boxplotul este mai robust pentru I5. Cu o
probabilitate intre 25% si 75% o femeie cu varsta de peste 65 de ani din statele analizate poate sa

traiasca intre 7 si 12 ani . Acelasi lucru nu poate fi spus si depsre barbate, care au o spranta de
viata ami scazuta in acelasi conditii de 7 pana la 10 ani.

Fig 16 Boxplot(I6)

Fig 17 Histograma (I6)

Fig 18 Densitate de probabilitate (I6)

De asemenea putem observa ca in cazul densitatilor de probabilitate pentru variabilele I5 si I6


avem o diferentiere si anume: speranta la viata a femeilor (I5) este mai mare decat cea a
barbatilor(I6)

Fig 19 Boxplot (I7)

Fig 21 Densitate de probabilitate (I7)

Fig 20 Histograma (I7)

Fig 22 Boxplot (I8)

Fig 24 Densitate de probabilitate (I8)

Fig 23 Histograma (I8)

Fig 25 Boxplot (I9)

Fig 27 Densitate de probabilitate (I9)

Fig 26 Histograma (I9)

Fig 28 Boxplot (I10)

Fig 29 Histograma (I10)

Fig 30 densitate de probabilitate (I10)

Fig 28
Fig 29: In histograma urmatoarea putem observa ca numarul de autovechicule la 1000 de
locuitori inregistreaza o distributie apropiata de clopotul lui Gauss, frecventa medie fiind de 14
pentru tari care au intre 400-500 de masini la 1000 de locuitori.

ACP Analiza Componentelor Principale


Analiza componentelor principale este o tehnic de analiz multidimensional care are ca scop
generic sintetizarea informaional (reducerea dimensionalitii datelor) i eliminarea
redundanelor informaionale (suprapunerilor informaionale).
Dimensionalitatea datelor este justificat pe baza matricei de observaii: 30 de observaii cu 10
caracteristici, n total 300 de date.
Redundana datelor este justificat pe baza matricei de corelaie calculate mai sus din care reiese
faptul c ntre variabile exist corelaii puternice (conine valori apropiate de 1 sau -1) deci exist
suprapunere informaional pe care vom dorii sa le eliminm.
Componentele principale notate wi, sunt combinaii liniare de variabile originale care au 2
proprieti: - au varian maximal descresctoare: Var(W1)>Var(W2)>...>Var(Wn);
- dunt necorelate dou cte dou: Cov(Wi, Wj)= 0, ij.
Vom realiza analiza componentelor principale n programul SAS.
Vom importa matricea observaiilor, urmnd s introducem urmtoarea comand n program,
care va crea 2 tabele noi (acp si comp):
ods graphics on;
proc princomp data=matrice out=rezultatem outstat=statisticim n=10 plots=all;
var I1 I2 I3 I4 I5 I6 I7 I8 I9 I10;
run;

Analiza

se

realizeaz

pe

matricea

de

corelaie.

n output-ul din SAS vor fi afiate urmtoare informaii:

Se observ faptul c primele 2 valori preiau aproximativ 55% din informative, iar primele 3
aproximativ 71% din informaie.

Acetia sunt vectorii proprii obinui pe baza valorilor proprii. Cu ajutorul lor vor fi calculate
componentele principale care se afl n tabelul COMP.

Tabel COMP
Al doilea tabel COMP adaug n matricea de observaii componentele principale calculate cu ajutorul vectorilor proprii. Numrul valorilor proprii este egal cu numrul vectorilor proprii i cu numrul variabilelor.
Componentele principale se calculeaz dup formula: wi=1*ai1 + 2*ai2 + + 10*ai10 unde
- Wi este componenta principal calculat cu ajutorul valorii proprii i
- i este vectorul propriu corespunztor valorii proprii i
- aij este un element din matricea de observaii

Tabel ACP

Tabelul ACP creat conine media variabilelor, abaterea standard, numrul de observaii, matricea de corelaie dintre variabile, valorile
proprii i vectorii proprii corespunztori acestora.

Criterii de determinare a numarului de componente principale

Conform criteriului pantei ar trebui retinute in analiza 3 componente principale,


deoarece in cazul retinerii unei a 4-a putem observa in primul grafic de mai jos tendinta
asimptotica spre zero a dreptei valoriilor proprii. Daca aplicam criteriul lui Kaiser avem
deasemenea 3 componente principale retinute in analiza , deoarece a patrat valoare proprie
devine subunitara, iar acest lucru ne spune sa nu acceptam o a patra componenta principala. In
schimb daca ne luam dupa criteriul procentului de acoperire ar trebui sa admitem un numar de
componente principale in analiza astfel incat sa avem un procent cumulativ de informatie captata
de peste 85%, in acest caz va trebui sa consideram in analiza 5 componente princpiale.

Descresterea cantitatii de informatie continute in fiecare component principala este


ilustrata in graficele de mai jos. In primul grafic putem vedea cantitate procentuala de informatie
continuta in fiecare componenta, iar in cel de-al doilea avem in plus si procentul cumulat de
informatie pe parcurs ce admitem in analiza mai multe componente.

Din analiza acestui grafic putem observa din care variabile preia fiecare componenta principala
mai multa informatie , mai bine zis ilustreaza corelatia dintre variabilele initiale si componentele
principale.
Tot informaii cu privire la preluarea informaiei din variabilele iniiale n fiecare component
principal pot fi citite i in graficele component pattern
Acestea reprezinta de fapt corelarea dintre toate variabilele initiale si doua component principale
. Din primul putem observa ca 8 din cele 10 variabile sunt puternic legate de prima componenta
principala, I9 este o exceptie deoarece e puternic legata de cea de-a doua componenta si foarte
slab legata de prima. Deasemenea ne putem folosi de acest grafic pentru a denumi componentele
principale , prima ar putea fi asociata cu Nivelul de bunastare al unui stat, cea de-a doua o putem
numi Nivel tehnologic dat fiind faptul ca e legat puternic de I9,I10 si I3. Cea de-a treia
componenta este legata de I2,I5,I6 si I10 deci putem sa o asociem cu dimensiunea pietei de
autovehicule dintr-un stat si cu capacitatea de dezvoltare a acesteia, prin urmare putem sa o
denumim Piata Auto.

I9 siI10 sunt puternic corelate cu


w2(>0.6) si slab corelate cu w1
I5,I6,I7,I8 puternic corelate cu
w1(<0,8) si slab corelate cu w2
I2,I4 puternic corelate cu w1(<0.8) si
slab corelate cu w2

Urmatoarele grafice ne arata aportul fiecarei observatii la alcatuirea


componentelor principale , corelatia dintre observatii si componente. Se poate
usor vedea faptul ca tari precum SUA, Japonia si Turcia numerotate 30, 29
respectiv 28 sunt izolate fata de restul statelor, putem asocia acest lucru cu un alt
trend in ceea ce priveste dezvoltarea si un alt nivel de bunastare fata de tarile
europene.

Se poate observa ca majoritatea


oraselor au o distributie normala
din
punct
de
vedere
al
componentei W2 dar si al
componentei W3
Oberservam ca orasul 28 ()
inregistreaza valori mai ridicate
din pct de vedere al componentei
W3 dar valori mai scazute in W2;
iar in cazul orasului 30(SUA) se
inregistreaza valori mai ridicate
din pct de vedere al componentei
W2 dar mai scazute din pct de
vedere al componentei W3.
Orasul 19 inregistreaza valori
scazute atat pentru componenta
W3 cat si pt W2.

In aceasta figura este o reprezentare tridimensionala a oraselor. In plan sunt surprinse


caracteristicile componentelor W2,W3 iar W1 este reprezentata prin colorarea punctelor
pe o scala de la albastru la rosu. Orasele reprezentate cu albastru au valori scazute iar cele
reprezentate cu rosu au valori ridicate.
Observam ca avem doar 2 orase cu valori ridicate si destul de multe cu valori scazute.

Turcia are o corelatie scazuta cu componenta 1, putem deduce ca are un nivel de bunastare mai
scazut .
SUA are un nivel tehnologic ridicat precum si un nivel de bunastare mediu. Cea din urma
obervatie poate fi datorata faptului ca SUA are cea mai amre populatie dintre statele prezente in
studiu. Putem pune problema eficientei cu care este consumata energie, deoarece un stat ca
Japonia este slab corelat cu componenta principala 2.

In concluzie, analiza componentelor principale ne-a permis s realizm o sintetizare


informaional i s caracterizm un ir de observaii pprin 3 caracteristici n loc de 10. Astfel,
am putut realiza comparaii ntre observaii.