Sunteți pe pagina 1din 48

2014

Emilia-Andreea
Popa
Grupa 1028
Seria Cibernetic

[INTELIGEN
COMPUTAIONAL N
ECONOMIE]

PROIECT

Introducere
Pentru realizarea acestui proiect, am construit un set de date cu 360 de observaii,
ce corespund celor 9 indicatori economici i demografici pe care i-am inclus n
analiz. Datele au fost culese de pe site-ul: http://ec.europa.eu/eurostat. Am ales 40
de ri din Europa, pentru care am identificat: numrul de locuitori, Produsul Intern
Brut/cap de locuitor (euro per locuitor), Produsul Intern Brut/(calculat la preurile
curente, n milioane euro), Consumul Final (calculat n milioane euro), exporturile
(calculat n milioane euro), rata inflaiei, rata omajului, numrul de divoruri i
numrul de cstorii. Perioada de analiz o reprezint anul 2013, iar valorile
calculate pentru rata inflaiei i rata omajului sunt valorile medii.
Indicatorii stabilii, denumii n continuare atribute, se prezint n baza de date
astfel:

Population
GDP/euro per habitant
GDP in current prices
Final Consumption
Exports
Inflation Rate (%)
Unemployment Rate (%)
Divorces
Marriages

n continuare, voi rezolva cerinele proiectului i voi ataa printscreen-urile outputurilor din R, precum i interpretarea rezultatelor obinute.
Cerine
1. Calculai statisticile descriptive ale setului de date: medie, dispersie,
variane, matrice de covarian i de corelaie, histograme.

Am importat datele n R i le-am afiat, aa cum se poate observa i n printscreen,


apoi am identificat i dimensiunile bazei de date: cte 40 de observaii pentru 10
atribute/variabile, dintre care unul este cel al denumirii rii. Apelarea funciei str
ne arat c variabilele noastre sunt numerice/cantitative, iar din summary putem
identifica valorile minime, maxime, cuartilele, media i mediana pentru fiecare
atribut.

Putem declara c cea mai mic populaie pe care o are o ar este de 37129
locuitori, n timp ce cea mai mare populaie atinge 80780000 locuitori. PIB-ul maxim
atins este n punctul 2737600 milioane euro, n timp ce minimul este 3149 milioane
euro. Valoarea medie a consumului final este 81316 milioane euro, valoarea medie
a ratei inflaiei este de 1,65%, iar valoarea maxim 13%. Rata omajului atinge cote
maxime, de pn de la 27,5%, numrul minim de divoruri nregistrate ntr-o ar
este de 87, n timp ce numrul maxim de cstorii este 603751.

Dintre cele 9 variabile, media i dispersia cea mai mic o nregistreaz rata inflaiei,
n timp ce dispersia maxim este asociat numrului de locuitori=22968885.

Am calculat matricea de covarian i matricea de corelaie, aflnd astfel c ntre


numrul de locuitori al unei ri i GDP-ul acesteia exist o legtur puternic,
direct, sugerat de coeficientul 0,859. De asemenea, se remarc o legtur
direct, pozitiv i puternic ntre numrul de locuitori i numrul de divoruri,
respectiv cstorii.

Din histogramele realizate putem trage urmtoarele concluzii: frecvena cea mai
mare o au rile care au un PIB/cap de locuitor ntre 0 i 20000 euro. Similar, cnd
vine vorba de PIB total, frecvena cea mai mare se nregistreaz pentru intervalul 0500000 milioane euro.
Referitor la exporturi, s-au nregistrat valori cu preponderen n intervalul 0-200000
milioane euro, iar consumul final: 0-500000 milioane euro.

Rata inflaiei este extrem de frecvent n intervalul 0-5, cu cteva valori care
depesc 10%. Rata omajului are o distribuie mai echilibrat, cu dou intervale
puternice de frecven: 5-10%, respectiv 10-15%, nicio valoare nregistrat n
intervalul 20-25%, ns cteva valori sesizate n intervalul 25-30%.

2. Determinai posibile dependene ntre variabile, ecuaii de regresie,


coeficienii dreptelor de regresie estimai, trasarea dreptelor de regresie
i interpretri.
Pentru a identifica legturi ntre unele variabile, am construit mai multe funcii. O
observaie foarte important este aceea c setul meu de date nu este o serie de
timp, deci legturile ntre variabile nu sunt vizibile i nu pot fi afirmate.

Funcia 1 este funcia analizat ntre numrul de locuitori al unei ri i PIB-ul


total rezultat.

Ecuaia de regresie rezultat este: Population=4.415e+06+3.139e+01*GDP

Funcia 2 este funcia analizat ntre numrul de locuitori al unei ri i


consumul final.

Ecuaia de regresie rezultat este: Population=4.501e+06+3.927e+01*FC

Funcia 3 este funcia analizat ntre rata inflaiei i rata omajului

Ecuaia de regresie rezultat este: Inflation=2.7409-0.06*Unemployment


Se remarc existena unei legturi inverse, astfel nct atunci cnd rata
inflaiei se modific cu un punct procentual, rata omajului scade cu 0.06
puncte procentuale, ns foarte slab, conform coeficientului de
determinaie=0.0206.

Funcia 4 este funcia analizat ntre numrul de divoruri i rata omajului

Ecuaia de regresie rezultat este: Divorces=3110.5-221.1*Unemployment


Legtura este una invers, astfel nct atunci cnd numrul divorurilor se
modific cu o unitate, rata omajului scade cu 2,2%. Totui, modelul de
regresie nu este valid, dup cum indic i valoarea lui Multiple R-Squared.

Funcia 5 este funcia analizat ntre PIB i rata inflaiei

Ecuaia de regresie rezultat este: GDP=412472-22116*Inflation


Legtura ce pare s existe ntre cele dou variabile este invers, astfel nct
atunci cnd PIBul se modific cu o unitate, rata inflaiei scade cu 0,2%, ns
modelul liniar nu este valid, ntruct Multiple R-Squared=0.006.
Aa am cum am precizat i anterior, analiza efectual nu este relevant,
ntruct setul de date nu este unul potrivit pentru identificarea unor
poteniale legturi ntre variabile i construirea modelelor de regresie liniar.

3. ACP: vectori proprii, valori proprii, criterii de determinare a


componentelor principale, scree plot, matricea scorurilor, biplot: grafice i
interpretri.
Pentru Analiza Componentelor Principale am asociat matricei de corelaie un
indicator r i matricei de covarian un indicator s. n urm rulrii instruciunii eigen
(s) se obine:

Valorile proprii sunt:

1=5.281076e+14
2=1.898461e+11
3= 8.345611e+09
4=1.571781e+09
5=5.069792e+08
6=3.000409e+08
7=9.865681e+07
8=2.313406e+01
9=2.104875e+00

1 , 2 , 3 , 4 , 5, 6, 7, 8, 9, = 9 componente principale

1 =

9.994904e-01*Population+(-6.950611e-

05)*GDP/habitant+2.352773e-02*GDP+1.924123e-02*FC+8.214007e03*Exports+3.108333e-08*Inflation+(-2.756254e09)*Unemployment+1.783799e-05*Divorces+4.955490e-03*Marriages
.a.m.d., pn scriem cele 9 componente principale.
Din cele 9 componente prinicipale, trebuie s reinem numai p componente, p9,
conform unui criteriu prestabilit.
Vom aplica mai multe criterii:
1. Criteriul procentului de acoperire:
Variana total= 1+ 2+3+4+5+6+7+8+9

1= Varianta totala , iar dac rezultatul este mai mare de 70-75%, alegem o
singur component principal
2. Criterul lui Kaiser
Conform acestui criteriu, se rein numai valorile proprii mai mari sau egali cu 1.
3. Criteriul mediei
Conform criteriului, se rein numai acele variane mai mari sau egale cu variana
medie.
4. Scree Plot

Fiecare component explic cte 11% din variana total, iar variana cumulativ
trebuie s depeasc 80%, ceea ce nseamn c vom alege 8 componente
principale.
Mai sus am ataat o parte din matricea scorurilor. Acestea sunt mai potrivite pentru
a fi folosite n analiz, fiind mai puin afectate de erori, n comparaie cu datele
iniiale.

Biplot

ntr-un biplot, lungimea liniilor aproximeaz variana variabilitii. Cu ct e mai


lung linia, cu att e mai mare variana. Unghiul dintre linii aproximeaz corelaia
dintre variabilele pe care le reprezint. Cu ct unghiul e mai aproape de 90 0 i 2700,
cu att corelaia e mai mic. Un unghi de 0 0, respectiv 1800, reflect o corelaie de
1, respectiv -1. Distana dintre dou puncte aproximeax distana euclidian dintre
dou observaii.
Punctele apropiate n biplot corespund unor ri cu caracteristici asemntoare.
Vectorii orientai n aceeai direcie corespund variabilelor cu profiluri similare. Un
grup de vectori n aceeai direcie corespunde unui grup de caracteristici comune
unei ri, iar punctele extreme din figur sunt outliers.
n cazul nostru, 29, 37, 28 au caracteristici similare, n timp ce 38, 39, 15 sunt
outliers.
4. SVM: construirea setului de antrenare i de testare, diverse forme ale
funciei kernel: liniar, polinomial, sigmoid, radial, numr de vectori
suport n fiecare situaie, predicii, matricea de confuzie, rata de
exactitate a modelului pentru fiecare situaie, coeficientul Cohen.
Vom mpri setul de date n set de antrenare i set de testare i se obine un vector
de lungime 40, adic numrul de linii ale setului de date i un vector cu
componente aleatoare de lungime egal cu lungimea vectorului index, mprit la
9 i trunchiat.

SVM-Radial

Au fost obinui 36 vectori-suport. Funcia nucleu implicit este de tip radial, cu


parametrii implicii cost=1 i un parametru gamma=0.111111, de care depinde
funcia nucleu-radial.
Predicia pentru primele 6 observaii:

Observaie: argumentele nu au aceeai lungime n baza mea de date, motiv pentru


care R a generat eroare la rularea comenzilor de predicie. Prin urmare, rezultatele
arat c rata de exactitate a modelului este 0, iar coeficientul Cohen=-0.066667.

SVM-linear

Au fost obinui 36 vectori-suport. Funcia nucleu implicit este de tip liniar, cu


parametrii implicii cost=1 i un parametru gamma=0.111111, de care depinde
funcia nucleu-radial.

SVM-polinomial

Au fost obinui 36 vectori-suport. Funcia nucleu implicit este de tip polinomial, cu


parametrii implicii cost=1 i un parametru gamma=0.111111, de care depinde
funcia nucleu-radial.
SVM-sigmoid

Au fost obinui 36 vectori-suport. Funcia nucleu implicit este de tip sigmoid, cu


parametrii implicii cost=1 i un parametru gamma=0.111111, de care depinde
funcia nucleu-radial.
5. Analiza cluster: kmeans, kmedois, fuzzy clustering, ierarhic,
dendograme, grafice, interpretri, diverse valori pentru numrul de
clustere, comentarii asupra siluetei clusterelor, matrice de confuzie, rata
de exactitate a modelului pentru fiecare situaie

Kmeans

Se afieaz cele 4 clustere, cu numrul de componente, mediile i atributele lor.

km$cluster afieaz clusterul corespunztor fiecreia dintre cele 40 de observaii.


Sunt afiate rile i apartenena lor la cele 4 clustere:

n figura de mai jos sunt reprezentante observaiile grupate n cele 4 clustere, n


raport cu cele 9 atribute numerice.

Interpretare: Conform clusterizrii k-means, Clusterul 1 cuprinde ri precum:


Azerbaijan, Belgia, Romnia, Grecia, Polonia, care ar avea cel mai mic grad de risc.
Umtorul grad de risc asociat Clusterului 2 se asociaz rilor precum: Cipru,
Estonia, Islanda .a.md. rile din Clusterul 4 au gradul de risc cel mai mare:
Bulgaria, Croaia, Austria etc.

K-medoids

Vrem s lucrm cu un set mai scurt de date, prin urmare am eliminat coloana 1:

Numr de clustere create este 2:

Acest grafic arat mprirea rilor n clusterele 1 i 2.


Dac vrem s impunem noi gruparea n 3 clustere, executm funciile:
pam.result<-pamk(proiect[,-1],3)
table(pam.result$pamobject$clustering, proiect$Country)

Ploturile Silhouette:

Interpretare: sileuta medie global pentru cele trei clustere este 0.62, silueta medie
a primului cluster este de 0.69 i conine 20 de instane, al doilea cluster are o
siluet medie de 0.50 i 13 instane, iar clusterul 3 are silueta medie de 0.66 i 7
instane.

Algoritmul fuzzy cmeans


Dorim s realizm o clusterizare c-means cu 3 clustere:

Am afiat gradul de apartenen al fiecrei ri la unul dintre cele 3 clustere.

Am afiat centroizii celor 3 clustere corespunztoare celui mai apropiat model hard
clustering.
Afim repartiia observaiilor n cele 3 clustere:

Clusterizare ierarhic
Calculm distana euclidian, dup ce am eliminat coloana Country:

Afim dendograma:

Am calculat distana dintre clustere conform metode Ward i acuma afim


dendograma:

mprim dendograma n 4 clustere:

Delimitm cele 4 clustere printr- o linie roi i afim din nou dendograma:

Vizualizare triunghiular a dendogramei:

Vizualizm partea superioar a dendogramei deasupra nlimii 1000 i a doua


ramur, sub nlimea 1000:

6. Arbori de decizie
Se extrag dou eantioane din numrul liniilor setului de date, 70% sunt n primul
eantion i 30% n al doilea eantion. Extragerea este cu revenire. n imaginea de
mai jos este afiat apartenena la cele dou eantioane:

Mai sus am afiat setul de date de antrenare. Construim arborele de decizie:

7. SOM: construirea hrilor


Eliminm prima coloana, cea a denumirii rii (Country). Aleg un eantion de 12
observaii pentru setul de antrenament.

Construim setul de antrenament, apoi setul de date:

Construim harta Kohonen:

Predicie cu SOM:

Interpretare: prin metoda lui SOM, rata de acuratee a modelului este de 7,1%, iar
coeficientul lui Cohen este de 0.03, ceea ce nseamn c datele nu sunt de
ncredere.

Mapping plot

8. Clasificatorul Naiv Bayesian

9. Reele neuronale
Din cauza absenei variabilei calitative, nu am tiut s fac acest subiect.