Documente Academic
Documente Profesional
Documente Cultură
Emilia-Andreea
Popa
Grupa 1028
Seria Cibernetic
[INTELIGEN
COMPUTAIONAL N
ECONOMIE]
PROIECT
Introducere
Pentru realizarea acestui proiect, am construit un set de date cu 360 de observaii,
ce corespund celor 9 indicatori economici i demografici pe care i-am inclus n
analiz. Datele au fost culese de pe site-ul: http://ec.europa.eu/eurostat. Am ales 40
de ri din Europa, pentru care am identificat: numrul de locuitori, Produsul Intern
Brut/cap de locuitor (euro per locuitor), Produsul Intern Brut/(calculat la preurile
curente, n milioane euro), Consumul Final (calculat n milioane euro), exporturile
(calculat n milioane euro), rata inflaiei, rata omajului, numrul de divoruri i
numrul de cstorii. Perioada de analiz o reprezint anul 2013, iar valorile
calculate pentru rata inflaiei i rata omajului sunt valorile medii.
Indicatorii stabilii, denumii n continuare atribute, se prezint n baza de date
astfel:
Population
GDP/euro per habitant
GDP in current prices
Final Consumption
Exports
Inflation Rate (%)
Unemployment Rate (%)
Divorces
Marriages
n continuare, voi rezolva cerinele proiectului i voi ataa printscreen-urile outputurilor din R, precum i interpretarea rezultatelor obinute.
Cerine
1. Calculai statisticile descriptive ale setului de date: medie, dispersie,
variane, matrice de covarian i de corelaie, histograme.
Putem declara c cea mai mic populaie pe care o are o ar este de 37129
locuitori, n timp ce cea mai mare populaie atinge 80780000 locuitori. PIB-ul maxim
atins este n punctul 2737600 milioane euro, n timp ce minimul este 3149 milioane
euro. Valoarea medie a consumului final este 81316 milioane euro, valoarea medie
a ratei inflaiei este de 1,65%, iar valoarea maxim 13%. Rata omajului atinge cote
maxime, de pn de la 27,5%, numrul minim de divoruri nregistrate ntr-o ar
este de 87, n timp ce numrul maxim de cstorii este 603751.
Dintre cele 9 variabile, media i dispersia cea mai mic o nregistreaz rata inflaiei,
n timp ce dispersia maxim este asociat numrului de locuitori=22968885.
Din histogramele realizate putem trage urmtoarele concluzii: frecvena cea mai
mare o au rile care au un PIB/cap de locuitor ntre 0 i 20000 euro. Similar, cnd
vine vorba de PIB total, frecvena cea mai mare se nregistreaz pentru intervalul 0500000 milioane euro.
Referitor la exporturi, s-au nregistrat valori cu preponderen n intervalul 0-200000
milioane euro, iar consumul final: 0-500000 milioane euro.
Rata inflaiei este extrem de frecvent n intervalul 0-5, cu cteva valori care
depesc 10%. Rata omajului are o distribuie mai echilibrat, cu dou intervale
puternice de frecven: 5-10%, respectiv 10-15%, nicio valoare nregistrat n
intervalul 20-25%, ns cteva valori sesizate n intervalul 25-30%.
1=5.281076e+14
2=1.898461e+11
3= 8.345611e+09
4=1.571781e+09
5=5.069792e+08
6=3.000409e+08
7=9.865681e+07
8=2.313406e+01
9=2.104875e+00
1 , 2 , 3 , 4 , 5, 6, 7, 8, 9, = 9 componente principale
1 =
9.994904e-01*Population+(-6.950611e-
05)*GDP/habitant+2.352773e-02*GDP+1.924123e-02*FC+8.214007e03*Exports+3.108333e-08*Inflation+(-2.756254e09)*Unemployment+1.783799e-05*Divorces+4.955490e-03*Marriages
.a.m.d., pn scriem cele 9 componente principale.
Din cele 9 componente prinicipale, trebuie s reinem numai p componente, p9,
conform unui criteriu prestabilit.
Vom aplica mai multe criterii:
1. Criteriul procentului de acoperire:
Variana total= 1+ 2+3+4+5+6+7+8+9
1= Varianta totala , iar dac rezultatul este mai mare de 70-75%, alegem o
singur component principal
2. Criterul lui Kaiser
Conform acestui criteriu, se rein numai valorile proprii mai mari sau egali cu 1.
3. Criteriul mediei
Conform criteriului, se rein numai acele variane mai mari sau egale cu variana
medie.
4. Scree Plot
Fiecare component explic cte 11% din variana total, iar variana cumulativ
trebuie s depeasc 80%, ceea ce nseamn c vom alege 8 componente
principale.
Mai sus am ataat o parte din matricea scorurilor. Acestea sunt mai potrivite pentru
a fi folosite n analiz, fiind mai puin afectate de erori, n comparaie cu datele
iniiale.
Biplot
SVM-Radial
SVM-linear
SVM-polinomial
Kmeans
K-medoids
Vrem s lucrm cu un set mai scurt de date, prin urmare am eliminat coloana 1:
Ploturile Silhouette:
Interpretare: sileuta medie global pentru cele trei clustere este 0.62, silueta medie
a primului cluster este de 0.69 i conine 20 de instane, al doilea cluster are o
siluet medie de 0.50 i 13 instane, iar clusterul 3 are silueta medie de 0.66 i 7
instane.
Am afiat centroizii celor 3 clustere corespunztoare celui mai apropiat model hard
clustering.
Afim repartiia observaiilor n cele 3 clustere:
Clusterizare ierarhic
Calculm distana euclidian, dup ce am eliminat coloana Country:
Afim dendograma:
Delimitm cele 4 clustere printr- o linie roi i afim din nou dendograma:
6. Arbori de decizie
Se extrag dou eantioane din numrul liniilor setului de date, 70% sunt n primul
eantion i 30% n al doilea eantion. Extragerea este cu revenire. n imaginea de
mai jos este afiat apartenena la cele dou eantioane:
Predicie cu SOM:
Interpretare: prin metoda lui SOM, rata de acuratee a modelului este de 7,1%, iar
coeficientul lui Cohen este de 0.03, ceea ce nseamn c datele nu sunt de
ncredere.
Mapping plot
9. Reele neuronale
Din cauza absenei variabilei calitative, nu am tiut s fac acest subiect.