Sunteți pe pagina 1din 32

ACADEMIA DE STUDII ECONOMICE

FACULTATEA DE CIBERNETICĂ, STATISTICĂ ŞI


INFORMATICĂ ECONOMICĂ

Proiect semestrial la disciplina Inteligența


Computațională

Cadru Didactic: Student:

Georgescu Irina Alexandra Barangă Victor

Grupa 1057, Seria A

BUCUREŞTI

1
Introducere

În cadrul acestui proiect, am considerat un set de date ce conține indicatori privind nivelul
de trai la nivelul țărilor din Uniunea Europeană în anul 2016. Aceștia prevăd valorile ce au
fost înregistrate după analizarea următorilor factori:

 SV: Speranța de viață ce reprezintă un indicator al efectelor de trai ale populației;


 SMDP: Indică numărul persoanelor (în mii de persoane) cu deficiențe severe din punct
de vedere material, care au condiții de viață severe constrânse de lipsa resurselor;
 RN: Rata natalității calculată ca fiind: (natalitatea/populatia totala)*1000;
 RM: Rata mortalitatii calculata ca fiind: (mortalitate/populatia totala)*1000;
 CBS: Consumul de bunuri și servicii arată care au fost cheltuielile medii de consum pe
adult la nivelul unui an de zile. Cheltuielile au fost exprimate în moneda euro;
 IP: Indicele de poluare arată procentul de poluarea, mizerie sau alte probleme de mediu
cu care se confruntă statul respectiv și este un indicator ce caracterizează direct nivelul de
trai al populației;
 RS: Rata șomajului.
 Variabila calitativă luată în considerare se referă la rating-ul dezvoltării umane în cadrul
celor 28 de țări alese:
 Ridicat;
 Foarte ridicat.

2
Prezentarea datelor

3
Statistici descriptive

Fig. 1.1 - Summary

În urma rulării comenzii summary(date) asupra setului nostru, se poate observa că


valoarea minimă a numarului de persoane afectate financiar a fost de 10, valoare intâlnită în
Luxembourg, iar numărul maxim de 8878 persoane, valoare atribuită Ungariei. Prima cuartilă ne
arată că 25% dintre valori se află sub 187 persoane, mediana faptul că 50% au fost sub 1691, iar
a treia cuartilă că 75% s-au situat sub 2863.

În cazul CBS, putem observa că valoarea minimă a consumului de bunuri și servicii a fost
de 3447 euro/an, valoare intâlnită în România, iar numărul maxim de 38424 euro/an, valoare
atribuită Luxembourg-ului. Prima cuartilă ne arată că 25% dintre valori se află sub 6587 euro/an,
mediana faptul că 50% au fost sub 15054 euro/an, iar a treia cuartilă că 75% s-au situat sub
22669 euro/an.

De asemenea, am calculat și abaterea standard, care ne arată că valorile se abat cu


8737,546 față de medie. Cu ajutorul mediei și abaterii standard, am calculat coeficientul de
variație, acesta fiind egal cu 0.5803 (58,03%). De aici, putem deduce faptul că seria este
omogenă, iar media și mediana sunt reprezentative

4
Fig. 1.2 – Histrograma speranței de
viață
Datele ce caracterizează speranța de viață la nivelul statelor din Uniunea Europeană
prezintă o asimetrie la stânga, coeficientul skewness fiind egal cu -0.7630875, în timp ce
aplatizarea este una platicurtică, kurtosis fiind egal cu 2.065232.

Fig. 1.3 – Histrograma


consumului de bunuri și
servicii
5
În cazul consumului de bunuri și servicii, coeficientul de asimetrie este egal cu
0.5295189, ceea ce denotă o asimetrie la dreapta, în timp ce coeficientul de aplatizare este egal
cu 2.779031, distribuția fiind platicurtică.

Fig. 1.3 – Boxplot-ul indicelui de


poluare

Boxplot-ul din Fig. 1.3 sugerează faptul ca există un singur outlier, înregistrat în statul
Malta. Asemănător, Fig.1.4 indică un outlier situat pe statul Irlanda ,în cazul ratei natalității.

Fig. 1.4 – Boxplot-ul ratei natalității

6
Analiza componentelor principale

Analiza componentelor principale (ACP), este o procedură statistică care folosește


transformarea ortogonală pentru a converti un set de observații cu variabile posibil corelate
într-un set de valori cu variabile liniar necorelate, numite componente principale. Această
transformare este definită în așa fel încât, prima componentă principală are cea mai mare
varianță posibilă și fiecare componentă care urmează preia cea mai mare varianță posibilă cu
condiția ca aceasta să fie ortogonală cu componentele precedente. Scopul principal al
aplicării este reducerea dimensionalității setului de date.

Fig. 2.1 - Pairs

În figura 2.1, se pot observa legăturile dintre variabile.

7
Fig. 2.2 – Matricea de corelație

Matricea de corelație ne arată intensitatea legăturilor dintre variabile. Astfel, se poate


observa că între consumul de bunuri și servicii (CBS) și rata mortalității (RM), există o
legătură indirectă puternică. De asemenea, există o corelație indirectă medie între rata
natalității (RN) și indicele de poluare (IP).

Deoarece am standardizat datele, matricea de corelație va fi identică cu matricea de


covarianță.

Fig. 2.3 – Valori proprii

În Fig. 2.3, se pot observa valoriile proprii ale fiecărei componente.

8
Fig. 2.3 – Summary ACP

În urma aplicării analizei componentelor principale, se poate observa că primele trei


componente rețin 77,86% din informația totală, astfel: prima componentă reține 41,02%, ce-a
de-a doua reține 21,31%, iar ultima componentă reține 15,51% din informație, o cantitate
suficientă pentru a considera că întregul set de observații poate fi rezumat print aceste trei
componente principale conform criteriului procentului de acoperire. De asemenea, vom
aplica criteriul lui Kaiser, care presupune că o componentă principală este aleasă dacă are
valoarea proprie mai mare decât 1. Aplicând, vom avea λ1=1,69, λ2=1,22, λ3=1,04 care au
valorile peste 1, concluzia fiind aceeași.

Alegerea a trei componente este


justificată și de screeplot-ul din Fig.
2.4 (graficul valoriilor proprii), care
indică scăderea bruscă a valorilor
proprii după cea de-a treia
componentă.

Fig. 2.4 – Screeplot

9
Următorul pas este de a identifica loadings-ul componentelor. Aceștia ne indică cât din
variația dintr-o componentă este explicată de către o anumită variabilă. Cu cât este mai mare
loadings-ul componentei, cu atât mai importantă este variabila pentru componentă. Dacă
variabilele dintr-o componentă sunt pozitiv corelate între ele, atunci valoarea din loadings va
fi pozitivă; analog pentru variabilele negativ corelative între ele dintr-o componentă.
Ridicând o observație din loadings la pătrat putem determina cât % din varianța componentei
este determinată de acea variabilă.

Fig. 2.5 – Loadings (valori


proprii)

10
Regresie Liniară

Se va încerca o regresie liniară între Rata Mortalității (RM) și Indicele de Poluare (IP).
Output-ul obținut este următorul:

11
În urma datelor prezentate anterior, putem deduce faptul că modelul este invalid, având p-
value 0,472 > 0,05.

 Variabila dependentă (intercept), rata mortalității este 100% seminficativă (***);


 Variabila independentă nu este semnificativă statistic;
 Gradul de determinație (R2) arată că 2,008% din variația variabilei dependente
este explicată de influența variabilei independente.

12
Analiză Cluster

Analiza cluster se poate defini ca o clasa de tehnici utilizate pentru a clasifica unitățile în
clase (grupuri) relativ omogene. Obiectivul general al acestei analize este acela al clasificării
obiectelor în clase, astfel încât să se asigure o variabilitate minimă în interiorul claselor și o
variabilitate maximă între clase. Se va apela un algoritm din categoria metodelor ierarhice de
clasificare și un algoritm de partiționare. Soluțiile oferite vor fi comparate cu ajutorul
instrumentului silhouette.

Metoda WARD

În cadrul algoritmilor ierarhici, în etapa de inițializare, fiecare obiect este repartizat unei
clase diferite. Așadar se pornește cu un număr de clase egal cu numărul de obiecte. La fiecare
pas se vor concatena cele mai “apropiate” două clase. Algoritmul se încheie când toate
obiectele au fost concatenate într-o singură clasă. Pe baza graficului care ilustrează pașii
parcurși până la obținerea unei singure clase, denumit dendogramă, se alege o anumită
soluție de repartizare a obiectelor pe clase.

Pentru exemplificare acestui algoritm ierarhic s-a folosit distanța Ward pentru calculul
distanței dintre două clase. Conform acestei metode, la un anumit pas, se va selecta acea
concatenare a două clase care conduce la o creștere minimă a variației intraclasă totală.
Distanța totală dintre cele 2 clustere A și B este dată de valoarea cu care suma pătratelor
abaterilor față de media clasei va crește după concatenare.

Soluția furnizată de clusterizare ierarhică a fost obținută prin parcurgerea pașilor descriși
de dendograma din figura de mai jos:

13
Graficul Silhouette

14
Conform graficului de mai sus, atunci când cele 28 de țări sunt repartizate în 2
clase, obținem coeficienți negativi pentru observațiile 13 și 9. Aceste Valori negative ne
indică o repartizare incorectă a obiectelor.

Algoritmul K-Means

15
În urma graficului de mai sus, pentru repartizarea în două clase, se remarcă faptul
că am obținut numai coeficienți pozitivi, ceea ce indică o repartizare corectă a țărilor pe
clase. Valorile minime obținute au fost înregistrate pentru observațiile 4,18,9, iar observațiile
15,3,25 prezintă valori maxime.

Clusterizare K-Means

Vom împărți setul de date în 3 clustere, după cum urmează:

 clusterul 1 conține 4 țări;


 clusterul 2 conține 11 țări;
 clusterul 3 conține 13 țări.

16
Numărul de țări repartizat pe fiecare cluster în funcție de variabila calitativă este redat
anterior, cu ajutorul funcției table.

Algoritmul Fuzzy C-Means

Funcția cmeans se află în biblioteca e1071.

Se precizează numărul de clustere dorit (3), m>1 este un număr care semnifică gradul de
fuzzificare.

17
În figura de mai sus, apar centroizii (centrele) clusterelor și gradele de apartenență ale
instanțelor la cele 3 clustere.

 Clusterul 1 este caracterizat de cea mai mare rata a natalității și de cel mai mare
indice al consumului de bunuri și resurse;
 Clusterul 2 este caracterizat de cea mai mare speranță de viață și cea mai mare
rată a șomajului;
 Clusterul 3 este caracterizat de cel mai mare număr al persoanelor cu deficiențe
materiale (SMPD) și cea mai mare rată a mortalității.

Figura anterioară semnifică cărui cluster îi aparține fiecare observație.

18
Funcția de apartenență semnifică cu cât aparține fiecare observație fiecărui cluster. Se
alege gradul cel mai mare și se decide cărui cluster îi corespunde fiecare observație.

Anterior, este prezentată repartiția observațiilor în cele 3 clustere:

 Primul cluster conține 6 țări cu indice de dezvoltare foarte ridicat și o țară cu


indice de dezvoltare ridicat;
 Al doilea conține 6 țări cu indice de dezvoltare foarte ridicat și o țară medie;
 Al treilea cluster conține 2 țări foarte dezvoltate, 6 medii și 6 dezvoltate.

19
În figura de mai sus, se poate observa prezența a trei clustere și 11 sunepe pe datele
analizate.

20
Anterior, este prezentată acoperirea convexă, cea mai mică mulțime convexă care
conține o mulțime finită a clusterelor.

Distribuția gradului de dezvoltare umană

21
Metoda celor mai apropiați K-vecini

Clasificatorul k-NN este un clasificator non-parametric, însemnând că nu


construieşte un model pentru clasele pe care trebuie să le distingă. Se memorează setul de
antrenare în întregime şi decizia asupra unei instanţe de test se face online. K-NN poate fi
categorizat ca şi o metodă de învăţare bazată pe instanţe sau invaţare leneşă deorece funcţia
de decizie este aproximată doar local şi decizia asupra instanţei se amâna efectiv la
clasificare.

Setul nostru de date va fi împărțit în 2 părți: un set de antrenare ce preia 54% din
datele originale și un set de testare reprezentând 46% din datele originale.

Setul de antrenare este:

22
Setul de testare este:

Cu ajutorul funcției knn vom găsi cei mai apropiați vecini:

23
Gradul de previzionare corectă a setului de date se determină astfel:

Setul de date a fost previzionat corect în proporție de 80%.

24
Mașini cu suport vectorial

Maşinile cu suport vectorial (Support vector machines, SVM) sunt bazate pe teoria
învăţării statistice. Ideea de bază este de a mapa datele originale într-un spaţiu iniţial printr-o
funcţie neliniară şi de a construi un hiperplan optim într-un spaţiu nou cu mai multe
dimensiuni. Aceşti algoritmi pot fi utilizaţi atât pentru clasificare, cât şi pentru regresie.
Maşinile cu suport vectorial sunt o metodă de învăţare supervizată state-of-the-art. Algoritmii
SVM sunt folosiţi pe larg în bioinformatică datorită acurateţei înalte şi capacităţii de a se
descurca cu date multidimensionale, cum ar fi descrierea genelor, flexibilitatea modelării
diverselor surse de date .

Variabila dependentă, indicatorul de dezvoltare umană, se află separat printr-un hiperplan


(o dreaptă/ separator/ clasificator liniar), sau o funcție neliniară (clasificator neliniar).
Vectorii suport se găsesc pe dreaptă/curbă/hiperplan.

25
Arbori de decizie

Arborii de decizie sunt folosiți pentru a predicționa apartenența obiectelor la diverse


clase. Instrucțiuni de creare a arborilor:

26
Rata de predicție a algoritmului a fost de 85,71%.

27
Arbori de regresie

28
Curba Roc

Cand aria de sub curba ROC e cuprinsa intre:

 0.91 - 1 - modelul e excelent


 0.8 - 0.9 - bun
 0.7 - 0.8 - corect
 0.6 - 0.7 - slab
 0.5 - 0.6 - se respinge

Curba se află în punctul 0.5, iar conform teoriei de mai sus, modelul este respins.

29
Rețele Neuronale

Reţelele neuronale constituie una dintre tehnicile de data mining ce se bucură de o


largă utilizare din ce în ce mai largă în ultimul timp. Motivul acestui interes stă în
eficacitatea, dovedită în numeroase aplicaţii practice, de a furniza soluţii, în special de natură
predictivă, pentru probleme de mare complexitate sau volatilitate. Poate fi citat, ca exemplu
sugestiv, cazul unei companii nord-americane, distribuitoare de gaze naturale, ce obţine, cu
ajutorul unei reţele neuronale, previziuni cu o acurateţe medie de 97% asupra preţurilor la
gaze pe un orizont de o lună. Alte cazuri tipice de utilizare cu succes a reţelelor neuronale
includ: stabilirea preţurilor pe piaţa imobiliară, evoluţia cotaţiilor pe pieţele financiare,
analiza cererilor de creditare etc.

Spre deosebire de alte metode şi tehnici utilizabile pentru a rezolva acest gen de
probleme, reţelele neuronale recurg la o prelucrare ce imită funcţionarea creierului uman.
Mai precis, este vorba de o simulare a comportamentului unui ansamblu de neuroni conectaţi
între ei analog sinapselor din creierul uman.

30
În urma acestui grafic, se pot observa 7 neuroni ce preiau datele de intrare și 2
neuroni ce preiau datele de ieșire, acolo unde sunt obținute rezultatele “Foarte Ridicat” și
“Ridicat”.

31
32

S-ar putea să vă placă și