Documente Academic
Documente Profesional
Documente Cultură
BUCUREŞTI
1
Introducere
În cadrul acestui proiect, am considerat un set de date ce conține indicatori privind nivelul
de trai la nivelul țărilor din Uniunea Europeană în anul 2016. Aceștia prevăd valorile ce au
fost înregistrate după analizarea următorilor factori:
2
Prezentarea datelor
3
Statistici descriptive
În cazul CBS, putem observa că valoarea minimă a consumului de bunuri și servicii a fost
de 3447 euro/an, valoare intâlnită în România, iar numărul maxim de 38424 euro/an, valoare
atribuită Luxembourg-ului. Prima cuartilă ne arată că 25% dintre valori se află sub 6587 euro/an,
mediana faptul că 50% au fost sub 15054 euro/an, iar a treia cuartilă că 75% s-au situat sub
22669 euro/an.
4
Fig. 1.2 – Histrograma speranței de
viață
Datele ce caracterizează speranța de viață la nivelul statelor din Uniunea Europeană
prezintă o asimetrie la stânga, coeficientul skewness fiind egal cu -0.7630875, în timp ce
aplatizarea este una platicurtică, kurtosis fiind egal cu 2.065232.
Boxplot-ul din Fig. 1.3 sugerează faptul ca există un singur outlier, înregistrat în statul
Malta. Asemănător, Fig.1.4 indică un outlier situat pe statul Irlanda ,în cazul ratei natalității.
6
Analiza componentelor principale
7
Fig. 2.2 – Matricea de corelație
8
Fig. 2.3 – Summary ACP
9
Următorul pas este de a identifica loadings-ul componentelor. Aceștia ne indică cât din
variația dintr-o componentă este explicată de către o anumită variabilă. Cu cât este mai mare
loadings-ul componentei, cu atât mai importantă este variabila pentru componentă. Dacă
variabilele dintr-o componentă sunt pozitiv corelate între ele, atunci valoarea din loadings va
fi pozitivă; analog pentru variabilele negativ corelative între ele dintr-o componentă.
Ridicând o observație din loadings la pătrat putem determina cât % din varianța componentei
este determinată de acea variabilă.
10
Regresie Liniară
Se va încerca o regresie liniară între Rata Mortalității (RM) și Indicele de Poluare (IP).
Output-ul obținut este următorul:
11
În urma datelor prezentate anterior, putem deduce faptul că modelul este invalid, având p-
value 0,472 > 0,05.
12
Analiză Cluster
Analiza cluster se poate defini ca o clasa de tehnici utilizate pentru a clasifica unitățile în
clase (grupuri) relativ omogene. Obiectivul general al acestei analize este acela al clasificării
obiectelor în clase, astfel încât să se asigure o variabilitate minimă în interiorul claselor și o
variabilitate maximă între clase. Se va apela un algoritm din categoria metodelor ierarhice de
clasificare și un algoritm de partiționare. Soluțiile oferite vor fi comparate cu ajutorul
instrumentului silhouette.
Metoda WARD
În cadrul algoritmilor ierarhici, în etapa de inițializare, fiecare obiect este repartizat unei
clase diferite. Așadar se pornește cu un număr de clase egal cu numărul de obiecte. La fiecare
pas se vor concatena cele mai “apropiate” două clase. Algoritmul se încheie când toate
obiectele au fost concatenate într-o singură clasă. Pe baza graficului care ilustrează pașii
parcurși până la obținerea unei singure clase, denumit dendogramă, se alege o anumită
soluție de repartizare a obiectelor pe clase.
Pentru exemplificare acestui algoritm ierarhic s-a folosit distanța Ward pentru calculul
distanței dintre două clase. Conform acestei metode, la un anumit pas, se va selecta acea
concatenare a două clase care conduce la o creștere minimă a variației intraclasă totală.
Distanța totală dintre cele 2 clustere A și B este dată de valoarea cu care suma pătratelor
abaterilor față de media clasei va crește după concatenare.
Soluția furnizată de clusterizare ierarhică a fost obținută prin parcurgerea pașilor descriși
de dendograma din figura de mai jos:
13
Graficul Silhouette
14
Conform graficului de mai sus, atunci când cele 28 de țări sunt repartizate în 2
clase, obținem coeficienți negativi pentru observațiile 13 și 9. Aceste Valori negative ne
indică o repartizare incorectă a obiectelor.
Algoritmul K-Means
15
În urma graficului de mai sus, pentru repartizarea în două clase, se remarcă faptul
că am obținut numai coeficienți pozitivi, ceea ce indică o repartizare corectă a țărilor pe
clase. Valorile minime obținute au fost înregistrate pentru observațiile 4,18,9, iar observațiile
15,3,25 prezintă valori maxime.
Clusterizare K-Means
16
Numărul de țări repartizat pe fiecare cluster în funcție de variabila calitativă este redat
anterior, cu ajutorul funcției table.
Se precizează numărul de clustere dorit (3), m>1 este un număr care semnifică gradul de
fuzzificare.
17
În figura de mai sus, apar centroizii (centrele) clusterelor și gradele de apartenență ale
instanțelor la cele 3 clustere.
Clusterul 1 este caracterizat de cea mai mare rata a natalității și de cel mai mare
indice al consumului de bunuri și resurse;
Clusterul 2 este caracterizat de cea mai mare speranță de viață și cea mai mare
rată a șomajului;
Clusterul 3 este caracterizat de cel mai mare număr al persoanelor cu deficiențe
materiale (SMPD) și cea mai mare rată a mortalității.
18
Funcția de apartenență semnifică cu cât aparține fiecare observație fiecărui cluster. Se
alege gradul cel mai mare și se decide cărui cluster îi corespunde fiecare observație.
19
În figura de mai sus, se poate observa prezența a trei clustere și 11 sunepe pe datele
analizate.
20
Anterior, este prezentată acoperirea convexă, cea mai mică mulțime convexă care
conține o mulțime finită a clusterelor.
21
Metoda celor mai apropiați K-vecini
Setul nostru de date va fi împărțit în 2 părți: un set de antrenare ce preia 54% din
datele originale și un set de testare reprezentând 46% din datele originale.
22
Setul de testare este:
23
Gradul de previzionare corectă a setului de date se determină astfel:
24
Mașini cu suport vectorial
Maşinile cu suport vectorial (Support vector machines, SVM) sunt bazate pe teoria
învăţării statistice. Ideea de bază este de a mapa datele originale într-un spaţiu iniţial printr-o
funcţie neliniară şi de a construi un hiperplan optim într-un spaţiu nou cu mai multe
dimensiuni. Aceşti algoritmi pot fi utilizaţi atât pentru clasificare, cât şi pentru regresie.
Maşinile cu suport vectorial sunt o metodă de învăţare supervizată state-of-the-art. Algoritmii
SVM sunt folosiţi pe larg în bioinformatică datorită acurateţei înalte şi capacităţii de a se
descurca cu date multidimensionale, cum ar fi descrierea genelor, flexibilitatea modelării
diverselor surse de date .
25
Arbori de decizie
26
Rata de predicție a algoritmului a fost de 85,71%.
27
Arbori de regresie
28
Curba Roc
Curba se află în punctul 0.5, iar conform teoriei de mai sus, modelul este respins.
29
Rețele Neuronale
Spre deosebire de alte metode şi tehnici utilizabile pentru a rezolva acest gen de
probleme, reţelele neuronale recurg la o prelucrare ce imită funcţionarea creierului uman.
Mai precis, este vorba de o simulare a comportamentului unui ansamblu de neuroni conectaţi
între ei analog sinapselor din creierul uman.
30
În urma acestui grafic, se pot observa 7 neuroni ce preiau datele de intrare și 2
neuroni ce preiau datele de ieșire, acolo unde sunt obținute rezultatele “Foarte Ridicat” și
“Ridicat”.
31
32