Sunteți pe pagina 1din 52

ACADEMIA DE STUDII ECONOMICE

FACULTATEA DE CIBERNETICA,STATISTICA SI
INFORMATICA ECONOMICA

PROIECT INTELIGENTA
COMPUTATIONALA

Vlase Mario Eduard


Grupa 1061
Vlase Mario Eduard

CSIE

Statistici descriptive

Pentru efectuarea unei analize asupra nivelului educational din Romania , s-au efectuat 12
studii(observatii),valabile pe anul 2014, pe cele 42 de judete ale tarii noastre. Cele 12 studii
vizeaza numarul total de persoane, unitatile scolare disponibile pentru invatamant, personalul
didactic , salile de clase disponibile , terenurile de sport disponibile , numarul de calculatoare
disponibile , numarul absolventilor , numarul de laboratoare , numarul ateliere disponibilie ,
numarul de student si elevi , numarul de facultati , numarul celor care au promovat examenul de
bacalaureat din toate judetele tarii.

Pentru introducerea datelor in R am rescris numele fiecarui judet si observatie cu indicativele


fiecaruia si am eliminat outliers(valoriile care nu se incadreaza in “pattern” general al celorlalte
variabile)cu ajutorul regulii empirice (bazata pe distributia normala) , in care este considerate valoare

2
Vlase Mario Eduard

CSIE

aberanta orice valoare care este departata de medie cu mai mult de trei abateri.

Dupa analiza facuta am determinat patru outliers care urmeaza sa fie eliminate .

3
Vlase Mario Eduard

CSIE

Importarea datelor in R.

4
Vlase Mario Eduard

CSIE

Determinarea cuartilelor , mediei , abaterii standanrd,minumului si maximului pe fiecare coloana.


Astfel , pentru fiecare observatie avem valabil :

 25 % din variabile < 1st Qu

5
Vlase Mario Eduard

CSIE

 50 % din variabile < Median


 50% din variabile > Median
 25 % variabile >3rd Qu

Figure 1 Statistici

Pentru fiecare coloana avem numarul de elemente(n),media(mean),abaterea


standard(sd),abaterea de la medie(mad),minumul
(min),maximul(max),amplitudinea(range),asimetria(skewness),boltirea(kurtosis),eroarea
standard(se).

 Abaterea standard arata suma patratica a departartarilor variabilelor fata de medie pentru toate
variabile de pe coloana
Folosind formula

 , o valoare apropiata de 0 arata gradul de apropiere mai ridicat fata


de medie.

 Mediana este mijlocul seriei sau cuartila 2 . Ea reprezinta punctul central al seriei, deoarece 50 %
din date sunt mai mici si 50% mai mari.

6
Vlase Mario Eduard

CSIE

 Amplitudinea reprezinta distanta dintre minim si maxim a unui sir de date ,penrtu o amplitudine
mai mica abaterea standard si abaterea de la medie vor fii mai mici.

 Mininul pe fiecare coloana reprezina valoarea cea mai mica din seria de date.

 Maximul pe fiecare coloana reprezinta valoarea cea mai mare din seria de date.

 Coeficientul de asimetrie este o masura a distributiei seriei in jurul mediei, acesta ne edifica
asupra modului de dispunere a nivelurilor individuale ale caracteristicii in raport cu o repartitie
uniforma sau normala. Cu cat coeficientul de asimetri este mai mic, respectiv se apropie ca
marime de zero, cu atat seria statistica are un grad de asimetrie mai redus, iar daca Sx este egal cu
zero, seria este perfect simetrica.Semnul pozitiv al coeficientului de asimetrie indica o asimetrie
spre dreapta iar, semnul negativ semnalizeaza existenta unei asimetrii a seriei statistice spre
stanga respectiv catre nivelurile mai mici ale seriei.Astfel putem interpreta pentru toate seriile
noastre de date .

Formula de calcul a coeficientului de asimetrie este:

in care este Abaterea Standard sau


suma patratica a departartarilor variabilelor fata de medie.

 Coeficientul de boltire (aplatizare) sau kurtosis


Marimea coeficientului de boltire se compara cu nivelul standard de 3.
- daca, Kx = 3, boltirea seriei statistice corespunde legii de repartitie normale,
- daca, Kx < 3, seria are o dispunere(platicurtica) plata relativ la repartitia normala,
- daca, Kx > 3, seria are o forma ascutita(leptocurtica) comparativ cu repartitia normala,
Atunci cand , seria statistica este normal distribuita.

Pentru datele noastre avem coeficientul de asimetrie (skewness) si coeficientul de


boltire(kurtosis)

7
Vlase Mario Eduard

CSIE

Pentru fiecare coloana se poate realiza separat statistici descriptive cum ar fii abaterea standard ,
variant , mean

8
Vlase Mario Eduard

CSIE

9
Vlase Mario Eduard

CSIE

 Coeficientul de corelatie pearson

 Interpretare
r = coeficientul de corelatie al lui Pearson (r є [-1,1])
r = 0 → nu exista nici o corelatie;
r = +/- 1 → corelatia este perfecta
In general, r > 0.4 → corelatie buna

 r є [0; 0.2] → corelatie foarte slaba


r є [0.2; 0.4] → corelatie slaba
r є [0.4; 0.6] → corelatie rezonabila
r є [0.6; 0.8] → corelatie inalta
r є [0.8; 1] → corelatie foarte inalta → relatie foarte stransa

10
Vlase Mario Eduard

CSIE

 Covarianta dintre X si Y este definita ca suma produselor distantelor cu semn x−x ¸si y−y a
tuturor datelor la centroid ımpartita la n: covar(x, y) = Xn i=1 (xi − x) · (yi − y) n Covarianta
pozitiva ınseamna ca diagrama de dispersie este dominata de date care se gasesc deasupra ¸si ın
dreapta centroidului sau dedesubt ¸si ın stanga acestuia. Aceasta ıntrucat produsele (x − x) · (y −
y) ın puncte din aceste regiuni sunt pozitive. Daca diagrama de dispersie este dominata de date
care se gasesc deasupra ¸si ın stanga sau dedesubt ¸si ın dreapta centroidului atunci covariant¸a
este negativa pentru ca produsele (x − x) · (y − y) pentru puncte din aceste regiuni sunt negative.

Matricea de corelatie :

11
Vlase Mario Eduard

CSIE

 Din histograma coloanei TP putem determina o dispunere platicurtica comparativ cu repartitia


normala .

12
Vlase Mario Eduard

CSIE

13
Vlase Mario Eduard

CSIE

 Spre deosebire de seria de date TP , seria de date PD are o dispunere leptocurtica .

 Putem deduce mai usor din densitatea de probabilitate a seriei de date dispunerea fata de repartitia
normala.

14
Vlase Mario Eduard

CSIE

Analiza Componentelor Principale


Analiza componentelor principale este o tehnica de analiza multidimensionala care are ca
scopgeneric sintetizarea informaţionala (reducerea dimensionalitaţii datelor) şi eliminarea readundanţelor
informaţionale (suprapunerilor informaţionale).
Dimensionalitatea datelor este justificată pe baza matricei de observaţii: 38 de observaţii cu 12
caracteristici, în total 456 de date.
Redundanţa datelor este justificata pe baza matricei de corelaţie calculate mai sus din care reiese
faptul ca între variabile exista corelaţii puternice (conţine valori apropiate de 1

15
Vlase Mario Eduard

CSIE

sau -
1) deci exista suprapunere informaţionala pe care vom dorii sa le eliminam.

 Pentru analiza componentelor principale am introdus datele in R fara outliers,fiind


eliminate mai devreme in excel.

 Am pastrat numele fiecarui judet pentru a fii folosit ulterior.

16
Vlase Mario Eduard

CSIE

 Pentru o analiza a componentelor principale este necesar ca toate datele sa aiba aceeasi unitate de
masuna astfel ,datele au fost standardizate dupa formula

S – dispersia ,Mx-Media , v-valoarea initiala;

17
Vlase Mario Eduard

CSIE

 Dupa standardizarea datelor matricea de corelatie si cea de covarianta sunt egale , iar abaterea
standard devine 1.

18
Vlase Mario Eduard

CSIE

19
Vlase Mario Eduard

CSIE

 Am folosit urmatoarea functie in R pentru crearea unul tabel cu toate datele, crearea modelului
PCA pe baza de corelatii, extragerea valorilor proprii ,retinerea vectoriilor proprii , retinerea
componentelor principale , calcului corelatiilor factoriale.

 Dupa aplicarea functiei putem observa contributia fiecarei componente , prima componenta avand
un grad de informatie retinuta de 80.88 % , a doua de 8.9 % si asa mai departe . Putem urmari in
fisierul .csv gradul de informatie retinuta pentru fiecare componenta ,precum si procentul acoperit
cumulat.

 Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu
versorii noului spatiu redus.Acesti versori sunt dati de vectorii proprii corespunzatori valorilor
proprii mai mari decat 1.

20
Vlase Mario Eduard

CSIE

 Conform criteriului pantei putem observa ca in analiza componentelor principale se vor retine 2
componente

21
Vlase Mario Eduard

CSIE

 Acestia sunt vectorii proprii obtinuti pe baza valorilor proprii.Cu ajutorul lor vor fi calculate
componentele principale.

 Retinerea componentelor in analiza

22
Vlase Mario Eduard

CSIE

 Calculul corelatiilor factoriale

23
Vlase Mario Eduard

CSIE

Cercul corelatiilor

Acestea sunt valorile proprii . Aceste valori proprii sunt legate de corelatiile canonice si descriu cat de
mult discriminarea capacitatii are o functie. Marimile valorilor proprii sunt informative de abilitati
discriminatorii.
Retinem 2 componente principale in analiza conform criteriului kaiser.

24
Vlase Mario Eduard

CSIE

Scorurile pentru cele 2 componente principale.

25
Vlase Mario Eduard

CSIE

Vectorii proprii

26
Vlase Mario Eduard

CSIE

 Plot indivizi
In concluzie, analiza componentelor principale ne-a permis sa realizam o sintetizare
informationala si sa caracterizam un sir de observatii prin 1 caracteristica in loc de 12. Astfel, am putut
realiza comparatii intre observatii.

27
Vlase Mario Eduard

CSIE

Analiza cluster
kmeans, kmedois, fuzzy clustering, ierarhică, dendograme, grafice, interpretări, diverse valori
pentru numărul de clustere, comentarii asupra siluetei clusterelor, matrice de confuzie, rata de exactitate a
modelului pentru fiecare situație

Prin clusterizare impartim multimea judetelor analizate in submultimi avand un grad de


similaritate inalt intre elementele submultimii si un grad scazut de similaritate intre submultimi. Procesul
de clusterizare se bazeaza pe 3 elemente: -similaritate -criteriu de formare al clusterelor -algoritm de
constructie al clusterelor care sa duca la indeplinirea criteriului dat

Figure 2 K means

Se afișează cele 4 clustere, cu numărul de componente, mediile și atributele lor.

28
Vlase Mario Eduard

CSIE

Indexul judetului si clusterul in care a fost repartizat.

29
Vlase Mario Eduard

CSIE

K-medoizi este o varianta a algoritmului celor k medii si rezulta prin modificarea ce vizeaza ca in
locul centroizilor ca prototiputi ale clusterelor vor fi alesi medoizii. Un medoid al unui cluster este
elementul cel mai apropiat din centrul clusterului (minimizeaza suma distantelor euclidiene. Se remarca
o robustete mai mare in cazul algoritmului de clusterizare K-Medoizi.

30
Vlase Mario Eduard

CSIE

31
Vlase Mario Eduard

CSIE

32
Vlase Mario Eduard

CSIE

Pentru fiecare obiect i se determina coeficientul silueta notat cu CSi , se calculeaza distanta medie
de la obiectul i la toate obiectele din cluster,se noteaza cu Ai,se calculeaza distanta medie de la i la toate
obiectele acelui cluster distanta minima se noteaza cu bi, coeficientul silueta este CSi=bi-ai/max(ai,bi)
Situatia optima cand CSi=1
-daca CSi tinde catre 1 atunci obiectul i a fost clusterizat corect ,
-daca CSi tinde catre 0 ,obiectul i ar fi putut fi clusterizat si in clustul urmator apropiat
-daca CSi tinde catre -1 ,atunci obiectul i a fost clusterizat eronat
Pentru fiecare cluster sau structura de clustere se det silueta medie globala ,media aritmetica a
coeficientilor silueta ai obiectelor din cluster
Sk - silueta medie globala a clusterului k ,

33
Vlase Mario Eduard

CSIE

----Sk.0>26 Sk <0,51de aici rezulta structura slaba

34
Vlase Mario Eduard

CSIE

Algoritmul Fuzzy C-Means Algoritmii fuzzy de obicei încearcă să găsească cea mai bună
clusterizare prin optimizarea unei anumite funcții criteriu. Faptul ca un document poate aparține
de mai mult de un singur cluster este descris de o funcție de membru. Funcția de membru
calculează pentru fiecare document un vector de membru, în care al i-lea element indică gradul
de apartenență a documentului la al i-lea cluster.
Cel mai utilizat algoritm de clusterizare fuzzy este Fuzzy c-means, care este o variație a
algoritmului partițional kmeans.
Dorim să realizăm o clusterizare c-means cu 3 clustere:

35
Vlase Mario Eduard

CSIE

Am afișat gradul de apartenență al fiecărei țări la unul dintre cele 3 clustere.

36
Vlase Mario Eduard

CSIE

Clusterizare ierarhică
Calculăm distanța euclidiană

37
Vlase Mario Eduard

CSIE

38
Vlase Mario Eduard

CSIE

39
Vlase Mario Eduard

CSIE

> hcd<-as.dendrogram(dendograma)
> hcd
'dendrogram' with 2 branches and 38 members total, at height 13.74324

40
Vlase Mario Eduard

CSIE

41
Vlase Mario Eduard

CSIE

Arbori de decizie
Se extrag două eșantioane din numărul liniilor setului de date, 70% sunt în primul eșantion și
30% în al doilea eșantion. Extragerea este cu revenire. În imaginea de mai jos este afișată
apartenența la cele două eșantioane:

42
Vlase Mario Eduard

CSIE

43
Vlase Mario Eduard

CSIE

Mai sus am afișat setul de date de antrenare. Construim arborele de decizie:

44
Vlase Mario Eduard

CSIE

Recunoasterea nesupervizata a formelor

Metodele de analiza cluster au ca scop gruparea indivizilor,identificati printr-o serie de


attribute,intr-un numar cat mai restrans de clase omogene.Aceste metode realizeaza o analiza globala a
indivizlor ce sunt studiati printr-un numar mare de variabile si ipoteze cerute minime.Astfel se realizeaza
clase in asa fel incat indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele
lor in timp ce clasele constituite sa fie cat mai diferite.
Clusterul reprezinta o submultime formata din obiecte care au proprietatea ca gradul de
dismilaritate dintre oricare doua obiecte apartinand clusterului este mai mic decat gradul de disimilaritate
dintre orice obiect care apartine clusterului si orice obiect care nu apartine clusterului respective.

45
Vlase Mario Eduard

CSIE

Vor fi supuse procesului de clusterizare toate cele 38 de judete ramase dupa eliminarea
outliers,avand 12 variabile dupa care se va efectua impartirea in clase.

46
Vlase Mario Eduard

CSIE

DEW(Bihor,Banat)=5.7425=[W1Bihor-W1Banat)2+[W2Bihor-W2 Banat)2+[W3Bihor-W3 Banat)2+[W4Bihor-W4 Banat)2


DEW(Bihor,Maramures)= 2.5693=[W1Bihor-W1 Maramures)2+[W2Bihor-W2 Maramures)2+[W3Bihor-W3
Maramures 2
) +[W4Bihor-W4 Maramures)2
DEW(Bihor,Satu Mare)= 5.1916=[W1Bihor-W1Satu Mare)2+[W2Bihor-W2Satu Mare)2+[W3Bihor-W3Satu Mare)2
+[W4Bihor-W4Satu Mare)2

DEW(Bihor,Salaj)= 6.6871=[W1Bihor-W1Salaj)2+[W2Bihor-W2Salaj)2+[W3Bihor-W3Salaj)2+[W4Bihor-W4Salaj)2
DEW(Bihor,Alba)= 4.6505=+[W1Bihor-W1Alba)2+[W2Bihor-W2Alba)2+[W3Bihor-W3Alba)2+[W4Bihor-W4Alba)2

47
Vlase Mario Eduard

CSIE

--Cluster 1 cu distranta de agregare 0.706 de are urmatoarea structura si anume s-au unit
"{22,27}","{Tulcea,Giurgiu}"
--Cluster 2 cu distanta de agregare 0.7378 are urmatoarea strcutura si anume s-au unit
"{2,4}","{Banat,Satu Mare}"
--Cluster 3 cu distanta de agregare 0.7654 are urmatoarea strcutura si anume s-au unit
"{31,34}","{Gorj,Satu Mare}"
--Cluster 4 cu distanta de agregare 0.7831 are urmatoarea strcutura si anume s-au unit
"{25,{22,27}}","{Calarasi,{Tulcea,Giurgiu}}",realizand unirea cu Cluster 1
--Cluster 5 cu distanta de agregare 0.8251 are urmatoarea strcutura si anume s-au unit
"{5,{25,{22,27}}}","{Salaj,{Calarasi,{Tulcea,GIurgiu}}}",realizand unirea cu Cluster 4
--Cluster 6 cu distanta de agregare 0.8662 are urmatoarea strcutura si anume s-au unit {{2,4},{31,34}}"
{{Banat,Satu Mare},{Gorj,Valcea}}"

Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se
numeste arborele clasificarii sau dendrograma clasificarii. Pentru a identifica numarul de clase
trebuie sa identificam o partitie cu un numar redus de grupe si o partitie cu un numar mare de
grupe. Apoi ducem o paralela cu axa oy iar numarul de puncte care intersecteaza dreapta ne da
numarul de clase.

48
Vlase Mario Eduard

CSIE

Figure 3.dvvv

In cazul de fata metoda lui Ward a dus la obtinerea unor rezultate mai bune,permitand o
diferentiere mai clasa a clusterelor.Folosind principiul minimizarii variantei in cadrul grupurilor,ilustreaza
mai bine profilul judetelor.Pe de alta parte,metoda celor mai apropiati vecini duce uneori la constiutuirea
de grupuri eterogene,variant din cadrul grupurilor putand inregistra valori mai ridicate.In analiza de
fata,metoda lui Ward duce la izolarea unui singur judet Iasi.
Astfel, pentru un prag de distanta de 4 se vor obtine 2 grupe: prima grupa este formata din judetul
Iasi, iar a doua grupa este formata din restul judetelor. Daca pragul de distanta este 3 atunci putem
considera urmatoarele grupe: prima grupa este formata din judetul Iasi, a doua grupa din judetul
Hunedoara, a treia grupa din judetul Suceava, a patra grupa formata din judetul constanta, a cincea grupa
din judetul Brasov, a sasea grupa din judetul Neamt.
Astfel putem deduce ca Iasi are cel mai mare nivel educational dintre cele 38 judete ramase in
urma eliminarii outliers , pe cand Vrancea si Mehedinti cel mai scazut nivel educational.

49
Vlase Mario Eduard

CSIE

--Componente principale--

--Variabilele originale--

--Puterea de discriminare a componentelor principale—

De aici reiese ca componenta w1 are cea mai mare putere de discriminare

50
Vlase Mario Eduard

CSIE

W1>W2>W3>W4

--Centroizii --

--Desc variabilitatii pentru componente principale--


SPAT=suma patratelor abaterilor totale = 437.3896
SPAW intraclasa=90.5084
SPAB interclasa = 346.8812
SPAT=SPAW intraclasa + SPAB interclasa
R=SPAB/SPAW=3.8326

Descompunerea variabilitatii a variabilelor originale:


SPAT=suma patratelor abaterilor totale = 444
SPAW intraclasa=124.2042

51
Vlase Mario Eduard

CSIE

SPAB interclasa = 319.7958


SPAT=SPAW intraclasa + SPAB interclasa
444=319.7958+124.2042
R=SPAB/SPAW=2.5748

In urma analizei efectuate asupra celor 38 de judete ale Romaniei ,si asupra celor 12 factori de
influenta am putut sa subliniez care sunt judetele au cel mai mare nivel educational .In cadrul analizei
efectuate pe acest esantion am putut observa ca unele variabile erau puternic corelate intre ele astfel incat
nu aduceau un plus de informatie.
In concluzie,analiza componentelor principale ne-a permis sa realizam o sintetizare
informationala si sa caracterizam un sir de observatii .
Deasemenea variabila populatie a influentat in mod vizibil celelalte variabile, astfel incat facand o
analiza asupra datelor s-a putut constata ca dupa aceasta varibila s-a facut clasificarea in 3 mari grupe de
judete, aceasta variabila influentand si celelalte avand cu alte cuvinte o forta de discriminare mai mare.
Metodele de analiza a datelor ne oferta tehnici foarte valoroase in contextual analizei
fenomenelor socio-economice actuale,ajustand la simplificarea modelelor matematice si structurilor
complexe ce incearca sa determine si sa clarifice relatiile dintre componentele acestui sistem.

52