Inteligenta Computationala

ACADEMIA DE STUDII ECONOMICE
FACULTATEA DE CIBERNETICA,STATISTICA SI
INFORMATICA ECONOMICA
PROIECT INTELIGENTA
COMPUTATIONALA
Vlase Mario Eduard

Grupa 1061
Vlase Mario Eduard
CSIE
Statistici descriptive
Pentru efectuarea unei analize asupra nivelului educational din Romania , s-au efectuat 12
studii(observatii),valabile pe anul 2014, pe cele 42 de judete ale tarii noastre. Cele 12 studii
vizeaza numarul total de persoane, unitatile scolare disponibile pentru invatamant, personalul
didactic , salile de clase disponibile , terenurile de sport disponibile , numarul de calculatoare
disponibile , numarul absolventilor , numarul de laboratoare , numarul ateliere disponibilie ,
numarul de student si elevi , numarul de facultati , numarul celor care au promovat examenul de
bacalaureat din toate judetele tarii.
Pentru introducerea datelor in R am rescris numele fiecarui judet si observatie cu indicativele

fiecaruia si am eliminat outliers(valoriile care nu se incadreaza in “pattern” general al celorlalte
variabile)cu ajutorul regulii empirice (bazata pe distributia normala) , in care este considerate valoare
2
Vlase Mario Eduard
CSIE
aberanta orice valoare care este departata de medie cu mai mult de trei abateri.
Dupa analiza facuta am determinat patru outliers care urmeaza sa fie eliminate .
3
Vlase Mario Eduard
CSIE
Importarea datelor in R.
4
Vlase Mario Eduard
CSIE
Determinarea cuartilelor , mediei , abaterii standanrd,minumului si maximului pe fiecare coloana.

Astfel , pentru fiecare observatie avem valabil :
 25 % din variabile < 1st Qu
5
Vlase Mario Eduard
CSIE
 50 % din variabile < Median

 50% din variabile > Median
 25 % variabile >3rd Qu
Figure 1 Statistici
Pentru fiecare coloana avem numarul de elemente(n),media(mean),abaterea

standard(sd),abaterea de la medie(mad),minumul
(min),maximul(max),amplitudinea(range),asimetria(skewness),boltirea(kurtosis),eroarea
standard(se).
 Abaterea standard arata suma patratica a departartarilor variabilelor fata de medie pentru toate
variabile de pe coloana
Folosind formula
 , o valoare apropiata de 0 arata gradul de apropiere mai ridicat fata

de medie.
 Mediana este mijlocul seriei sau cuartila 2 . Ea reprezinta punctul central al seriei, deoarece 50 %
din date sunt mai mici si 50% mai mari.
6
Vlase Mario Eduard
CSIE
 Amplitudinea reprezinta distanta dintre minim si maxim a unui sir de date ,penrtu o amplitudine
mai mica abaterea standard si abaterea de la medie vor fii mai mici.
 Mininul pe fiecare coloana reprezina valoarea cea mai mica din seria de date.
 Maximul pe fiecare coloana reprezinta valoarea cea mai mare din seria de date.
 Coeficientul de asimetrie este o masura a distributiei seriei in jurul mediei, acesta ne edifica
asupra modului de dispunere a nivelurilor individuale ale caracteristicii in raport cu o repartitie
uniforma sau normala. Cu cat coeficientul de asimetri este mai mic, respectiv se apropie ca
marime de zero, cu atat seria statistica are un grad de asimetrie mai redus, iar daca Sx este egal cu
zero, seria este perfect simetrica.Semnul pozitiv al coeficientului de asimetrie indica o asimetrie
spre dreapta iar, semnul negativ semnalizeaza existenta unei asimetrii a seriei statistice spre
stanga respectiv catre nivelurile mai mici ale seriei.Astfel putem interpreta pentru toate seriile
noastre de date .
Formula de calcul a coeficientului de asimetrie este:
in care este Abaterea Standard sau

suma patratica a departartarilor variabilelor fata de medie.
 Coeficientul de boltire (aplatizare) sau kurtosis

Marimea coeficientului de boltire se compara cu nivelul standard de 3.
- daca, Kx = 3, boltirea seriei statistice corespunde legii de repartitie normale,
- daca, Kx < 3, seria are o dispunere(platicurtica) plata relativ la repartitia normala,
- daca, Kx > 3, seria are o forma ascutita(leptocurtica) comparativ cu repartitia normala,
Atunci cand , seria statistica este normal distribuita.
Pentru datele noastre avem coeficientul de asimetrie (skewness) si coeficientul de

boltire(kurtosis)
7
Vlase Mario Eduard
CSIE
Pentru fiecare coloana se poate realiza separat statistici descriptive cum ar fii abaterea standard ,
variant , mean
8
Vlase Mario Eduard
CSIE
9
Vlase Mario Eduard
CSIE
 Coeficientul de corelatie pearson
 Interpretare
r = coeficientul de corelatie al lui Pearson (r є [-1,1])
r = 0 → nu exista nici o corelatie;
r = +/- 1 → corelatia este perfecta
In general, r > 0.4 → corelatie buna
 r є [0; 0.2] → corelatie foarte slaba

r є [0.2; 0.4] → corelatie slaba
r є [0.4; 0.6] → corelatie rezonabila
r є [0.6; 0.8] → corelatie inalta
r є [0.8; 1] → corelatie foarte inalta → relatie foarte stransa
10
Vlase Mario Eduard
CSIE
 Covarianta dintre X si Y este definita ca suma produselor distantelor cu semn x−x ¸si y−y a
tuturor datelor la centroid ımpartita la n: covar(x, y) = Xn i=1 (xi − x) · (yi − y) n Covarianta
pozitiva ınseamna ca diagrama de dispersie este dominata de date care se gasesc deasupra ¸si ın
dreapta centroidului sau dedesubt ¸si ın stanga acestuia. Aceasta ıntrucat produsele (x − x) · (y −
y) ın puncte din aceste regiuni sunt pozitive. Daca diagrama de dispersie este dominata de date
care se gasesc deasupra ¸si ın stanga sau dedesubt ¸si ın dreapta centroidului atunci covariant¸a
este negativa pentru ca produsele (x − x) · (y − y) pentru puncte din aceste regiuni sunt negative.
Matricea de corelatie :
11
Vlase Mario Eduard
CSIE
 Din histograma coloanei TP putem determina o dispunere platicurtica comparativ cu repartitia

normala .
12
Vlase Mario Eduard
CSIE
13
Vlase Mario Eduard
CSIE
 Spre deosebire de seria de date TP , seria de date PD are o dispunere leptocurtica .
 Putem deduce mai usor din densitatea de probabilitate a seriei de date dispunerea fata de repartitia
normala.
14
Vlase Mario Eduard
CSIE
Analiza Componentelor Principale

Analiza componentelor principale este o tehnica de analiza multidimensionala care are ca
scopgeneric sintetizarea informaţionala (reducerea dimensionalitaţii datelor) şi eliminarea readundanţelor
informaţionale (suprapunerilor informaţionale).
Dimensionalitatea datelor este justificată pe baza matricei de observaţii: 38 de observaţii cu 12
caracteristici, în total 456 de date.
Redundanţa datelor este justificata pe baza matricei de corelaţie calculate mai sus din care reiese
faptul ca între variabile exista corelaţii puternice (conţine valori apropiate de 1
15
Vlase Mario Eduard
CSIE
sau -
1) deci exista suprapunere informaţionala pe care vom dorii sa le eliminam.
 Pentru analiza componentelor principale am introdus datele in R fara outliers,fiind

eliminate mai devreme in excel.
 Am pastrat numele fiecarui judet pentru a fii folosit ulterior.
16
Vlase Mario Eduard
CSIE
 Pentru o analiza a componentelor principale este necesar ca toate datele sa aiba aceeasi unitate de
masuna astfel ,datele au fost standardizate dupa formula
S – dispersia ,Mx-Media , v-valoarea initiala;
17
Vlase Mario Eduard
CSIE
 Dupa standardizarea datelor matricea de corelatie si cea de covarianta sunt egale , iar abaterea
standard devine 1.
18
Vlase Mario Eduard
CSIE
19
Vlase Mario Eduard
CSIE
 Am folosit urmatoarea functie in R pentru crearea unul tabel cu toate datele, crearea modelului
PCA pe baza de corelatii, extragerea valorilor proprii ,retinerea vectoriilor proprii , retinerea
componentelor principale , calcului corelatiilor factoriale.
 Dupa aplicarea functiei putem observa contributia fiecarei componente , prima componenta avand
un grad de informatie retinuta de 80.88 % , a doua de 8.9 % si asa mai departe . Putem urmari in
fisierul .csv gradul de informatie retinuta pentru fiecare componenta ,precum si procentul acoperit
cumulat.
 Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu
versorii noului spatiu redus.Acesti versori sunt dati de vectorii proprii corespunzatori valorilor
proprii mai mari decat 1.
20
Vlase Mario Eduard
CSIE
 Conform criteriului pantei putem observa ca in analiza componentelor principale se vor retine 2
componente
21
Vlase Mario Eduard
CSIE
 Acestia sunt vectorii proprii obtinuti pe baza valorilor proprii.Cu ajutorul lor vor fi calculate
componentele principale.
 Retinerea componentelor in analiza
22
Vlase Mario Eduard
CSIE
 Calculul corelatiilor factoriale
23
Vlase Mario Eduard
CSIE
Cercul corelatiilor
Acestea sunt valorile proprii . Aceste valori proprii sunt legate de corelatiile canonice si descriu cat de
mult discriminarea capacitatii are o functie. Marimile valorilor proprii sunt informative de abilitati
discriminatorii.
Retinem 2 componente principale in analiza conform criteriului kaiser.
24
Vlase Mario Eduard
CSIE
Scorurile pentru cele 2 componente principale.
25
Vlase Mario Eduard
CSIE
Vectorii proprii
26
Vlase Mario Eduard
CSIE
 Plot indivizi
In concluzie, analiza componentelor principale ne-a permis sa realizam o sintetizare
informationala si sa caracterizam un sir de observatii prin 1 caracteristica in loc de 12. Astfel, am putut
realiza comparatii intre observatii.
27
Vlase Mario Eduard
CSIE
Analiza cluster
kmeans, kmedois, fuzzy clustering, ierarhică, dendograme, grafice, interpretări, diverse valori
pentru numărul de clustere, comentarii asupra siluetei clusterelor, matrice de confuzie, rata de exactitate a
modelului pentru fiecare situație
Prin clusterizare impartim multimea judetelor analizate in submultimi avand un grad de

similaritate inalt intre elementele submultimii si un grad scazut de similaritate intre submultimi. Procesul
de clusterizare se bazeaza pe 3 elemente: -similaritate -criteriu de formare al clusterelor -algoritm de
constructie al clusterelor care sa duca la indeplinirea criteriului dat
Figure 2 K means
Se afișează cele 4 clustere, cu numărul de componente, mediile și atributele lor.
28
Vlase Mario Eduard
CSIE
Indexul judetului si clusterul in care a fost repartizat.
29
Vlase Mario Eduard
CSIE
K-medoizi este o varianta a algoritmului celor k medii si rezulta prin modificarea ce vizeaza ca in
locul centroizilor ca prototiputi ale clusterelor vor fi alesi medoizii. Un medoid al unui cluster este
elementul cel mai apropiat din centrul clusterului (minimizeaza suma distantelor euclidiene. Se remarca
o robustete mai mare in cazul algoritmului de clusterizare K-Medoizi.
30
Vlase Mario Eduard
CSIE
31
Vlase Mario Eduard
CSIE
32
Vlase Mario Eduard
CSIE
Pentru fiecare obiect i se determina coeficientul silueta notat cu CSi , se calculeaza distanta medie
de la obiectul i la toate obiectele din cluster,se noteaza cu Ai,se calculeaza distanta medie de la i la toate
obiectele acelui cluster distanta minima se noteaza cu bi, coeficientul silueta este CSi=bi-ai/max(ai,bi)
Situatia optima cand CSi=1
-daca CSi tinde catre 1 atunci obiectul i a fost clusterizat corect ,
-daca CSi tinde catre 0 ,obiectul i ar fi putut fi clusterizat si in clustul urmator apropiat
-daca CSi tinde catre -1 ,atunci obiectul i a fost clusterizat eronat
Pentru fiecare cluster sau structura de clustere se det silueta medie globala ,media aritmetica a
coeficientilor silueta ai obiectelor din cluster
Sk - silueta medie globala a clusterului k ,
33
Vlase Mario Eduard
CSIE
----Sk.0>26 Sk <0,51de aici rezulta structura slaba
34
Vlase Mario Eduard
CSIE
Algoritmul Fuzzy C-Means Algoritmii fuzzy de obicei încearcă să găsească cea mai bună
clusterizare prin optimizarea unei anumite funcții criteriu. Faptul ca un document poate aparține
de mai mult de un singur cluster este descris de o funcție de membru. Funcția de membru
calculează pentru fiecare document un vector de membru, în care al i-lea element indică gradul
de apartenență a documentului la al i-lea cluster.
Cel mai utilizat algoritm de clusterizare fuzzy este Fuzzy c-means, care este o variație a
algoritmului partițional kmeans.
Dorim să realizăm o clusterizare c-means cu 3 clustere:
35
Vlase Mario Eduard
CSIE
Am afișat gradul de apartenență al fiecărei țări la unul dintre cele 3 clustere.
36
Vlase Mario Eduard
CSIE
Clusterizare ierarhică
Calculăm distanța euclidiană
37
Vlase Mario Eduard
CSIE
38
Vlase Mario Eduard
CSIE
39
Vlase Mario Eduard
CSIE
> hcd<-as.dendrogram(dendograma)
> hcd
'dendrogram' with 2 branches and 38 members total, at height 13.74324
40
Vlase Mario Eduard
CSIE
41
Vlase Mario Eduard
CSIE
Arbori de decizie
Se extrag două eșantioane din numărul liniilor setului de date, 70% sunt în primul eșantion și
30% în al doilea eșantion. Extragerea este cu revenire. În imaginea de mai jos este afișată
apartenența la cele două eșantioane:
42
Vlase Mario Eduard
CSIE
43
Vlase Mario Eduard
CSIE
Mai sus am afișat setul de date de antrenare. Construim arborele de decizie:
44
Vlase Mario Eduard
CSIE
Recunoasterea nesupervizata a formelor
Metodele de analiza cluster au ca scop gruparea indivizilor,identificati printr-o serie de

attribute,intr-un numar cat mai restrans de clase omogene.Aceste metode realizeaza o analiza globala a
indivizlor ce sunt studiati printr-un numar mare de variabile si ipoteze cerute minime.Astfel se realizeaza
clase in asa fel incat indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele
lor in timp ce clasele constituite sa fie cat mai diferite.
Clusterul reprezinta o submultime formata din obiecte care au proprietatea ca gradul de
dismilaritate dintre oricare doua obiecte apartinand clusterului este mai mic decat gradul de disimilaritate
dintre orice obiect care apartine clusterului si orice obiect care nu apartine clusterului respective.
45
Vlase Mario Eduard
CSIE
Vor fi supuse procesului de clusterizare toate cele 38 de judete ramase dupa eliminarea
outliers,avand 12 variabile dupa care se va efectua impartirea in clase.
46
Vlase Mario Eduard
CSIE
DEW(Bihor,Banat)=5.7425=[W1Bihor-W1Banat)2+[W2Bihor-W2 Banat)2+[W3Bihor-W3 Banat)2+[W4Bihor-W4 Banat)2

DEW(Bihor,Maramures)= 2.5693=[W1Bihor-W1 Maramures)2+[W2Bihor-W2 Maramures)2+[W3Bihor-W3
Maramures 2
) +[W4Bihor-W4 Maramures)2
DEW(Bihor,Satu Mare)= 5.1916=[W1Bihor-W1Satu Mare)2+[W2Bihor-W2Satu Mare)2+[W3Bihor-W3Satu Mare)2
+[W4Bihor-W4Satu Mare)2
DEW(Bihor,Salaj)= 6.6871=[W1Bihor-W1Salaj)2+[W2Bihor-W2Salaj)2+[W3Bihor-W3Salaj)2+[W4Bihor-W4Salaj)2
DEW(Bihor,Alba)= 4.6505=+[W1Bihor-W1Alba)2+[W2Bihor-W2Alba)2+[W3Bihor-W3Alba)2+[W4Bihor-W4Alba)2
47
Vlase Mario Eduard
CSIE
--Cluster 1 cu distranta de agregare 0.706 de are urmatoarea structura si anume s-au unit
"{22,27}","{Tulcea,Giurgiu}"
--Cluster 2 cu distanta de agregare 0.7378 are urmatoarea strcutura si anume s-au unit
"{2,4}","{Banat,Satu Mare}"
"{31,34}","{Gorj,Satu Mare}"
"{25,{22,27}}","{Calarasi,{Tulcea,Giurgiu}}",realizand unirea cu Cluster 1
"{5,{25,{22,27}}}","{Salaj,{Calarasi,{Tulcea,GIurgiu}}}",realizand unirea cu Cluster 4
--Cluster 6 cu distanta de agregare 0.8662 are urmatoarea strcutura si anume s-au unit {{2,4},{31,34}}"
{{Banat,Satu Mare},{Gorj,Valcea}}"
Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se
numeste arborele clasificarii sau dendrograma clasificarii. Pentru a identifica numarul de clase
trebuie sa identificam o partitie cu un numar redus de grupe si o partitie cu un numar mare de
grupe. Apoi ducem o paralela cu axa oy iar numarul de puncte care intersecteaza dreapta ne da
numarul de clase.
48
Vlase Mario Eduard
CSIE
Figure 3.dvvv
In cazul de fata metoda lui Ward a dus la obtinerea unor rezultate mai bune,permitand o
diferentiere mai clasa a clusterelor.Folosind principiul minimizarii variantei in cadrul grupurilor,ilustreaza
mai bine profilul judetelor.Pe de alta parte,metoda celor mai apropiati vecini duce uneori la constiutuirea
de grupuri eterogene,variant din cadrul grupurilor putand inregistra valori mai ridicate.In analiza de
fata,metoda lui Ward duce la izolarea unui singur judet Iasi.
Astfel, pentru un prag de distanta de 4 se vor obtine 2 grupe: prima grupa este formata din judetul
Iasi, iar a doua grupa este formata din restul judetelor. Daca pragul de distanta este 3 atunci putem
considera urmatoarele grupe: prima grupa este formata din judetul Iasi, a doua grupa din judetul
Hunedoara, a treia grupa din judetul Suceava, a patra grupa formata din judetul constanta, a cincea grupa
din judetul Brasov, a sasea grupa din judetul Neamt.
Astfel putem deduce ca Iasi are cel mai mare nivel educational dintre cele 38 judete ramase in
urma eliminarii outliers , pe cand Vrancea si Mehedinti cel mai scazut nivel educational.
49
Vlase Mario Eduard
CSIE
--Componente principale--
--Variabilele originale--
--Puterea de discriminare a componentelor principale—
De aici reiese ca componenta w1 are cea mai mare putere de discriminare
50
Vlase Mario Eduard
CSIE
W1>W2>W3>W4
--Centroizii --
--Desc variabilitatii pentru componente principale--

SPAT=suma patratelor abaterilor totale = 437.3896
SPAW intraclasa=90.5084
SPAB interclasa = 346.8812
SPAT=SPAW intraclasa + SPAB interclasa
R=SPAB/SPAW=3.8326
Descompunerea variabilitatii a variabilelor originale:

SPAT=suma patratelor abaterilor totale = 444
SPAW intraclasa=124.2042
51
Vlase Mario Eduard
CSIE
SPAB interclasa = 319.7958

SPAT=SPAW intraclasa + SPAB interclasa
444=319.7958+124.2042
R=SPAB/SPAW=2.5748
In urma analizei efectuate asupra celor 38 de judete ale Romaniei ,si asupra celor 12 factori de
influenta am putut sa subliniez care sunt judetele au cel mai mare nivel educational .In cadrul analizei
efectuate pe acest esantion am putut observa ca unele variabile erau puternic corelate intre ele astfel incat
nu aduceau un plus de informatie.
In concluzie,analiza componentelor principale ne-a permis sa realizam o sintetizare
informationala si sa caracterizam un sir de observatii .
Deasemenea variabila populatie a influentat in mod vizibil celelalte variabile, astfel incat facand o
analiza asupra datelor s-a putut constata ca dupa aceasta varibila s-a facut clasificarea in 3 mari grupe de
judete, aceasta variabila influentand si celelalte avand cu alte cuvinte o forta de discriminare mai mare.
Metodele de analiza a datelor ne oferta tehnici foarte valoroase in contextual analizei
fenomenelor socio-economice actuale,ajustand la simplificarea modelelor matematice si structurilor
complexe ce incearca sa determine si sa clarifice relatiile dintre componentele acestui sistem.
52

Inteligenta Computationala

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Inteligenta Computationala

Încărcat de

Drepturi de autor:

Formate disponibile

ACADEMIA DE STUDII ECONOMICE

Vlase Mario Eduard

Pentru introducerea datelor in R am rescris numele fiecarui judet si observatie cu indicativele

Determinarea cuartilelor , mediei , abaterii standanrd,minumului si maximului pe fiecare coloana.

 25 % din variabile < 1st Qu

 50 % din variabile < Median

Pentru fiecare coloana avem numarul de elemente(n),media(mean),abaterea

 , o valoare apropiata de 0 arata gradul de apropiere mai ridicat fata

Formula de calcul a coeficientului de asimetrie este:

in care este Abaterea Standard sau

 Coeficientul de boltire (aplatizare) sau kurtosis

Pentru datele noastre avem coeficientul de asimetrie (skewness) si coeficientul de

 Coeficientul de corelatie pearson

 r є [0; 0.2] → corelatie foarte slaba

 Din histograma coloanei TP putem determina o dispunere platicurtica comparativ cu repartitia

 Spre deosebire de seria de date TP , seria de date PD are o dispunere leptocurtica .

Analiza Componentelor Principale

 Pentru analiza componentelor principale am introdus datele in R fara outliers,fiind

 Am pastrat numele fiecarui judet pentru a fii folosit ulterior.

S – dispersia ,Mx-Media , v-valoarea initiala;

 Retinerea componentelor in analiza

 Calculul corelatiilor factoriale

Scorurile pentru cele 2 componente principale.

Prin clusterizare impartim multimea judetelor analizate in submultimi avand un grad de

Se afișează cele 4 clustere, cu numărul de componente, mediile și atributele lor.

Indexul judetului si clusterul in care a fost repartizat.

----Sk.0>26 Sk <0,51de aici rezulta structura slaba

Am afișat gradul de apartenență al fiecărei țări la unul dintre cele 3 clustere.

Mai sus am afișat setul de date de antrenare. Construim arborele de decizie:

Recunoasterea nesupervizata a formelor

Metodele de analiza cluster au ca scop gruparea indivizilor,identificati printr-o serie de

DEW(Bihor,Banat)=5.7425=[W1Bihor-W1Banat)2+[W2Bihor-W2 Banat)2+[W3Bihor-W3 Banat)2+[W4Bihor-W4 Banat)2

--Puterea de discriminare a componentelor principale—

De aici reiese ca componenta w1 are cea mai mare putere de discriminare

--Desc variabilitatii pentru componente principale--

Descompunerea variabilitatii a variabilelor originale:

SPAB interclasa = 319.7958

S-ar putea să vă placă și