Documente Academic
Documente Profesional
Documente Cultură
FACULTATEA DE CIBERNETICA,STATISTICA SI
INFORMATICA ECONOMICA
PROIECT INTELIGENTA
COMPUTATIONALA
CSIE
Statistici descriptive
Pentru efectuarea unei analize asupra nivelului educational din Romania , s-au efectuat 12
studii(observatii),valabile pe anul 2014, pe cele 42 de judete ale tarii noastre. Cele 12 studii
vizeaza numarul total de persoane, unitatile scolare disponibile pentru invatamant, personalul
didactic , salile de clase disponibile , terenurile de sport disponibile , numarul de calculatoare
disponibile , numarul absolventilor , numarul de laboratoare , numarul ateliere disponibilie ,
numarul de student si elevi , numarul de facultati , numarul celor care au promovat examenul de
bacalaureat din toate judetele tarii.
2
Vlase Mario Eduard
CSIE
aberanta orice valoare care este departata de medie cu mai mult de trei abateri.
Dupa analiza facuta am determinat patru outliers care urmeaza sa fie eliminate .
3
Vlase Mario Eduard
CSIE
Importarea datelor in R.
4
Vlase Mario Eduard
CSIE
5
Vlase Mario Eduard
CSIE
Figure 1 Statistici
Abaterea standard arata suma patratica a departartarilor variabilelor fata de medie pentru toate
variabile de pe coloana
Folosind formula
Mediana este mijlocul seriei sau cuartila 2 . Ea reprezinta punctul central al seriei, deoarece 50 %
din date sunt mai mici si 50% mai mari.
6
Vlase Mario Eduard
CSIE
Amplitudinea reprezinta distanta dintre minim si maxim a unui sir de date ,penrtu o amplitudine
mai mica abaterea standard si abaterea de la medie vor fii mai mici.
Mininul pe fiecare coloana reprezina valoarea cea mai mica din seria de date.
Maximul pe fiecare coloana reprezinta valoarea cea mai mare din seria de date.
Coeficientul de asimetrie este o masura a distributiei seriei in jurul mediei, acesta ne edifica
asupra modului de dispunere a nivelurilor individuale ale caracteristicii in raport cu o repartitie
uniforma sau normala. Cu cat coeficientul de asimetri este mai mic, respectiv se apropie ca
marime de zero, cu atat seria statistica are un grad de asimetrie mai redus, iar daca Sx este egal cu
zero, seria este perfect simetrica.Semnul pozitiv al coeficientului de asimetrie indica o asimetrie
spre dreapta iar, semnul negativ semnalizeaza existenta unei asimetrii a seriei statistice spre
stanga respectiv catre nivelurile mai mici ale seriei.Astfel putem interpreta pentru toate seriile
noastre de date .
7
Vlase Mario Eduard
CSIE
Pentru fiecare coloana se poate realiza separat statistici descriptive cum ar fii abaterea standard ,
variant , mean
8
Vlase Mario Eduard
CSIE
9
Vlase Mario Eduard
CSIE
Interpretare
r = coeficientul de corelatie al lui Pearson (r є [-1,1])
r = 0 → nu exista nici o corelatie;
r = +/- 1 → corelatia este perfecta
In general, r > 0.4 → corelatie buna
10
Vlase Mario Eduard
CSIE
Covarianta dintre X si Y este definita ca suma produselor distantelor cu semn x−x ¸si y−y a
tuturor datelor la centroid ımpartita la n: covar(x, y) = Xn i=1 (xi − x) · (yi − y) n Covarianta
pozitiva ınseamna ca diagrama de dispersie este dominata de date care se gasesc deasupra ¸si ın
dreapta centroidului sau dedesubt ¸si ın stanga acestuia. Aceasta ıntrucat produsele (x − x) · (y −
y) ın puncte din aceste regiuni sunt pozitive. Daca diagrama de dispersie este dominata de date
care se gasesc deasupra ¸si ın stanga sau dedesubt ¸si ın dreapta centroidului atunci covariant¸a
este negativa pentru ca produsele (x − x) · (y − y) pentru puncte din aceste regiuni sunt negative.
Matricea de corelatie :
11
Vlase Mario Eduard
CSIE
12
Vlase Mario Eduard
CSIE
13
Vlase Mario Eduard
CSIE
Putem deduce mai usor din densitatea de probabilitate a seriei de date dispunerea fata de repartitia
normala.
14
Vlase Mario Eduard
CSIE
15
Vlase Mario Eduard
CSIE
sau -
1) deci exista suprapunere informaţionala pe care vom dorii sa le eliminam.
16
Vlase Mario Eduard
CSIE
Pentru o analiza a componentelor principale este necesar ca toate datele sa aiba aceeasi unitate de
masuna astfel ,datele au fost standardizate dupa formula
17
Vlase Mario Eduard
CSIE
Dupa standardizarea datelor matricea de corelatie si cea de covarianta sunt egale , iar abaterea
standard devine 1.
18
Vlase Mario Eduard
CSIE
19
Vlase Mario Eduard
CSIE
Am folosit urmatoarea functie in R pentru crearea unul tabel cu toate datele, crearea modelului
PCA pe baza de corelatii, extragerea valorilor proprii ,retinerea vectoriilor proprii , retinerea
componentelor principale , calcului corelatiilor factoriale.
Dupa aplicarea functiei putem observa contributia fiecarei componente , prima componenta avand
un grad de informatie retinuta de 80.88 % , a doua de 8.9 % si asa mai departe . Putem urmari in
fisierul .csv gradul de informatie retinuta pentru fiecare componenta ,precum si procentul acoperit
cumulat.
Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu
versorii noului spatiu redus.Acesti versori sunt dati de vectorii proprii corespunzatori valorilor
proprii mai mari decat 1.
20
Vlase Mario Eduard
CSIE
Conform criteriului pantei putem observa ca in analiza componentelor principale se vor retine 2
componente
21
Vlase Mario Eduard
CSIE
Acestia sunt vectorii proprii obtinuti pe baza valorilor proprii.Cu ajutorul lor vor fi calculate
componentele principale.
22
Vlase Mario Eduard
CSIE
23
Vlase Mario Eduard
CSIE
Cercul corelatiilor
Acestea sunt valorile proprii . Aceste valori proprii sunt legate de corelatiile canonice si descriu cat de
mult discriminarea capacitatii are o functie. Marimile valorilor proprii sunt informative de abilitati
discriminatorii.
Retinem 2 componente principale in analiza conform criteriului kaiser.
24
Vlase Mario Eduard
CSIE
25
Vlase Mario Eduard
CSIE
Vectorii proprii
26
Vlase Mario Eduard
CSIE
Plot indivizi
In concluzie, analiza componentelor principale ne-a permis sa realizam o sintetizare
informationala si sa caracterizam un sir de observatii prin 1 caracteristica in loc de 12. Astfel, am putut
realiza comparatii intre observatii.
27
Vlase Mario Eduard
CSIE
Analiza cluster
kmeans, kmedois, fuzzy clustering, ierarhică, dendograme, grafice, interpretări, diverse valori
pentru numărul de clustere, comentarii asupra siluetei clusterelor, matrice de confuzie, rata de exactitate a
modelului pentru fiecare situație
Figure 2 K means
28
Vlase Mario Eduard
CSIE
29
Vlase Mario Eduard
CSIE
K-medoizi este o varianta a algoritmului celor k medii si rezulta prin modificarea ce vizeaza ca in
locul centroizilor ca prototiputi ale clusterelor vor fi alesi medoizii. Un medoid al unui cluster este
elementul cel mai apropiat din centrul clusterului (minimizeaza suma distantelor euclidiene. Se remarca
o robustete mai mare in cazul algoritmului de clusterizare K-Medoizi.
30
Vlase Mario Eduard
CSIE
31
Vlase Mario Eduard
CSIE
32
Vlase Mario Eduard
CSIE
Pentru fiecare obiect i se determina coeficientul silueta notat cu CSi , se calculeaza distanta medie
de la obiectul i la toate obiectele din cluster,se noteaza cu Ai,se calculeaza distanta medie de la i la toate
obiectele acelui cluster distanta minima se noteaza cu bi, coeficientul silueta este CSi=bi-ai/max(ai,bi)
Situatia optima cand CSi=1
-daca CSi tinde catre 1 atunci obiectul i a fost clusterizat corect ,
-daca CSi tinde catre 0 ,obiectul i ar fi putut fi clusterizat si in clustul urmator apropiat
-daca CSi tinde catre -1 ,atunci obiectul i a fost clusterizat eronat
Pentru fiecare cluster sau structura de clustere se det silueta medie globala ,media aritmetica a
coeficientilor silueta ai obiectelor din cluster
Sk - silueta medie globala a clusterului k ,
33
Vlase Mario Eduard
CSIE
34
Vlase Mario Eduard
CSIE
Algoritmul Fuzzy C-Means Algoritmii fuzzy de obicei încearcă să găsească cea mai bună
clusterizare prin optimizarea unei anumite funcții criteriu. Faptul ca un document poate aparține
de mai mult de un singur cluster este descris de o funcție de membru. Funcția de membru
calculează pentru fiecare document un vector de membru, în care al i-lea element indică gradul
de apartenență a documentului la al i-lea cluster.
Cel mai utilizat algoritm de clusterizare fuzzy este Fuzzy c-means, care este o variație a
algoritmului partițional kmeans.
Dorim să realizăm o clusterizare c-means cu 3 clustere:
35
Vlase Mario Eduard
CSIE
36
Vlase Mario Eduard
CSIE
Clusterizare ierarhică
Calculăm distanța euclidiană
37
Vlase Mario Eduard
CSIE
38
Vlase Mario Eduard
CSIE
39
Vlase Mario Eduard
CSIE
> hcd<-as.dendrogram(dendograma)
> hcd
'dendrogram' with 2 branches and 38 members total, at height 13.74324
40
Vlase Mario Eduard
CSIE
41
Vlase Mario Eduard
CSIE
Arbori de decizie
Se extrag două eșantioane din numărul liniilor setului de date, 70% sunt în primul eșantion și
30% în al doilea eșantion. Extragerea este cu revenire. În imaginea de mai jos este afișată
apartenența la cele două eșantioane:
42
Vlase Mario Eduard
CSIE
43
Vlase Mario Eduard
CSIE
44
Vlase Mario Eduard
CSIE
45
Vlase Mario Eduard
CSIE
Vor fi supuse procesului de clusterizare toate cele 38 de judete ramase dupa eliminarea
outliers,avand 12 variabile dupa care se va efectua impartirea in clase.
46
Vlase Mario Eduard
CSIE
DEW(Bihor,Salaj)= 6.6871=[W1Bihor-W1Salaj)2+[W2Bihor-W2Salaj)2+[W3Bihor-W3Salaj)2+[W4Bihor-W4Salaj)2
DEW(Bihor,Alba)= 4.6505=+[W1Bihor-W1Alba)2+[W2Bihor-W2Alba)2+[W3Bihor-W3Alba)2+[W4Bihor-W4Alba)2
47
Vlase Mario Eduard
CSIE
--Cluster 1 cu distranta de agregare 0.706 de are urmatoarea structura si anume s-au unit
"{22,27}","{Tulcea,Giurgiu}"
--Cluster 2 cu distanta de agregare 0.7378 are urmatoarea strcutura si anume s-au unit
"{2,4}","{Banat,Satu Mare}"
--Cluster 3 cu distanta de agregare 0.7654 are urmatoarea strcutura si anume s-au unit
"{31,34}","{Gorj,Satu Mare}"
--Cluster 4 cu distanta de agregare 0.7831 are urmatoarea strcutura si anume s-au unit
"{25,{22,27}}","{Calarasi,{Tulcea,Giurgiu}}",realizand unirea cu Cluster 1
--Cluster 5 cu distanta de agregare 0.8251 are urmatoarea strcutura si anume s-au unit
"{5,{25,{22,27}}}","{Salaj,{Calarasi,{Tulcea,GIurgiu}}}",realizand unirea cu Cluster 4
--Cluster 6 cu distanta de agregare 0.8662 are urmatoarea strcutura si anume s-au unit {{2,4},{31,34}}"
{{Banat,Satu Mare},{Gorj,Valcea}}"
Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se
numeste arborele clasificarii sau dendrograma clasificarii. Pentru a identifica numarul de clase
trebuie sa identificam o partitie cu un numar redus de grupe si o partitie cu un numar mare de
grupe. Apoi ducem o paralela cu axa oy iar numarul de puncte care intersecteaza dreapta ne da
numarul de clase.
48
Vlase Mario Eduard
CSIE
Figure 3.dvvv
In cazul de fata metoda lui Ward a dus la obtinerea unor rezultate mai bune,permitand o
diferentiere mai clasa a clusterelor.Folosind principiul minimizarii variantei in cadrul grupurilor,ilustreaza
mai bine profilul judetelor.Pe de alta parte,metoda celor mai apropiati vecini duce uneori la constiutuirea
de grupuri eterogene,variant din cadrul grupurilor putand inregistra valori mai ridicate.In analiza de
fata,metoda lui Ward duce la izolarea unui singur judet Iasi.
Astfel, pentru un prag de distanta de 4 se vor obtine 2 grupe: prima grupa este formata din judetul
Iasi, iar a doua grupa este formata din restul judetelor. Daca pragul de distanta este 3 atunci putem
considera urmatoarele grupe: prima grupa este formata din judetul Iasi, a doua grupa din judetul
Hunedoara, a treia grupa din judetul Suceava, a patra grupa formata din judetul constanta, a cincea grupa
din judetul Brasov, a sasea grupa din judetul Neamt.
Astfel putem deduce ca Iasi are cel mai mare nivel educational dintre cele 38 judete ramase in
urma eliminarii outliers , pe cand Vrancea si Mehedinti cel mai scazut nivel educational.
49
Vlase Mario Eduard
CSIE
--Componente principale--
--Variabilele originale--
50
Vlase Mario Eduard
CSIE
W1>W2>W3>W4
--Centroizii --
51
Vlase Mario Eduard
CSIE
In urma analizei efectuate asupra celor 38 de judete ale Romaniei ,si asupra celor 12 factori de
influenta am putut sa subliniez care sunt judetele au cel mai mare nivel educational .In cadrul analizei
efectuate pe acest esantion am putut observa ca unele variabile erau puternic corelate intre ele astfel incat
nu aduceau un plus de informatie.
In concluzie,analiza componentelor principale ne-a permis sa realizam o sintetizare
informationala si sa caracterizam un sir de observatii .
Deasemenea variabila populatie a influentat in mod vizibil celelalte variabile, astfel incat facand o
analiza asupra datelor s-a putut constata ca dupa aceasta varibila s-a facut clasificarea in 3 mari grupe de
judete, aceasta variabila influentand si celelalte avand cu alte cuvinte o forta de discriminare mai mare.
Metodele de analiza a datelor ne oferta tehnici foarte valoroase in contextual analizei
fenomenelor socio-economice actuale,ajustand la simplificarea modelelor matematice si structurilor
complexe ce incearca sa determine si sa clarifice relatiile dintre componentele acestui sistem.
52