Sunteți pe pagina 1din 27

Academia de Studii Economice, Facultatea de Cibernetica, Statistica si Informatica

Economica

Proiect Analiza Datelor

Student: Chirita Alexandra


Prof.univ.dr. Gheorghe Ruxanda
Grupa 1055, Cibernetica Economica

2016

Pagina 1

Cuprins
1.

Prezentarea datelor..................................................................................................... 3

2.

Analiza componentelor principale.................................................................................. 5

3.

Analiza Cluster....................................................................................................... 16

4.

Analiza discriminanta............................................................................................... 23

2016

Pagina 2

1. Prezentarea datelor
In vederea realizarii proiectului am luat datele de pe site-ul: http://www.util21.ro/util21/judeteRomania-informatii.htm. Cele 6 variabile sunt:

Judete- judetele din Romania ordonate alfabetic


Populatie - numarul de locuitori aferenti judetului
Suprafata suprafata exprimata in km2 a fiecarui judet
Numar de locuitori din mediul urban
Numar de locuitori din mediul rural
Densitatea numarul de locuitori pe km2

Judete
Alba
Arad
Arges
Bacau
Bihor
BistritaNasaud
Botosani
Braila
Brasov
Bucuresti
Buzau
Calarasi
Caras-Severin
Cluj
Constanta
Covasna
Dambovita
Dolj
Galati
Giurgiu
Gorj
Harghita
Hunedoara
Ialomita
Iasi
Ilfov
2016

Populatie
382,999
416,730
653,903
708,751
600,223
312,325
454,023
373,897
588,366
1,921,751
494,982
324,629
333,396
703,269
715,172
222,274
541,326
734,823
619,522
298,022
387,407
326,020
487,115
296,486
819,044
300,109

Suprafata/km Nr,
Nr,
2
Locuitori/urban
Locuitori/rural
Densitate/km2
6,242
220,011
162,988
61.4
7,754
234,016
227,714
59.5
6,861
297,034
356,869
95.8
6,621
327,419
381,332
107
7,544
287,398
312,825
79.6
5,355
4,986
4,766
5,363
228
6,103
5,088
8,520
6,674
7,071
3,710
4,054
7,414
4,466
3,526
5,602
6,639
7,063
4,453
5,476
1,583
Pagina 3

113,260
166,461
239,700
435,159
1,921,751
191,352
120,231
182,964
472,650
502,048
111,700
159,021
368,516
351,820
88,756
162,620
148,885
369,873
115,478
388,642
30,548

199,065
287,562
134,197
153,207
0
303,630
204,398
450,432
230,619
213,124
110,574
382,305
366,307
267,702
209,266
224,787
182,135
117,242
181,008
430,402
269,561

58.3
91.1
78.5
109.7
8074.6
81.1
63.8
39.1
105.4
101.1
59.9
133.5
99.1
138.7
84.5
69.2
49.1
69
66.6
149.6
189.6

Maramures
Mehedinti
Mures
Neamt
Olt
Prahova
Salaj
Satu-Mare
Sibiu
Suceava
Teleorman
Timis
Tulcea
Valcea
Vaslui
Vrancea

510,688
306,118
579,862
557,084
490,276
829,224
248,407
369,096
422,224
690,941
436,926
677,744
258,639
413,570
455,550
390,268

6,304
4,933
6,714
5,896
5,498
4,716
3,864
4,418
5,432
8,553
5,790
8,697
8,499
5,765
5,318
4,857

268,472
141,297
282,839
204,054
186,840
420,005
98,657
162,503
277,717
230,084
140,205
407,606
123,556
161,755
178,953
149,880

242,216
164,821
297,023
353,030
303,436
409,219
149,750
206,593
144,507
460,857
296,721
270,138
135,083
251,570
276,597
240,388

Dup ce au fost trecute n revist toate aceste lucruri, vom trece la analiza matricei de date
prezentat n tabelul de mai sus, cu scopul de a identifica civa indicatori relevani pe baza crora
s putem obine o clasificare ct mai precis a judetelor; astfel problema formulat n acest mod ne
conduce spre ideea utilizrii tehnicii analizei componentelor principale.

2. Analiza componentelor principale

2016

Pagina 4

81
62.1
86.4
94.5
89.2
175.8
64.3
83.5
77.7
80.8
75.5
77.9
30.4
71.7
85.7
80.4

Analiza componenetelor principale (ACP) este o metoda de analiza multidimensionala a datelor


care are ca scop determinarea unor noi variabile numite componenete principale, acestea fiind
exprimate sub forma unor combinatii liniare ale variabilelor originale astfel incat aceste variabile
noi sa fie caracterizate de variabilitate maxima.
In prima etapa vom face analiza descriptiva a variabilelor si calculam indicatorii de centrare si
imprastire, cum este media, valoarea minima si valoarea maxima, abaterea standard.
Pentru aceasta n SPSS, alegem Analyse Descriptive Statistics Descriptives, dup
care alegem toii indicatorii, iar la Options bifm csua pentru Mean, Std. Deviation, Minimum,
Maximum, dm Continue i apoi OK.

Si astfel se obtine urmatorul tabel:

Tabelul Descriptive Statistics contine informatii despre fiecare variabila analizata


independent. Din tabel aflam ca pentru variabila Populatie valoarea maxima este 1.921.751 iar
2016

Pagina 5

cea medie este de 222.274 de unde putem ca in anumite judete/municipiu avem o


supraaglomerare . Observam ca media populatiei din mediul urban (272.477,29) este mai mare
decat cea din mediul rural (251.457,14). Densitatea medie a populatiei pe km2 este de 276,945.
Dup cum putem observa elementele matricei de date iniiale ar necesita i o
standardizare, deoarece abaterile standar ale celor 5 indicatori sunt destul de diferite, fapt pentru
care am bifat n csua de dialog Descriptives Save standardized values as variables, i astfel
la matricea de date iniiale se vor aduga i cei 5 indicatori standardizai (adic de medie 0 i
dispersie 1), prezentai n urmtorul tabel:
Judete
Alba
Arad
Arges
Bacau
Bihor
BistritaNasaud
Botosani
Braila
Brasov
Bucuresti
Buzau
Calarasi
CarasSeverin
Cluj
Constanta
Covasna
Dambovita
Dolj
Galati
Giurgiu
Gorj
Harghita
Hunedoara
Ialomita
Iasi
Ilfov
Maramures
Mehedinti
Mures
2016

ZPopulat ZSuprafatak ZNrLocuitoriur ZNrLocuitoriru ZDensitatek


ie
m2
ban
ral
m2
-0.48007
0.32505
-0.18381
-0.87181
-0.17482
-0.3579
1.19426
-0.13469
-0.23397
-0.17636
0.50107
0.6809
0.08631
1.03877
-0.14692
0.69971
0.54293
0.19287
1.27983
-0.13783
0.30665
1.07354
0.05252
0.60474
-0.16006
-0.73603
-0.22284
-0.51303
0.26371
5.09284
-0.0745
-0.69147

-0.18486
-0.39699
-0.52346
-0.18026
-3.13225
0.24514
-0.33836

-0.55818
-0.37161
-0.11476
0.57072
5.78422
-0.28431
-0.53374

-0.51629
0.35579
-1.15552
-0.96819
-2.47795
0.51413
-0.46374

-0.17733
-0.15073
-0.16095
-0.13564
6.32429
-0.15884
-0.17287

-0.65972
0.67986
0.72297
-1.06217
0.09335
0.79414
0.37655
-0.78783
-0.4641
-0.68643
-0.10299
-0.79339
1.09916
-0.78027
-0.01762
-0.75851
0.23291

1.63462
0.5734
0.80162
-1.13053
-0.93278
0.9988
-0.69593
-1.23631
-0.04287
0.55328
0.79702
-0.7034
-0.1153
-2.35329
0.36069
-0.42746
0.59639

-0.31373
0.7022
0.8053
-0.56366
-0.3977
0.337
0.27845
-0.64412
-0.38508
-0.43325
0.34176
-0.55041
0.40758
-0.84826
-0.01385
-0.45986
0.03653

1.96077
-0.20535
-0.37775
-1.38831
1.28942
1.13177
0.16008
-0.41577
-0.26282
-0.68312
-1.3226
-0.69423
1.76338
0.1784
-0.09107
-0.85374
0.44902

-0.1929
-0.13913
-0.14262
-0.17603
-0.11634
-0.14424
-0.11212
-0.15608
-0.16849
-0.18479
-0.16865
-0.1706
-0.10328
-0.07084
-0.15892
-0.17425
-0.15454

Pagina 6

Neamt
Olt
Prahova
Salaj
Satu-Mare
Sibiu
Suceava
Teleorman
Timis
Tulcea
Valcea
Vaslui
Vrancea

0.15042
-0.09154
1.13603
-0.96752
-0.53042
-0.33801
0.63521
-0.28476
0.58741
-0.93046
-0.36935
-0.21731
-0.45374

0.12614
-0.10266
-0.55221
-1.042
-0.72352
-0.1406
1.65359
0.06521
1.73637
1.62254
0.05084
-0.20613
-0.47115

-0.23977
-0.30014
0.51757
-0.6094
-0.38549
0.01857
-0.14848
-0.46369
0.47409
-0.52208
-0.38811
-0.3278
-0.42976

1.00093
0.51222
1.55464
-1.00226
-0.44211
-1.05392
2.0635
0.44605
0.18409
-1.14679
0.00111
0.24774
-0.10908

-0.14797
-0.15227
-0.08203
-0.17247
-0.15689
-0.1616
-0.15908
-0.16338
-0.16144
-0.19996
-0.16646
-0.15511
-0.15941

Dup ce am standardizat datele, detaandu-ne de scara de msurare a variabilelor, matricea


coeficienilor de corelaii va fi echivalent cu matricea de covarian i astfel vom ncepe analiza
compomentelor principale utiliznd matricea de date strandardizate. Avem matricea de date
standardizate n SPSS apelm Analyse Data Reduction Factor. Alegem variabilele dup
care s se fac analiza i anume acele variabile standardizate cele care ncep cu litera Z, dup
care n parte de dreapta a csuei de dialog avem mai multe opiuni ca: Descriptives, Extraction,
Rotation, Scores, Options; care vor fi prezentate n urmtoarele print screen-uri:

In casuta Descriptives ni se prezinta informatii legate de o variabila, precum afisarea


coeficientilor matricei de corelatie.
2016

Pagina 7

In casuta Extraction vom alege metoda componentelor principale, care va fi aplicat pe matricea
corelaiilor, dar la fel de bine puteam s folosim i matricea de covaria ntruct datele sunt
standardizate, dup ci factori dorim s facem analiza (2) i s ne afieze graficul ataat valorilor
proprii (Sree plot), dup care Continue.

In casuta Rotation alegem tehnica de rotire Varimax, apoi Continue.

2016

Pagina 8

In Factor Scores alegem ca scorurile judetelor pe fiecare dintre cele dou axe analizate s fie
salvate ca variabile n tabelul SPSS imediat dup variabilele standardizate, i totodat selectnd
i a doua opiune vom obine versorii axelor u, apoi Continue.

Dup parcurgerea pailor de mai sus, vom trece la interpretarea rezultatelor obinute. Astfel
primul tabel (Descriptive Statistics) , ne ofer informaii cu privire la media i abatarea standard
a fiecrui indicator i avnd n vedere faptul c media este 0 iar dispersia este 1, confirm faptul
c datele sunt standardizate, dup cum putei observa n urmtorul tabel:

2016

Pagina 9

Matricea de corelatie ofera informatii cu privire la taria legaturii dintre variabile si, deasemenea, in
functie de valorile coeficientilor ne putem da seama de cate componente principale este necesar in
cadrul analizei.
Din analiza matricei de corelatie se observa faptul ca cea mai puternica legatura, 0.939 este intre
populatie si numarul de locuitori din mediul urban, urmata de corelatia puternica de 0.918 intre
numarul de locuitori din mediul urban si densitatea populatiei.

Tabelul Communalities ne arata influenta variabilelor luate in studiu.

Din acest tabel reiese faptul ca toate variabilele folosite contribuie major la explicarea
variabilelor artificiale obtinute ulterior. Variabila care contribuie cel mai putin la explicarea
variabilelor este suprafata cu o cantitate de informatie recuperate de doar 0.651.
2016

Pagina 10

Din analiza acestuia se observa ca prima variabila are o contributie majora la explicarea
variabilelor artificiale care se obtin ulterior. Cantitatea de informatie recuperata din acesta
variabila este de 0.979, urmata in aproape de ultima variabila care recupereaza 0.946 din
informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.
Pentru a stabili numarul de componente principale necesare, se folosesc informatiile din
tabelul Total Variance Explained. Tabelul ne ofera informatii cu privire la valoriile proprii ale
matricei de corelatie, dar si informatii referitoare la componentele principale si cantitate de
informatie retinuta de acestea. O valoare proprie mai mare decat 1, pentru o componenta, indica
faptul ca acea componenta are o contributie mai mare decat a unei variabile initiale, deci este
indicat a fi extrasa.

In coloana Eigenvalue , toate valorile proprii asociate spectrului matricei, n ordine

descresctoare, i anume:

=3,944 ,

=1,273 etc. Explicitarea norului de puncte prin dou axe

cu rangul matricei coeficienilor de corelaie 5, atunci putem s explicm uor coninutul


coloanei % of Varinace, astfel: ajustnd norul de puncte acceptnd doar un singur indicator
sintetic se explic 61,32% din totalul variaiei datelor; apoi ajustnd norul de puncte prin dou
axe factoriale recuperm nc 24,936% din variaia total, adic un total de 86,256% din aceast
varian, ceea ce reprezint un rezultat foate bun pentru analiza noastr. Iar dac am fi solicitat
trei axe factoriale am fi explicitat aproximativ 98,205% din variana total.
Pentru a stabili numarul de componente principale necesare se mai poate folosi si metoda
grafica. In Scree Plot, graficul descresterii, se observa doua diferente semnificative de nivel intre
segmentele ce indica reprezentarea grafica a valorilor proprii, ceea ce ne indica necesitatea unui
numar de 2 componente principale.

2016

Pagina 11

Cu ajutorul tabelului Component Matrix se poate da o interpretare variabilelor in spatiul


transformat, aceasta continand coeficientii corelatiilor dintre componentele principale si valorile
initiale.

2016

Pagina 12

Se observa astfel ca prima componenta principala se poate analiza din punctul de vedere al
densitatii, al numarului de locuitori din mediul urban precum si in functie de populatie, toate
avand un coeficient de corelatie de peste 0.800.
A doua componenta este puternic influentata de numarul de locuitori din merdiul rural.
Astfel cel dou coloane (Factorul 1 i Factorul 2) conin componentele principale sau noii
indicatori sintetici calculaii pentru cele 42 judete .
Factorul
1
-0.4344
-0.22657
0.39028
0.54462
0.24614
-0.64923
-0.23685
-0.50388
0.12282
5.51739
-0.08981
-0.61995
-0.06914
0.49669
0.53618
-0.96629
0.01152
0.63452
0.21684
-0.73232
-0.42449
-0.57441
-0.12925
-0.72096
0.84095
-0.74332
-0.0541
-0.68523
0.16398
0.09179
-0.11816
0.84927
2016

Pagina 13

Factorul
2
-0.46389
0.40365
1.12547
1.25103
1.01404
-0.57241
-0.02323
-1.07947
-0.59644
-2.66604
0.43939
-0.60799
1.91711
0.35823
0.38118
-1.66824
0.3472
1.41832
-0.14757
-1.06353
-0.27787
-0.28328
-0.40239
-0.9606
1.30636
-1.28134
0.14464
-0.90754
0.65648
0.73054
0.25563
0.96306

-0.87924
-0.50971
-0.34815
0.56112
-0.26346
0.48498
-0.73118
-0.34063
-0.22694
-0.43142

-1.36467
-0.75249
-0.77783
2.28064
0.25337
1.16775
-0.08056
-0.04574
0.01038
-0.40136

Aadar apelm Graphs Scatter/Dot Alegem Simple Scatter

2016

Pagina 14

Dup care alegem cordonatele axelor X factorul 1 i Y factorul 2, iar la Label Case by
alegem Judete, i pentru a ne afia judetele pe grafic din Options... bifm csua
corespunztoare Display chart with case labels , apoi Continue i n final OK i vom obine
urmtorul grafic:

n acest grafic putem observa un grup destul de compact ce par a avea un comportament
asemntor n raport cu noii indicatori, dar si judete/municipii, anume Bucuresti, Suceava, CarasSeverin , care se detaeaz de grup.

2016

Pagina 15

3. Analiza Cluster
Analiza cluster are ca scop identificarea de clase/clustere in cadrul unei multimi de
obiecte/judete astfel incat elementele care apartin aceleasi clase sa fie cat mai asemanatoare, iar
cele care apartin claselor diferite sa fie cat mai deosebite intre ele.
Criteriul general de clasificare-clasificarea obiectelor sau formelor in clase, grupe sau clustere se
face astfel incat sa se asigure o valoare minima in interiorul claselor si o valoare maxima intre
clase. Fiecare obiect din multimea analizata este atribuit unei singure clase.
n continuare, tot pentru aceiai matrice a datelor standardizate vom aplica tehnici de clasificare
bazate pe algoritmi ierarhici pentru a putea exemplifica att gruparea firmelor ct i gruparea
indicatorilor.
Avem matricea de date standardizate in SPSS, apelam Analyse Classify Hierarchical
Cluster. Alegem variabilele dup care s se fac analiza i anume acele variabile standardizate.

2016

Pagina 16

n aceast csua Statistics vom alege s ne afieze n outputul SPSS modul n care se
agregreaz firmele (variabilele) pas cu pas i matricea de proximitate.

n aceast csua Plots vom alege s ne afieze n outputul SPSS, reprezentarea grafic a
nivelului de agregare al judetelor(variabilelor) prin intermediul dendogramei, aici bifndu-se
csua aferent Dendogram; dup care dm Continue.

2016

Pagina 17

n aceast csua Method vom alege metoda dup care s se fac gruparea firmelor i anume:
Nearest neighbor (vecinii cei mai apropriai), Furthest neighbor ( vecinii cei mai ndeprtai ),
sau Between-groups sau Within-groups linkage (nlnuirea prin medii ) deci vom avea 3
aplicaii cte una pentru fiecare metod. Tot aici alegem i modul de calcul a distanei dintre
dou obiecte (clase), i anume distana euclidian.

2016

Pagina 18

Matricea de proximitate , numita si matricea obiecte x obiecte, e folosita pentru


reprezentarea datelor regferitor la similaritatea sau nesimilaritate a judetelor. Ordinul matricilor
de proximitate este 42. Elementele unei matricide proximitate reprezinta coeficienti de
similaritate, coeficienti de nesimilaritate sau distante. Un element xijdin aceasta matrice masoara
gradul de proximitate de la judetul i la judetul j .
Fiecare element al matricii reprezinta de distanta euclidiana intre judetele
corespunzatoare.

2016

Pagina 19

Din dendrograma se observa cel mai usor formarea claselor. Aceasta ne indica modul de
grupare al judetelor in functie de asemanarile dintre ele, dar si nivelul lor de agregare.

2016

Pagina 20

Algoritmul de partitionare K-means prin recalcularea centroizilor


1. Stabilirea initializatorilor de clustere si a formelor pentru fiecare clasa in jurul carora
se va forma clusterul
2. Arondarea de forme si recalculartea centroizilor
Avand matricea de date standardizata in SPSS, apelam Analyse Classify K-Means
Cluster. Apoi alegem variabilele dup care vrem sa facem analiza.

n aceast csua Save vom alege s ne afieze n outputul SPSS, membrii clusterului, dup care
dm Continue.

2016

Pagina 21

In casuta Options alegem sa se afiseze centrele initiale ale clusterelor si tabelul ANOVA.

In urma acestei analize, am incercat gruparea unor entitati informationale n clase sau clustere
alcatuite din entitati informtionale cu grad ridicat de similaritate

2016

Pagina 22

4. Analiza discriminanta

Analiza discriminanta reprezinta procesul de utilizare a unei game variate de metode, tehnici si
algoritmi in copul de a determina care dintre caracteristicile anumitor obiecte au cea mai mare
releventa din punctul de vedere al recunosterii apartenentei acestor obiecte la anumite clase
definit aprioric.
Functiile discriminant(Di) reprezinta functii utilizate pentru separarea claselor si servesc la
determinarea unor noi variabile numite variabile discriminante di.
Apelam Analyse Classify Discriminant si alegem variabilele pe care vrem sa le
analizam(nu mai alegem variabilele standardizate)

2016

Pagina 23

In casuta de dialog Statistics alegem:

Descriptives: Means, Univariate ANOVAs, Boxs M


Function Coefficients: Fishers
Matrices: Within-groups correlation

La casuta Classification vom selecta ce puteti vedea in urmatorul Print-Screen:

2016

Pagina 24

Tabelul de mai jos rezuma setul de date de analiza in ceea ce privete cazurile valabile i
cazurile excluse. n acest exemplu, toate observaiile din setul de date sunt valide.

In tabelul de mai jos este prezentata distribuia observailor n cele doua grupuri. Putem
vedea numrul de observaii care se ncadreaz n fiecare dintre cele 2 grupuri.

2016

Pagina 25

Se observa ca procentul cumulat al capacitii de discriminare este de 100%. Canonical


Correlation reprezinta corelatia dintre variabila predictor si gruparile de judete.

Gradul de libertate pentru functia data este 5 , acestase bazeaz pe numrul de grupe
prezente n variabila categoric i numrul de variabile discriminante continue.
Avem ipoteza nul H0, care afirama ca functia de corelatie canonic i toate corelaiile canonice
mai mici sunt egale cu zero. Aceasta ipoteza este evaluata cu ajutorul coeficientului p-value
(Sig.). Pentru un nivel dat alfa= 0.05, n cazul n care valoarea p este mai mic dect alfa, ipoteza
nul este respins. Dac nu, atunci nu respinge ipoteza nul. Se obs ca Sig. =0<0,05, rezulta ca se
respinge ipoteza H0.

Clasificarea statistica

Putem vedea in tabelulde mai jos ,ca toate observaiile din setul de date au fost clasificate
cu succes.

2016

Pagina 26

In urmatorul tabel este prezentata distribuia de observaii n grupuri folosite ca punct de plecare
n analiza.

Predicted group Membership- acestea sunt frecvenele prezise de grupuri din analiza. Numerele
fiecrei coloane indic cate au fost clasificate in mod corect si/sau incorect. In cazul analizei
noastre, 97.6% dintre valori au fost clasificate in mod corect.

2016

Pagina 27