Sunteți pe pagina 1din 23

Facultatea de Cibernetica,Statistica si Informatica

Economica

Proiect Analiza Datelor


Analiza in componente principale si analiza claselor
ierarhice

Profesor Coordonator: Andreea Botezatu


Student: Bianca Cojocaru
Grupa: 1049
Seria A

Proiectul isi propune sa analizeze progresul tehnologic in 24 tari cu un nivel mediu


de dezvoltare umana. Datele prelucrate sunt din 2005 iar sursa este Human
Development Raport 2007/2008. Scopul acestei analize este de a estima tara cea mai
avantajoasa din punct de vedere a dezboltarii tehnologice.
Analiza in componente principale

Case Summariesa
abonati_ utilizator

Populati

alfabe linii_tele tel_mobi i_interne cercet consum PIB($ indicele e_urban numar_a
Tara

tizare

fonie

atori _energie

_saracie

ngajati

Kazakhstan

99.5

167

327

27

629

1.5 57.1

18.2

57.3

7182

Colombia

92.8

168

479

104

109

.7 122.3

7.9

72.7

18217

Thailand

92.6

110

430

110

287

1.4 176.6

10.0

32.3

36302

China

90.9

269

302

85

708

2.1

11.7

40.4

737400

Turkey

87.4

263

605

222

341

1.1 362.5

9.2

67.3

22047

Peru

87.9

80

200

164

226

.4 79.4

11.6

72.6

3400

Ecuador

91.0

129

472

47

50

.8 36.5

8.7

62.8

3892

Philippines

92.6

41

419

54

48

.7 99.0

15.3

62.7

32875

Tunisia

74.3

125

566

95

1013

.9 28.7

17.9

65.3

3315

10

Iran

82.4

278

106

103

1279

1.3 189.8

12.9

66.9

19760

11

Paraguay

93.5

54

320

34

79

7.3

8.8

58.5

2247

12

Sri Lanka

90.7

63

171

14

128

1.3 23.5

17.8

15.1

6943

13

El Salvador

80.6

141

350

93

47

.6 17.0

15.1

59.8

2526

14

Nepal

48.6

17

59

1.0

7.4

38.1

15.8

7459

15

Madagascar

70.7

27

15

.1

5.0

35.8

26.8

8099

16

Viet Nam

90.3

191

115

129

115

3.2 52.4

15.2

26.4

42316

17

Indonesia

90.4

58

213

73

207

.8 287.2

18.2

48.1

94948

18

Nicaragua

76.7

43

217

27

73

.4

4.9

17.9

59.0

1953

19

Egypt

71.4

140

184

68

493

.9 89.4

20.0

42.8

18119

20

Bolivia

86.7

70

264

52

120

.4

9.3

13.6

64.2

2091

21

India

61.0

45

82

55

119

.8 805.7

31.3

28.7

308760

22

Pakistan

49.9

34

82

67

75

.6 110.7

36.2

34.9

38882

23

Bangladesh

47.5

63

51

1.1 60.0

40.5

25.1

44322

24

South Africa

82.4

101

724

109

307

.2 239.5

23.5

59.3

11622

24

24

24

24

24

24

24

24

Total N

24

1.0

24

2234.
3

24

In vederea clasificarii tarilor se urmareste reducerea dimensionalitatii, adica


aflarea unor indicatori relevanti pentru analiza, indicatori sintetici redusi din cei
initiali, pe baza carora datele pot fi interpretare mai usor. Pentru aceasta se foloseste
tehnica analizei componentelor principale pe baza matricei de corelatie.
Componentele noi vor exprima atribute noi ale tarilor si sunt construite in asa fel incat

sa fie necorelate intre ele, fiecare dintre aceste noi variabile fiind o combinatie liniara
de variabile originale.
Variabilele luate in considerare sunt:
alfabetizare- Gradul de alfabetizare a adultilor de peste 15 ani in anul 2005;
linii_telefonice - Numatul de linii de telefonice la 1000 de persoane in 2005;
abonati_tel_mobil - numarul de telefoane mobile la 1000 de persoane in 2005;
utilizatori_internet - numarul utilizatorilor de internet la 1000 de persoane in 2005;
cercetatori numar de cercetatori la milionul de locuitori in 2005;
consum_energie- consumul de energie pe cap de locuitor(%) din totalul de energie
consumata in 2005;
PIB miliarde $ (us) 2005;
indicele saracie- indicele de saracie umana, valoare procentuala in 2005( cu cat
valoarea sa este mai mare cu atat poporul e mai sarac);
populatie_urbana- % din totalul populatiei 2005;
numar_angajati- numarul de angajati (mii) in anul 2005.
In prima etapa calculam analiza descriptiva a variabilelor si calculam
indicatorii de centrare si imprastire, cum este media, valoarea minima si valoarea
maxima, abaterea standard.

Descriptive Statistics
N

Minimum

Maximum

Mean

Std. Deviation

Variance

alfabetizare

24

47.5

99.5

80.492

15.1709

230.156

linii_telefonie

24

278

108.29

81.464

6636.303

abonati_tel_mobil

24

724

280.29

194.343

37769.259

utilizatori_internet

24

222

72.67

52.977

2806.580

cercetatori

24

15

1279

274.08

328.794

108105.819

consum_energie

24

.1

3.2

.971

.6531

.427

PIB($)

24

4.9

2234.3

212.729

464.2796

215555.590

indicele_saracie

24

7.9

40.5

18.975

10.0238

100.476

Populatie_urbana

24

15.1

72.7

48.533

18.5972

345.857

numar_angajati

24

1953

737400

61444.88

157025.456

2.466E10

Valid N (listwise)

24

Tabelul Descriptive Statistics contine informatii despre fiecare variabila


analizata independent. Din tabel aflam ca pentru variabila gradului de alfabetzare la
adulti (peste 15 ani) valoarea maxima este 99.5 iar cea medie este de 80.49 de unde
putem concluziona ca desi analizam tari medii din punct de vedere al dezvoltarii
umane, gradul de alfabetizare este in medie destul de ridicat. Desi reteaua telefonica
nu este foarte bine dezvoltata, existant maxim 278 linii telefonice la 1000 de
persoane, numarul maxim al utilizatorilor de telefon mobil este aproximativ triplu 724
la acelasi numar de persoane. Gradul de raspandire a telefoniei mobile in aceste tari
este mult mai ridicat decat cel al utilizarii internetului, care are valoarea medie de
72.67 la mia de locuitori.
Valoarea medie a consumului de energie pe cap de locuitar a tarilor analizate
este 3.2, aceasta variabila avand varianta cea mai mica, 0.427, ceea ce ne arata ca este
si cea mai omogena variabila, dar si cea mai stabila, avand abaterea standard cea mai
mica, 0.6531. Populatia in aceste tari este predominant rurala, indicele populatiei
urbane avand media 48.533.
Tot in urma analizei descriptive se obtin si standardizarile variabilelor initiale.
Pentru analiza in componente principale se vor folosi variabilele standardizate,
evitand in acest fel discrepantele dintre valori ce ar putea fi datorate unitatilor de
masura diferite. Informatiile astfel exprimate in forma standardizata, in unitati
standard de abatere medie patratitica, se afla in tabelul de mai jos:

Case Summariesa
Zscore(al Zscore(li Zscore(a Zscore(ut Zscore(c Zscore(c

Zscore(in Zscore(P Zscore(nu

fabetizar nii_telefo bonati_te ilizatori_i ercetatori onsum_e Zscore: dicele_sa opulatie_ mar_anga
Tara

e)

Kazakhstan

nie)

l_mobil)

nternet)

nergie)

PIB($)

racie)

urbana)

jati)

-.33521

-.07732

.47140

-.34557

-.19477 -1.10487

1.29948

-.27529

1.25295

.72067

.24034

-.86201

1.07945

.81027

Colombia

.81131

.73295

1.02246

.59145

-.50209

-.41471

Thailand

.79813

.02097

.77033

.70471

.03928

.65715

-.07782

-.89537

-.87289

-.16012

China

.68607

1.97276

.11170

.23280

1.31972

1.72901

4.35421

-.72578

-.43734

4.30475

Turkey

.45537

1.89911

1.67080

2.81882

.20352

.19778

.32259

-.97518

1.00911

-.25090

Peru

.48832

-.34729

-.41314

1.72401

-.14624

-.87407

-.28717

-.73575

1.29410

-.36965

Ecuador

.69266

.25420

.98644

-.48449

-.68153

-.26158

-.37958 -1.02506

.76714

-.36652

Philippines

.79813

-.82603

.71373

-.35235

-.68761

-.41471

-.24496

-.36663

.76176

-.18194

Tunisia

-.40813

.20510

1.47012

.42157

2.24735

-.10846

-.39638

-.10725

.90157

-.37019

10

Iran

.12579

2.08324

-.89682

.57257

3.05637

.50403

-.04939

-.60606

.98760

-.26547

11

Paraguay

.85745

-.66645

.20432

-.72987

-.59333

.04466

-.44247 -1.01509

.53592

-.37700

12

Sri Lanka

.67289

-.55597

-.56236 -1.10740

-.44430

.50403

-.40758

-.11722 -1.79776

-.34709

13

El Salvador

.00714

.40151

.38381

-.69065

-.56783

-.42158

-.38658

.60582

-.37522

14

Nepal

-2.10216 -1.12064 -1.39594 -1.29616

-.65416

.04466

-.44225

1.90797 -1.76012

-.34380

15

Madagascar

-.78798 -1.33344

-.44742

1.67851 -1.16863

-.33973

16

Viet Nam

.64652

1.01528

-.85051

1.06335

-.48384

3.41335

-.34533

-.37660 -1.19014

-.12182

17

Indonesia

.65311

-.61735

-.34625

.00629

-.20403

-.26158

.16040

-.07732

-.02330

.21336

18

Nicaragua

-.24993

-.80148

-.32567

-.86201

-.61158

-.87407

-.44764

-.10725

.56281

-.37887

19

Egypt

-.59928

.38923

-.49547

-.08809

.66582

-.10846

-.26564

.10226

-.30829

-.27592

20

Bolivia

.40923

-.47005

-.08383

-.39011

-.46863

-.87407

-.43816

-.53623

.84242

-.37799

21

India

-1.28481

-.77693 -1.02032

-.33348

-.47167

-.26158

1.27718

1.22958 -1.06647

1.57500

22

Pakistan

-2.01647

-.91196 -1.02032

-.10696

-.60549

-.56783

-.21976

1.71842

-.73308

-.14369

23

Bangladesh

-2.17467 -1.23112 -1.11808 -1.31503

-.67849

.19778

-.32896

2.14740 -1.26004

-.10905

24

South Africa

.10011 -1.18032

.05766

.45143

.57894

-.31729

24

24

24

24

Total N

24

.35869

-.64542 -1.28023 -1.30332 -1.27728

.12579

-.08951

2.28312

.68583

24

24

24

24

24

24

a. Limited to first 100 cases.

In urma standardizarii, variabilele, anterior exprimate in unitati de masura diferite,


sunt perfect comparabile intre ele si se pot realiza topuri ale tarilor in functie de fiecare
variabila individuala. De exemplu intr-un top al tarilor cu cel mai mare grad de
alfabetizare pe primul loc se afla Kazakhstan,urmata de Paraguay si Colombia iar la urma
clasamentului se afla Bangladesh. De asemeni, din punct de vedere al indicelui de saracie,
cele mai bogate tari din cele analizate sunt: Colombia si Paraguay iar cele mai sarace
Bangladesh, Nepal si Madagascar.

Pentru a realiza scopul propus de Analiza in componente principale, se


calculeaza mai intai matricea corelatiilor variabilelor, o matrice patratica de
dimensiune 8x8 in cazul de fata.
Matricea de corelatie, Correlation Matrix, care se obtine prin utilizarea
variabilelor standardizate este:

Correlation Matrixa
Zscore(
Zscore( Zscore(l abonati Zscore(ut Zscore( Zscore(c

ndicele Zscore(P Zscore(nu

alfabeti inii_tele _tel_mo ilizatori_i cercetat onsum_e Zscore:

_saraci opulatie_ mar_angaj

zare)
Correlati Zscore(alfabeti
on

zare)
Zscore(linii_tel
efonie)
Zscore(abonati
_tel_mobil)
Zscore(utilizat
ori_internet)
Zscore(cerceta
tori)
Zscore(consu
m_energie)
Zscore:
PIB($)
Zscore(indicel
e_saracie)
Zscore(Popula
tie_urbana)
Zscore(numar
_angajati)

Zscore(i

fonie)

bil)

nternet)

ori)

nergie)

PIB($)

e)

urbana)

ati)

1.000

.480

.528

.352

.167

.246

.092

-.882

.505

.026

.480

1.000

.369

.637

.658

.525

.429

-.610

.386

.323

.528

.369

1.000

.494

.175

-.142

.038

-.577

.627

-.083

.352

.637

.494

1.000

.284

.180

.159

-.534

.481

.035

.167

.658

.175

.284

1.000

.260

.285

-.255

.300

.214

.246

.525

-.142

.180

.260

1.000

.333

-.219

-.338

.358

.092

.429

.038

.159

.285

.333

1.000

-.107

-.110

.983

-.882

-.610

-.577

-.534

-.255

-.219

-.107

1.000

-.655

-.026

.505

.386

.627

.481

.300

-.338

-.110

-.655

1.000

-.206

.026

.323

-.083

.035

.214

.358

.983

-.026

-.206

1.000

a. Determinant = 1.23E005

Matricea de corelatie ofera informatii cu privire la taria legaturii dintre variabile si,
deasemenea, in functie de valorile coeficientilor ne putem da seama de cate componente
principale este necesar in cadrul analizei.
7

Din analiza matricei de corelatie se observa faptul ca cea mai puternica legatura, 0.983 este
intre variabila produsului intern brut si cea a numarului de angajati, urmata de corelatia
puternicade 0.92 intre produsul intern brut si gradul de alfabetizare. Din analiza matricei de
corelatie deducem faptul ca pentru a caracteriza datele initiale avem nevoie de aproximativ
trei variabile artificiale. Continutul informational total al datelor initiale, care reprezinta de
fapt varianta generalizata calculata ca determinant al matricei de covarianta, este 1.23E-005.
Tabelul Communalities ne arata influenta variabilelor luate in studiu.

Communalities
Initial

Extraction

Zscore(alfabetizare)

1.000

.655

Zscore(linii_telefonie)

1.000

.850

Zscore(abonati_tel_mobil)

1.000

.705

Zscore(utilizatori_internet)

1.000

.530

Zscore(cercetatori)

1.000

.371

Zscore(consum_energie)

1.000

.916

Zscore: PIB($)

1.000

.979

Zscore(indicele_saracie)

1.000

.824

Zscore(Populatie_urbana)

1.000

.842

Zscore(numar_angajati)

1.000

.957

Extraction Method: Principal Component Analysis.

Din acest tabel reiese faptul ca toate variabilele folosite contribuie major la explicarea
variabilelor artificiale obtinute ulterior(cu exceptia variabilei a 5-a reprezentand
numarul cercetatorilor la mia de persoane, fiecare dintre ele, in rest, avand o cantitate
de informatie recuperata de peste 40%, dupa cum reiese din coloana Extraction.
Din analiza acestuia se observa ca variabila 7 are o contributie majora la explicarea
variabilelor artificiale care se obtin ulterior. Cantitatea de informatie recuperata din
acesta variabila este de 0.979, urmata in aproape de ultima variabila care recupereaza
0.957 din informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.
Pentru a stabili numarul de componente principale necesare, se folosesc
informatiile din tabelul Total Variance Explained. Tabelul ne ofera informatii cu
privire la valoriile proprii ale matricei de corelatie, dar si informatii referitoare la
componentele principale si cantitate de informatie retinuta de acestea. O valoare
proprie mai mare decat 1, pentru o componenta, indica faptul ca acea componenta are
o contributie mai mare decat a unei variabile initiale, deci este indicat a fi extrasa.

Total Variance Explained


Initial Eigenvalues

Compo
nent

Total

% of Variance

Extraction Sums of Squared Loadings

Cumulative %

Total

% of Variance

Cumulative %

4.053

40.533

40.533

4.053

40.533

40.533

2.515

25.152

65.685

2.515

25.152

65.685

1.061

10.605

76.290

1.061

10.605

76.290

.970

9.704

85.994

.647

6.475

92.469

.391

3.907

96.376

.168

1.682

98.059

.115

1.153

99.211

.076

.757

99.969

10

.003

.031

100.000

Extraction Method: Principal Component Analysis.

Se observa ca pentru a recupera o cantitate cat mai mare de informatie din


datele initiale avem nevoie de trei componente principale. Acestea corespund valorilor
proprii cele mai mari, valori proprii peste 1, iar aceste valori proprii reprezinta
variantele corespunzatoare celor trei componente retinute. Cele trei valori proprii
retinute, cu valori peste 1, se afla in coloana Initial Eigenvalues si sunt, in ordine
descrescatoare, 4.053, 2.515 si 1.061. Utilizand trei componente principale, cantitatea
de informatie total recuperata este de 76.29 % din informatia initiala, asa cum se
observa in coloana Cumulative %. Dintre cele trei componente principale, prima
acopera 40.5% din varianta finala, a doua componenta 25.1% (25.152), in timp ce a treia
componenta 10.6% (10.605).
Pentru a stabili numarul de componente principale necesare se mai poate
folosi si metoda grafica. In Scree Plot, graficul descresterii, se observa trei diferente
semnificative de nivel intre segmentele ce indica reprezentarea grafica a valorilor
proprii, ceea ce ne indica necesitatea unui numar de 3 componente principale.
Pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe ordonata
se afla valorile efective ale acestora. Folosind criteriul pantei si reprezentarea grafica
a valorilor proprii se poate determina numarul de componente principale necesare
reprezentarii spatiului initial. In urma identificarii numarului de diferente
semnificative dintre valorile proprii reprezentare, deasupra ultimei diferente
semnificative in reprezentarea grafica se duce o paralela la abscisa, iar numarul de
valori proprii ramase deasupra paralelei da numarul de componente principale.

Pentru a caracteriza componentele astfel obtinute se determina coeficientul de


corelatie intre variabilele artificiale obtinute si variabilele originale luate in calcul,
datele fiind disponibile in Component Matrix. Cu ajutorul tabelului se poate da o
interpretare variabilelor in spatiul transformat, aceasta continand coeficientii
corelatiilor dintre componentele principale si valorile initiale.
Component Matrixa
Component
1

Zscore(alfabetizare)

.761

-.211

-.174

Zscore(linii_telefonie)

.856

.288

-.184

Zscore(abonati_tel_mobil)

.665

-.414

.303

Zscore(utilizatori_internet)

.721

-.100

-.018

Zscore(cercetatori)

.546

.262

-.062

Zscore(consum_energie)

.323

.609

-.664

Zscore: PIB($)

.360

.811

.437

-.867

.240

.119

Zscore(Populatie_urbana)

.659

-.563

.302

Zscore(numar_angajati)

.242

.858

.404

Zscore(indicele_saracie)

Extraction Method: Principal Component Analysis.


a. 3 components extracted.

10

Se observa astfel ca prima componenta principala se poate analiza in termenii


numarului liniilor de telefonie fixa existente la mia de locuitori,a numarului de
telefoane mobile la mia de locuitori precum si in functie de gradul de alfabetizare si
numarul utilizatorilor de internet, toate avand un coeficient de corelatie de peste
0.700.
Prima componenta principala este puternic negativ influientata de indicele de saracie,
deoarece, cu cat tara are un indice de saracie mai mare cu atat este mai putin inclinata
spre folosirea de tehnilogie. Astfel, aceasta prima componenta poate fi considerata un
indicator accesului populaiei la ntreaga gam de servicii oferite de dezvoltarea
tehnologiilor informa ionale. In acelasi timp, aceasta prima componenta poate fi
folosita pentru a caracteriza tarile in functie de gradul de educatie utilizare a
tehnologiei fiind fiind puternic influientata de gradul de alfabetizare. Intr-un top al
tarilor ordonate dupa prima componenta principala,Turcia, China si Iran ocupa
primele pozitii, acestea putand fi caracterizate drept cele mai dezvoltate tari din punct
de vedere tehnologic dintre cele studiate, incadrate in tarile cu nivel mediu de
dezvoltare umana, in timp ce ultimele locuri sunt ocupate Pakistan, Madagascar,
Bangladesh, Nepal .
Topul tarilor in functie de prima componenta principala, componenta ce indica
accesului populaiei la ntreaga gam de servicii oferite de dezvoltarea tehnologiilor
informa ionale:
Tara
Turkey
China
Iran
Colombia
Tunisia
Kazakhstan
Kazakhstan
Thailand
Peru
Viet Nam
Ecuador
South Africa
South Africa
El Salvador
Paraguay
Philippines
Bolivia
Indonesia
Egypt
Nicaragua
Sri Lanka
India
Pakistan
Madagascar
Bangladesh
Nepal

FACT_1
1.692055
1.649365
1.140779
0.893408
0.689404
0.526592
0.526592
0.497049
0.488084
0.441834
0.435171
0.404341
0.404341
0.196265
0.089999
0.073668
-0.04832
-0.07209
-0.15825
-0.52321
-0.62418
-0.94564
-1.39979
-1.65462
-1.86178
-1.93013

Componenta a doua este puternica influentata de nivelul PIB-ului si a


numarului de angajati. Reiese astfel, in urma unei ordonari crescatoare, ca China,

11

India si Viet Nam sunt tarile cu nivelul cel mai ridicat al produsului intern brut si cu
numarul cel mai mare de angajati.
Topul tarilor in functie de a doua componenta principala, ordonata crescator,
deoarece indica, intr-un fel bogatia tarilor respective:
Tara
China
India
Viet Nam
Bangladesh
Nepal
Iran
Pakistan
Sri Lanka
Egypt
Thailand
Indonesia
Tara
Kazakhstan
China
Madagascar
South
TurkeyAfrica
India
Tunisia
Philippines
Nicaragua
Nicaragua
El
Salvador
Pakistan
Paraguay
Bolivia
Philippines
Peru
Ecuador
Madagascar
Bolivia
Colombia
South
Africa
Tunisia
Colombia
El
Salvador
Peru
Indonesia
Ecuador
Turkey
Bangladesh
Paraguay
Egypt
Nepal
Thailand
Kazakhstan
Iran
Sri Lanka
Viet Nam

FACT_2
3.597186
1.392008
1.013131
0.598077
0.587538
0.408052
0.244297
0.2331
0.121975
-0.0258
-0.03121
FACT_3
-0.05825
1.642949
-0.07117
1.486478
-0.43819
1.213454
-0.45884
0.526857
-0.66802
0.50377
-0.67436
0.43059
-0.69184
0.426051
-0.78346
0.414433
-0.82296
0.401167
-0.82909
0.370185
-0.87484
0.320675
-0.88103
0.232681
-0.88629
0.208636
0.142021
0.103563
-0.10371
-0.23572
-0.37094
-0.42547
-0.78275
-0.96234
-1.05085
-1.27032
-3.22141

A treia componenta principala indica pe bogatia


monetara a tarilor considerate, fiind influientata atat de PIB
si numarul de angajati cat si de economisirea de energie
electrica, nivelul dezvoltarii populatiei in mediul urban,
numarul de abonati la telefonia mobila.
Topul tarilor in functie de cea de-a treia componenta
principala, componenta ce indica nivelul dezvoltarii
economice a tarilor considerate:

Tabelul Rotated Component Matrix foloseste tehnica rotirii axelor, tehnica Varimax,
si are drept scop obtinerea unor coeficienti de corelatie cat mai mici pe una din
componentele principale. In cazul nostru interpretarea se poate face cu usurinta si pe
prima matrice de corelatie dintre variabilele originale si componentele principale. Se
observa ca prin tehnica Varimax obtinem aceeasi interpretare. Tehnica Varimax
realizeaza o roatie a axelor initiale pentru a facilita interpretarea factorilor astfel
obtinuti.

12

Rotated Component Matrixa


Component
1

Zscore(alfabetizare)

.753

-.053

.291

Zscore(linii_telefonie)

.634

.358

.566

Zscore(abonati_tel_mobil)

.808

.030

-.227

Zscore(utilizatori_internet)

.691

.111

.203

Zscore(cercetatori)

.380

.320

.353

-.039

.193

.937

.049

.978

.143

-.867

.015

-.267

.863

-.089

-.298

-.081

.963

.154

Zscore(consum_energie)
Zscore: PIB($)
Zscore(indicele_saracie)
Zscore(Populatie_urbana)
Zscore(numar_angajati)

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 5 iterations.

Tabelul Component Transformation Matrix indica corelatia componentelor


inainte si dupa rotatie.
Component Transformation Matrix
Component

.986

.163

.030

-.162

.914

.371

.033

-.371

.928

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.

Component Plot in Rotated Space ofera o reprezentare grafica


tridimensionala a celor 3 componente principale. Fiecare variabila este reprezentata in
functie de corelatia cu fiecare componenta. Este un mod grafic de a prezenta aceeasi
informatia ca in tabelul Rotated Component Matrix.

13

Componentele principale nu sunt altceva decat combinatii liniare ale


variabilelor originale cu versorii noului spatiu redus . Acesti versori sunt dati de
vectorii proprii corespunzatori valorilor proprii mai mari decat 1. Tabelul Component
Score Coefficient Matrix reprezinta matricea versorilor, continand vectorii proprii
corespunzatori valorilor proprii retinute. Datele sunt prezente in tabelul de mai jos:

14

Component Score Coefficient Matrix


Component
1

Zscore(alfabetizare)

.184

-.106

.156

Zscore(linii_telefonie)

.123

.050

.265

Zscore(abonati_tel_mobil)

.251

.077

-.258

Zscore(utilizatori_internet)

.175

.008

.053

Zscore(cercetatori)

.072

.086

.141

-.105

-.140

.653

.000

.508

-.156

-.218

.079

-.117

.274

.030

-.286

-.038

.496

-.131

Zscore(consum_energie)
Zscore: PIB($)
Zscore(indicele_saracie)
Zscore(Populatie_urbana)
Zscore(numar_angajati)

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.

Matricea Component Score Covariance Matrix demonstreaza faptul ca


covarianta dintre componentele principale este 0, componentele fiind interpretate in
functie de valori diferite.

Component Score Covariance Matrix


Component

1.000

.000

.000

.000

1.000

.000

.000

.000

1.000

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.

Noile variabile obtinute prin aplicarea acestei


multidimensionala sunt prezentate in tabelul de mai jos:

15

tehnici

de

analiza

Case Summaries

Case Number

Tara

1 Kazakhstan

REGR factor

REGR factor

REGR factor

score 1 for

score 2 for

score 3 for

analysis 2

analysis 2

analysis 2

.38024

-.43993

.93203

2 Colombia

1.21367

-.23457

-.42825

3 Thailand

.36263

-.32205

.79070

4 China

.22780

4.18453

.89288

5 Turkey

1.72201

.18175

.25972

6 Peru

.85477

-.32549

-.59911

7 Ecuador

.74715

-.44330

-.36339

8 Philippines

.45200

-.29627

-.77765

9 Tunisia

.85068

.01123

-.25467

10

10 Iran

.73434

.04377

1.42513

11

11 Paraguay

.33445

-.64768

-.10468

12

12 Sri Lanka

-.81775

-.70189

.94673

13

13 El Salvador

.48172

-.34221

-.44527

14

14 Nepal

-2.03834

-.31111

-.00319

15

15 Madagascar

-1.41742

-.28633

-.90151

16

16 Viet Nam

-.41491

-.89282

3.26035

17

17 Indonesia

-.02649

.07272

-.20907

18

18 Nicaragua

-.13780

-.38341

-.89877

19

19 Egypt

-.23907

-.15624

.30976

20

20 Bolivia

.34775

-.42201

-.75645

21

21 India

-1.27238

1.50697

-.64381

22

22 Pakistan

-1.31206

.04671

-.69341

23

23 Bangladesh

-1.94078

-.10370

-.23936

24

24 South Africa

.90778

.26133

-1.49869

24

24

24

Total

24

16

Analiza claselor ierarhice


Metodele de clasificare sau de analiza cluster au ca scop gruparea
indivizilor, caracterizati de diverse variabile, intr-un numar restrans de clase omogene.
Analiza claselor ierarhice (Hierarchical Cluster Analysis) este o metoda de
grupare ierarhica in care fiecare clasa este in totalitate continuta in alta clasa.
Clasele grupeaza indivizi cat mai asemanatori intre ei prin valorile variabilelor lor, in
timp ce clasele constituite sunt cat mai diferite.
In urma realizarii analizei ierarhice se obtin mai multe tabele.
Tabelul Case Processing Summary arata cate variabile au fost luate in
considerare in analiza, in cazul de fata 24 dintre ele fiind valide, adica un procent de
100%.
Case Processing Summary
Cases
Included
N
Tara
REGR factor score 1 for
analysis 2
REGR factor score 2 for
analysis 2
REGR factor score 3 for
analysis 2

Excluded

Percent

Total

Percent

Percent

24

100.0%

.0%

24

100.0%

24

100.0%

.0%

24

100.0%

24

100.0%

.0%

24

100.0%

24

100.0%

.0%

24

100.0%

Tabelul Proximity Matrix exprima distantele euclidiene dintre variabile, in


cazul de fata dintre tari, si se observa ca acestea pot fi folosite ca masura de
comparare a tarilor. Cu cat dinstanta dintre tari este mai mare, cu atat punctele sunt
mai putin asemanatoare. Astfel, distantele euclidiene masoara disimilaritatea dintre
puncte. Valoarea dintre elementele de pe diagonala este 0, in timp ce in restul
tabelului o valoare mica indica o similaritate ridicata iar o valoare ridica o
disimilaritate puternica. In cazul de fata tabelul rezultat este o matrice patratica de
dimensiune 24x24.
In tabelul Agglomeration Schedule se afla gruparea claselor in functie de
distantele din matricea de proximitate (Coefficients). Fiecare rand reprezinta o etapa
din procesul de grupare al variantelor, numerotate de la 1 la 23 (n-1, unde n este
numarul de variante). Ultima etapa, n-1, cuprinde toate variantele intr-un singur
cluster. Cele doua coloane continute de campul Stage Cluster First Appears indica
etapa la care a mai fost intalnit un cluster deja format, iar Next Stage indica etapa
viitoare la care va mai fi intalnita combinatia de clustere formata.

17

Agglomeration Schedule
Cluster Combined
Stage

Cluster 1

Stage Cluster First Appears

Cluster 2

Coefficients

Cluster 1

Cluster 2

Next Stage

14

23

.439

18

20

1.108

11

1.161

18

1.247

1.706

1.782

13

1.938

17

2.071

11

14

22

2.661

10

10

14

21

3.308

13

11

19

3.688

12

12

4.188

11

14

13

14

15

4.328

10

19

14

4.514

12

15

15

12

5.408

14

16

16

24

5.983

15

17

17

6.341

16

18

18

7.485

17

19

19

14

7.709

18

13

20

20

8.110

19

21

21

10

10.844

20

22

22

16

12.079

21

23

23

27.128

22

Tabelul Vertical Icicle indica pentru fiecare tara in parte din cate clustere face
parte, intreruperea de X din coloane indicand si locul in care se termina o clasa. Pe pe
prima coloana verticala sunt prezentate numarul de clustere, iar urmatoarele coloane
reprezinta variantele, in cazul de fata tarile. Citind tabelul de jos in sus, se poate
observa cum au fost grupate tarile. Prima solutie din Agglomeration Schedule va fi
prezentata pe ultimul rand, n-1, cea in care doar primele doua tari erau grupate, in
timp ce primul rand reprezinta clusterul ce contine toate variantele. Pe masura ce se
succed randurile, numarul de clustere creste.

18

Din dendrograma se observa cel mai usor formarea claselor. Aceasta ne indica
modul de grupare al tarilor in functie de asemanarile dintre ele, dar si nivelul lor de
agregare:
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E
Label

Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

Nepal
Bangladesh
Pakistan
India
Madagascar
Nicaragua
Bolivia
Philippines
Paraguay
Ecuador
Colombia
El Salvador
Indonesia
Egypt
Peru
Thailand
Sri Lanka
South Africa
Kazakhstan
Tunisia
Turkey
Iran
Viet Nam
China

14
23
22
21
15
18
20
8
11
7
2
13
17
19
6
3
12
24
1
9
5
10
16
4

In cazul analizei ierarhice prin metoda celor mai departati vecini (Complete
Linkage) se obtin informatiile urmatoare. Rezulta tabelul Agglomeration Schedule:

19

Agglomeration Schedule
Cluster Combined
Stage

Cluster 1

Stage Cluster First Appears

Cluster 2

Coefficients

Cluster 1

Cluster 2

Next Stage

14

23

.439

18

20

1.108

11

1.161

1.745

10

13

2.348

17

18

2.859

10

14

22

3.124

14

15

4.976

11

5.097

15

10

17

5.136

15

11

14

21

6.068

23

12

19

6.341

13

13

7.080

12

16

14

24

7.485

17

15

9.236

10

17

16

12

10.242

13

18

17

14.788

15

14

20

18

16

18.134

16

21

19

10

20.288

20

20

28.684

17

19

21

21

36.874

18

20

22

22

44.909

21

23

23

14

60.380

22

11

Dendrogram using Complete Linkage


Rescaled Distance Cluster Combine
C A S E
Label
Nepal
Bangladesh
Pakistan
Madagascar
India

Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

14
23
22
15
21

20

Kazakhstan
Egypt
Thailand
Sri Lanka
Viet Nam
Tunisia
South Africa
Colombia
El Salvador
Peru
Philippines
Paraguay
Ecuador
Nicaragua
Bolivia
Indonesia
Turkey
Iran
China

1
19
3
12
16
9
24
2
13
6
8
11
7
18
20
17
5
10
4

In urma folosirii celei de-a treia metode pentru clasificarea ierarhica, metoda
centroidelor (Centroid Method), se obtine urmatorul tabel Agglomeration Schedule:

21

Agglomeration Schedule
Cluster Combined
Stage

Cluster 1

Stage Cluster First Appears

Cluster 2

Coefficients

Cluster 1

Cluster 2

Next Stage

14

23

.439

18

20

1.108

11

1.161

1.435

18

1.952

13

2.036

17

2.001

14

22

2.783

10

3.823

12

10

14

15

3.902

11

11

14

21

3.985

10

20

12

5.119

13

13

19

5.279

12

14

14

5.001

13

15

15

5.969

14

16

16

24

6.925

15

17

17

8.577

16

18

18

12

9.058

17

19

19

15.135

18

20

20

14

16.907

19

11

21

21

10

19.344

20

22

22

16

19.173

21

23

23

31.400

22

22

Dendograma obtinuta este:


Dendrogram using Centroid Method
Rescaled Distance Cluster Combine
C A S E
Label

Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

Nepal
Bangladesh
Pakistan
Madagascar
India
Nicaragua
Bolivia
Philippines
Paraguay
Ecuador
El Salvador
Indonesia
Colombia
Peru
Egypt
Thailand
Kazakhstan
South Africa
Tunisia
Sri Lanka
Turkey
Iran
Viet Nam
China

14
23
22
15
21
18
20
8
11
7
13
17
2
6
19
3
1
24
9
12
5
10
16
4

23