Sunteți pe pagina 1din 23

Academia de Studii Economice Bucuresti Facultatea de Cibernetica, Statistica si Informatica Economica

Proiect Analiza Datelor Analiza in compomemte principale si analiza claselor ierarhice

Bucuresti – 2009 Proiectul isi propune sa analizeze progresul tehnologic in 24 tari cu un nivel mediu de dezvoltare umana. Datele prelucrate sunt din 2005 iar sursa este Human Development Raport 2007/2008. Scopul acestei analize este de a estima tara cea mai avantajoasa din punct de vedere a dezboltarii tehnologice.

Analiza in componente principale

2

Case Summaries a

       

abonati_

utilizator

 

consum

   

Populati

 

alfabe

linii_tele

tel_mobi

i_interne

cercet

_energi

PIB($

indicele

e_urban

numar_a

Tara

tizare

fonie

l

t

atori

e

)

_saracie

a

ngajati

1

Kazakhstan

99.5

167

 
  • 327 629

27

 

1.5

57.1

18.2

57.3

7182

2

Colombia

92.8

168

  • 479 .7

104

109

122.3

7.9

72.7

18217

3

Thailand

92.6

110

  • 430 287

110

1.4

176.6

10.0

32.3

36302

4

2234.

China

90.9

269

  • 302 708

85

2.1

11.7

40.4

737400

3

5

Turkey

87.4

263

  • 605 341

222

1.1

362.5

9.2

67.3

22047

6

7

Peru

Ecuador

87.9

91.0

80

129

  • 200 .4

164

  • 472 47

226

  • 50 .8

11.6

8.7

72.6

  • 36.5 3892

62.8

  • 79.4 3400

8

Philippines

92.6

41

  • 419 54

  • 48 .7

  • 99.0 15.3

62.7

32875

9

Tunisia

74.3

125

  • 566 .9

95

1013

  • 28.7 17.9

65.3

3315

  • 10 Iran

82.4

278

  • 106 12.9

103

1279

1.3

189.8

66.9

19760

  • 11 Paraguay

93.5

54

  • 320 34

79

1.0

7.3

8.8

58.5

2247

  • 12 Sri Lanka

90.7

63

  • 171 17.8

14

128

1.3

23.5

15.1

6943

  • 13 El Salvador

80.6

141

  • 350 15.1

93

  • 47 .6

17.0

59.8

2526

  • 14 Nepal

48.6

17

9

4

  • 59 7.4

1.0

38.1

15.8

7459

  • 15 Madagascar

70.7

4

27

5

  • 15 .1

5.0

35.8

26.8

8099

  • 16 Viet Nam

90.3

191

115

129

3.2

52.4

15.2

26.4

  • 115 42316

  • 17 Indonesia

90.4

58

213

73

  • 207 .8

287.2

18.2

48.1

94948

  • 18 Nicaragua

76.7

43

217

27

73

.4

4.9

17.9

59.0

1953

  • 19 Egypt

71.4

140

184

68

  • 493 .9

89.4

20.0

42.8

18119

  • 20 Bolivia

86.7

70

264

52

  • 120 .4

9.3

13.6

64.2

2091

  • 21 India

61.0

45

  • 82 805.7

55

  • 119 .8

31.3

28.7

308760

  • 22 Pakistan

49.9

34

  • 82 .6

67

75

110.7

36.2

34.9

38882

  • 23 Bangladesh

47.5

8

  • 63 51

3

1.1

60.0

40.5

25.1

44322

  • 24 South Africa

82.4

101

724

109

307

.2

239.5

23.5

59.3

11622

Total

N

24

24

24

24

24

24

24

24

24

24

24

In vederea clasificarii tarilor se urmareste reducerea dimensionalitatii, adica aflarea unor indicatori relevanti pentru analiza, indicatori sintetici redusi din cei initiali, pe baza carora datele pot fi interpretare mai usor. Pentru aceasta se foloseste tehnica analizei componentelor principale pe baza matricei de corelatie. Componentele noi vor exprima atribute noi ale tarilor si sunt construite in asa fel incat

3

sa fie necorelate intre ele, fiecare dintre aceste noi variabile fiind o combinatie liniara de variabile originale.

Variabilele luate in considerare sunt:

alfabetizare- Gradul de alfabetizare a adultilor de peste 15 ani in anul 2005;

linii_telefonice - Numatul de linii de telefonice la 1000 de persoane in 2005;

abonati_tel_mobil - numarul de telefoane mobile la 1000 de persoane in 2005;

utilizatori_internet - numarul utilizatorilor de internet la 1000 de persoane in 2005;

cercetatori – numar de cercetatori la milionul de locuitori in 2005;

consum_energie- consumul de energie pe cap de locuitor(%) din totalul de energie

consumata in 2005; PIB – miliarde $ (us) 2005;

indicele saracie- indicele de saracie umana, valoare procentuala in 2005( cu cat

valoarea sa este mai mare cu atat poporul e mai sarac); populatie_urbana- % din totalul populatiei 2005;

numar_angajati- numarul de angajati (mii) in anul 2005.

In prima etapa calculam analiza descriptiva a variabilelor si calculam indicatorii de centrare si imprastire, cum este media, valoarea minima si valoarea maxima, abaterea standard.

Descriptive Statistics

 

N

Minimum

Maximum

Mean

Std. Deviation

Variance

alfabetizare

24

47.5

99.5

80.492

15.1709

230.156

linii_telefonie

24

  • 4 278

108.29

81.464

6636.303

abonati_tel_mobil

24

  • 9 724

280.29

194.343

37769.259

utilizatori_internet

24

  • 3 222

72.67

52.977

2806.580

cercetatori

24

15

1279

274.08

328.794

108105.819

consum_energie

24

.1

3.2

.971

.6531

.427

PIB($)

24

4.9

2234.3

212.729

464.2796

215555.590

indicele_saracie

24

7.9

40.5

  • 18.975 10.0238

100.476

Populatie_urbana

24

15.1

72.7

  • 48.533 18.5972

345.857

numar_angajati

24

1953

737400

61444.88

157025.456

2.466E10

Valid N (listwise)

24

4

Tabelul Descriptive Statistics contine informatii despre fiecare variabila analizata independent. Din tabel aflam ca pentru variabila gradului de alfabetzare la adulti (peste 15 ani) valoarea maxima este 99.5 iar cea medie este de 80.49 de unde putem concluziona ca desi analizam tari medii din punct de vedere al dezvoltarii umane, gradul de alfabetizare este in medie destul de ridicat. Desi reteaua telefonica nu este foarte bine dezvoltata, existant maxim 278 linii telefonice la 1000 de persoane, numarul maxim al utilizatorilor de telefon mobil este aproximativ triplu 724 la acelasi numar de persoane. Gradul de raspandire a telefoniei mobile in aceste tari este mult mai ridicat decat cel al utilizarii internetului, care are valoarea medie de 72.67 la mia de locuitori. Valoarea medie a consumului de energie pe cap de locuitar a tarilor analizate este 3.2, aceasta variabila avand varianta cea mai mica, 0.427, ceea ce ne arata ca este si cea mai omogena variabila, dar si cea mai stabila, avand abaterea standard cea mai mica, 0.6531. Populatia in aceste tari este predominant rurala, indicele populatiei urbane avand media 48.533.

Tot in urma analizei descriptive se obtin si standardizarile variabilelor initiale. Pentru analiza in componente principale se vor folosi variabilele standardizate, evitand in acest fel discrepantele dintre valori ce ar putea fi datorate unitatilor de masura diferite. Informatiile astfel exprimate in forma standardizata, in unitati standard de abatere medie patratitica, se afla in tabelul de mai jos:

5

 

Case Summaries a

 
   

Zscore(al

Zscore(li

Zscore(a

Zscore(ut

Zscore(c

Zscore(c

 

Zscore(in

Zscore(P

Zscore(nu

fabetizar

nii_telefo

bonati_te

ilizatori_i

ercetatori

onsum_e

Zscore:

dicele_sa

opulatie_

mar_anga

Tara

e)

nie)

l_mobil)

nternet)

)

nergie)

PIB($)

racie)

urbana)

jati)

 
  • 1 .72067

Kazakhstan

1.25295

 

.24034

-.86201

1.07945

.81027

-.33521

-.07732

.47140

-.34557

Colombia

  • 2 .73295

.81131

1.02246

.59145

-.50209

-.41471

-.19477

-1.10487

1.29948

-.27529

  • 3 .02097

Thailand

.79813

.77033

.70471

.03928

.65715

-.07782

-.89537

-.87289

-.16012

China

  • 4 .68607

1.97276

.11170

.23280

1.31972

1.72901

4.35421

-.72578

-.43734

4.30475

  • 5 .45537

Turkey

1.89911

1.67080

2.81882

.20352

.19778

.32259

-.97518

1.00911

-.25090

  • 6 -.34729

Peru

.48832

-.41314

1.72401

-.14624

-.87407

-.28717

-.73575

1.29410

-.36965

  • 7 .25420

Ecuador

.69266

.98644

-.48449

-.68153

-.26158

-.37958

-1.02506

.76714

-.36652

  • 8 -.82603

Philippines

.79813

.71373

-.35235

-.68761

-.41471

-.24496

-.36663

.76176

-.18194

  • 9 .20510

Tunisia

-.40813

1.47012

.42157

2.24735

-.10846

-.39638

-.10725

.90157

-.37019

  • 10 .12579

Iran

2.08324

-.89682

.57257

3.05637

.50403

-.04939

-.60606

.98760

-.26547

  • 11 -.66645

Paraguay

.85745

.20432

-.72987

-.59333

.04466

-.44247

-1.01509

.53592

-.37700

Sri Lanka

  • 12 -.55597

.67289

-.56236

-1.10740

-.44430

.50403

-.40758

-.11722

-1.79776

-.34709

El Salvador

  • 13 .40151

.00714

.35869

.38381

-.69065

-.56783

-.42158

-.38658

.60582

-.37522

  • 14 -1.39594

Nepal

-2.10216

-1.12064

-1.29616

-.65416

.04466

-.44225

1.90797

-1.76012

-.34380

  • 15 -1.30332

Madagascar

-.64542

-1.28023

-1.27728

-.78798

-1.33344

-.44742

1.67851

-1.16863

-.33973

  • 16 .64652

Viet Nam

1.01528

-.85051

1.06335

-.48384

3.41335

-.34533

-.37660

-1.19014

-.12182

  • 17 -.61735

Indonesia

.65311

-.34625

.00629

-.20403

-.26158

.16040

-.07732

-.02330

.21336

  • 18 -.80148

Nicaragua

-.24993

-.32567

-.86201

-.61158

-.87407

-.44764

-.10725

.56281

-.37887

  • 19 .38923

Egypt

-.59928

-.49547

-.08809

.66582

-.10846

-.26564

.10226

-.30829

-.27592

  • 20 -.47005

Bolivia

.40923

-.08383

-.39011

-.46863

-.87407

-.43816

-.53623

.84242

-.37799

  • 21 -1.02032

India

-1.28481

-.77693

-.33348

-.47167

-.26158

1.27718

1.22958

-1.06647

1.57500

  • 22 -1.02032

Pakistan

-2.01647

-.91196

-.10696

-.60549

-.56783

-.21976

1.71842

-.73308

-.14369

  • 23 -1.11808

Bangladesh

-2.17467

-1.23112

-1.31503

-.67849

.19778

-.32896

2.14740

-1.26004

-.10905

South Africa

  • 24 -.08951

.12579

2.28312

.68583

.10011

-1.18032

.05766

.45143

.57894

-.31729

Total N

24

24

24

24

24

24

24

24

24

24

24

a. Limited to first 100 cases.

In urma standardizarii, variabilele, anterior exprimate in unitati de masura diferite, sunt perfect comparabile intre ele si se pot realiza topuri ale tarilor in functie de fiecare variabila individuala. De exemplu intr-un top al tarilor cu cel mai mare grad de alfabetizare pe primul loc se afla Kazakhstan,urmata de Paraguay si Colombia iar la urma clasamentului se afla Bangladesh. De asemeni, din punct de vedere al indicelui de saracie, cele mai bogate tari din cele analizate sunt: Colombia si Paraguay iar cele mai sarace Bangladesh, Nepal si Madagascar.

6

Pentru a realiza scopul propus de Analiza in componente principale, se calculeaza mai intai matricea corelatiilor variabilelor, o matrice patratica de dimensiune 8x8 in cazul de fata. Matricea de corelatie, Correlation Matrix, care se obtine prin utilizarea variabilelor standardizate este:

 

Correlation Matrix a

 
     

Zscore(

       

Zscore(i

   

Zscore(

Zscore(l

abonati

Zscore(ut

Zscore(

Zscore(c

ndicele

Zscore(P

Zscore(nu

alfabeti

inii_tele

_tel_mo

ilizatori_i

cercetat

onsum_e

Zscore:

_saraci

opulatie_

mar_angaj

zare)

fonie)

bil)

nternet)

ori)

nergie)

PIB($)

e)

urbana)

ati)

Correlati

Zscore(alfabeti

1.000

.480

.528

.352

.167

.246

.092

-.882

.505

.026

on

zare)

Zscore(linii_tel

.480

1.000

.369

.637

.658

.525

.429

-.610

.386

.323

efonie)

Zscore(abonati

.528

.369

1.000

.494

.175

-.142

.038

-.577

.627

-.083

_tel_mobil)

Zscore(utilizat

.352

.637

.494

1.000

.284

.180

.159

-.534

.481

.035

ori_internet)

Zscore(cerceta

.167

.658

.175

.284

1.000

.260

.285

-.255

.300

.214

tori)

Zscore(consu

.246

.525

-.142

.180

.260

1.000

.333

-.219

-.338

.358

m_energie)

Zscore:

 

.092

.429

.038

.159

.285

.333

1.000

-.107

-.110

.983

 

PIB($)

Zscore(indicel

-.882

-.610

-.577

-.534

-.255

-.219

-.107

1.000

-.655

-.026

e_saracie)

Zscore(Popula

.505

.386

.627

.481

.300

-.338

-.110

-.655

1.000

-.206

tie_urbana)

Zscore(numar

.026

.323

-.083

.035

.214

.358

.983

-.026

-.206

1.000

_angajati)

a. Determinant = 1.23E-

005

Matricea de corelatie ofera informatii cu privire la ‘taria’ legaturii dintre variabile si, deasemenea, in functie de valorile coeficientilor ne putem da seama de cate componente principale este necesar in cadrul analizei.

7

Din analiza matricei de corelatie se observa faptul ca cea mai puternica legatura, 0.983 este intre variabila produsului intern brut si cea a numarului de angajati, urmata de corelatia puternicade 0.92 intre produsul intern brut si gradul de alfabetizare. Din analiza matricei de corelatie deducem faptul ca pentru a caracteriza datele initiale avem nevoie de aproximativ trei variabile artificiale. Continutul informational total al datelor initiale, care reprezinta de fapt varianta generalizata calculata ca determinant al matricei de covarianta, este 1.23E-005.

Tabelul Communalities ne arata influenta variabilelor luate in studiu.

Communalities

 

Initial

Extraction

Zscore(alfabetizare)

 
  • 1.000 .655

Zscore(linii_telefonie)

  • 1.000 .850

Zscore(abonati_tel_mobil)

  • 1.000 .705

Zscore(utilizatori_internet)

  • 1.000 .530

Zscore(cercetatori)

  • 1.000 .371

Zscore(consum_energie)

  • 1.000 .916

Zscore: PIB($)

  • 1.000 .979

Zscore(indicele_saracie)

  • 1.000 .824

Zscore(Populatie_urbana)

  • 1.000 .842

Zscore(numar_angajati)

  • 1.000 .957

Extraction Method: Principal Component Analysis.

Din acest tabel reiese faptul ca toate variabilele folosite contribuie major la explicarea

variabilelor artificiale obtinute ulterior(cu exceptia variabilei a 5-a reprezentand numarul cercetatorilor la mia de persoane, fiecare dintre ele, in rest, avand o cantitate de informatie recuperata de peste 40%, dupa cum reiese din coloana Extraction. Din analiza acestuia se observa ca variabila 7 are o contributie majora la explicarea variabilelor artificiale care se obtin ulterior. Cantitatea de informatie recuperata din acesta variabila este de 0.979, urmata in aproape de ultima variabila care recupereaza

  • 0.957 din informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.

Pentru a stabili numarul de componente principale necesare, se folosesc informatiile din tabelul Total Variance Explained. Tabelul ne ofera informatii cu privire la valoriile proprii ale matricei de corelatie, dar si informatii referitoare la componentele principale si cantitate de informatie retinuta de acestea. O valoare proprie mai mare decat 1, pentru o componenta, indica faptul ca acea componenta are o contributie mai mare decat a unei variabile initiale, deci este indicat a fi extrasa.

8

Total Variance Explained

Compo

 

Initial Eigenvalues

Extraction Sums of Squared Loadings

nent

Total

% of Variance

Cumulative %

Total

% of Variance

Cumulative %

1

 
  • 4.053 40.533

40.533

4.053

40.533

40.533

2

  • 2.515 25.152

65.685

2.515

25.152

65.685

3

  • 1.061 10.605

76.290

1.061

10.605

76.290

4

.970

9.704

85.994

5

.647

6.475

92.469

6

.391

3.907

96.376

7

.168

1.682

98.059

8

.115

1.153

99.211

9

.076

.757

99.969

10

.003

.031

100.000

Extraction Method: Principal Component Analysis.

Se observa ca pentru a recupera o cantitate cat mai mare de informatie din datele initiale avem nevoie de trei componente principale. Acestea corespund valorilor proprii cele mai mari, valori proprii peste 1, iar aceste valori proprii reprezinta variantele corespunzatoare celor trei componente retinute. Cele trei valori proprii retinute, cu valori peste 1, se afla in coloana Initial Eigenvalues si sunt, in ordine descrescatoare, 4.053, 2.515 si 1.061. Utilizand trei componente principale, cantitatea de informatie total recuperata este de 76.29 % din informatia initiala, asa cum se observa in coloana Cumulative %. Dintre cele trei componente principale, prima acopera 40.5% din varianta finala, a doua componenta 25.1% (25.152), in timp ce a treia componenta 10.6% (10.605). Pentru a stabili numarul de componente principale necesare se mai poate folosi si metoda grafica. In Scree Plot, graficul descresterii, se observa trei diferente semnificative de nivel intre segmentele ce indica reprezentarea grafica a valorilor proprii, ceea ce ne indica necesitatea unui numar de 3 componente principale. Pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe ordonata se afla valorile efective ale acestora. Folosind criteriul pantei si reprezentarea grafica a valorilor proprii se poate determina numarul de componente principale necesare reprezentarii spatiului initial. In urma identificarii numarului de diferente semnificative dintre valorile proprii reprezentare, deasupra ultimei diferente semnificative in reprezentarea grafica se duce o paralela la abscisa, iar numarul de valori proprii ramase deasupra paralelei da numarul de componente principale.

9

Pentru a caracteriza componentele astfel obtinute se determina coeficientul de corelatie intre variabilele artificiale obtinute si

Pentru a caracteriza componentele astfel obtinute se determina coeficientul de corelatie intre variabilele artificiale obtinute si variabilele originale luate in calcul, datele fiind disponibile in Component Matrix. Cu ajutorul tabelului se poate da o interpretare variabilelor in spatiul transformat, aceasta continand coeficientii corelatiilor dintre componentele principale si valorile initiale.

Component Matrix a

   

Component

1

2

3

Zscore(alfabetizare)

.761

-.211

-.174

Zscore(linii_telefonie)

.856

.288

-.184

Zscore(abonati_tel_mobil)

.665

-.414

.303

Zscore(utilizatori_internet)

.721

-.100

-.018

Zscore(cercetatori)

.546

.262

-.062

Zscore(consum_energie)

.323

.609

-.664

Zscore: PIB($)

.360

.811

.437

Zscore(indicele_saracie)

-.867

.240

.119

Zscore(Populatie_urbana)

.659

-.563

.302

Zscore(numar_angajati)

.242

.858

.404

Extraction Method: Principal Component Analysis. a. 3 components extracted.

10

Se observa astfel ca prima componenta principala se poate analiza in termenii numarului liniilor de telefonie fixa existente la mia de locuitori,a numarului de telefoane mobile la mia de locuitori precum si in functie de gradul de alfabetizare si numarul utilizatorilor de internet, toate avand un coeficient de corelatie de peste

0.700.

Prima componenta principala este puternic negativ influientata de indicele de saracie, deoarece, cu cat tara are un indice de saracie mai mare cu atat este mai putin inclinata spre folosirea de tehnilogie. Astfel, aceasta prima componenta poate fi considerata un indicator accesului populaţiei la întreaga gamă de servicii oferite de dezvoltarea

tehnologiilor informa ţionale. In acelasi timp, aceasta prima componenta poate fi folosita pentru a caracteriza tarile in functie de gradul de educatie utilizare a tehnologiei fiind fiind puternic influientata de gradul de alfabetizare. Intr-un top al tarilor ordonate dupa prima componenta principala,Turcia, China si Iran ocupa primele pozitii, acestea putand fi caracterizate drept cele mai dezvoltate tari din punct de vedere tehnologic dintre cele studiate, incadrate in tarile cu nivel mediu de dezvoltare umana, in timp ce ultimele locuri sunt ocupate Pakistan, Madagascar, Bangladesh, Nepal . Topul tarilor in functie de prima componenta principala, componenta ce indica accesului populaţiei la întreaga gamă de servicii oferite de dezvoltarea tehnologiilor informa ţionale:

Tara

FACT_1

Turkey

1.692055

China

1.649365

Iran

1.140779

Colombia

0.893408

Tunisia

0.689404

Kazakhstan

0.526592

Kazakhstan

0.526592

Thailand

0.497049

Peru

0.488084

Viet Nam

0.441834

Ecuador

0.435171

South Africa

0.404341

South Africa

0.404341

El Salvador

0.196265

Paraguay

0.089999

Philippines

0.073668

Bolivia

-0.04832

Indonesia

-0.07209

Egypt

-0.15825

Nicaragua

-0.52321

Sri Lanka

-0.62418

India

-0.94564

Pakistan

-1.39979

Madagascar

-1.65462

Bangladesh

-1.86178

Nepal

-1.93013

Componenta a doua este puternica influentata de nivelul PIB-ului si a numarului de angajati. Reiese astfel, in urma unei ordonari crescatoare, ca China,

11

India si Viet Nam sunt tarile cu nivelul cel mai ridicat al produsului intern brut si cu numarul cel mai mare de angajati. Topul tarilor in functie de a doua componenta principala, ordonata crescator, deoarece indica, intr-un fel bogatia tarilor respective:

Tara

China

India

Viet Nam

Bangladesh

Nepal

Iran

Pakistan

Sri Lanka

Egypt

Thailand

Indonesia

Kazakhstan Tara

Madagascar China

South Turkey Africa

India Tunisia

Philippines Nicaragua

El Nicaragua Salvador

Paraguay Pakistan

Philippines Bolivia

Peru Ecuador

Madagascar Bolivia

South Colombia Africa

Colombia Tunisia

El Peru Salvador

Indonesia

Ecuador

Turkey

Bangladesh

Paraguay

Egypt

Nepal

Thailand

Kazakhstan

Iran

Sri Lanka

Viet Nam

FACT_2

3.597186

1.392008

1.013131

0.598077

0.587538

0.408052

0.244297

0.2331

0.121975

-0.0258

-0.03121

FACT_3 -0.05825

1.642949 -0.07117

1.486478 -0.43819

1.213454 -0.45884

0.526857 -0.66802

-0.67436 0.50377

-0.69184 0.43059

0.426051 -0.78346

0.414433 -0.82296

0.401167 -0.82909

0.370185 -0.87484

0.320675 -0.88103

0.232681 -0.88629

0.208636

0.142021

0.103563

-0.10371

-0.23572

-0.37094

-0.42547

-0.78275

-0.96234

-1.05085

-1.27032

-3.22141

A treia componenta principala indica pe bogatia monetara a tarilor considerate, fiind influientata atat de PIB

si numarul de angajati cat si de economisirea de energie electrica, nivelul dezvoltarii populatiei in mediul urban, numarul de abonati la telefonia mobila.

Topul tarilor in functie de cea de-a treia componenta principala, componenta ce indica nivelul dezvoltarii economice a tarilor considerate:

Tabelul Rotated Component Matrix foloseste tehnica rotirii axelor, tehnica Varimax, si are drept scop obtinerea unor coeficienti de corelatie cat mai mici pe una din componentele principale. In cazul nostru interpretarea se poate face cu usurinta si pe prima matrice de corelatie dintre variabilele originale si componentele principale. Se observa ca prin tehnica Varimax obtinem aceeasi interpretare. Tehnica Varimax realizeaza o roatie a axelor initiale pentru a facilita interpretarea factorilor astfel obtinuti.

12

Rotated Component Matrix a

   

Component

1

2

3

Zscore(alfabetizare)

.753

-.053

.291

Zscore(linii_telefonie)

.634

.358

.566

Zscore(abonati_tel_mobil)

.808

.030

-.227

Zscore(utilizatori_internet)

.691

.111

.203

Zscore(cercetatori)

.380

.320

.353

Zscore(consum_energie)

-.039

.193

.937

Zscore: PIB($)

.049

.978

.143

Zscore(indicele_saracie)

-.867

.015

-.267

Zscore(Populatie_urbana)

.863

-.089

-.298

Zscore(numar_angajati)

-.081

.963

.154

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

a. Rotation converged in 5 iterations.

Tabelul Component Transformation Matrix indica corelatia componentelor inainte si dupa rotatie.

Component Transformation Matrix

Component

1

2

3

  • 1 .986

 

.163

.030

  • 2 -.162

.914

.371

  • 3 .033

-.371

.928

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Component Plot in Rotated Space ofera o reprezentare grafica tridimensionala a celor 3 componente principale. Fiecare variabila este reprezentata in functie de corelatia cu fiecare componenta. Este un mod grafic de a prezenta aceeasi informatia ca in tabelul Rotated Component Matrix.

13

Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu versorii noului spatiu redus

Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu versorii noului spatiu redus . Acesti versori sunt dati de vectorii proprii corespunzatori valorilor proprii mai mari decat 1. Tabelul Component Score Coefficient Matrix reprezinta matricea versorilor, continand vectorii proprii corespunzatori valorilor proprii retinute. Datele sunt prezente in tabelul de mai jos:

14

Component Score Coefficient Matrix

   

Component

   

1

 

2

 

3

Zscore(alfabetizare)

 

.184

 

-.106

 

.156

Zscore(linii_telefonie)

.123

.050

.265

Zscore(abonati_tel_mobil)

.251

.077

-.258

Zscore(utilizatori_internet)

.175

.008

.053

Zscore(cercetatori)

.072

.086

.141

Zscore(consum_energie)

-.105

-.140

.653

Zscore: PIB($)

.000

.508

-.156

Zscore(indicele_saracie)

-.218

.079

-.117

Zscore(Populatie_urbana)

.274

.030

-.286

Zscore(numar_angajati)

-.038

.496

-.131

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

 

Matricea Component Score Covariance Matrix demonstreaza faptul ca covarianta dintre componentele principale este 0, componentele fiind interpretate in functie de valori diferite.

Component Score Covariance Matrix

 

Component

1

 

2

3

 
 

1.000

  • 1 .000

 

.000

  • 2 .000

 

1.000

.000

.000

  • 3 .000

1.000

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Noile

variabile

obtinute

prin

aplicarea

acestei

tehnici

de

analiza

multidimensionala sunt prezentate in tabelul de mai jos:

15

Case Summaries

     

REGR factor

REGR factor

REGR factor

score

1 for

score

2 for

score

3 for

Case Number

Tara

analysis 2

analysis 2

analysis 2

1

 

Kazakhstan

  • 1 .38024

 

-.43993

 

.93203

2

  • 2 Colombia

 

1.21367

-.23457

-.42825

3

Thailand

  • 3 .36263

-.32205

.79070

4

China

  • 4 .22780

4.18453

.89288

5

  • 5 Turkey

 

1.72201

.18175

.25972

6

Peru

  • 6 .85477

-.32549

-.59911

7

Ecuador

  • 7 .74715

-.44330

-.36339

8

Philippines

  • 8 .45200

-.29627

-.77765

9

Tunisia

  • 9 .85068

.01123

-.25467

  • 10 Iran

  • 10 .73434

.04377

1.42513

  • 11 Paraguay

  • 11 .33445

-.64768

-.10468

  • 12 Sri Lanka

  • 12 -.81775

-.70189

.94673

  • 13 El Salvador

  • 13 .48172

-.34221

-.44527

  • 14 Nepal

  • 14 -2.03834

-.31111

-.00319

  • 15 Madagascar

  • 15 -1.41742

-.28633

-.90151

  • 16 Viet Nam

  • 16 -.41491

-.89282

3.26035

  • 17 Indonesia

  • 17 -.02649

.07272

-.20907

  • 18 Nicaragua

  • 18 -.13780

-.38341

-.89877

  • 19 Egypt

  • 19 -.23907

-.15624

.30976

  • 20 Bolivia

  • 20 .34775

-.42201

-.75645

  • 21 India

  • 21 -1.27238

1.50697

-.64381

  • 22 Pakistan

  • 22 -1.31206

.04671

-.69341

  • 23 Bangladesh

  • 23 -1.94078

-.10370

-.23936

  • 24 South Africa

  • 24 .90778

.26133

-1.49869

Total

N

24

 

24

24

24

16

Analiza claselor ierarhice

Metodele de clasificare sau de analiza “cluster” au ca scop gruparea indivizilor, caracterizati de diverse variabile, intr-un numar restrans de clase omogene. Analiza claselor ierarhice (Hierarchical Cluster Analysis) este o metoda de grupare “ierarhica” in care fiecare clasa este in totalitate continuta in alta clasa. Clasele grupeaza indivizi cat mai asemanatori intre ei prin valorile variabilelor lor, in timp ce clasele constituite sunt cat mai diferite.

In urma realizarii analizei ierarhice se obtin mai multe tabele. Tabelul Case Processing Summary arata cate variabile au fost luate in considerare in analiza, in cazul de fata 24 dintre ele fiind valide, adica un procent de

100%.

Case Processing Summary

   

Cases

 

Included

Excluded

 

Total

N

Percent

N

Percent

N

Percent

Tara

 

100.0%

  • 24 .0%

0

   
  • 24 100.0%

REGR factor score

REGR factor score

REGR factor score

1 for

100.0%

  • 24 .0%

0

  • 24 100.0%

analysis 2

2 for

100.0%

  • 24 .0%

0

  • 24 100.0%

analysis 2

3 for

analysis 2

100.0%

  • 24 .0%

0

  • 24 100.0%

Tabelul Proximity Matrix exprima distantele euclidiene dintre variabile, in cazul de fata dintre tari, si se observa ca acestea pot fi folosite ca masura de comparare a tarilor. Cu cat dinstanta dintre tari este mai mare, cu atat punctele sunt mai putin asemanatoare. Astfel, distantele euclidiene masoara disimilaritatea dintre puncte. Valoarea dintre elementele de pe diagonala este 0, in timp ce in restul tabelului o valoare mica indica o similaritate ridicata iar o valoare ridica o disimilaritate puternica. In cazul de fata tabelul rezultat este o matrice patratica de dimensiune 24x24. In tabelul Agglomeration Schedule se afla gruparea claselor in functie de distantele din matricea de proximitate (Coefficients). Fiecare rand reprezinta o etapa din procesul de grupare al variantelor, numerotate de la 1 la 23 (n-1, unde n este numarul de variante). Ultima etapa, n-1, cuprinde toate variantele intr-un singur cluster. Cele doua coloane continute de campul Stage Cluster First Appears indica etapa la care a mai fost intalnit un cluster deja format, iar Next Stage indica etapa viitoare la care va mai fi intalnita combinatia de clustere formata.

17

Agglomeration Schedule

 

Cluster Combined

 

Stage Cluster First Appears

 

Stage

Cluster 1

Cluster 2

Coefficients

Cluster 1

Cluster 2

Next Stage

1

14

23

.439

0

 
  • 0 9

2

18

20

1.108

0

  • 0 4

3

  • 8 11

1.161

0

  • 0 4

4

  • 8 18

1.247

3

  • 2 5

5

  • 7 8

1.706

0

  • 4 6

6

  • 2 7

1.782

0

  • 5 7

7

  • 2 13

1.938

6

  • 0 8

8

  • 2 17

2.071

7

  • 0 11

9

14

22

2.661

1

  • 0 10

10

14

21

3.308

9

  • 0 13

11

2

19

3.688

8

  • 0 12

12

2

6

4.188

11

  • 0 14

13

14

15

4.328

10

  • 0 19

14

2

3

4.514

12

  • 0 15

15

2

12

5.408

14

  • 0 16

16

2

24

5.983

15

  • 0 17

17

1

2

6.341

0

16

18

18

1

9

7.485

17

0

19

19

1

14

7.709

18

13

20

20

1

5

8.110

19

0

21

21

1

10

10.844

20

0

22

22

1

16

12.079

21

0

23

23

1

4

27.128

22

0

0

Tabelul Vertical Icicle indica pentru fiecare tara in parte din cate clustere face parte, intreruperea de X din coloane indicand si locul in care se termina o clasa. Pe pe prima coloana verticala sunt prezentate numarul de clustere, iar urmatoarele coloane reprezinta variantele, in cazul de fata tarile. Citind tabelul de jos in sus, se poate observa cum au fost grupate tarile. Prima solutie din Agglomeration Schedule va fi prezentata pe ultimul rand, n-1, cea in care doar primele doua tari erau grupate, in timp ce primul rand reprezinta clusterul ce contine toate variantele. Pe masura ce se succed randurile, numarul de clustere creste.

18

Din dendrograma se observa cel mai usor formarea claselor. Aceasta ne indica modul de grupare al tarilor in functie de asemanarile dintre ele, dar si nivelul lor de agregare:

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

 

C A

S E

0

5

10

15

20

25

Label

Num +---------+---------+---------+---------+---------+

Nepal

14

─┬───┐

 

Bangladesh

23

─┘

Pakistan

22

─────┼─┐

 

India

21

─────┘ ├─────┐

 

Madagascar

15

───────┘

 

Nicaragua

18

─┐

Bolivia

20

─┼─┐

 

Philippines

8

─┤

Paraguay

11

─┘

Ecuador

7

───┤

 

Colombia

2

───┼───┐

 

├─┐

 

El Salvador

13

───┤

 

Indonesia

17

───┘ │

Egypt

19

───────┼─┐

 

Peru

6

───────┤ ├─┐ │ │

 

Thailand

3

───────┘ │ │ │ ├───┐

 

Sri Lanka

12

─────────┘ ├─┤ │

South Africa

24

───────────┤ │ │

Kazakhstan

1

───────────┘ │ │

├─┐

 

Tunisia

9

─────────────┘ │

Turkey

5

───────────────┘

│ ├───────────────────────────┐

Iran

10

───────────────────┘ │

Viet Nam

16

─────────────────────┘ │

China

4

─────────────────────────────────────────────────┘

In cazul analizei ierarhice prin metoda celor mai departati vecini (Complete Linkage) se obtin informatiile urmatoare. Rezulta tabelul Agglomeration Schedule:

19

Agglomeration Schedule

   

Cluster Combined

   

Stage Cluster First Appears

   

Stage

Cluster 1

Cluster 2

Coefficients

Cluster 1

Cluster 2

Next Stage

 
  • 1 23

14

  • 2 20

18

 

.439

0

  • 1.108 0

0

0

 

7

6

  • 3 8

 

11

  • 1.161 0

0

4

  • 4 7

8

  • 1.745 3

0

10

  • 5 13

2

  • 6 18

17

  • 7 22

14

  • 8 15

14

  • 9 2

6

  • 2.348 0

0

  • 2.859 2

0

  • 3.124 0

1

  • 4.976 0

7

  • 5.097 0

5

9

10

8

11

15

  • 10 17

7

  • 11 21

14

  • 12 1

19

  • 5.136 6

4

  • 6.068 0

8

  • 6.341 0

0

15

23

13