Sunteți pe pagina 1din 23

Academia de Studii Economice din Bucureti

Facultatea de Cibernetic, Statistic i Informatic Economic

Proiect Analiza Datelor

Student: Boboescu Dan Alexandru


Profesor ndrumtor: Andreea Muraru
Grupa: 1049
Seria: A Informatica Economica

Introducere

Proiectul isi propune sa analizeze date legate de nivelul de investitie in sanatatea


mamei si al copilului din diferite tari si efectul acestora asupra calitatii vietii.
Matricea de date conine 40 de observaii reprezentnd ri, pentru care am luat n
considerare 5 caracteristici. Datele sunt preluate de pe site-ul Bncii Mondiale
(http://databank.worldbank.org) i reprezint diferii indicatori macroeconomici ai rilor
respective pentru anul 2011.
Descrierea datelor
Variabilele luate in considerare au fost:
Cheltuieli

cu

sanatatea

pe

cap

de

locuitor

(pretul

pietei

$)

Cheltuielile totale cu sanatatea reprezinta suma de bani cheltuita de catre sectorul


public sau privat cu scopul sanatatii, raportat la volumul populatiei. Acopera proviziile de
servicii medicale (preventive si curative), activitati planificate de familie, activitati de nutritie
si ajutor de urgenta de sanatate, dar nu include provizii de apa si salubritate. Numerele sunte
exprimate in dolari americani.
Produs Intern Brut pe cap de locuitor (pretul pietei - $))
Produsul intern brut (prescurtat PIB) este un indicator macroeconomic care reflecta
suma valorii de piata a tuturor marfurilor si serviciilor destinate consumului final, produse In
toate ramurile economiei In interiorul unei tari In decurs de un an.
Speranta de viata la nastere
Speranta de viata la nastere reprezinta media duratelor de viata a unei generatii
imaginare care ar fi supusa intreaga sa viata ratelor de mortalitate pe grupe de varsta ale
anului de observare; reprezinta numarul mediu de ani pe care o persoana il poate trai in mod
obisnuit, exprimat la nastere; difera in functie de sexul persoanei.
Speranta de viata la nastere constituie indicatorul corectat al mortalitatii si
inregistreaza valori diferite pe regiuni si tari in functie de mai multi factorii.
Rata Mortalitatii infantile (Numarul nou-Nascutilor decedati/1000 nasteri vii)
Rata mortalitatii infantile reprezinta numarul de nou-nascuti morti Intr-o perioada de un an de
la nastere, raportat la un numar de 1000 de nasteri reusite, Intr-un anumit an.
Cea mai importanta cauza a mortalitatii infantile este deshidratarea din cauza diareei.
Datorita succesului In raspandirea informatiei despre solutiile orale rehidratante (un amestec
de saruri, zahar si apa), numarul copiilor care mor din cauza deshidratarii a scazut, ajungand
pe locul doi spre sfarsitul anilor 1990. In prezent, cea mai comuna cauza a mortalitatii
infantile este pneumonia.

Rata fertilitatii (nasteri pe femeie)


Rata fertilitatii reprezinta numarul de copii nascuti de o femeie, In ipoteza ca aceasta
ar trai pana la dupa varsta procrearii si daca ar avea un numar de copii relevant cu specificul
varstei.
Pentru a efectua acest studiu am avut n vedere 40 de tari : Argentina, Armenia,
Australia, Austria, Azerbaijan, Belgium, Bulgaria, Bosnia and Herzegovina, Belarus, Brazil,
Canada, Switzerland, Chile, China, Colombia, Cyprus, Czech Republic, Germany, Denmark,
Ecuador, Spain, Estonia, Finland, France, United Kingdom, Georgia, Greece, Croatia,
Hungary, Iceland, Israel, Italy, Japan, Lithuania, Luxembourg, Latvia, Mexico, Malta,
Montenegro, Netherlands

Descrierea Statistica a datelor

Analiza indicatorilor tendinei centrale :


Indicatorii fundamentali ai tendinei centrale sunt:

media aritmetic ( x )

mediana (Me)
modul (Mo)

Media
Mediile sunt marimi statistice care exprima In mod sintetic si generalizat ceea ce este
normal, logic, esential, tipic pentru toate unitatile colectivitatii distribuite dupa o
caracteristica.
Media se calculeaza dupa formula:
n

xi

x = i=1
N

Pentru ca o medie sa fie reprezentativa, trebuie sa Indeplineasca urmatoarele conditii:

Sa fie calculata dintr-un numar suficient de mare de cazuri individuale


Valorile din care se calculeaza media trebuie sa fie omogene. Daca exista diferente
foarte mari Intre valori, media poate deveni fara sens.
Trebuie ales tipul de medie semnificativ pentru datele existente
Mediana

Mediana reprezint valoarea din mijlocul unei serii de date ordonate.Este un indicator
mediu de poziie care face parte din categoria cuantilelor si ia n consideraie doar poziia
observaiilor n serie, nu i mrimea lor efectiv (nu este afectat de prezena valorilor
extreme).
Mediana se poate determina pe cale grafic. Ea reprezint proiecia pe axa absciselor a
punctului de intersecie dintre cele dou curbe ale frecvenelor cumulate (cresctor i
descresctor).
Pentru a determina mediana se introduce noiunea de ranguri, adic numere de ordine
asociate observaiilor, de la cea mai mic (cu rangul 1), pn la cea mai mare (rangul
n) .Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unitii din mijlocul seriei.

Modul

Modulul este parametrul care corespunde celei mai mari frecvene, adic este valoarea
cea mai frecvent ntlnit.Valoarea modal se poate determina pentru orice tip de variabil
(nenumeric sau numeric), indiferent de scala de msurare.
Grafic, ntr-o histogram ori poligon al frecvenelor, modul reprezint valoarea de pe
abscis, corespunztoare vrfului reprezentrii.
innd cont de aceste caracteristici, media este recomandata n cazul variabilelor
numerice care ndeplinesc conditiile parametrice (distributie normala, omogenitate s.a.).
Mediana se recomanda pentru cazurile n care nu sunt ndeplinite conditiile parametrice
(distributii asimetrice, etrogenitate crescuta etc) si n cazul variabilelor de tip ordinal. Modul
este utilizat mai rar pentru date numerice, fiind nsa foarte util n cazul variabilelor de tip
categorial (date calitative, nominale), deoarece nu putem calcula ceilalti parametrii centrali.
Statistics
V1
N

Valid
Missing

Mean

V2

V3

V4

V5

40

40

40

40

40

2,680046E 2,969099E 7,807597E 7,037500E 1,718725E


3

Median

1,722808E 2,200135E 7,938923E 4,250000E 1,633500E


3

Mode

1,2706E2a 3,2196E3a 7,0551E1a

3,4000

1,3900a

Indicatori ai mprtierii datelor:

x x
n

i 1

min
aR

x a
i 1

Dispersia se determin ca medie aritmetic a ptratelor


abaterilor individuale ale valorilor de la tendina central, uzual de la medie deoarece cea mai
mic sum a ptratelor abaterilor individuale fa de o constant se obine pentru
constanta :

x x
n

s2

i 1

n 1

-pentru un eantion (sample variance, n engl.) - estimator

x
i 1

-pentru populaia statistic parametru

Abaterea Standard
In teoria probabilitatilor, abaterea standard a unei variabile aleatoare reprezinta o
masura a dispersiei acestei valorilor acesteia In jurul uneia considerate mijlocii. Se mai
numeste si abatere medie patratica.
Abaterea standard caracterizeaza gradul de variabilitate a variantelor individuale ale
caracteristicii de la valoarea medie. Cu cat abaterea medie patratica are o marime mai mica cu
atat valorile caracteristicii sunt mai concentrate in jurul mediei si in consecinta colectivitatea
statistica este mai omogena si invers, cu cat abaterea medie patratica are o marime mai mare
cu atat valorile individuale ale caracteristicii sunt mai dispersate si deci colectivitatea este mai
putin omogena.
Abaterea medie patratica are o aplicabilitate extinsa pentru dimensionarea sintetica a
variatiei caracteristicii studiate deoarece se exprima in aceleasi unitati de masura in care sunt
exprimate si variantele caracteristicii. Limita de aplicare se intalneste in cazul comparatiei pe
baza marimii sale a gradului de variabilitate dintre doua colectivitati statistice ale caror
caracteristici sunt exprimate in unitati de masura diferite sau sunt marimi cifrice de ordin
diferit.
Abaterea standard se calculeaza prin extragerea radacinii patrate din dispersie, astfel:
2
x =E [ ( X ) ]=

(xx )2
n
Statistics
V1

Valid
Missing

Std. Deviation

Variance

V2

V3

V4

V5

40

40

40

40

40

2,4469918 2,4913599 3,6626737 6,2046173


E3

E4

E0

5,988E6

6,207E8

13,415

I. Analiza componentelor principale

E0

,3733768

38,497 ,139

Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept
scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus
de componente, fara ca aceasta forma sa contina redundante informationale.Aceste
componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele,
fiecare fiind o combinatie liniara de variabilele originale.
Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa
indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a tarilor.
Standardizarea datelor
Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom
efectua Analiza Componentelor Principale pe date standardizate.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor
fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei
operatii si abaterea standard a respectivei variabile:
xct x t x i
x= =
, t=1,2, ,T
si
si
s
ti

unde

x i

variabilei

xi

reprezinta abaterea standard a

pentru cazul deplasat:

si

reprezinta media celei de-a i-a variabile, iar

pentru cazul nedeplasat:

1
s = (x t x i )2
T t =1
2
i

1
2
s=
( xt x i)

T 1 t=1
2
i

Matricea de corelatie
Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza
matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile
dintre variabilele initiale si determina componentele pricipale.

Correlation Matrix
Zscore(V1)
Correlation

Zscore(V1)

Zscore(V2)

1,000 ,963

Zscore(V2)

,963

Zscore(V3)

,777

Zscore(V3)

Zscore(V4)

Zscore(V5)

,777

-,545

-,123

1,000 ,747

-,552

-,111

1,000

-,663

-,038

1,000 ,390

,747

Zscore(V4)

-,545

-,552

-,663

Zscore(V5)

-,123

-,111

-,038 ,390

1,000

Identificam in matrice coeficientii de corelatie atat mari cat si mici. Spre exemplu
putem observa cum cea mai puternica legatura este intre cheltuieli cu sanatatea pe cap de
locuitor si produsul intern brut pe cap de locuitor (0.963). O alta legatura destul de
puternica este cea dintre speranta de viata la nastere si cheltuielile pentru sanatate.
Exista si legaturi foarte slabe cum ar fi intre rata fertilitatii si produsul intern brut
pe locuitor (-0.111) sau speranta de viata la nastere si rata fertilitatii (-0.038).Putem
observa ca nici o legatura intre rata fertilitatii si celelalte categorii nu este una foarte puternica
, deci putem trage concluzia ca aceasta categorie nu este destul de compatibila cu celelalte.
Cum componentele principale sunt combinatii liniare de variabile originale, le putem
(i)
(i)
(i)
x1
privi sub forma unui vector de forma: w i= 1 x 1 + 2 x 2+ + n x n , unde
,
x2 xn

(i)

sunt variabilele originale si j

ponderile din tabelul de mai jos.

Influena variabilelor originale luate n studiu este dat de:


Communalities
Raw
Initial

Extraction

Rescaled
Initial

Extraction

Zscore(V1)

1,000 ,904

1,000 ,904

Zscore(V2)

1,000 ,891

1,000 ,891

Zscore(V3)

1,000 ,823

1,000 ,823

Zscore(V4)

1,000 ,736

1,000 ,736

Zscore(V5)

1,000 ,927

1,000 ,927

Extraction Method: Principal Component Analysis.

Acest tabel art procentul (coeficientul) din variana variabilei care poate fi explicat
pe baza tuturor factorilor. Astfel c, cu ct acest coeficient e mai apoape de 1, cu att variabila
e mai bine explicat. Coloana Initial reprezint variana sau dispersia iniial a variabilelor,
variabile care sunt normate, drept pentru care ele au iniial abaterea 1. Analiznd tabelul
obinut vom observa c variabilele rata fertilitatii i cheltuielile pentru sanatate au o

contribuie major la explicarea variabilelor artificiale care se obin ulterior. Cantiatea de


informaie recuperat de aceste dou variabile este de 0,927 respectiv 0.904. De asemenea tot
din analiza tabelului de mai sus obinem fatul c variabila rata moratilitatii infantile are
contribuia cea mai mic n cadrul componentelor principale (0,736). Deoarece toi
coeficienii au valori mai mari dect 0,4, rezult c nu este nevoie s eliminm din analiza
noastr nicio variabil. Pentru a stabili numrul de componente principale necesar n analiza
ulterioara se folosesc datele din tabeleul :
Total Variance Explained
Initial Eigenvaluesa

Compo
nent
Raw

Rescaled

Total

% of Variance

Extraction Sums of Squared Loadings

Cumulative %

Total

% of Variance

Cumulative %

3,185

63,708

63,708

3,185

63,708

63,708

1,095

21,895

85,603

1,095

21,895

85,603

,485

9,697

95,300

,201

4,016

99,316

,034

,684

100,000

3,185

63,708

63,708

3,185

63,708

63,708

1,095

21,895

85,603

1,095

21,895

85,603

,485

9,697

95,300

,201

4,016

99,316

,034

,684

100,000

Vom observa c avem nevoie de dou componente principale pentru a recupera o


cantiate de informaie ct mai mare, o cantitate care s nu fie mai mic de 80%. Acest lucru
este confirmat i de matricea de corelaie. Aceste componente principale corespund valorilor
proprii cele mai mari, valori care reprezint varianele corespunztoare celor dou
componente reinute. Utiliznd dou componente principale , cantitatea de informaie
recuperat este de 85,603% din informaia iniial.Prima component principal mi
recupereaz 63,708% din informaia tota, iar cea de-a doua component mi acopera
21,895%. Deoarece cantitatea total de informaie recuperat de cele dou componente este
mai mare de 75% rezult faptul c aceste dou componente sunt suficiente. De asemenea
dimensiunea spaiului iniial, care a fost de 5 (dimensiunea spaiului este egal cu numrul de
variabile analizate) este redus prin aceast tehnic la 2, lucru realizat cu o pierdere minim
de informaie.
O alt modalitate de a stabili numrul de componente principale este utilizarea Scree
Plot-ului. Acesta este de fapt reprezentarea criteriului grohotisurilor. Conform acestui
criteriu numrul de componente principale luate n studiu este dat de numrul de segmente
care unete valorile proprii i care au panata semnificativ diferite de zero.
Imaginea Scree Plot reprezint n form grafic valorile Eigenvalue pentru toate
componentele prncipale rezultate din analiz i care, numeric, sunt reprezentate n tabelul
Total Variance Explained de mai sus.Reprezentarea grafic a valorilor eigen aferente
factorilor, n ordinea extragerii lor, produce o curb care poate da informaii cu privire la
numrul de factori care trebuie reinui. n reprezentarea noastra observm c forma curbei

este mprit n dou zone, una n care panta este abrupt (este vorba de poriunea din grafic
corespunztoare componentelor 1 i 2) i alta n care panta este lin (este vorba de poriunea
corespunztoare componentelor 3,4,5).
Punctului de intersecie dintre cele
dou zone (este vorba de
punctul dat de

reprezentarea
punctului 3) i
corespunde un factor care va fi
considerat ca ultimul factor
extras. Deci i cu ajutorul acestei metode vom obine tot dou componente principale la fel ca
n cazul utilizrii tabelului Total Variance Explained.
n ceea ce urmeaz, n vederea caracterizrii componentelor obinute, se determin
coeficientul de corelaie ntre variabilele artificiale obinute (componentele principale) i
variabilele originale luate n calcul. Coeficienii de corelaie dintre variabilele artificiale
obinute i variabilele originale sunt dai n tabelul care urmeaz:
Component Matrixa
Raw

Rescaled

Component

Component

Zscore(V1)

,932

,188

,932

,188

Zscore(V2)

,924

,191

,924

,191

Zscore(V3)

,888

,183

,888

,183

Zscore(V4)

-,780 ,356

-,780 ,356

Zscore(V5)

-,254 ,929

-,254 ,929

Extraction Method: Principal Component Analysis.


a. 2 components extracted.

Datele din tabelul de mai sus se refer la soluia factorial iniial (naintea procedurii
de rotaie). Pentru ca interpretarea s fie facut cu usurinta se mai folosete i tehnica rotirii
axelor( tehnica Varimax) ce are drept scop oinerea unor coeficieni de corelaie ct mai mici
pe una din componentele principale. ns interpretarea se face uor i pe prima matrice de
corelaie (ntre componentele principale si variabilele iniiale), obinndu-se aceeai
interpretare ca i n cazul tehnicii Varimax, ns n cazul tehnicii Varimax rezutatele sunt mai
concludente.
Rotated Component Matrixa
Raw

Rescaled

Component

Component

Zscore(V1)

,948

-,070 ,948

-,070

Zscore(V2)

,941

-,065 ,941

-,065

Zscore(V3)

,905

-,063 ,905

-,063

Zscore(V4)

-,656 ,553

Zscore(V5)

,006

,963

-,656 ,553
,006

,963

Analiznd aceti coeficieni de corelaie, observm c prima component principal


este puternic influenat de variabila care exprim speranta de viata la nastere. A doua
component principal este puternic influenat de variabila care exprim rata fertilitatii.
Matricea de rotaie o regasim n Component Transformation Matrix:

Component Transformation
Matrix
Compo
nent

,963

,269

2
-,269
,963

Extraction Method: Principal


Component Analysis.
Rotation Method: Varimax with
Kaiser Normalization.

Componentele principale sunt combinaii liniare ntre variabilele iniiale i ponderi


asociate acestor variabile, ponderi care sunt date n tabelul de mai jos:

Component Score Coefficient


Matrixa
Component
1

Zscore(V1)

,328

,086

Zscore(V2)

,326

,090

Zscore(V3)

,314

,086

Zscore(V4)
Zscore(V5)

De exemplu prima component principala poate fi scris n


felul urmtor: 0,328*cheltuieli pentru sanatae+0,326*PIB +
0,314 * speranta de viata la nastere -0,148 * rata
mortalitatii infantile + 0,152 * rata fertilitatii.

-,148 ,379
,152

,839

Extraction Method: Principal


Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
a. Coefficients are standardized.

Aceeai interpretare ca la Rotated Component Matrix o putem face i cu ajutorul


Component Plot in Rotated Space. Acesta ne arat c, cu ct o variabila este mai apropiat de

axa corespunztoare unei componente, cu att variabila respectiv influeneaz ntr-o mai
mare msur componenta respectiv.
II.Analiza Cluster
n continuare vom ncerca realizarea unei clasificri a tarilor folosindu-ne de datele
standardizate. Deci vom realiza analiza cluster utiliznd mai nti metoda celor mai apropiati
vecini i apoi metoda lui Ward. Aceast metod este folosit pentru a grupa date multidimensionale (puncte ce reprezint cazuri sau observaii) n grupe (clusters) definite
algoritmic. Analiza Cluster consta, de fapt, dintr-o colecie de algoritmi ce exploateaz mai
multe euristici fundamentate n principal pe experiena noastr vizual n gruparea punctelor
n nori de puncte . Pentru a putea folosi un algoritm de clasificare, este nevoie de
precizarea:
Unei distane ntre punctele unui spaiu multidimensional. n lucrarea de fa vom
utiliza distana Euclidian;
O strategie de alegere a punctului reprezentativ (adic a centrului) pentru orice grupare
de puncte. De cele mai mule ori se alege media aritmetic (centrul de greutate);
O distan ntre dou grupe de puncte. Cele mai folosite asemenea distane sunt:
-distana ntre centre (n algoritmul Ward);
-distana ntre cei mai apropiai vecini (single linkage);
-distana ntre cei mai deprtai vecini (complete linkage).
Rezultatele analizei cluster sunt diferite n funcie de metoda aplicat, astfel, dup cum
se va putea observa din cele dou dendograme precum i din schemele de agregare, orinea n
care are loc gruparea obiectelor este diferit.
Metoda celor mai apropiati vecini

Agglomeration Schedule
Stage Cluster First
Cluster Combined
Stage

Cluster 1

Appears

Cluster 2 Coefficients

Cluster 1

Next Stage

Cluster 2

23 ,098

14

21

32 ,120

24

27

38 ,133

18 ,153

13

22

28 ,169

12

37 ,169

32

26 ,170

11

16

27 ,208

22

11

40 ,219

13

10

24

30 ,228

27

11

10 ,267

16

12

17

22 ,272

22

13

11 ,278

14

14

6 ,295

13

15

15

19 ,297

14

20

16

14 ,298

11

17

17

7 ,305

16

29

18

29

36 ,307

19

19

29 ,309

18

28

20

33 ,314

15

23

21

34

39 ,319

28

22

16

17 ,351

12

24

23

4 ,358

20

25

24

16

21 ,380

22

26

25

25 ,397

23

26

26

16 ,409

25

24

27

27

24 ,450

26

10

30

28

34 ,552

19

21

29

29

8 ,586

17

28

30

30

3 ,616

29

27

31

31

9 ,813

30

33

32

15 ,819

33

33

32

31

34

1,532

n primul pas, se grupeaza trile 6 i 23 (clusterd combined), ntre acestea existnd cea
mai mic distan. Acestora li se adauga n etapa 14 (coloana Next Stage) o nou ar (la pasul
14 se grupeaz 4 cu 6). Logica gruprii este aceeai i pentru paii urmtori.
Rescaled Distance Cluster Combine
C A S E
Label
Belgium
Finland
Austria
Germany
Canada
Netherlands
Denmark
Japan
Australia
United Kingdom
Spain
Italy
Greece
Malta
Cyprus
Estonia
Croatia
Czech Republic
France
Iceland
Armenia
Georgia
Brazil
China
Bulgaria
Hungary
Latvia
Bosnia and Herzegovina
Lithuania
Montenegro
Belarus
Argentina
Mexico
Colombia
Ecuador
Chile
Switzerland
Luxembourg
Israel
Azerbaijan

Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

6
23
4
18
11
40
19
33
3
25
21
32
27
38
16
22
28
17
24
30
2
26
10
14
7
29
36
8
34
39
9
1
37
15
20
13
12
35
31

Metoda lui Ward


Metoda celor mai apropiai vecini nu ilustreaz foarte clar clustere de tri, motiv
pentru care metoda lui Ward este cea care va furniza numrul de clustere n care vom mprii

cele 40 de state. Dendograma sugereaz un numr de 7 mari grupe. Schema de grupare este
diferit fat de cea din cazul precedent

Agglomeration Schedule
Cluster Combined
Stage

Cluster 1

Stage Cluster First Appears

Cluster 2

Coefficients

Cluster 1

Cluster 2

Next Stage

23 ,049

17

21

32 ,109

26

27

38 ,175

13

18 ,251

14

22

28 ,336

16

37 ,420

22

26 ,505

15

11

40 ,615

18

24

30 ,729

21

10

14 ,881

23

11

29

36

1,035

19

12

34

39

1,195

24

13

16

27

1,361

26

14

33

1,587

31

15

10

1,814

23

16

17

22

2,045

27

17

25

2,304

21

18

11

19

2,566

20

19

29

2,843

11

28

20

11

3,238

18

30

21

24

3,722

17

30

22

15

4,294

29

23

4,919

15

10

33

24

34

5,607

12

28

25

12

35

6,488

37

26

16

21

7,376

13

31

27

13

17

8,609

16

32

28

10,088

19

24

32

29

20

11,608

22

34

30

13,527

20

21

35

31

16

16,624

14

26

35

32

13

19,835

28

27

33

33

27,073

23

32

38

34

35,371

29

36

Dendrogram using Ward Method


Rescaled Distance Cluster Combine
C A S E
Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

Belgium
Finland
United Kingdom
France
Iceland
Canada
Netherlands
Denmark
Australia
Austria
Germany
Japan
Spain
Italy
Greece
Malta
Cyprus
Switzerland
Luxembourg
Bulgaria
China
Armenia
Georgia
Brazil
Estonia
Croatia
Czech Republic
Chile
Hungary
Latvia
Bosnia and Herzegovina
Lithuania
Montenegro
Belarus
Argentina
Mexico
Colombia
Ecuador
Azerbaijan

6
23
25
24
30
11
40
19
3
4
18
33
21
32
27
38
16
12
35
7
14
2
26
10
22
28
17
13
29
36
8
34
39
9
1
37
15
20
5

Israel

31

Label

Cluster 1: Belgia, Finlanda, Regatul Unit, Franta, Islanda, Canada, Olanda, Danemarca,
Australia
Cluster 2: Austria, Germania, Japonia, Spania, Italia, Grecia, Malta, Cipru,
Cluster 3: Elvetia, Luxemburg
Cluster 4:Bulgaria, China, Armenia, Georgia,Brazilia
Cluster 5:Estonia,Croatia,Letonia,Bosnia,Lituania,Muntenegru,Belarus

Cluster 6:Argentina,Mexic,Columbia,Ecuador
Cluster 7: Azerbaijan, Israel
n cazul de fa, metoda lui Ward a dus la obinerea unor rezultate mai bune, permind o
diferenier mai clar a clusterelor. Folosind principiul minimizrii varianei n cadrul
grupurilor, ilustreaz mai bine profilul trilor.

III.Analiza discriminant
Prin coninutul su i prin natura procedurilor i tehnicilor pe care le utilizeaz ,analiza
discriminanta este echivalent cu rezolvarea unei probleme de predicie cu privire la
apartenena la o anumit clas a unor noi obiecte. Acesta constituie scopul principal al teoriei
recunoaterii formelor.
Exist cteva scopuri ale acestei analize:
-s clasifice cazurile n grupuri utiliznd o ecuaie de predicie a discriminantului
-s testeze teoria prin observarea faptului c cazurile sunt clasificate aa cum au
fost prevzute
-s investigheze diferenele dintre sau din interiorul grupurilor
-s determine cel mai posibil mod de a distinge ntre grupuri
-s determine procentul variantei n variabila dependent explicat de ctre independente
-s se determine proporia variabilei dependente explicat de ctre independente
-prin sau deasupra variantei calculate prin variabila de control utiliznd analiza
discriminatului secvenial
-s arate importana relativ a variabilelor independente n clasificarea variabilei dependente
-s precizeze variabilele care sunt ntr-o msur mic legate de distinciile grupului
Adugm o nou coloan suplimentar, ce se refer la mrimea rii respective ca i
populaie, obinnd astfel:
1.ri de dimensiune mica ( 0-10 milioane locuitori )
2.ri de dimensiune medie ( 10-20 milioane locuitori )
3.ri de dimensiune mare ( peste 20 milioane locuitori )

Tests of Equality of Group Means


Wilks' Lambda

df1

df2

Sig.

Zscore(V1)

,987

,237

37 ,790

Zscore(V2)

,997

,052

37 ,949

Zscore(V3)

,912

37 ,184

Zscore(V4)

,997

,047

37 ,954

Zscore(V5)

,962

,724

37 ,492

1,775

n tabelul Test of Equality of Group Means este prezentat rezultatul univariate


ANOVA pentru fiecare variabil n parte.
Classification Function Coefficients
Dimensiune
1

Zscore(V1)

-,625 ,428

Zscore(V2)

1,008

Zscore(V3)

-,902

Zscore(V4)

-,406 ,339

,499

Zscore(V5)

-,077 ,147

,057

(Constant)

,811
-1,137

-1,104

1,175 ,915

-1,255

-1,344

-1,279

Fisher's linear discriminant functions

n tabelul de mai sus, sunt prezentai coeficienii funciilor clasificatorilor, care sunt
combinaii liniare de variabilele originale. Aceti coeficieni sunt rezultatul unei probleme de
optim, ce presupune minimizrea varianei dintre grupe i reprezint ecuaia dreptei trasate
pentru a separa spaiul obiectelor n clasele de mai sus.
Eigenvalues
Functio
n

Canonical
Eigenvalue

% of Variance

Cumulative %

Correlation

,375a

97,7

97,7 ,522

,009a

2,3

100,0 ,094

a. First 2 canonical discriminant functions were used in the analysis.

n tabelul Eigenvalues observm valorile proprii associate funciilor, iar funciile cu


cele mai mari valori proprii sunt acele funcii cu o putere maxim de discriminan. Se
observ n acest caz c prima funcie are o putere de discriminare mai mare, cumulnd 52,2%
din variana din interiorul grupei.
Wilks' Lambda
Test of
Function(s)

Wilks' Lambda

1 through 2

,721

,991

Chi-square
11,459
,308

df

Sig.
10 ,323
4 ,989

Pe baza tabelului de mai sus, Wilks Lambda, putem verifica dac exist diferene
majore ntre clasele propuse. Testul Wilks Lamda verific semnificaia tuturor funciilor de
discriminare pe un interval precizat. Pentru o discriminare ct mai bun este necesar ca
valoarea lui s fie mai mare dect 0.05 , criteriu ce se respect n ambele cazuri( 0.721 i
0.991).

Urmrind interpretarea grafic de mai sus asupra celor trei clase, vedem cum se
poziioneaz n jurul centroizilor i cam cum sunt de omogene. Nu se observ nicio clas cu
un grad foarte redus de dispersie doarece toate trei au cte o component care se apropie de
alte clase.

Classification Resultsa
Dimensi
une
Original

Count

Predicted Group Membership


1

Total

14

21

13

66,7

14,3

19,0

100,0

16,7

50,0

33,3

100,0

23,1

46,2

30,8

100,0

a. 52,5% of original grouped cases correctly classified.

Tabelul Classification results arat un sumar al rezultatelor analizei discriminante,

comparnd numrul de obiecte correct clasificate cu cele incorrect clasificate, propunnd i


grupele unde ar fi trebuit s fie incluse. Pentru clasele originale I de pe linie i clasele
propuse j de pe coloan, elemental aij reprezint numrul de component din clasa I ce ar fi
trebuit s fie n clasa j. Suma elementelor de pe diagonal principal este numrul de obiecte
corect clasificate.

Concluzii
Lumea se afla intr-o continua schimbare sau transformare. Asadar consider ca nivelul
de investitie in sanatatea mamei si al copilului accelereaza ritmul de dezvoltare al sanatatii,
dar si al economieic
Aceasta analiza ne sugereaza prin intermediul cifrelor , legatura ce o au anumite tari
intre ele si nivelul de investitie in sanatate specifice celor 40 de tari observate.
Asadar precizez ca informatiile despre sanatate furnizate, pot fi utile in diverse
domenii de activitate stiintifice sau practice.

S-ar putea să vă placă și