Sunteți pe pagina 1din 22

Academia de Studii Economice din Bucureşti

Facultatea de Cibernetică, Statistică și Informatică Economică

Proiect Analiza Datelor

Student: Boboescu Dan Alexandru


Profesor îndrumător: Andreea Muraru
Grupa: 1049
Seria: A – Informatica Economica
Introducere

Proiectul isi propune sa analizeze date legate de nivelul de investitie in sanatatea


mamei si al copilului din diferite tari si efectul acestora asupra calitatii vietii.

Matricea de date conține 40 de observații reprezentând țări, pentru care am luat în


considerare 5 caracteristici. Datele sunt preluate de pe site-ul Băncii Mondiale
(http://databank.worldbank.org) și reprezintă diferiți indicatori macroeconomici ai țărilor
respective pentru anul 2011.

Descrierea datelor

Variabilele luate in considerare au fost:

Cheltuieli cu sanatatea pe cap de locuitor (pretul pietei - $)

Cheltuielile totale cu sanatatea reprezinta suma de bani cheltuita de catre sectorul


public sau privat cu scopul sanatatii, raportat la volumul populatiei. Acopera proviziile de
servicii medicale (preventive si curative), activitati planificate de familie, activitati de nutritie
si ajutor de urgenta de sanatate, dar nu include provizii de apa si salubritate. Numerele sunte
exprimate in dolari americani.

Produs Intern Brut pe cap de locuitor (pretul pietei - $))

Produsul intern brut (prescurtat PIB) este un indicator macroeconomic care reflecta
suma valorii de piata a tuturor marfurilor si serviciilor destinate consumului final, produse In
toate ramurile economiei In interiorul unei tari In decurs de un an.

Speranta de viata la nastere

Speranta de viata la nastere reprezinta media duratelor de viata a unei generatii


imaginare care ar fi supusa intreaga sa viata ratelor de mortalitate pe grupe de varsta ale
anului de observare; reprezinta numarul mediu de ani pe care o persoana il poate trai in mod
obisnuit, exprimat la nastere; difera in functie de sexul persoanei.

Speranta de viata la nastere constituie indicatorul corectat al mortalitatii si


inregistreaza valori diferite pe regiuni si tari in functie de mai multi factorii.

Rata Mortalitatii infantile (Numarul nou-Nascutilor decedati/1000 nasteri vii)


Rata mortalitatii infantile reprezinta numarul de nou-nascuti morti Intr-o perioada de un an de
la nastere, raportat la un numar de 1000 de nasteri reusite, Intr-un anumit an.

Cea mai importanta cauza a mortalitatii infantile este deshidratarea din cauza diareei.
Datorita succesului In raspandirea informatiei despre solutiile orale rehidratante (un amestec
de saruri, zahar si apa), numarul copiilor care mor din cauza deshidratarii a scazut, ajungand
pe locul doi spre sfarsitul anilor 1990. In prezent, cea mai comuna cauza a mortalitatii
infantile este pneumonia.
Rata fertilitatii (nasteri pe femeie)

Rata fertilitatii reprezinta numarul de copii nascuti de o femeie, In ipoteza ca aceasta


ar trai pana la dupa varsta procrearii si daca ar avea un numar de copii relevant cu specificul
varstei.

Pentru a efectua acest studiu am avut în vedere 40 de tari : Argentina, Armenia,


Australia, Austria, Azerbaijan, Belgium, Bulgaria, Bosnia and Herzegovina, Belarus, Brazil,
Canada, Switzerland, Chile, China, Colombia, Cyprus, Czech Republic, Germany, Denmark,
Ecuador, Spain, Estonia, Finland, France, United Kingdom, Georgia, Greece, Croatia,
Hungary, Iceland, Israel, Italy, Japan, Lithuania, Luxembourg, Latvia, Mexico, Malta,
Montenegro, Netherlands

Descrierea Statistica a datelor


Analiza indicatorilor tendinței centrale :

Indicatorii fundamentali ai tendinţei centrale sunt:

 media aritmetică (𝑥̅ )


 mediana (Me)
 modul (Mo)

Media

Mediile sunt marimi statistice care exprima In mod sintetic si generalizat ceea ce este
normal, logic, esential, tipic pentru toate unitatile colectivitatii distribuite dupa o
caracteristica.

Media se calculeaza dupa formula:

∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑁
Pentru ca o medie sa fie reprezentativa, trebuie sa Indeplineasca urmatoarele conditii:

 Sa fie calculata dintr-un numar suficient de mare de cazuri individuale


 Valorile din care se calculeaza media trebuie sa fie omogene. Daca exista diferente
foarte mari Intre valori, media poate deveni fara sens.
 Trebuie ales tipul de medie semnificativ pentru datele existente

Mediana
Mediana reprezintă valoarea din mijlocul unei serii de date ordonate.Este un indicator
mediu de poziţie care face parte din categoria cuantilelor si ia în consideraţie doar poziţia
observaţiilor în serie, nu şi mărimea lor efectivă (nu este afectată de prezenţa valorilor
extreme).
Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe axa absciselor a
punctului de intersecţie dintre cele două curbe ale frecvenţelor cumulate (crescător şi
descrescător).
Pentru a determina mediana se introduce noţiunea de ranguri, adică numere de ordine
asociate observaţiilor, de la cea mai mică (cu rangul 1), până la cea mai mare (rangul n)
.Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unităţii din mijlocul seriei.

Modul
Modulul este parametrul care corespunde celei mai mari frecvențe, adică este valoarea
cea mai frecvent întâlnită.Valoarea modală se poate determina pentru orice tip de variabilă
(nenumerică sau numerică), indiferent de scala de măsurare.

Grafic, într-o histogramă ori poligon al frecvenţelor, modul reprezintă valoarea de pe


abscisă, corespunzătoare vârfului reprezentării.

Ținând cont de aceste caracteristici, media este recomandata în cazul variabilelor


numerice care îndeplinesc conditiile parametrice (distributie normala, omogenitate s.a.).
Mediana se recomanda pentru cazurile în care nu sunt îndeplinite conditiile parametrice
(distributii asimetrice, etrogenitate crescuta etc) si în cazul variabilelor de tip ordinal. Modul
este utilizat mai rar pentru date numerice, fiind însa foarte util în cazul variabilelor de tip
categorial (date calitative, nominale), deoarece nu putem calcula ceilalti parametrii centrali.

Statistics

V1 V2 V3 V4 V5

N Valid 40 40 40 40 40

Missing 0 0 0 0 0

Mean 2,680046E 2,969099E 7,807597E 7,037500E 1,718725E


3 4 1 0 0

Median 1,722808E 2,200135E 7,938923E 4,250000E 1,633500E


3 4 1 0 0

Mode 1,2706E2a 3,2196E3a 7,0551E1a 3,4000 1,3900a

Indicatori ai împrăștierii datelor:

Dispersia se determină ca medie aritmetică a pătratelor abaterilor individuale ale


valorilor de la tendinţa centrală, uzual de la medie deoarece cea mai mică sumă a pătratelor
abaterilor individuale față de o constantă se obține pentru constanta :

 x  x   x  x 
n n

 x  a 
2 n
 min
2 2
i i
aR i
i 1 i 1
-pentru un eşantion (sample variance, în engl.) - estimator s2  i 1
n 1
N

 x   
2
i
-pentru populaţia statistică – parametru 2  i 1
N

Abaterea Standard
In teoria probabilitatilor, abaterea standard a unei variabile aleatoare reprezinta o
masura a dispersiei acestei valorilor acesteia In jurul uneia considerate mijlocii. Se mai
numeste si abatere medie patratica.

Abaterea standard caracterizeaza gradul de variabilitate a variantelor individuale ale


caracteristicii de la valoarea medie. Cu cat abaterea medie patratica are o marime mai mica cu
atat valorile caracteristicii sunt mai concentrate in jurul mediei si in consecinta colectivitatea
statistica este mai omogena si invers, cu cat abaterea medie patratica are o marime mai mare
cu atat valorile individuale ale caracteristicii sunt mai dispersate si deci colectivitatea este mai
putin omogena.

Abaterea medie patratica are o aplicabilitate extinsa pentru dimensionarea sintetica a


variatiei caracteristicii studiate deoarece se exprima in aceleasi unitati de masura in care sunt
exprimate si variantele caracteristicii. Limita de aplicare se intalneste in cazul comparatiei pe
baza marimii sale a gradului de variabilitate dintre doua colectivitati statistice ale caror
caracteristici sunt exprimate in unitati de masura diferite sau sunt marimi cifrice de ordin
diferit.

Abaterea standard se calculeaza prin extragerea radacinii patrate din dispersie, astfel:

∑(𝑥 − 𝑥̅ )2
𝜎𝑥 = 𝐸[(𝑋 − 𝜇)2 ] = √
𝑛

Statistics

V1 V2 V3 V4 V5

N Valid 40 40 40 40 40

Missing 0 0 0 0 0

Std. Deviation 2,4469918 2,4913599 3,6626737 6,2046173


,3733768
E3 E4 E0 E0

Variance 5,988E6 6,207E8 13,415 38,497 ,139

I. Analiza componentelor principale

Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept
scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus
de componente, fara ca aceasta forma sa contina redundante informationale.Aceste
componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele,
fiecare fiind o combinatie liniara de variabilele originale.

Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa
indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a tarilor.
Standardizarea datelor

Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom
efectua Analiza Componentelor Principale pe date standardizate.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor
fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei
operatii si abaterea standard a respectivei variabile:
𝑥𝑡𝑐𝑖 𝑥𝑡𝑖 − 𝑥̅ 𝑖
𝑥𝑡𝑠𝑖= = , 𝑡 = 1,2, … , 𝑇
𝑠𝑖 𝑠𝑖
unde 𝑥̅ 𝑖 reprezinta media celei de-a i-a variabile, iar 𝑠𝑖 reprezinta abaterea standard a
variabilei 𝑥𝑖 .

1
 pentru cazul deplasat: 𝑠𝑖2 = 𝑇 ∑𝑇𝑡=1(𝑥𝑡𝑖 − 𝑥̅𝑖 )2

1

pentru cazul nedeplasat: 𝑠𝑖2 = 𝑇−1 ∑𝑇𝑡=1(𝑥𝑡𝑖 − 𝑥̅𝑖 )2
Matricea de corelatie
Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza
matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile
dintre variabilele initiale si determina componentele pricipale.

Correlation Matrix

Zscore(V1) Zscore(V2) Zscore(V3) Zscore(V4) Zscore(V5)

Correlation Zscore(V1) 1,000 ,963 ,777 -,545 -,123

Zscore(V2) ,963 1,000 ,747 -,552 -,111

Zscore(V3) ,777 ,747 1,000 -,663 -,038

Zscore(V4) -,545 -,552 -,663 1,000 ,390

Zscore(V5) -,123 -,111 -,038 ,390 1,000

Identificam in matrice coeficientii de corelatie atat mari cat si mici. Spre exemplu
putem observa cum cea mai puternica legatura este intre cheltuieli cu sanatatea pe cap de
locuitor si produsul intern brut pe cap de locuitor (0.963). O alta legatura destul de
puternica este cea dintre speranta de viata la nastere si cheltuielile pentru sanatate.

Exista si legaturi foarte slabe cum ar fi intre rata fertilitatii si produsul intern brut
pe locuitor (-0.111) sau speranta de viata la nastere si rata fertilitatii (-0.038).Putem
observa ca nici o legatura intre rata fertilitatii si celelalte categorii nu este una foarte puternica
, deci putem trage concluzia ca aceasta categorie nu este destul de compatibila cu celelalte.

Cum componentele principale sunt combinatii liniare de variabile originale, le putem


(𝑖) (𝑖) (𝑖)
privi sub forma unui vector de forma: 𝑤𝑖 = 𝛼1 ∗ 𝑥1 + 𝛼2 ∗ 𝑥2 + ⋯ + 𝛼𝑛 ∗ 𝑥𝑛 , unde
(𝑖)
𝑥1 , 𝑥2 … 𝑥𝑛 sunt variabilele originale si 𝛼𝑗 ponderile din tabelul de mai jos.
Influenţa variabilelor originale luate în studiu este dată de:
Communalities

Raw Rescaled

Initial Extraction Initial Extraction

Zscore(V1) 1,000 ,904 1,000 ,904

Zscore(V2) 1,000 ,891 1,000 ,891

Zscore(V3) 1,000 ,823 1,000 ,823

Zscore(V4) 1,000 ,736 1,000 ,736

Zscore(V5) 1,000 ,927 1,000 ,927

Extraction Method: Principal Component Analysis.

Acest tabel arătă procentul (coeficientul) din varianţa variabilei care poate fi explicat
pe baza tuturor factorilor. Astfel că, cu cât acest coeficient e mai apoape de 1, cu atât variabila
e mai bine explicată. Coloana “Initial” reprezintă varianţa sau dispersia iniţială a variabilelor,
variabile care sunt normate, drept pentru care ele au iniţial abaterea 1. Analizând tabelul
obţinut vom observa că variabilele rata fertilitatii şi cheltuielile pentru sanatate au o
contribuţie majoră la explicarea variabilelor artificiale care se obţin ulterior. Cantiatea de
informaţie recuperată de aceste două variabile este de 0,927 respectiv 0.904. De asemenea tot
din analiza tabelului de mai sus obţinem fatul că variabila rata moratilitatii infantile are
contribuţia cea mai mică în cadrul componentelor principale (0,736). Deoarece toţi
coeficienţii au valori mai mari decât 0,4, rezultă că nu este nevoie să eliminăm din analiza
noastră nicio variabilă. Pentru a stabili numărul de componente principale necesar în analiza
ulterioara se folosesc datele din tabeleul :

Total Variance Explained

Initial Eigenvaluesa Extraction Sums of Squared Loadings


Compo
nent Total % of Variance Cumulative % Total % of Variance Cumulative %

Raw 1 3,185 63,708 63,708 3,185 63,708 63,708

2 1,095 21,895 85,603 1,095 21,895 85,603

3 ,485 9,697 95,300

4 ,201 4,016 99,316

5 ,034 ,684 100,000

Rescaled 1 3,185 63,708 63,708 3,185 63,708 63,708

2 1,095 21,895 85,603 1,095 21,895 85,603

3 ,485 9,697 95,300

4 ,201 4,016 99,316

5 ,034 ,684 100,000

Vom observa că avem nevoie de două componente principale pentru a recupera o


cantiate de informaţie cât mai mare, o cantitate care să nu fie mai mică de 80%. Acest lucru
este confirmat şi de matricea de corelaţie. Aceste componente principale corespund valorilor
proprii cele mai mari, valori care reprezintă varianţele corespunzătoare celor două
componente reţinute. Utilizănd două componente principale , cantitatea de informaţie
recuperată este de 85,603% din informaţia iniţială.Prima componentă principală îmi
recuperează 63,708% din informaţia totaşă, iar cea de-a doua componentă îmi acopera
21,895%. Deoarece cantitatea totală de informaţie recuperată de cele două componente este
mai mare de 75% rezultă faptul că aceste două componente sunt suficiente. De asemenea
dimensiunea spaţiului iniţial, care a fost de 5 (dimensiunea spaţiului este egală cu numărul de
variabile analizate) este redusă prin această tehnică la 2, lucru realizat cu o pierdere minimă
de informaţie.
O altă modalitate de a stabili numărul de componente principale este utilizarea Scree
Plot-ului. Acesta este de fapt reprezentarea criteriului “ grohotisurilor”. Conform acestui
criteriu numărul de componente principale luate în studiu este dat de numărul de segmente
care uneşte valorile proprii şi care au panata semnificativ diferite de zero.

Imaginea Scree Plot reprezintă în formă grafică valorile Eigenvalue pentru toate
componentele prncipale rezultate din analiză şi care, numeric, sunt reprezentate în tabelul
Total Variance Explained de mai sus.Reprezentarea grafică a valorilor eigen aferente
factorilor, în ordinea extragerii lor, produce o curbă care poate da informaţii cu privire la
numărul de factori care trebuie reţinuţi. În reprezentarea noastra observăm că forma curbei
este împărţită în două zone, una în care panta este abruptă (este vorba de porţiunea din grafic
corespunzătoare componentelor 1 şi 2) şi alta în care panta este lină (este vorba de porţiunea
corespunzătoare componentelor 3,4,5). Punctului de intersecţie dintre cele două zone (este
vorba de punctul dat de reprezentarea punctului 3) îi corespunde un factor care va fi
considerat ca ultimul factor extras. Deci şi cu ajutorul acestei metode vom obţine tot două
componente principale la fel ca în cazul utilizării tabelului Total Variance Explained.

În ceea ce urmează, în vederea caracterizării componentelor obţinute, se determină


coeficientul de corelaţie între variabilele artificiale obţinute (componentele principale) şi
variabilele originale luate în calcul. Coeficienţii de corelaţie dintre variabilele artificiale
obţinute şi variabilele originale sunt daţi în tabelul care urmează:

Component Matrixa

Raw Rescaled

Component Component

1 2 1 2

Zscore(V1) ,932 ,188 ,932 ,188

Zscore(V2) ,924 ,191 ,924 ,191

Zscore(V3) ,888 ,183 ,888 ,183

Zscore(V4) -,780 ,356 -,780 ,356

Zscore(V5) -,254 ,929 -,254 ,929

Extraction Method: Principal Component Analysis.

a. 2 components extracted.

Datele din tabelul de mai sus se referă la soluţia factorială iniţială (înaintea procedurii
de rotaţie). Pentru ca interpretarea să fie facută cu usurinta se mai foloseşte şi tehnica rotirii
axelor( tehnica Varimax) ce are drept scop oţinerea unor coeficienţi de corelaţie cât mai mici
pe una din componentele principale. Însă interpretarea se face uşor şi pe prima matrice de
corelaţie (între componentele principale si variabilele iniţiale), obţinându-se aceeaşi
interpretare ca şi în cazul tehnicii Varimax, însă în cazul tehnicii Varimax rezutatele sunt mai
concludente.
Rotated Component Matrixa

Raw Rescaled

Component Component

1 2 1 2

Zscore(V1) ,948 -,070 ,948 -,070

Zscore(V2) ,941 -,065 ,941 -,065

Zscore(V3) ,905 -,063 ,905 -,063

Zscore(V4) -,656 ,553 -,656 ,553

Zscore(V5) ,006 ,963 ,006 ,963


Analizând aceşti coeficienţi de corelaţie, observăm că prima componentă principală
este puternic influenţată de variabila care exprimă speranta de viata la nastere. A doua
componentă principală este puternic influenţată de variabila care exprimă rata fertilitatii.
Matricea de rotaţie o regasim în Component Transformation Matrix:

Component Transformation
Matrix

Compo
nent 1 2

1 ,963 -,269

2 ,269 ,963

Extraction Method: Principal


Component Analysis.
Rotation Method: Varimax with
Kaiser Normalization.

Componentele principale sunt combinaţii liniare între variabilele iniţiale şi ponderi


asociate acestor variabile, ponderi care sunt date în tabelul de mai jos:

Component Score Coefficient


Matrixa

Component

1 2

Zscore(V1) ,328 ,086

Zscore(V2) ,326 ,090

Zscore(V3) ,314 ,086

Zscore(V4) -,148 ,379

Zscore(V5) ,152 ,839

Extraction Method: Principal


Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.

a. Coefficients are standardized.

De exemplu prima componentă principala poate fi scrisă în felul următor: 0,328*cheltuieli


pentru sanatae+0,326*PIB + 0,314 * speranta de viata la nastere -0,148 * rata mortalitatii
infantile + 0,152 * rata fertilitatii.
Aceeaşi interpretare ca la Rotated Component Matrix o putem face şi cu ajutorul
Component Plot in Rotated Space. Acesta ne arată că, cu cât o variabila este mai apropiată de
axa corespunzătoare unei componente, cu atât variabila respectivă influenţează într-o mai
mare măsură componenta respectivă.
II.Analiza Cluster

În continuare vom încerca realizarea unei clasificări a tarilor folosindu-ne de datele


standardizate. Deci vom realiza analiza cluster utilizând mai întâi metoda celor mai apropiati
vecini şi apoi metoda lui Ward. Această metodă este folosită pentru a grupa date multi-
dimensionale (“puncte” ce reprezintă cazuri sau observaţii) în grupe (clusters) definite
algoritmic. Analiza Cluster consta, de fapt, dintr-o colecţie de algoritmi ce exploatează mai
multe euristici fundamentate în principal pe experienţa noastră vizuală în gruparea punctelor
în “nori de puncte” . Pentru a putea folosi un algoritm de clasificare, este nevoie de
precizarea:
 Unei distanţe între punctele unui spaţiu multidimensional. În lucrarea de faţă vom
utiliza distanţa Euclidiană;
 O strategie de alegere a punctului reprezentativ (adică a centrului) pentru orice grupare
de puncte. De cele mai mule ori se alege media aritmetică (centrul de greutate);
 O distanţă între două grupe de puncte. Cele mai folosite asemenea distanţe sunt:
-distanţa între centre (în algoritmul Ward);
-distanţa între cei mai apropiaţi vecini (single linkage);
-distanţa între cei mai depărtaţi vecini (complete linkage).
Rezultatele analizei cluster sunt diferite în funcţie de metoda aplicată, astfel, după cum
se va putea observa din cele două dendograme precum şi din schemele de agregare, orinea în
care are loc gruparea obiectelor este diferită.

Metoda celor mai apropiati vecini

Agglomeration Schedule

Stage Cluster First


Cluster Combined Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage

1 6 23 ,098 0 0 14

2 21 32 ,120 0 0 24

3 27 38 ,133 0 0 8

4 4 18 ,153 0 0 13

5 22 28 ,169 0 0 12

6 1 37 ,169 0 0 32

7 2 26 ,170 0 0 11

8 16 27 ,208 0 3 22

9 11 40 ,219 0 0 13

10 24 30 ,228 0 0 27

11 2 10 ,267 7 0 16

12 17 22 ,272 0 5 22

13 4 11 ,278 4 9 14

14 4 6 ,295 13 1 15

15 4 19 ,297 14 0 20

16 2 14 ,298 11 0 17

17 2 7 ,305 16 0 29

18 29 36 ,307 0 0 19

19 8 29 ,309 0 18 28

20 4 33 ,314 15 0 23

21 34 39 ,319 0 0 28

22 16 17 ,351 8 12 24

23 3 4 ,358 0 20 25

24 16 21 ,380 22 2 26

25 3 25 ,397 23 0 26

26 3 16 ,409 25 24 27

27 3 24 ,450 26 10 30

28 8 34 ,552 19 21 29
29 2 8 ,586 17 28 30

30 2 3 ,616 29 27 31

31 2 9 ,813 30 0 33

32 1 15 ,819 6 0 33

33 1 2 1,532 32 31 34

34 1 20 1,587 33 0 35

35 1 13 1,600 34 0 37

36 12 35 1,763 0 0 37

37 1 12 3,406 35 36 38

38 1 31 7,439 37 0 39

39 1 5 8,958 38 0 0

În primul pas, se grupeaza tările 6 și 23 (clusterd combined), între acestea existând cea
mai mică distanță. Acestora li se adauga în etapa 14 (coloana Next Stage) o nouă țară (la pasul
14 se grupează 4 cu 6). Logica grupării este aceeași și pentru pașii următori.

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Belgium 6 ─┐
Finland 23 ─┤
Austria 4 ─┤
Germany 18 ─┤
Canada 11 ─┤
Netherlands 40 ─┤
Denmark 19 ─┤
Japan 33 ─┤
Australia 3 ─┤
United Kingdom 25 ─┤
Spain 21 ─┤
Italy 32 ─┤
Greece 27 ─┤
Malta 38 ─┼─┐
Cyprus 16 ─┤ │
Estonia 22 ─┤ │
Croatia 28 ─┤ │
Czech Republic 17 ─┤ │
France 24 ─┤ │
Iceland 30 ─┘ ├─┐
Armenia 2 ─┐ │ │
Georgia 26 ─┤ │ │
Brazil 10 ─┤ │ │
China 14 ─┼─┤ │
Bulgaria 7 ─┘ │ ├───┐
Hungary 29 ─┐ │ │ │
Latvia 36 ─┼─┤ │ │
Bosnia and Herzegovina 8 ─┘ │ │ │
Lithuania 34 ─┬─┘ │ │
Montenegro 39 ─┘ │ │
Belarus 9 ─────┘ │
Argentina 1 ─┬───┐ │
Mexico 37 ─┘ ├───┤
Colombia 15 ─────┘ ├─────────┐
Ecuador 20 ─────────┤ ├─────────────────────┐
Chile 13 ─────────┘ │ │
Switzerland 12 ─────────┬─────────┘ ├───────┐
Luxembourg 35 ─────────┘ │ │
Israel 31 ─────────────────────────────────────────┘ │

Azerbaijan 5 ─────────────────────────────────────────────────┘

Metoda lui Ward

Metoda celor mai apropiaţi vecini nu ilustrează foarte clar clustere de tări, motiv
pentru care metoda lui Ward este cea care va furniza numărul de clustere în care vom împărţii
cele 40 de state. Dendograma sugerează un număr de 7 mari grupe. Schema de grupare este
diferită fată de cea din cazul precedent

Agglomeration Schedule

Cluster Combined Stage Cluster First Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage

1 6 23 ,049 0 0 17

2 21 32 ,109 0 0 26

3 27 38 ,175 0 0 13

4 4 18 ,251 0 0 14

5 22 28 ,336 0 0 16

6 1 37 ,420 0 0 22

7 2 26 ,505 0 0 15

8 11 40 ,615 0 0 18

9 24 30 ,729 0 0 21

10 7 14 ,881 0 0 23

11 29 36 1,035 0 0 19

12 34 39 1,195 0 0 24

13 16 27 1,361 0 3 26

14 4 33 1,587 4 0 31

15 2 10 1,814 7 0 23

16 17 22 2,045 0 5 27

17 6 25 2,304 1 0 21

18 11 19 2,566 8 0 20

19 8 29 2,843 0 11 28

20 3 11 3,238 0 18 30

21 6 24 3,722 17 9 30
22 1 15 4,294 6 0 29

23 2 7 4,919 15 10 33

24 9 34 5,607 0 12 28

25 12 35 6,488 0 0 37

26 16 21 7,376 13 2 31

27 13 17 8,609 0 16 32

28 8 9 10,088 19 24 32

29 1 20 11,608 22 0 34

30 3 6 13,527 20 21 35

31 4 16 16,624 14 26 35

32 8 13 19,835 28 27 33

33 2 8 27,073 23 32 38

34 1 5 35,371 29 0 36

35 3 4 44,734 30 31 37

36 1 31 57,377 34 0 38

37 3 12 72,039 35 25 39

38 1 2 101,167 36 33 39

39 1 3 195,000 38 37 0

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Belgium 6 ─┐
Finland 23 ─┤
United Kingdom 25 ─┤
France 24 ─┤
Iceland 30 ─┼───┐
Canada 11 ─┤ │
Netherlands 40 ─┤ │
Denmark 19 ─┤ ├─┐
Australia 3 ─┘ │ │
Austria 4 ─┐ │ │
Germany 18 ─┤ │ │
Japan 33 ─┼───┘ │
Spain 21 ─┤ ├─────────────────────────────────────────┐
Italy 32 ─┤ │ │
Greece 27 ─┤ │ │
Malta 38 ─┤ │ │
Cyprus 16 ─┘ │ │
Switzerland 12 ─┬─────┘ │
Luxembourg 35 ─┘ │
Bulgaria 7 ─┐ │
China 14 ─┼─┐ │
Armenia 2 ─┤ │ │
Georgia 26 ─┤ │ │
Brazil 10 ─┘ │ │
Estonia 22 ─┐ ├───────────┐ │
Croatia 28 ─┤ │ │ │
Czech Republic 17 ─┤ │ │ │
Chile 13 ─┤ │ │ │
Hungary 29 ─┼─┘ │ │
Latvia 36 ─┤ │ │
Bosnia and Herzegovina 8 ─┤ │ │
Lithuania 34 ─┤ ├─────────────────────────────────┘
Montenegro 39 ─┤ │
Belarus 9 ─┘ │
Argentina 1 ─┐ │
Mexico 37 ─┤ │
Colombia 15 ─┼───┐ │
Ecuador 20 ─┘ ├─┐ │
Azerbaijan 5 ─────┘ ├───────┘

Israel 31 ───────┘

Cluster 1: Belgia, Finlanda, Regatul Unit, Franta, Islanda, Canada, Olanda, Danemarca,
Australia

Cluster 2: Austria, Germania, Japonia, Spania, Italia, Grecia, Malta, Cipru,

Cluster 3: Elvetia, Luxemburg

Cluster 4:Bulgaria, China, Armenia, Georgia,Brazilia

Cluster 5:Estonia,Croatia,Letonia,Bosnia,Lituania,Muntenegru,Belarus

Cluster 6:Argentina,Mexic,Columbia,Ecuador

Cluster 7: Azerbaijan, Israel

În cazul de faţă, metoda lui Ward a dus la obţinerea unor rezultate mai bune, permiţând o
diferenţieră mai clară a clusterelor. Folosind principiul minimizării varianţei în cadrul
grupurilor, ilustrează mai bine profilul tărilor.

III.Analiza discriminantă

Prin conţinutul său şi prin natura procedurilor şi tehnicilor pe care le utilizează ,analiza
discriminanta este echivalentă cu rezolvarea unei probleme de predicţie cu privire la
apartenenţa la o anumită clasă a unor noi obiecte. Acesta constituie scopul principal al teoriei
recunoaşterii formelor.
Există câteva scopuri ale acestei analize:
-să clasifice cazurile în grupuri utilizând o ecuaţie de predicţie a discriminantului
-să testeze teoria prin observarea faptului că cazurile sunt clasificate aşa cum au
fost prevăzute
-să investigheze diferenţele dintre sau din interiorul grupurilor
-să determine cel mai posibil mod de a distinge între grupuri
-să determine procentul variantei în variabila dependentă explicat de către independente
-să se determine proporţia variabilei dependente explicat de către independente
-prin sau deasupra variantei calculate prin variabila de control utilizând analiza
discriminatului secvențială
-să arate importanța relativă a variabilelor independente în clasificarea variabilei dependente
-să precizeze variabilele care sunt într-o măsură mică legate de distincţiile grupului

Adăugăm o nouă coloană suplimentară, ce se referă la mărimea țării respective ca și


populație, obținând astfel:

1.țări de dimensiune mica ( 0-10 milioane locuitori )


2.țări de dimensiune medie ( 10-20 milioane locuitori )
3.țări de dimensiune mare ( peste 20 milioane locuitori )

Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

Zscore(V1) ,987 ,237 2 37 ,790

Zscore(V2) ,997 ,052 2 37 ,949

Zscore(V3) ,912 1,775 2 37 ,184

Zscore(V4) ,997 ,047 2 37 ,954

Zscore(V5) ,962 ,724 2 37 ,492

În tabelul ”Test of Equality of Group Means” este prezentat rezultatul ”univariate


ANOVA” pentru fiecare variabilă în parte.

Classification Function Coefficients

Dimensiune

1 2 3

Zscore(V1) -,625 ,428 ,811

Zscore(V2) 1,008 -1,137 -1,104

Zscore(V3) -,902 1,175 ,915

Zscore(V4) -,406 ,339 ,499

Zscore(V5) -,077 ,147 ,057

(Constant) -1,255 -1,344 -1,279

Fisher's linear discriminant functions

În tabelul de mai sus, sunt prezentați coeficienții funcțiilor clasificatorilor, care sunt
combinații liniare de variabilele originale. Acești coeficienți sunt rezultatul unei probleme de
optim, ce presupune minimizrea varianței dintre grupe și reprezintă ecuația dreptei trasate
pentru a separa spațiul obiectelor în clasele de mai sus.
Eigenvalues

Functio Canonical
n Eigenvalue % of Variance Cumulative % Correlation

1 ,375a 97,7 97,7 ,522

2 ,009a 2,3 100,0 ,094

a. First 2 canonical discriminant functions were used in the analysis.

În tabelul Eigenvalues observăm valorile proprii associate funcțiilor, iar funcțiile cu


cele mai mari valori proprii sunt acele funcții cu o putere maximă de discriminanță. Se
observă în acest caz că prima funcție are o putere de discriminare mai mare, cumulând 52,2%
din varianța din interiorul grupei.

Wilks' Lambda

Test of
Function(s) Wilks' Lambda Chi-square df Sig.

1 through 2 ,721 11,459 10 ,323

2 ,991 ,308 4 ,989

Pe baza tabelului de mai sus, Wilks Lambda, putem verifica dacă există diferențe
majore între clasele propuse. Testul Wilks Lamda verifică semnificația tuturor funcțiilor de
discriminare pe un interval precizat. Pentru o discriminare cât mai bună este necesar ca
valoarea lui să fie mai mare decât 0.05 , criteriu ce se respectă în ambele cazuri( 0.721 și
0.991).
Urmărind interpretarea grafică de mai sus asupra celor trei clase, vedem cum se
poziționează în jurul centroizilor și cam cum sunt de omogene. Nu se observă nicio clasă cu
un grad foarte redus de dispersie doarece toate trei au câte o componentă care se apropie de
alte clase.

Classification Resultsa

Predicted Group Membership


Dimensi
une 1 2 3 Total

Original Count 1 14 3 4 21

2 1 3 2 6

3 3 6 4 13

% 1 66,7 14,3 19,0 100,0

2 16,7 50,0 33,3 100,0

3 23,1 46,2 30,8 100,0

a. 52,5% of original grouped cases correctly classified.

Tabelul Classification results arată un sumar al rezultatelor analizei discriminante,


comparând numărul de obiecte correct clasificate cu cele incorrect clasificate, propunând și
grupele unde ar fi trebuit să fie incluse. Pentru clasele originale I de pe linie și clasele
propuse j de pe coloană, elemental aij reprezintă numărul de component din clasa I ce ar fi
trebuit să fie în clasa j. Suma elementelor de pe diagonal principal este numărul de obiecte
corect clasificate.

Concluzii

Lumea se afla intr-o continua schimbare sau transformare. Asadar consider ca nivelul
de investitie in sanatatea mamei si al copilului accelereaza ritmul de dezvoltare al sanatatii,
dar si al economieic

Aceasta analiza ne sugereaza prin intermediul cifrelor , legatura ce o au anumite tari


intre ele si nivelul de investitie in sanatate specifice celor 40 de tari observate.

Asadar precizez ca informatiile despre sanatate furnizate, pot fi utile in diverse


domenii de activitate stiintifice sau practice.

S-ar putea să vă placă și