Proiect AnalizaDatelor BoboescuDanAlexandru

Academia de Studii Economice din Bucureşti
Facultatea de Cibernetică, Statistică și Informatică Economică
Proiect Analiza Datelor
Student: Boboescu Dan Alexandru

Profesor îndrumător: Andreea Muraru
Grupa: 1049
Seria: A – Informatica Economica
Introducere
Proiectul isi propune sa analizeze date legate de nivelul de investitie in sanatatea

mamei si al copilului din diferite tari si efectul acestora asupra calitatii vietii.
Matricea de date conține 40 de observații reprezentând țări, pentru care am luat în

considerare 5 caracteristici. Datele sunt preluate de pe site-ul Băncii Mondiale
(http://databank.worldbank.org) și reprezintă diferiți indicatori macroeconomici ai țărilor
respective pentru anul 2011.
Descrierea datelor
Variabilele luate in considerare au fost:
Cheltuieli cu sanatatea pe cap de locuitor (pretul pietei - $)
Cheltuielile totale cu sanatatea reprezinta suma de bani cheltuita de catre sectorul

public sau privat cu scopul sanatatii, raportat la volumul populatiei. Acopera proviziile de
servicii medicale (preventive si curative), activitati planificate de familie, activitati de nutritie
si ajutor de urgenta de sanatate, dar nu include provizii de apa si salubritate. Numerele sunte
exprimate in dolari americani.
Produs Intern Brut pe cap de locuitor (pretul pietei - $))
Produsul intern brut (prescurtat PIB) este un indicator macroeconomic care reflecta
suma valorii de piata a tuturor marfurilor si serviciilor destinate consumului final, produse In
toate ramurile economiei In interiorul unei tari In decurs de un an.
Speranta de viata la nastere
Speranta de viata la nastere reprezinta media duratelor de viata a unei generatii

imaginare care ar fi supusa intreaga sa viata ratelor de mortalitate pe grupe de varsta ale
anului de observare; reprezinta numarul mediu de ani pe care o persoana il poate trai in mod
obisnuit, exprimat la nastere; difera in functie de sexul persoanei.
Speranta de viata la nastere constituie indicatorul corectat al mortalitatii si

inregistreaza valori diferite pe regiuni si tari in functie de mai multi factorii.
Rata Mortalitatii infantile (Numarul nou-Nascutilor decedati/1000 nasteri vii)

Rata mortalitatii infantile reprezinta numarul de nou-nascuti morti Intr-o perioada de un an de
la nastere, raportat la un numar de 1000 de nasteri reusite, Intr-un anumit an.
Cea mai importanta cauza a mortalitatii infantile este deshidratarea din cauza diareei.
Datorita succesului In raspandirea informatiei despre solutiile orale rehidratante (un amestec
de saruri, zahar si apa), numarul copiilor care mor din cauza deshidratarii a scazut, ajungand
pe locul doi spre sfarsitul anilor 1990. In prezent, cea mai comuna cauza a mortalitatii
infantile este pneumonia.
Rata fertilitatii (nasteri pe femeie)
Rata fertilitatii reprezinta numarul de copii nascuti de o femeie, In ipoteza ca aceasta

ar trai pana la dupa varsta procrearii si daca ar avea un numar de copii relevant cu specificul
varstei.
Pentru a efectua acest studiu am avut în vedere 40 de tari : Argentina, Armenia,

Australia, Austria, Azerbaijan, Belgium, Bulgaria, Bosnia and Herzegovina, Belarus, Brazil,
Canada, Switzerland, Chile, China, Colombia, Cyprus, Czech Republic, Germany, Denmark,
Ecuador, Spain, Estonia, Finland, France, United Kingdom, Georgia, Greece, Croatia,
Hungary, Iceland, Israel, Italy, Japan, Lithuania, Luxembourg, Latvia, Mexico, Malta,
Montenegro, Netherlands
Descrierea Statistica a datelor

Analiza indicatorilor tendinței centrale :
Indicatorii fundamentali ai tendinţei centrale sunt:
 media aritmetică (𝑥̅ )

 mediana (Me)
 modul (Mo)
Media
Mediile sunt marimi statistice care exprima In mod sintetic si generalizat ceea ce este
normal, logic, esential, tipic pentru toate unitatile colectivitatii distribuite dupa o
caracteristica.
Media se calculeaza dupa formula:
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑁
Pentru ca o medie sa fie reprezentativa, trebuie sa Indeplineasca urmatoarele conditii:
 Sa fie calculata dintr-un numar suficient de mare de cazuri individuale

 Valorile din care se calculeaza media trebuie sa fie omogene. Daca exista diferente
foarte mari Intre valori, media poate deveni fara sens.
 Trebuie ales tipul de medie semnificativ pentru datele existente
Mediana
Mediana reprezintă valoarea din mijlocul unei serii de date ordonate.Este un indicator
mediu de poziţie care face parte din categoria cuantilelor si ia în consideraţie doar poziţia
observaţiilor în serie, nu şi mărimea lor efectivă (nu este afectată de prezenţa valorilor
extreme).
Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe axa absciselor a
punctului de intersecţie dintre cele două curbe ale frecvenţelor cumulate (crescător şi
descrescător).
Pentru a determina mediana se introduce noţiunea de ranguri, adică numere de ordine
asociate observaţiilor, de la cea mai mică (cu rangul 1), până la cea mai mare (rangul n)
.Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unităţii din mijlocul seriei.
Modul
Modulul este parametrul care corespunde celei mai mari frecvențe, adică este valoarea
cea mai frecvent întâlnită.Valoarea modală se poate determina pentru orice tip de variabilă
(nenumerică sau numerică), indiferent de scala de măsurare.
Grafic, într-o histogramă ori poligon al frecvenţelor, modul reprezintă valoarea de pe

abscisă, corespunzătoare vârfului reprezentării.
Ținând cont de aceste caracteristici, media este recomandata în cazul variabilelor

numerice care îndeplinesc conditiile parametrice (distributie normala, omogenitate s.a.).
Mediana se recomanda pentru cazurile în care nu sunt îndeplinite conditiile parametrice
(distributii asimetrice, etrogenitate crescuta etc) si în cazul variabilelor de tip ordinal. Modul
este utilizat mai rar pentru date numerice, fiind însa foarte util în cazul variabilelor de tip
categorial (date calitative, nominale), deoarece nu putem calcula ceilalti parametrii centrali.
Statistics
V1 V2 V3 V4 V5
N Valid 40 40 40 40 40
Missing 0 0 0 0 0
Mean 2,680046E 2,969099E 7,807597E 7,037500E 1,718725E

3 4 1 0 0
Median 1,722808E 2,200135E 7,938923E 4,250000E 1,633500E

3 4 1 0 0
Mode 1,2706E2a 3,2196E3a 7,0551E1a 3,4000 1,3900a
Indicatori ai împrăștierii datelor:
Dispersia se determină ca medie aritmetică a pătratelor abaterilor individuale ale

valorilor de la tendinţa centrală, uzual de la medie deoarece cea mai mică sumă a pătratelor
abaterilor individuale față de o constantă se obține pentru constanta :
 x  x   x  x 
n n
 x  a 
2 n
 min
2 2
i i
aR i
i 1 i 1
-pentru un eşantion (sample variance, în engl.) - estimator s2  i 1
n 1
N
 x   
2
i
-pentru populaţia statistică – parametru 2  i 1
N
Abaterea Standard
In teoria probabilitatilor, abaterea standard a unei variabile aleatoare reprezinta o
masura a dispersiei acestei valorilor acesteia In jurul uneia considerate mijlocii. Se mai
numeste si abatere medie patratica.
Abaterea standard caracterizeaza gradul de variabilitate a variantelor individuale ale

caracteristicii de la valoarea medie. Cu cat abaterea medie patratica are o marime mai mica cu
atat valorile caracteristicii sunt mai concentrate in jurul mediei si in consecinta colectivitatea
statistica este mai omogena si invers, cu cat abaterea medie patratica are o marime mai mare
cu atat valorile individuale ale caracteristicii sunt mai dispersate si deci colectivitatea este mai
putin omogena.
Abaterea medie patratica are o aplicabilitate extinsa pentru dimensionarea sintetica a

variatiei caracteristicii studiate deoarece se exprima in aceleasi unitati de masura in care sunt
exprimate si variantele caracteristicii. Limita de aplicare se intalneste in cazul comparatiei pe
baza marimii sale a gradului de variabilitate dintre doua colectivitati statistice ale caror
caracteristici sunt exprimate in unitati de masura diferite sau sunt marimi cifrice de ordin
diferit.
Abaterea standard se calculeaza prin extragerea radacinii patrate din dispersie, astfel:
∑(𝑥 − 𝑥̅ )2
𝜎𝑥 = 𝐸[(𝑋 − 𝜇)2 ] = √
𝑛
Statistics
V1 V2 V3 V4 V5
N Valid 40 40 40 40 40
Missing 0 0 0 0 0
Std. Deviation 2,4469918 2,4913599 3,6626737 6,2046173

,3733768
E3 E4 E0 E0
Variance 5,988E6 6,207E8 13,415 38,497 ,139
I. Analiza componentelor principale
Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept
scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus
de componente, fara ca aceasta forma sa contina redundante informationale.Aceste
componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele,
fiecare fiind o combinatie liniara de variabilele originale.
Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa
indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a tarilor.
Standardizarea datelor
Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom
efectua Analiza Componentelor Principale pe date standardizate.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor
fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei
operatii si abaterea standard a respectivei variabile:
𝑥𝑡𝑐𝑖 𝑥𝑡𝑖 − 𝑥̅ 𝑖
𝑥𝑡𝑠𝑖= = , 𝑡 = 1,2, … , 𝑇
𝑠𝑖 𝑠𝑖
unde 𝑥̅ 𝑖 reprezinta media celei de-a i-a variabile, iar 𝑠𝑖 reprezinta abaterea standard a
variabilei 𝑥𝑖 .
1
 pentru cazul deplasat: 𝑠𝑖2 = 𝑇 ∑𝑇𝑡=1(𝑥𝑡𝑖 − 𝑥̅𝑖 )2
1

pentru cazul nedeplasat: 𝑠𝑖2 = 𝑇−1 ∑𝑇𝑡=1(𝑥𝑡𝑖 − 𝑥̅𝑖 )2
Matricea de corelatie
Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza
matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile
dintre variabilele initiale si determina componentele pricipale.
Correlation Matrix
Zscore(V1) Zscore(V2) Zscore(V3) Zscore(V4) Zscore(V5)
Correlation Zscore(V1) 1,000 ,963 ,777 -,545 -,123
Zscore(V2) ,963 1,000 ,747 -,552 -,111
Zscore(V3) ,777 ,747 1,000 -,663 -,038
Zscore(V4) -,545 -,552 -,663 1,000 ,390
Zscore(V5) -,123 -,111 -,038 ,390 1,000
Identificam in matrice coeficientii de corelatie atat mari cat si mici. Spre exemplu
putem observa cum cea mai puternica legatura este intre cheltuieli cu sanatatea pe cap de
locuitor si produsul intern brut pe cap de locuitor (0.963). O alta legatura destul de
puternica este cea dintre speranta de viata la nastere si cheltuielile pentru sanatate.
Exista si legaturi foarte slabe cum ar fi intre rata fertilitatii si produsul intern brut
pe locuitor (-0.111) sau speranta de viata la nastere si rata fertilitatii (-0.038).Putem
observa ca nici o legatura intre rata fertilitatii si celelalte categorii nu este una foarte puternica
, deci putem trage concluzia ca aceasta categorie nu este destul de compatibila cu celelalte.
Cum componentele principale sunt combinatii liniare de variabile originale, le putem

(𝑖) (𝑖) (𝑖)
privi sub forma unui vector de forma: 𝑤𝑖 = 𝛼1 ∗ 𝑥1 + 𝛼2 ∗ 𝑥2 + ⋯ + 𝛼𝑛 ∗ 𝑥𝑛 , unde
(𝑖)
𝑥1 , 𝑥2 … 𝑥𝑛 sunt variabilele originale si 𝛼𝑗 ponderile din tabelul de mai jos.
Influenţa variabilelor originale luate în studiu este dată de:
Communalities
Raw Rescaled
Initial Extraction Initial Extraction
Zscore(V1) 1,000 ,904 1,000 ,904
Zscore(V2) 1,000 ,891 1,000 ,891
Zscore(V3) 1,000 ,823 1,000 ,823
Zscore(V4) 1,000 ,736 1,000 ,736
Zscore(V5) 1,000 ,927 1,000 ,927
Extraction Method: Principal Component Analysis.
Acest tabel arătă procentul (coeficientul) din varianţa variabilei care poate fi explicat
pe baza tuturor factorilor. Astfel că, cu cât acest coeficient e mai apoape de 1, cu atât variabila
e mai bine explicată. Coloana “Initial” reprezintă varianţa sau dispersia iniţială a variabilelor,
variabile care sunt normate, drept pentru care ele au iniţial abaterea 1. Analizând tabelul
obţinut vom observa că variabilele rata fertilitatii şi cheltuielile pentru sanatate au o
contribuţie majoră la explicarea variabilelor artificiale care se obţin ulterior. Cantiatea de
informaţie recuperată de aceste două variabile este de 0,927 respectiv 0.904. De asemenea tot
din analiza tabelului de mai sus obţinem fatul că variabila rata moratilitatii infantile are
contribuţia cea mai mică în cadrul componentelor principale (0,736). Deoarece toţi
coeficienţii au valori mai mari decât 0,4, rezultă că nu este nevoie să eliminăm din analiza
noastră nicio variabilă. Pentru a stabili numărul de componente principale necesar în analiza
ulterioara se folosesc datele din tabeleul :
Total Variance Explained
Initial Eigenvaluesa Extraction Sums of Squared Loadings

Compo
nent Total % of Variance Cumulative % Total % of Variance Cumulative %
Raw 1 3,185 63,708 63,708 3,185 63,708 63,708
2 1,095 21,895 85,603 1,095 21,895 85,603
3 ,485 9,697 95,300
4 ,201 4,016 99,316
5 ,034 ,684 100,000
Rescaled 1 3,185 63,708 63,708 3,185 63,708 63,708
2 1,095 21,895 85,603 1,095 21,895 85,603
3 ,485 9,697 95,300
4 ,201 4,016 99,316
5 ,034 ,684 100,000
Vom observa că avem nevoie de două componente principale pentru a recupera o

cantiate de informaţie cât mai mare, o cantitate care să nu fie mai mică de 80%. Acest lucru
este confirmat şi de matricea de corelaţie. Aceste componente principale corespund valorilor
proprii cele mai mari, valori care reprezintă varianţele corespunzătoare celor două
componente reţinute. Utilizănd două componente principale , cantitatea de informaţie
recuperată este de 85,603% din informaţia iniţială.Prima componentă principală îmi
recuperează 63,708% din informaţia totaşă, iar cea de-a doua componentă îmi acopera
21,895%. Deoarece cantitatea totală de informaţie recuperată de cele două componente este
mai mare de 75% rezultă faptul că aceste două componente sunt suficiente. De asemenea
dimensiunea spaţiului iniţial, care a fost de 5 (dimensiunea spaţiului este egală cu numărul de
variabile analizate) este redusă prin această tehnică la 2, lucru realizat cu o pierdere minimă
de informaţie.
O altă modalitate de a stabili numărul de componente principale este utilizarea Scree
Plot-ului. Acesta este de fapt reprezentarea criteriului “ grohotisurilor”. Conform acestui
criteriu numărul de componente principale luate în studiu este dat de numărul de segmente
care uneşte valorile proprii şi care au panata semnificativ diferite de zero.
Imaginea Scree Plot reprezintă în formă grafică valorile Eigenvalue pentru toate
componentele prncipale rezultate din analiză şi care, numeric, sunt reprezentate în tabelul
Total Variance Explained de mai sus.Reprezentarea grafică a valorilor eigen aferente
factorilor, în ordinea extragerii lor, produce o curbă care poate da informaţii cu privire la
numărul de factori care trebuie reţinuţi. În reprezentarea noastra observăm că forma curbei
este împărţită în două zone, una în care panta este abruptă (este vorba de porţiunea din grafic
corespunzătoare componentelor 1 şi 2) şi alta în care panta este lină (este vorba de porţiunea
corespunzătoare componentelor 3,4,5). Punctului de intersecţie dintre cele două zone (este
vorba de punctul dat de reprezentarea punctului 3) îi corespunde un factor care va fi
considerat ca ultimul factor extras. Deci şi cu ajutorul acestei metode vom obţine tot două
componente principale la fel ca în cazul utilizării tabelului Total Variance Explained.
În ceea ce urmează, în vederea caracterizării componentelor obţinute, se determină

coeficientul de corelaţie între variabilele artificiale obţinute (componentele principale) şi
variabilele originale luate în calcul. Coeficienţii de corelaţie dintre variabilele artificiale
obţinute şi variabilele originale sunt daţi în tabelul care urmează:
Component Matrixa
Raw Rescaled
Component Component
1 2 1 2
Zscore(V1) ,932 ,188 ,932 ,188
Zscore(V2) ,924 ,191 ,924 ,191
Zscore(V3) ,888 ,183 ,888 ,183
Zscore(V4) -,780 ,356 -,780 ,356
Zscore(V5) -,254 ,929 -,254 ,929
Extraction Method: Principal Component Analysis.
a. 2 components extracted.
Datele din tabelul de mai sus se referă la soluţia factorială iniţială (înaintea procedurii
de rotaţie). Pentru ca interpretarea să fie facută cu usurinta se mai foloseşte şi tehnica rotirii
axelor( tehnica Varimax) ce are drept scop oţinerea unor coeficienţi de corelaţie cât mai mici
pe una din componentele principale. Însă interpretarea se face uşor şi pe prima matrice de
corelaţie (între componentele principale si variabilele iniţiale), obţinându-se aceeaşi
interpretare ca şi în cazul tehnicii Varimax, însă în cazul tehnicii Varimax rezutatele sunt mai
concludente.
Rotated Component Matrixa
Raw Rescaled
Component Component
1 2 1 2
Zscore(V1) ,948 -,070 ,948 -,070
Zscore(V2) ,941 -,065 ,941 -,065
Zscore(V3) ,905 -,063 ,905 -,063
Zscore(V4) -,656 ,553 -,656 ,553
Zscore(V5) ,006 ,963 ,006 ,963

Analizând aceşti coeficienţi de corelaţie, observăm că prima componentă principală
este puternic influenţată de variabila care exprimă speranta de viata la nastere. A doua
componentă principală este puternic influenţată de variabila care exprimă rata fertilitatii.
Matricea de rotaţie o regasim în Component Transformation Matrix:
Component Transformation
Matrix
Compo
nent 1 2
1 ,963 -,269
2 ,269 ,963
Extraction Method: Principal

Component Analysis.
Rotation Method: Varimax with
Kaiser Normalization.
Componentele principale sunt combinaţii liniare între variabilele iniţiale şi ponderi

asociate acestor variabile, ponderi care sunt date în tabelul de mai jos:
Component Score Coefficient

Matrixa
Component
1 2
Zscore(V1) ,328 ,086
Zscore(V2) ,326 ,090
Zscore(V3) ,314 ,086
Zscore(V4) -,148 ,379
Zscore(V5) ,152 ,839
Extraction Method: Principal

Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
a. Coefficients are standardized.
De exemplu prima componentă principala poate fi scrisă în felul următor: 0,328*cheltuieli

pentru sanatae+0,326*PIB + 0,314 * speranta de viata la nastere -0,148 * rata mortalitatii
infantile + 0,152 * rata fertilitatii.
Aceeaşi interpretare ca la Rotated Component Matrix o putem face şi cu ajutorul
Component Plot in Rotated Space. Acesta ne arată că, cu cât o variabila este mai apropiată de
axa corespunzătoare unei componente, cu atât variabila respectivă influenţează într-o mai
mare măsură componenta respectivă.
II.Analiza Cluster
În continuare vom încerca realizarea unei clasificări a tarilor folosindu-ne de datele

standardizate. Deci vom realiza analiza cluster utilizând mai întâi metoda celor mai apropiati
vecini şi apoi metoda lui Ward. Această metodă este folosită pentru a grupa date multi-
dimensionale (“puncte” ce reprezintă cazuri sau observaţii) în grupe (clusters) definite
algoritmic. Analiza Cluster consta, de fapt, dintr-o colecţie de algoritmi ce exploatează mai
multe euristici fundamentate în principal pe experienţa noastră vizuală în gruparea punctelor
în “nori de puncte” . Pentru a putea folosi un algoritm de clasificare, este nevoie de
precizarea:
 Unei distanţe între punctele unui spaţiu multidimensional. În lucrarea de faţă vom
utiliza distanţa Euclidiană;
 O strategie de alegere a punctului reprezentativ (adică a centrului) pentru orice grupare
de puncte. De cele mai mule ori se alege media aritmetică (centrul de greutate);
 O distanţă între două grupe de puncte. Cele mai folosite asemenea distanţe sunt:
-distanţa între centre (în algoritmul Ward);
-distanţa între cei mai apropiaţi vecini (single linkage);
-distanţa între cei mai depărtaţi vecini (complete linkage).
Rezultatele analizei cluster sunt diferite în funcţie de metoda aplicată, astfel, după cum
se va putea observa din cele două dendograme precum şi din schemele de agregare, orinea în
care are loc gruparea obiectelor este diferită.
Metoda celor mai apropiati vecini
Agglomeration Schedule
Stage Cluster First

Cluster Combined Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 6 23 ,098 0 0 14
2 21 32 ,120 0 0 24
3 27 38 ,133 0 0 8
4 4 18 ,153 0 0 13
5 22 28 ,169 0 0 12
6 1 37 ,169 0 0 32
7 2 26 ,170 0 0 11
8 16 27 ,208 0 3 22
9 11 40 ,219 0 0 13
10 24 30 ,228 0 0 27
11 2 10 ,267 7 0 16
12 17 22 ,272 0 5 22
13 4 11 ,278 4 9 14
14 4 6 ,295 13 1 15
15 4 19 ,297 14 0 20
16 2 14 ,298 11 0 17
17 2 7 ,305 16 0 29
18 29 36 ,307 0 0 19
19 8 29 ,309 0 18 28
20 4 33 ,314 15 0 23
21 34 39 ,319 0 0 28
22 16 17 ,351 8 12 24
23 3 4 ,358 0 20 25
24 16 21 ,380 22 2 26
25 3 25 ,397 23 0 26
26 3 16 ,409 25 24 27
27 3 24 ,450 26 10 30
28 8 34 ,552 19 21 29
29 2 8 ,586 17 28 30
30 2 3 ,616 29 27 31
31 2 9 ,813 30 0 33
32 1 15 ,819 6 0 33
33 1 2 1,532 32 31 34
34 1 20 1,587 33 0 35
35 1 13 1,600 34 0 37
36 12 35 1,763 0 0 37
37 1 12 3,406 35 36 38
38 1 31 7,439 37 0 39
39 1 5 8,958 38 0 0
În primul pas, se grupeaza tările 6 și 23 (clusterd combined), între acestea existând cea
mai mică distanță. Acestora li se adauga în etapa 14 (coloana Next Stage) o nouă țară (la pasul
14 se grupează 4 cu 6). Logica grupării este aceeași și pentru pașii următori.
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Belgium 6 ─┐
Finland 23 ─┤
Austria 4 ─┤
Germany 18 ─┤
Canada 11 ─┤
Netherlands 40 ─┤
Denmark 19 ─┤
Japan 33 ─┤
Australia 3 ─┤
United Kingdom 25 ─┤
Spain 21 ─┤
Italy 32 ─┤
Greece 27 ─┤
Malta 38 ─┼─┐
Cyprus 16 ─┤ │
Estonia 22 ─┤ │
Croatia 28 ─┤ │
Czech Republic 17 ─┤ │
France 24 ─┤ │
Iceland 30 ─┘ ├─┐
Armenia 2 ─┐ │ │
Georgia 26 ─┤ │ │
Brazil 10 ─┤ │ │
China 14 ─┼─┤ │
Bulgaria 7 ─┘ │ ├───┐
Hungary 29 ─┐ │ │ │
Latvia 36 ─┼─┤ │ │
Bosnia and Herzegovina 8 ─┘ │ │ │
Lithuania 34 ─┬─┘ │ │
Montenegro 39 ─┘ │ │
Belarus 9 ─────┘ │
Argentina 1 ─┬───┐ │
Mexico 37 ─┘ ├───┤
Colombia 15 ─────┘ ├─────────┐
Ecuador 20 ─────────┤ ├─────────────────────┐
Chile 13 ─────────┘ │ │
Switzerland 12 ─────────┬─────────┘ ├───────┐
Luxembourg 35 ─────────┘ │ │
Israel 31 ─────────────────────────────────────────┘ │
Azerbaijan 5 ─────────────────────────────────────────────────┘
Metoda lui Ward
Metoda celor mai apropiaţi vecini nu ilustrează foarte clar clustere de tări, motiv
pentru care metoda lui Ward este cea care va furniza numărul de clustere în care vom împărţii
cele 40 de state. Dendograma sugerează un număr de 7 mari grupe. Schema de grupare este
diferită fată de cea din cazul precedent
Agglomeration Schedule
Cluster Combined Stage Cluster First Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 6 23 ,049 0 0 17
2 21 32 ,109 0 0 26
3 27 38 ,175 0 0 13
4 4 18 ,251 0 0 14
5 22 28 ,336 0 0 16
6 1 37 ,420 0 0 22
7 2 26 ,505 0 0 15
8 11 40 ,615 0 0 18
9 24 30 ,729 0 0 21
10 7 14 ,881 0 0 23
11 29 36 1,035 0 0 19
12 34 39 1,195 0 0 24
13 16 27 1,361 0 3 26
14 4 33 1,587 4 0 31
15 2 10 1,814 7 0 23
16 17 22 2,045 0 5 27
17 6 25 2,304 1 0 21
18 11 19 2,566 8 0 20
19 8 29 2,843 0 11 28
20 3 11 3,238 0 18 30
21 6 24 3,722 17 9 30
22 1 15 4,294 6 0 29
23 2 7 4,919 15 10 33
24 9 34 5,607 0 12 28
25 12 35 6,488 0 0 37
26 16 21 7,376 13 2 31
27 13 17 8,609 0 16 32
28 8 9 10,088 19 24 32
29 1 20 11,608 22 0 34
30 3 6 13,527 20 21 35
31 4 16 16,624 14 26 35
32 8 13 19,835 28 27 33
33 2 8 27,073 23 32 38
34 1 5 35,371 29 0 36
35 3 4 44,734 30 31 37
36 1 31 57,377 34 0 38
37 3 12 72,039 35 25 39
38 1 2 101,167 36 33 39
39 1 3 195,000 38 37 0
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Belgium 6 ─┐
Finland 23 ─┤
United Kingdom 25 ─┤
France 24 ─┤
Iceland 30 ─┼───┐
Canada 11 ─┤ │
Netherlands 40 ─┤ │
Denmark 19 ─┤ ├─┐
Australia 3 ─┘ │ │
Austria 4 ─┐ │ │
Germany 18 ─┤ │ │
Japan 33 ─┼───┘ │
Spain 21 ─┤ ├─────────────────────────────────────────┐
Italy 32 ─┤ │ │
Greece 27 ─┤ │ │
Malta 38 ─┤ │ │
Cyprus 16 ─┘ │ │
Switzerland 12 ─┬─────┘ │
Luxembourg 35 ─┘ │
Bulgaria 7 ─┐ │
China 14 ─┼─┐ │
Armenia 2 ─┤ │ │
Georgia 26 ─┤ │ │
Brazil 10 ─┘ │ │
Estonia 22 ─┐ ├───────────┐ │
Croatia 28 ─┤ │ │ │
Czech Republic 17 ─┤ │ │ │
Chile 13 ─┤ │ │ │
Hungary 29 ─┼─┘ │ │
Latvia 36 ─┤ │ │
Bosnia and Herzegovina 8 ─┤ │ │
Lithuania 34 ─┤ ├─────────────────────────────────┘
Montenegro 39 ─┤ │
Belarus 9 ─┘ │
Argentina 1 ─┐ │
Mexico 37 ─┤ │
Colombia 15 ─┼───┐ │
Ecuador 20 ─┘ ├─┐ │
Azerbaijan 5 ─────┘ ├───────┘
Israel 31 ───────┘
Cluster 1: Belgia, Finlanda, Regatul Unit, Franta, Islanda, Canada, Olanda, Danemarca,
Australia
Cluster 2: Austria, Germania, Japonia, Spania, Italia, Grecia, Malta, Cipru,
Cluster 3: Elvetia, Luxemburg
Cluster 4:Bulgaria, China, Armenia, Georgia,Brazilia
Cluster 5:Estonia,Croatia,Letonia,Bosnia,Lituania,Muntenegru,Belarus
Cluster 6:Argentina,Mexic,Columbia,Ecuador
Cluster 7: Azerbaijan, Israel
În cazul de faţă, metoda lui Ward a dus la obţinerea unor rezultate mai bune, permiţând o
diferenţieră mai clară a clusterelor. Folosind principiul minimizării varianţei în cadrul
grupurilor, ilustrează mai bine profilul tărilor.
III.Analiza discriminantă
Prin conţinutul său şi prin natura procedurilor şi tehnicilor pe care le utilizează ,analiza
discriminanta este echivalentă cu rezolvarea unei probleme de predicţie cu privire la
apartenenţa la o anumită clasă a unor noi obiecte. Acesta constituie scopul principal al teoriei
recunoaşterii formelor.
Există câteva scopuri ale acestei analize:
-să clasifice cazurile în grupuri utilizând o ecuaţie de predicţie a discriminantului
-să testeze teoria prin observarea faptului că cazurile sunt clasificate aşa cum au
fost prevăzute
-să investigheze diferenţele dintre sau din interiorul grupurilor
-să determine cel mai posibil mod de a distinge între grupuri
-să determine procentul variantei în variabila dependentă explicat de către independente
-să se determine proporţia variabilei dependente explicat de către independente
-prin sau deasupra variantei calculate prin variabila de control utilizând analiza
discriminatului secvențială
-să arate importanța relativă a variabilelor independente în clasificarea variabilei dependente
-să precizeze variabilele care sunt într-o măsură mică legate de distincţiile grupului
Adăugăm o nouă coloană suplimentară, ce se referă la mărimea țării respective ca și

populație, obținând astfel:
1.țări de dimensiune mica ( 0-10 milioane locuitori )

2.țări de dimensiune medie ( 10-20 milioane locuitori )
3.țări de dimensiune mare ( peste 20 milioane locuitori )
Tests of Equality of Group Means
Wilks' Lambda F df1 df2 Sig.
Zscore(V1) ,987 ,237 2 37 ,790
Zscore(V2) ,997 ,052 2 37 ,949
Zscore(V3) ,912 1,775 2 37 ,184
Zscore(V4) ,997 ,047 2 37 ,954
Zscore(V5) ,962 ,724 2 37 ,492
În tabelul ”Test of Equality of Group Means” este prezentat rezultatul ”univariate

ANOVA” pentru fiecare variabilă în parte.
Classification Function Coefficients
Dimensiune
1 2 3
Zscore(V1) -,625 ,428 ,811
Zscore(V2) 1,008 -1,137 -1,104
Zscore(V3) -,902 1,175 ,915
Zscore(V4) -,406 ,339 ,499
Zscore(V5) -,077 ,147 ,057
(Constant) -1,255 -1,344 -1,279
Fisher's linear discriminant functions
În tabelul de mai sus, sunt prezentați coeficienții funcțiilor clasificatorilor, care sunt
combinații liniare de variabilele originale. Acești coeficienți sunt rezultatul unei probleme de
optim, ce presupune minimizrea varianței dintre grupe și reprezintă ecuația dreptei trasate
pentru a separa spațiul obiectelor în clasele de mai sus.
Eigenvalues
Functio Canonical
n Eigenvalue % of Variance Cumulative % Correlation
1 ,375a 97,7 97,7 ,522
2 ,009a 2,3 100,0 ,094
a. First 2 canonical discriminant functions were used in the analysis.
În tabelul Eigenvalues observăm valorile proprii associate funcțiilor, iar funcțiile cu

cele mai mari valori proprii sunt acele funcții cu o putere maximă de discriminanță. Se
observă în acest caz că prima funcție are o putere de discriminare mai mare, cumulând 52,2%
din varianța din interiorul grupei.
Wilks' Lambda
Test of
Function(s) Wilks' Lambda Chi-square df Sig.
1 through 2 ,721 11,459 10 ,323
2 ,991 ,308 4 ,989
Pe baza tabelului de mai sus, Wilks Lambda, putem verifica dacă există diferențe
majore între clasele propuse. Testul Wilks Lamda verifică semnificația tuturor funcțiilor de
discriminare pe un interval precizat. Pentru o discriminare cât mai bună este necesar ca
valoarea lui să fie mai mare decât 0.05 , criteriu ce se respectă în ambele cazuri( 0.721 și
0.991).
Urmărind interpretarea grafică de mai sus asupra celor trei clase, vedem cum se
poziționează în jurul centroizilor și cam cum sunt de omogene. Nu se observă nicio clasă cu
un grad foarte redus de dispersie doarece toate trei au câte o componentă care se apropie de
alte clase.
Classification Resultsa
Predicted Group Membership

Dimensi
une 1 2 3 Total
Original Count 1 14 3 4 21
2 1 3 2 6
3 3 6 4 13
% 1 66,7 14,3 19,0 100,0
2 16,7 50,0 33,3 100,0
3 23,1 46,2 30,8 100,0
a. 52,5% of original grouped cases correctly classified.
Tabelul Classification results arată un sumar al rezultatelor analizei discriminante,

comparând numărul de obiecte correct clasificate cu cele incorrect clasificate, propunând și
grupele unde ar fi trebuit să fie incluse. Pentru clasele originale I de pe linie și clasele
propuse j de pe coloană, elemental aij reprezintă numărul de component din clasa I ce ar fi
trebuit să fie în clasa j. Suma elementelor de pe diagonal principal este numărul de obiecte
corect clasificate.
Concluzii
Lumea se afla intr-o continua schimbare sau transformare. Asadar consider ca nivelul
de investitie in sanatatea mamei si al copilului accelereaza ritmul de dezvoltare al sanatatii,
dar si al economieic
Aceasta analiza ne sugereaza prin intermediul cifrelor , legatura ce o au anumite tari

intre ele si nivelul de investitie in sanatate specifice celor 40 de tari observate.
Asadar precizez ca informatiile despre sanatate furnizate, pot fi utile in diverse

domenii de activitate stiintifice sau practice.

Proiect AnalizaDatelor BoboescuDanAlexandru

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Proiect AnalizaDatelor BoboescuDanAlexandru

Încărcat de

Drepturi de autor:

Formate disponibile

Academia de Studii Economice din Bucureşti

Facultatea de Cibernetică, Statistică și Informatică Economică

Proiect Analiza Datelor

Student: Boboescu Dan Alexandru

Proiectul isi propune sa analizeze date legate de nivelul de investitie in sanatatea

Matricea de date conține 40 de observații reprezentând țări, pentru care am luat în

Variabilele luate in considerare au fost:

Cheltuieli cu sanatatea pe cap de locuitor (pretul pietei - $)

Cheltuielile totale cu sanatatea reprezinta suma de bani cheltuita de catre sectorul

Produs Intern Brut pe cap de locuitor (pretul pietei - $))

Speranta de viata la nastere

Speranta de viata la nastere reprezinta media duratelor de viata a unei generatii

Speranta de viata la nastere constituie indicatorul corectat al mortalitatii si

Rata Mortalitatii infantile (Numarul nou-Nascutilor decedati/1000 nasteri vii)

Rata fertilitatii reprezinta numarul de copii nascuti de o femeie, In ipoteza ca aceasta

Pentru a efectua acest studiu am avut în vedere 40 de tari : Argentina, Armenia,

Descrierea Statistica a datelor

Indicatorii fundamentali ai tendinţei centrale sunt:

 media aritmetică (𝑥̅ )

Media se calculeaza dupa formula:

 Sa fie calculata dintr-un numar suficient de mare de cazuri individuale

Grafic, într-o histogramă ori poligon al frecvenţelor, modul reprezintă valoarea de pe

Ținând cont de aceste caracteristici, media este recomandata în cazul variabilelor

Mean 2,680046E 2,969099E 7,807597E 7,037500E 1,718725E

Median 1,722808E 2,200135E 7,938923E 4,250000E 1,633500E

Mode 1,2706E2a 3,2196E3a 7,0551E1a 3,4000 1,3900a

Indicatori ai împrăștierii datelor:

Dispersia se determină ca medie aritmetică a pătratelor abaterilor individuale ale

Abaterea standard caracterizeaza gradul de variabilitate a variantelor individuale ale

Abaterea medie patratica are o aplicabilitate extinsa pentru dimensionarea sintetica a

Std. Deviation 2,4469918 2,4913599 3,6626737 6,2046173

Variance 5,988E6 6,207E8 13,415 38,497 ,139

I. Analiza componentelor principale

Zscore(V1) Zscore(V2) Zscore(V3) Zscore(V4) Zscore(V5)

Correlation Zscore(V1) 1,000 ,963 ,777 -,545 -,123

Zscore(V2) ,963 1,000 ,747 -,552 -,111

Zscore(V3) ,777 ,747 1,000 -,663 -,038

Zscore(V4) -,545 -,552 -,663 1,000 ,390

Zscore(V5) -,123 -,111 -,038 ,390 1,000

Cum componentele principale sunt combinatii liniare de variabile originale, le putem

Initial Extraction Initial Extraction

Zscore(V1) 1,000 ,904 1,000 ,904

Zscore(V2) 1,000 ,891 1,000 ,891

Zscore(V3) 1,000 ,823 1,000 ,823

Zscore(V4) 1,000 ,736 1,000 ,736

Zscore(V5) 1,000 ,927 1,000 ,927

Extraction Method: Principal Component Analysis.

Total Variance Explained

Initial Eigenvaluesa Extraction Sums of Squared Loadings

Raw 1 3,185 63,708 63,708 3,185 63,708 63,708

2 1,095 21,895 85,603 1,095 21,895 85,603

3 ,485 9,697 95,300

4 ,201 4,016 99,316

5 ,034 ,684 100,000

Rescaled 1 3,185 63,708 63,708 3,185 63,708 63,708

2 1,095 21,895 85,603 1,095 21,895 85,603

3 ,485 9,697 95,300

4 ,201 4,016 99,316

5 ,034 ,684 100,000

Vom observa că avem nevoie de două componente principale pentru a recupera o

În ceea ce urmează, în vederea caracterizării componentelor obţinute, se determină

Zscore(V1) ,932 ,188 ,932 ,188

Zscore(V2) ,924 ,191 ,924 ,191