Proiect AnalizaDatelor BoboescuDanAlexandru

Academia de Studii Economice din Bucureti
Facultatea de Cibernetic, Statistic i Informatic Economic
Proiect Analiza Datelor
Student: Boboescu Dan Alexandru

Profesor ndrumtor: Andreea Muraru
Grupa: 1049
Seria: A Informatica Economica
Introducere
Proiectul isi propune sa analizeze date legate de nivelul de investitie in sanatatea

mamei si al copilului din diferite tari si efectul acestora asupra calitatii vietii.
Matricea de date conine 40 de observaii reprezentnd ri, pentru care am luat n
considerare 5 caracteristici. Datele sunt preluate de pe site-ul Bncii Mondiale
(http://databank.worldbank.org) i reprezint diferii indicatori macroeconomici ai rilor
respective pentru anul 2011.
Descrierea datelor
Variabilele luate in considerare au fost:
Cheltuieli
cu
sanatatea
pe
cap
de
locuitor
(pretul
pietei
$)
Cheltuielile totale cu sanatatea reprezinta suma de bani cheltuita de catre sectorul

public sau privat cu scopul sanatatii, raportat la volumul populatiei. Acopera proviziile de
servicii medicale (preventive si curative), activitati planificate de familie, activitati de nutritie
si ajutor de urgenta de sanatate, dar nu include provizii de apa si salubritate. Numerele sunte
exprimate in dolari americani.
Produs Intern Brut pe cap de locuitor (pretul pietei - $))
Produsul intern brut (prescurtat PIB) este un indicator macroeconomic care reflecta
suma valorii de piata a tuturor marfurilor si serviciilor destinate consumului final, produse In
toate ramurile economiei In interiorul unei tari In decurs de un an.
Speranta de viata la nastere
Speranta de viata la nastere reprezinta media duratelor de viata a unei generatii
imaginare care ar fi supusa intreaga sa viata ratelor de mortalitate pe grupe de varsta ale
anului de observare; reprezinta numarul mediu de ani pe care o persoana il poate trai in mod
obisnuit, exprimat la nastere; difera in functie de sexul persoanei.
Speranta de viata la nastere constituie indicatorul corectat al mortalitatii si
inregistreaza valori diferite pe regiuni si tari in functie de mai multi factorii.
Rata Mortalitatii infantile (Numarul nou-Nascutilor decedati/1000 nasteri vii)
Rata mortalitatii infantile reprezinta numarul de nou-nascuti morti Intr-o perioada de un an de
la nastere, raportat la un numar de 1000 de nasteri reusite, Intr-un anumit an.
Cea mai importanta cauza a mortalitatii infantile este deshidratarea din cauza diareei.
Datorita succesului In raspandirea informatiei despre solutiile orale rehidratante (un amestec
de saruri, zahar si apa), numarul copiilor care mor din cauza deshidratarii a scazut, ajungand
pe locul doi spre sfarsitul anilor 1990. In prezent, cea mai comuna cauza a mortalitatii
infantile este pneumonia.
Rata fertilitatii (nasteri pe femeie)

Rata fertilitatii reprezinta numarul de copii nascuti de o femeie, In ipoteza ca aceasta
ar trai pana la dupa varsta procrearii si daca ar avea un numar de copii relevant cu specificul
varstei.
Pentru a efectua acest studiu am avut n vedere 40 de tari : Argentina, Armenia,
Australia, Austria, Azerbaijan, Belgium, Bulgaria, Bosnia and Herzegovina, Belarus, Brazil,
Canada, Switzerland, Chile, China, Colombia, Cyprus, Czech Republic, Germany, Denmark,
Ecuador, Spain, Estonia, Finland, France, United Kingdom, Georgia, Greece, Croatia,
Hungary, Iceland, Israel, Italy, Japan, Lithuania, Luxembourg, Latvia, Mexico, Malta,
Montenegro, Netherlands
Descrierea Statistica a datelor
Analiza indicatorilor tendinei centrale :

Indicatorii fundamentali ai tendinei centrale sunt:
media aritmetic ( x )
mediana (Me)
modul (Mo)
Media
Mediile sunt marimi statistice care exprima In mod sintetic si generalizat ceea ce este
normal, logic, esential, tipic pentru toate unitatile colectivitatii distribuite dupa o
caracteristica.
Media se calculeaza dupa formula:
n
xi
x = i=1
N
Pentru ca o medie sa fie reprezentativa, trebuie sa Indeplineasca urmatoarele conditii:
Sa fie calculata dintr-un numar suficient de mare de cazuri individuale

Valorile din care se calculeaza media trebuie sa fie omogene. Daca exista diferente
foarte mari Intre valori, media poate deveni fara sens.
Trebuie ales tipul de medie semnificativ pentru datele existente
Mediana
Mediana reprezint valoarea din mijlocul unei serii de date ordonate.Este un indicator
mediu de poziie care face parte din categoria cuantilelor si ia n consideraie doar poziia
observaiilor n serie, nu i mrimea lor efectiv (nu este afectat de prezena valorilor
extreme).
Mediana se poate determina pe cale grafic. Ea reprezint proiecia pe axa absciselor a
punctului de intersecie dintre cele dou curbe ale frecvenelor cumulate (cresctor i
descresctor).
Pentru a determina mediana se introduce noiunea de ranguri, adic numere de ordine
asociate observaiilor, de la cea mai mic (cu rangul 1), pn la cea mai mare (rangul
n) .Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unitii din mijlocul seriei.
Modul
Modulul este parametrul care corespunde celei mai mari frecvene, adic este valoarea
cea mai frecvent ntlnit.Valoarea modal se poate determina pentru orice tip de variabil
(nenumeric sau numeric), indiferent de scala de msurare.
Grafic, ntr-o histogram ori poligon al frecvenelor, modul reprezint valoarea de pe
abscis, corespunztoare vrfului reprezentrii.
innd cont de aceste caracteristici, media este recomandata n cazul variabilelor
numerice care ndeplinesc conditiile parametrice (distributie normala, omogenitate s.a.).
Mediana se recomanda pentru cazurile n care nu sunt ndeplinite conditiile parametrice
(distributii asimetrice, etrogenitate crescuta etc) si n cazul variabilelor de tip ordinal. Modul
este utilizat mai rar pentru date numerice, fiind nsa foarte util n cazul variabilelor de tip
categorial (date calitative, nominale), deoarece nu putem calcula ceilalti parametrii centrali.
Statistics
V1
N
Valid
Missing
Mean
V2
V3
V4
V5
40
40
40
40
40
2,680046E 2,969099E 7,807597E 7,037500E 1,718725E

3
Median
1,722808E 2,200135E 7,938923E 4,250000E 1,633500E

3
Mode
1,2706E2a 3,2196E3a 7,0551E1a
3,4000
1,3900a
Indicatori ai mprtierii datelor:
x x
n
i 1
min
aR
x a
i 1
Dispersia se determin ca medie aritmetic a ptratelor

abaterilor individuale ale valorilor de la tendina central, uzual de la medie deoarece cea mai
mic sum a ptratelor abaterilor individuale fa de o constant se obine pentru
constanta :
x x
n
s2
i 1
n 1
-pentru un eantion (sample variance, n engl.) - estimator
x
i 1
-pentru populaia statistic parametru
Abaterea Standard
In teoria probabilitatilor, abaterea standard a unei variabile aleatoare reprezinta o
masura a dispersiei acestei valorilor acesteia In jurul uneia considerate mijlocii. Se mai
numeste si abatere medie patratica.
Abaterea standard caracterizeaza gradul de variabilitate a variantelor individuale ale
caracteristicii de la valoarea medie. Cu cat abaterea medie patratica are o marime mai mica cu
atat valorile caracteristicii sunt mai concentrate in jurul mediei si in consecinta colectivitatea
statistica este mai omogena si invers, cu cat abaterea medie patratica are o marime mai mare
cu atat valorile individuale ale caracteristicii sunt mai dispersate si deci colectivitatea este mai
putin omogena.
Abaterea medie patratica are o aplicabilitate extinsa pentru dimensionarea sintetica a
variatiei caracteristicii studiate deoarece se exprima in aceleasi unitati de masura in care sunt
exprimate si variantele caracteristicii. Limita de aplicare se intalneste in cazul comparatiei pe
baza marimii sale a gradului de variabilitate dintre doua colectivitati statistice ale caror
caracteristici sunt exprimate in unitati de masura diferite sau sunt marimi cifrice de ordin
diferit.
Abaterea standard se calculeaza prin extragerea radacinii patrate din dispersie, astfel:
2
x =E [ ( X ) ]=
(xx )2
n
Statistics
V1
Valid
Missing
Std. Deviation
Variance
V2
V3
V4
V5
40
40
40
40
40
2,4469918 2,4913599 3,6626737 6,2046173

E3
E4
E0
5,988E6
6,207E8
13,415
I. Analiza componentelor principale
E0
,3733768
38,497 ,139
Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept
scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus
de componente, fara ca aceasta forma sa contina redundante informationale.Aceste
componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele,
fiecare fiind o combinatie liniara de variabilele originale.
Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa
indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a tarilor.
Standardizarea datelor
Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom
efectua Analiza Componentelor Principale pe date standardizate.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor
fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei
operatii si abaterea standard a respectivei variabile:
xct x t x i
x= =
, t=1,2, ,T
si
si
s
ti
unde
x i
variabilei
xi
reprezinta abaterea standard a
pentru cazul deplasat:
si
reprezinta media celei de-a i-a variabile, iar
pentru cazul nedeplasat:
1
s = (x t x i )2
T t =1
2
i
1
2
s=
( xt x i)
T 1 t=1
2
i
Matricea de corelatie
Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza
matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile
dintre variabilele initiale si determina componentele pricipale.
Correlation Matrix
Zscore(V1)
Correlation
Zscore(V1)
Zscore(V2)
1,000 ,963
Zscore(V2)
,963
Zscore(V3)
,777
Zscore(V3)
Zscore(V4)
Zscore(V5)
,777
-,545
-,123
1,000 ,747
-,552
-,111
1,000
-,663
-,038
1,000 ,390
,747
Zscore(V4)
-,545
-,552
-,663
Zscore(V5)
-,123
-,111
-,038 ,390
1,000
Identificam in matrice coeficientii de corelatie atat mari cat si mici. Spre exemplu
putem observa cum cea mai puternica legatura este intre cheltuieli cu sanatatea pe cap de
locuitor si produsul intern brut pe cap de locuitor (0.963). O alta legatura destul de
puternica este cea dintre speranta de viata la nastere si cheltuielile pentru sanatate.
Exista si legaturi foarte slabe cum ar fi intre rata fertilitatii si produsul intern brut
pe locuitor (-0.111) sau speranta de viata la nastere si rata fertilitatii (-0.038).Putem
observa ca nici o legatura intre rata fertilitatii si celelalte categorii nu este una foarte puternica
, deci putem trage concluzia ca aceasta categorie nu este destul de compatibila cu celelalte.
Cum componentele principale sunt combinatii liniare de variabile originale, le putem
(i)
(i)
(i)
x1
privi sub forma unui vector de forma: w i= 1 x 1 + 2 x 2+ + n x n , unde
,
x2 xn
(i)
sunt variabilele originale si j
ponderile din tabelul de mai jos.
Influena variabilelor originale luate n studiu este dat de:

Communalities
Raw
Initial
Extraction
Rescaled
Initial
Extraction
Zscore(V1)
1,000 ,904
1,000 ,904
Zscore(V2)
1,000 ,891
1,000 ,891
Zscore(V3)
1,000 ,823
1,000 ,823
Zscore(V4)
1,000 ,736
1,000 ,736
Zscore(V5)
1,000 ,927
1,000 ,927
Extraction Method: Principal Component Analysis.
Acest tabel art procentul (coeficientul) din variana variabilei care poate fi explicat
pe baza tuturor factorilor. Astfel c, cu ct acest coeficient e mai apoape de 1, cu att variabila
e mai bine explicat. Coloana Initial reprezint variana sau dispersia iniial a variabilelor,
variabile care sunt normate, drept pentru care ele au iniial abaterea 1. Analiznd tabelul
obinut vom observa c variabilele rata fertilitatii i cheltuielile pentru sanatate au o
contribuie major la explicarea variabilelor artificiale care se obin ulterior. Cantiatea de

informaie recuperat de aceste dou variabile este de 0,927 respectiv 0.904. De asemenea tot
din analiza tabelului de mai sus obinem fatul c variabila rata moratilitatii infantile are
contribuia cea mai mic n cadrul componentelor principale (0,736). Deoarece toi
coeficienii au valori mai mari dect 0,4, rezult c nu este nevoie s eliminm din analiza
noastr nicio variabil. Pentru a stabili numrul de componente principale necesar n analiza
ulterioara se folosesc datele din tabeleul :
Total Variance Explained
Initial Eigenvaluesa
Compo
nent
Raw
Rescaled
Total
% of Variance
Extraction Sums of Squared Loadings
Cumulative %
Total
% of Variance
Cumulative %
3,185
63,708
63,708
3,185
63,708
63,708
1,095
21,895
85,603
1,095
21,895
85,603
,485
9,697
95,300
,201
4,016
99,316
,034
,684
100,000
3,185
63,708
63,708
3,185
63,708
63,708
1,095
21,895
85,603
1,095
21,895
85,603
,485
9,697
95,300
,201
4,016
99,316
,034
,684
100,000
Vom observa c avem nevoie de dou componente principale pentru a recupera o

cantiate de informaie ct mai mare, o cantitate care s nu fie mai mic de 80%. Acest lucru
este confirmat i de matricea de corelaie. Aceste componente principale corespund valorilor
proprii cele mai mari, valori care reprezint varianele corespunztoare celor dou
componente reinute. Utiliznd dou componente principale , cantitatea de informaie
recuperat este de 85,603% din informaia iniial.Prima component principal mi
recupereaz 63,708% din informaia tota, iar cea de-a doua component mi acopera
21,895%. Deoarece cantitatea total de informaie recuperat de cele dou componente este
mai mare de 75% rezult faptul c aceste dou componente sunt suficiente. De asemenea
dimensiunea spaiului iniial, care a fost de 5 (dimensiunea spaiului este egal cu numrul de
variabile analizate) este redus prin aceast tehnic la 2, lucru realizat cu o pierdere minim
de informaie.
O alt modalitate de a stabili numrul de componente principale este utilizarea Scree
Plot-ului. Acesta este de fapt reprezentarea criteriului grohotisurilor. Conform acestui
criteriu numrul de componente principale luate n studiu este dat de numrul de segmente
care unete valorile proprii i care au panata semnificativ diferite de zero.
Imaginea Scree Plot reprezint n form grafic valorile Eigenvalue pentru toate
componentele prncipale rezultate din analiz i care, numeric, sunt reprezentate n tabelul
Total Variance Explained de mai sus.Reprezentarea grafic a valorilor eigen aferente
factorilor, n ordinea extragerii lor, produce o curb care poate da informaii cu privire la
numrul de factori care trebuie reinui. n reprezentarea noastra observm c forma curbei
este mprit n dou zone, una n care panta este abrupt (este vorba de poriunea din grafic
corespunztoare componentelor 1 i 2) i alta n care panta este lin (este vorba de poriunea
corespunztoare componentelor 3,4,5).
Punctului de intersecie dintre cele
dou zone (este vorba de
punctul dat de
reprezentarea
punctului 3) i
corespunde un factor care va fi
considerat ca ultimul factor
extras. Deci i cu ajutorul acestei metode vom obine tot dou componente principale la fel ca
n cazul utilizrii tabelului Total Variance Explained.
n ceea ce urmeaz, n vederea caracterizrii componentelor obinute, se determin
coeficientul de corelaie ntre variabilele artificiale obinute (componentele principale) i
variabilele originale luate n calcul. Coeficienii de corelaie dintre variabilele artificiale
obinute i variabilele originale sunt dai n tabelul care urmeaz:
Component Matrixa
Raw
Rescaled
Component
Component
Zscore(V1)
,932
,188
,932
,188
Zscore(V2)
,924
,191
,924
,191
Zscore(V3)
,888
,183
,888
,183
Zscore(V4)
-,780 ,356
-,780 ,356
Zscore(V5)
-,254 ,929
-,254 ,929
Extraction Method: Principal Component Analysis.

a. 2 components extracted.
Datele din tabelul de mai sus se refer la soluia factorial iniial (naintea procedurii
de rotaie). Pentru ca interpretarea s fie facut cu usurinta se mai folosete i tehnica rotirii
axelor( tehnica Varimax) ce are drept scop oinerea unor coeficieni de corelaie ct mai mici
pe una din componentele principale. ns interpretarea se face uor i pe prima matrice de
corelaie (ntre componentele principale si variabilele iniiale), obinndu-se aceeai
interpretare ca i n cazul tehnicii Varimax, ns n cazul tehnicii Varimax rezutatele sunt mai
concludente.
Rotated Component Matrixa
Raw
Rescaled
Component
Component
Zscore(V1)
,948
-,070 ,948
-,070
Zscore(V2)
,941
-,065 ,941
-,065
Zscore(V3)
,905
-,063 ,905
-,063
Zscore(V4)
-,656 ,553
Zscore(V5)
,006
,963
-,656 ,553
,006
,963
Analiznd aceti coeficieni de corelaie, observm c prima component principal

este puternic influenat de variabila care exprim speranta de viata la nastere. A doua
component principal este puternic influenat de variabila care exprim rata fertilitatii.
Matricea de rotaie o regasim n Component Transformation Matrix:
Component Transformation
Matrix
Compo
nent
,963
,269
2
-,269
,963
Extraction Method: Principal

Component Analysis.
Rotation Method: Varimax with
Kaiser Normalization.
Componentele principale sunt combinaii liniare ntre variabilele iniiale i ponderi

asociate acestor variabile, ponderi care sunt date n tabelul de mai jos:
Component Score Coefficient

Matrixa
Component
1
Zscore(V1)
,328
,086
Zscore(V2)
,326
,090
Zscore(V3)
,314
,086
Zscore(V4)
Zscore(V5)
De exemplu prima component principala poate fi scris n

felul urmtor: 0,328*cheltuieli pentru sanatae+0,326*PIB +
0,314 * speranta de viata la nastere -0,148 * rata
mortalitatii infantile + 0,152 * rata fertilitatii.
-,148 ,379
,152
,839
Extraction Method: Principal

Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
a. Coefficients are standardized.
Aceeai interpretare ca la Rotated Component Matrix o putem face i cu ajutorul

Component Plot in Rotated Space. Acesta ne arat c, cu ct o variabila este mai apropiat de
axa corespunztoare unei componente, cu att variabila respectiv influeneaz ntr-o mai
mare msur componenta respectiv.
II.Analiza Cluster
n continuare vom ncerca realizarea unei clasificri a tarilor folosindu-ne de datele
standardizate. Deci vom realiza analiza cluster utiliznd mai nti metoda celor mai apropiati
vecini i apoi metoda lui Ward. Aceast metod este folosit pentru a grupa date multidimensionale (puncte ce reprezint cazuri sau observaii) n grupe (clusters) definite
algoritmic. Analiza Cluster consta, de fapt, dintr-o colecie de algoritmi ce exploateaz mai
multe euristici fundamentate n principal pe experiena noastr vizual n gruparea punctelor
n nori de puncte . Pentru a putea folosi un algoritm de clasificare, este nevoie de
precizarea:
Unei distane ntre punctele unui spaiu multidimensional. n lucrarea de fa vom
utiliza distana Euclidian;
O strategie de alegere a punctului reprezentativ (adic a centrului) pentru orice grupare
de puncte. De cele mai mule ori se alege media aritmetic (centrul de greutate);
O distan ntre dou grupe de puncte. Cele mai folosite asemenea distane sunt:
-distana ntre centre (n algoritmul Ward);
-distana ntre cei mai apropiai vecini (single linkage);
-distana ntre cei mai deprtai vecini (complete linkage).
Rezultatele analizei cluster sunt diferite n funcie de metoda aplicat, astfel, dup cum
se va putea observa din cele dou dendograme precum i din schemele de agregare, orinea n
care are loc gruparea obiectelor este diferit.
Metoda celor mai apropiati vecini
Agglomeration Schedule
Stage Cluster First
Cluster Combined
Stage
Cluster 1
Appears
Cluster 2 Coefficients
Cluster 1
Next Stage
Cluster 2
23 ,098
14
21
32 ,120
24
27
38 ,133
18 ,153
13
22
28 ,169
12
37 ,169
32
26 ,170
11
16
27 ,208
22
11
40 ,219
13
10
24
30 ,228
27
11
10 ,267
16
12
17
22 ,272
22
13
11 ,278
14
14
6 ,295
13
15
15
19 ,297
14
20
16
14 ,298
11
17
17
7 ,305
16
29
18
29
36 ,307
19
19
29 ,309
18
28
20
33 ,314
15
23
21
34
39 ,319
28
22
16
17 ,351
12
24
23
4 ,358
20
25
24
16
21 ,380
22
26
25
25 ,397
23
26
26
16 ,409
25
24
27
27
24 ,450
26
10
30
28
34 ,552
19
21
29
29
8 ,586
17
28
30
30
3 ,616
29
27
31
31
9 ,813
30
33
32
15 ,819
33
33
32
31
34
1,532
n primul pas, se grupeaza trile 6 i 23 (clusterd combined), ntre acestea existnd cea
mai mic distan. Acestora li se adauga n etapa 14 (coloana Next Stage) o nou ar (la pasul
14 se grupeaz 4 cu 6). Logica gruprii este aceeai i pentru paii urmtori.
Rescaled Distance Cluster Combine
C A S E
Label
Belgium
Finland
Austria
Germany
Canada
Netherlands
Denmark
Japan
Australia
United Kingdom
Spain
Italy
Greece
Malta
Cyprus
Estonia
Croatia
Czech Republic
France
Iceland
Armenia
Georgia
Brazil
China
Bulgaria
Hungary
Latvia
Bosnia and Herzegovina
Lithuania
Montenegro
Belarus
Argentina
Mexico
Colombia
Ecuador
Chile
Switzerland
Luxembourg
Israel
Azerbaijan
Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
6
23
4
18
11
40
19
33
3
25
21
32
27
38
16
22
28
17
24
30
2
26
10
14
7
29
36
8
34
39
9
1
37
15
20
13
12
35
31
Metoda lui Ward

Metoda celor mai apropiai vecini nu ilustreaz foarte clar clustere de tri, motiv
pentru care metoda lui Ward este cea care va furniza numrul de clustere n care vom mprii
cele 40 de state. Dendograma sugereaz un numr de 7 mari grupe. Schema de grupare este
diferit fat de cea din cazul precedent
Agglomeration Schedule
Cluster Combined
Stage
Cluster 1
Stage Cluster First Appears
Cluster 2
Coefficients
Cluster 1
Cluster 2
Next Stage
23 ,049
17
21
32 ,109
26
27
38 ,175
13
18 ,251
14
22
28 ,336
16
37 ,420
22
26 ,505
15
11
40 ,615
18
24
30 ,729
21
10
14 ,881
23
11
29
36
1,035
19
12
34
39
1,195
24
13
16
27
1,361
26
14
33
1,587
31
15
10
1,814
23
16
17
22
2,045
27
17
25
2,304
21
18
11
19
2,566
20
19
29
2,843
11
28
20
11
3,238
18
30
21
24
3,722
17
30
22
15
4,294
29
23
4,919
15
10
33
24
34
5,607
12
28
25
12
35
6,488
37
26
16
21
7,376
13
31
27
13
17
8,609
16
32
28
10,088
19
24
32
29
20
11,608
22
34
30
13,527
20
21
35
31
16
16,624
14
26
35
32
13
19,835
28
27
33
33
27,073
23
32
38
34
35,371
29
36
Dendrogram using Ward Method

Rescaled Distance Cluster Combine
C A S E
Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
Belgium
Finland
United Kingdom
France
Iceland
Canada
Netherlands
Denmark
Australia
Austria
Germany
Japan
Spain
Italy
Greece
Malta
Cyprus
Switzerland
Luxembourg
Bulgaria
China
Armenia
Georgia
Brazil
Estonia
Croatia
Czech Republic
Chile
Hungary
Latvia
Bosnia and Herzegovina
Lithuania
Montenegro
Belarus
Argentina
Mexico
Colombia
Ecuador
Azerbaijan
6
23
25
24
30
11
40
19
3
4
18
33
21
32
27
38
16
12
35
7
14
2
26
10
22
28
17
13
29
36
8
34
39
9
1
37
15
20
5
Israel
31
Label
Cluster 1: Belgia, Finlanda, Regatul Unit, Franta, Islanda, Canada, Olanda, Danemarca,
Australia
Cluster 2: Austria, Germania, Japonia, Spania, Italia, Grecia, Malta, Cipru,
Cluster 3: Elvetia, Luxemburg
Cluster 4:Bulgaria, China, Armenia, Georgia,Brazilia
Cluster 5:Estonia,Croatia,Letonia,Bosnia,Lituania,Muntenegru,Belarus
Cluster 6:Argentina,Mexic,Columbia,Ecuador
Cluster 7: Azerbaijan, Israel
n cazul de fa, metoda lui Ward a dus la obinerea unor rezultate mai bune, permind o
diferenier mai clar a clusterelor. Folosind principiul minimizrii varianei n cadrul
grupurilor, ilustreaz mai bine profilul trilor.
III.Analiza discriminant
Prin coninutul su i prin natura procedurilor i tehnicilor pe care le utilizeaz ,analiza
discriminanta este echivalent cu rezolvarea unei probleme de predicie cu privire la
apartenena la o anumit clas a unor noi obiecte. Acesta constituie scopul principal al teoriei
recunoaterii formelor.
Exist cteva scopuri ale acestei analize:
-s clasifice cazurile n grupuri utiliznd o ecuaie de predicie a discriminantului
-s testeze teoria prin observarea faptului c cazurile sunt clasificate aa cum au
fost prevzute
-s investigheze diferenele dintre sau din interiorul grupurilor
-s determine cel mai posibil mod de a distinge ntre grupuri
-s determine procentul variantei n variabila dependent explicat de ctre independente
-s se determine proporia variabilei dependente explicat de ctre independente
-prin sau deasupra variantei calculate prin variabila de control utiliznd analiza
discriminatului secvenial
-s arate importana relativ a variabilelor independente n clasificarea variabilei dependente
-s precizeze variabilele care sunt ntr-o msur mic legate de distinciile grupului
Adugm o nou coloan suplimentar, ce se refer la mrimea rii respective ca i
populaie, obinnd astfel:
1.ri de dimensiune mica ( 0-10 milioane locuitori )
2.ri de dimensiune medie ( 10-20 milioane locuitori )
3.ri de dimensiune mare ( peste 20 milioane locuitori )
Tests of Equality of Group Means

Wilks' Lambda
df1
df2
Sig.
Zscore(V1)
,987
,237
37 ,790
Zscore(V2)
,997
,052
37 ,949
Zscore(V3)
,912
37 ,184
Zscore(V4)
,997
,047
37 ,954
Zscore(V5)
,962
,724
37 ,492
1,775
n tabelul Test of Equality of Group Means este prezentat rezultatul univariate

ANOVA pentru fiecare variabil n parte.
Classification Function Coefficients
Dimensiune
1
Zscore(V1)
-,625 ,428
Zscore(V2)
1,008
Zscore(V3)
-,902
Zscore(V4)
-,406 ,339
,499
Zscore(V5)
-,077 ,147
,057
(Constant)
,811
-1,137
-1,104
1,175 ,915
-1,255
-1,344
-1,279
Fisher's linear discriminant functions
n tabelul de mai sus, sunt prezentai coeficienii funciilor clasificatorilor, care sunt
combinaii liniare de variabilele originale. Aceti coeficieni sunt rezultatul unei probleme de
optim, ce presupune minimizrea varianei dintre grupe i reprezint ecuaia dreptei trasate
pentru a separa spaiul obiectelor n clasele de mai sus.
Eigenvalues
Functio
n
Canonical
Eigenvalue
% of Variance
Cumulative %
Correlation
,375a
97,7
97,7 ,522
,009a
2,3
100,0 ,094
a. First 2 canonical discriminant functions were used in the analysis.
n tabelul Eigenvalues observm valorile proprii associate funciilor, iar funciile cu

cele mai mari valori proprii sunt acele funcii cu o putere maxim de discriminan. Se
observ n acest caz c prima funcie are o putere de discriminare mai mare, cumulnd 52,2%
din variana din interiorul grupei.
Wilks' Lambda
Test of
Function(s)
Wilks' Lambda
1 through 2
,721
,991
Chi-square
11,459
,308
df
Sig.
10 ,323
4 ,989
Pe baza tabelului de mai sus, Wilks Lambda, putem verifica dac exist diferene
majore ntre clasele propuse. Testul Wilks Lamda verific semnificaia tuturor funciilor de
discriminare pe un interval precizat. Pentru o discriminare ct mai bun este necesar ca
valoarea lui s fie mai mare dect 0.05 , criteriu ce se respect n ambele cazuri( 0.721 i
0.991).
Urmrind interpretarea grafic de mai sus asupra celor trei clase, vedem cum se
poziioneaz n jurul centroizilor i cam cum sunt de omogene. Nu se observ nicio clas cu
un grad foarte redus de dispersie doarece toate trei au cte o component care se apropie de
alte clase.
Classification Resultsa
Dimensi
une
Original
Count
Predicted Group Membership

1
Total
14
21
13
66,7
14,3
19,0
100,0
16,7
50,0
33,3
100,0
23,1
46,2
30,8
100,0
a. 52,5% of original grouped cases correctly classified.
Tabelul Classification results arat un sumar al rezultatelor analizei discriminante,
comparnd numrul de obiecte correct clasificate cu cele incorrect clasificate, propunnd i

grupele unde ar fi trebuit s fie incluse. Pentru clasele originale I de pe linie i clasele
propuse j de pe coloan, elemental aij reprezint numrul de component din clasa I ce ar fi
trebuit s fie n clasa j. Suma elementelor de pe diagonal principal este numrul de obiecte
corect clasificate.
Concluzii
Lumea se afla intr-o continua schimbare sau transformare. Asadar consider ca nivelul
de investitie in sanatatea mamei si al copilului accelereaza ritmul de dezvoltare al sanatatii,
dar si al economieic
Aceasta analiza ne sugereaza prin intermediul cifrelor , legatura ce o au anumite tari
intre ele si nivelul de investitie in sanatate specifice celor 40 de tari observate.
Asadar precizez ca informatiile despre sanatate furnizate, pot fi utile in diverse
domenii de activitate stiintifice sau practice.

Proiect AnalizaDatelor BoboescuDanAlexandru

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Proiect AnalizaDatelor BoboescuDanAlexandru

Încărcat de

Drepturi de autor:

Formate disponibile

Academia de Studii Economice din Bucureti

Facultatea de Cibernetic, Statistic i Informatic Economic

Proiect Analiza Datelor

Student: Boboescu Dan Alexandru

Proiectul isi propune sa analizeze date legate de nivelul de investitie in sanatatea

Cheltuielile totale cu sanatatea reprezinta suma de bani cheltuita de catre sectorul

Rata fertilitatii (nasteri pe femeie)

Descrierea Statistica a datelor

Analiza indicatorilor tendinei centrale :

Pentru ca o medie sa fie reprezentativa, trebuie sa Indeplineasca urmatoarele conditii:

Sa fie calculata dintr-un numar suficient de mare de cazuri individuale

2,680046E 2,969099E 7,807597E 7,037500E 1,718725E

1,722808E 2,200135E 7,938923E 4,250000E 1,633500E

1,2706E2a 3,2196E3a 7,0551E1a

Indicatori ai mprtierii datelor:

Dispersia se determin ca medie aritmetic a ptratelor

-pentru un eantion (sample variance, n engl.) - estimator

-pentru populaia statistic parametru

2,4469918 2,4913599 3,6626737 6,2046173

I. Analiza componentelor principale

reprezinta abaterea standard a

pentru cazul deplasat:

reprezinta media celei de-a i-a variabile, iar

pentru cazul nedeplasat:

sunt variabilele originale si j

ponderile din tabelul de mai jos.

Influena variabilelor originale luate n studiu este dat de:

Extraction Method: Principal Component Analysis.

contribuie major la explicarea variabilelor artificiale care se obin ulterior. Cantiatea de

Extraction Sums of Squared Loadings

Vom observa c avem nevoie de dou componente principale pentru a recupera o

Extraction Method: Principal Component Analysis.

Analiznd aceti coeficieni de corelaie, observm c prima component principal

Extraction Method: Principal

Componentele principale sunt combinaii liniare ntre variabilele iniiale i ponderi

Component Score Coefficient

De exemplu prima component principala poate fi scris n

Extraction Method: Principal

Aceeai interpretare ca la Rotated Component Matrix o putem face i cu ajutorul

Metoda lui Ward

Stage Cluster First Appears

Dendrogram using Ward Method

Tests of Equality of Group Means

n tabelul Test of Equality of Group Means este prezentat rezultatul univariate

Fisher's linear discriminant functions

a. First 2 canonical discriminant functions were used in the analysis.

n tabelul Eigenvalues observm valorile proprii associate funciilor, iar funciile cu

Predicted Group Membership

a. 52,5% of original grouped cases correctly classified.

Tabelul Classification results arat un sumar al rezultatelor analizei discriminante,

comparnd numrul de obiecte correct clasificate cu cele incorrect clasificate, propunnd i

S-ar putea să vă placă și