Documente Academic
Documente Profesional
Documente Cultură
Introducere
cu
sanatatea
pe
cap
de
locuitor
(pretul
pietei
$)
media aritmetic ( x )
mediana (Me)
modul (Mo)
Media
Mediile sunt marimi statistice care exprima In mod sintetic si generalizat ceea ce este
normal, logic, esential, tipic pentru toate unitatile colectivitatii distribuite dupa o
caracteristica.
Media se calculeaza dupa formula:
n
xi
x = i=1
N
Mediana reprezint valoarea din mijlocul unei serii de date ordonate.Este un indicator
mediu de poziie care face parte din categoria cuantilelor si ia n consideraie doar poziia
observaiilor n serie, nu i mrimea lor efectiv (nu este afectat de prezena valorilor
extreme).
Mediana se poate determina pe cale grafic. Ea reprezint proiecia pe axa absciselor a
punctului de intersecie dintre cele dou curbe ale frecvenelor cumulate (cresctor i
descresctor).
Pentru a determina mediana se introduce noiunea de ranguri, adic numere de ordine
asociate observaiilor, de la cea mai mic (cu rangul 1), pn la cea mai mare (rangul
n) .Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unitii din mijlocul seriei.
Modul
Modulul este parametrul care corespunde celei mai mari frecvene, adic este valoarea
cea mai frecvent ntlnit.Valoarea modal se poate determina pentru orice tip de variabil
(nenumeric sau numeric), indiferent de scala de msurare.
Grafic, ntr-o histogram ori poligon al frecvenelor, modul reprezint valoarea de pe
abscis, corespunztoare vrfului reprezentrii.
innd cont de aceste caracteristici, media este recomandata n cazul variabilelor
numerice care ndeplinesc conditiile parametrice (distributie normala, omogenitate s.a.).
Mediana se recomanda pentru cazurile n care nu sunt ndeplinite conditiile parametrice
(distributii asimetrice, etrogenitate crescuta etc) si n cazul variabilelor de tip ordinal. Modul
este utilizat mai rar pentru date numerice, fiind nsa foarte util n cazul variabilelor de tip
categorial (date calitative, nominale), deoarece nu putem calcula ceilalti parametrii centrali.
Statistics
V1
N
Valid
Missing
Mean
V2
V3
V4
V5
40
40
40
40
40
Median
Mode
3,4000
1,3900a
x x
n
i 1
min
aR
x a
i 1
x x
n
s2
i 1
n 1
x
i 1
Abaterea Standard
In teoria probabilitatilor, abaterea standard a unei variabile aleatoare reprezinta o
masura a dispersiei acestei valorilor acesteia In jurul uneia considerate mijlocii. Se mai
numeste si abatere medie patratica.
Abaterea standard caracterizeaza gradul de variabilitate a variantelor individuale ale
caracteristicii de la valoarea medie. Cu cat abaterea medie patratica are o marime mai mica cu
atat valorile caracteristicii sunt mai concentrate in jurul mediei si in consecinta colectivitatea
statistica este mai omogena si invers, cu cat abaterea medie patratica are o marime mai mare
cu atat valorile individuale ale caracteristicii sunt mai dispersate si deci colectivitatea este mai
putin omogena.
Abaterea medie patratica are o aplicabilitate extinsa pentru dimensionarea sintetica a
variatiei caracteristicii studiate deoarece se exprima in aceleasi unitati de masura in care sunt
exprimate si variantele caracteristicii. Limita de aplicare se intalneste in cazul comparatiei pe
baza marimii sale a gradului de variabilitate dintre doua colectivitati statistice ale caror
caracteristici sunt exprimate in unitati de masura diferite sau sunt marimi cifrice de ordin
diferit.
Abaterea standard se calculeaza prin extragerea radacinii patrate din dispersie, astfel:
2
x =E [ ( X ) ]=
(xx )2
n
Statistics
V1
Valid
Missing
Std. Deviation
Variance
V2
V3
V4
V5
40
40
40
40
40
E4
E0
5,988E6
6,207E8
13,415
E0
,3733768
38,497 ,139
Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept
scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus
de componente, fara ca aceasta forma sa contina redundante informationale.Aceste
componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele,
fiecare fiind o combinatie liniara de variabilele originale.
Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa
indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a tarilor.
Standardizarea datelor
Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom
efectua Analiza Componentelor Principale pe date standardizate.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor
fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei
operatii si abaterea standard a respectivei variabile:
xct x t x i
x= =
, t=1,2, ,T
si
si
s
ti
unde
x i
variabilei
xi
si
1
s = (x t x i )2
T t =1
2
i
1
2
s=
( xt x i)
T 1 t=1
2
i
Matricea de corelatie
Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza
matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile
dintre variabilele initiale si determina componentele pricipale.
Correlation Matrix
Zscore(V1)
Correlation
Zscore(V1)
Zscore(V2)
1,000 ,963
Zscore(V2)
,963
Zscore(V3)
,777
Zscore(V3)
Zscore(V4)
Zscore(V5)
,777
-,545
-,123
1,000 ,747
-,552
-,111
1,000
-,663
-,038
1,000 ,390
,747
Zscore(V4)
-,545
-,552
-,663
Zscore(V5)
-,123
-,111
-,038 ,390
1,000
Identificam in matrice coeficientii de corelatie atat mari cat si mici. Spre exemplu
putem observa cum cea mai puternica legatura este intre cheltuieli cu sanatatea pe cap de
locuitor si produsul intern brut pe cap de locuitor (0.963). O alta legatura destul de
puternica este cea dintre speranta de viata la nastere si cheltuielile pentru sanatate.
Exista si legaturi foarte slabe cum ar fi intre rata fertilitatii si produsul intern brut
pe locuitor (-0.111) sau speranta de viata la nastere si rata fertilitatii (-0.038).Putem
observa ca nici o legatura intre rata fertilitatii si celelalte categorii nu este una foarte puternica
, deci putem trage concluzia ca aceasta categorie nu este destul de compatibila cu celelalte.
Cum componentele principale sunt combinatii liniare de variabile originale, le putem
(i)
(i)
(i)
x1
privi sub forma unui vector de forma: w i= 1 x 1 + 2 x 2+ + n x n , unde
,
x2 xn
(i)
Extraction
Rescaled
Initial
Extraction
Zscore(V1)
1,000 ,904
1,000 ,904
Zscore(V2)
1,000 ,891
1,000 ,891
Zscore(V3)
1,000 ,823
1,000 ,823
Zscore(V4)
1,000 ,736
1,000 ,736
Zscore(V5)
1,000 ,927
1,000 ,927
Acest tabel art procentul (coeficientul) din variana variabilei care poate fi explicat
pe baza tuturor factorilor. Astfel c, cu ct acest coeficient e mai apoape de 1, cu att variabila
e mai bine explicat. Coloana Initial reprezint variana sau dispersia iniial a variabilelor,
variabile care sunt normate, drept pentru care ele au iniial abaterea 1. Analiznd tabelul
obinut vom observa c variabilele rata fertilitatii i cheltuielile pentru sanatate au o
Compo
nent
Raw
Rescaled
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
3,185
63,708
63,708
3,185
63,708
63,708
1,095
21,895
85,603
1,095
21,895
85,603
,485
9,697
95,300
,201
4,016
99,316
,034
,684
100,000
3,185
63,708
63,708
3,185
63,708
63,708
1,095
21,895
85,603
1,095
21,895
85,603
,485
9,697
95,300
,201
4,016
99,316
,034
,684
100,000
este mprit n dou zone, una n care panta este abrupt (este vorba de poriunea din grafic
corespunztoare componentelor 1 i 2) i alta n care panta este lin (este vorba de poriunea
corespunztoare componentelor 3,4,5).
Punctului de intersecie dintre cele
dou zone (este vorba de
punctul dat de
reprezentarea
punctului 3) i
corespunde un factor care va fi
considerat ca ultimul factor
extras. Deci i cu ajutorul acestei metode vom obine tot dou componente principale la fel ca
n cazul utilizrii tabelului Total Variance Explained.
n ceea ce urmeaz, n vederea caracterizrii componentelor obinute, se determin
coeficientul de corelaie ntre variabilele artificiale obinute (componentele principale) i
variabilele originale luate n calcul. Coeficienii de corelaie dintre variabilele artificiale
obinute i variabilele originale sunt dai n tabelul care urmeaz:
Component Matrixa
Raw
Rescaled
Component
Component
Zscore(V1)
,932
,188
,932
,188
Zscore(V2)
,924
,191
,924
,191
Zscore(V3)
,888
,183
,888
,183
Zscore(V4)
-,780 ,356
-,780 ,356
Zscore(V5)
-,254 ,929
-,254 ,929
Datele din tabelul de mai sus se refer la soluia factorial iniial (naintea procedurii
de rotaie). Pentru ca interpretarea s fie facut cu usurinta se mai folosete i tehnica rotirii
axelor( tehnica Varimax) ce are drept scop oinerea unor coeficieni de corelaie ct mai mici
pe una din componentele principale. ns interpretarea se face uor i pe prima matrice de
corelaie (ntre componentele principale si variabilele iniiale), obinndu-se aceeai
interpretare ca i n cazul tehnicii Varimax, ns n cazul tehnicii Varimax rezutatele sunt mai
concludente.
Rotated Component Matrixa
Raw
Rescaled
Component
Component
Zscore(V1)
,948
-,070 ,948
-,070
Zscore(V2)
,941
-,065 ,941
-,065
Zscore(V3)
,905
-,063 ,905
-,063
Zscore(V4)
-,656 ,553
Zscore(V5)
,006
,963
-,656 ,553
,006
,963
Component Transformation
Matrix
Compo
nent
,963
,269
2
-,269
,963
Zscore(V1)
,328
,086
Zscore(V2)
,326
,090
Zscore(V3)
,314
,086
Zscore(V4)
Zscore(V5)
-,148 ,379
,152
,839
axa corespunztoare unei componente, cu att variabila respectiv influeneaz ntr-o mai
mare msur componenta respectiv.
II.Analiza Cluster
n continuare vom ncerca realizarea unei clasificri a tarilor folosindu-ne de datele
standardizate. Deci vom realiza analiza cluster utiliznd mai nti metoda celor mai apropiati
vecini i apoi metoda lui Ward. Aceast metod este folosit pentru a grupa date multidimensionale (puncte ce reprezint cazuri sau observaii) n grupe (clusters) definite
algoritmic. Analiza Cluster consta, de fapt, dintr-o colecie de algoritmi ce exploateaz mai
multe euristici fundamentate n principal pe experiena noastr vizual n gruparea punctelor
n nori de puncte . Pentru a putea folosi un algoritm de clasificare, este nevoie de
precizarea:
Unei distane ntre punctele unui spaiu multidimensional. n lucrarea de fa vom
utiliza distana Euclidian;
O strategie de alegere a punctului reprezentativ (adic a centrului) pentru orice grupare
de puncte. De cele mai mule ori se alege media aritmetic (centrul de greutate);
O distan ntre dou grupe de puncte. Cele mai folosite asemenea distane sunt:
-distana ntre centre (n algoritmul Ward);
-distana ntre cei mai apropiai vecini (single linkage);
-distana ntre cei mai deprtai vecini (complete linkage).
Rezultatele analizei cluster sunt diferite n funcie de metoda aplicat, astfel, dup cum
se va putea observa din cele dou dendograme precum i din schemele de agregare, orinea n
care are loc gruparea obiectelor este diferit.
Metoda celor mai apropiati vecini
Agglomeration Schedule
Stage Cluster First
Cluster Combined
Stage
Cluster 1
Appears
Cluster 2 Coefficients
Cluster 1
Next Stage
Cluster 2
23 ,098
14
21
32 ,120
24
27
38 ,133
18 ,153
13
22
28 ,169
12
37 ,169
32
26 ,170
11
16
27 ,208
22
11
40 ,219
13
10
24
30 ,228
27
11
10 ,267
16
12
17
22 ,272
22
13
11 ,278
14
14
6 ,295
13
15
15
19 ,297
14
20
16
14 ,298
11
17
17
7 ,305
16
29
18
29
36 ,307
19
19
29 ,309
18
28
20
33 ,314
15
23
21
34
39 ,319
28
22
16
17 ,351
12
24
23
4 ,358
20
25
24
16
21 ,380
22
26
25
25 ,397
23
26
26
16 ,409
25
24
27
27
24 ,450
26
10
30
28
34 ,552
19
21
29
29
8 ,586
17
28
30
30
3 ,616
29
27
31
31
9 ,813
30
33
32
15 ,819
33
33
32
31
34
1,532
n primul pas, se grupeaza trile 6 i 23 (clusterd combined), ntre acestea existnd cea
mai mic distan. Acestora li se adauga n etapa 14 (coloana Next Stage) o nou ar (la pasul
14 se grupeaz 4 cu 6). Logica gruprii este aceeai i pentru paii urmtori.
Rescaled Distance Cluster Combine
C A S E
Label
Belgium
Finland
Austria
Germany
Canada
Netherlands
Denmark
Japan
Australia
United Kingdom
Spain
Italy
Greece
Malta
Cyprus
Estonia
Croatia
Czech Republic
France
Iceland
Armenia
Georgia
Brazil
China
Bulgaria
Hungary
Latvia
Bosnia and Herzegovina
Lithuania
Montenegro
Belarus
Argentina
Mexico
Colombia
Ecuador
Chile
Switzerland
Luxembourg
Israel
Azerbaijan
Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
6
23
4
18
11
40
19
33
3
25
21
32
27
38
16
22
28
17
24
30
2
26
10
14
7
29
36
8
34
39
9
1
37
15
20
13
12
35
31
cele 40 de state. Dendograma sugereaz un numr de 7 mari grupe. Schema de grupare este
diferit fat de cea din cazul precedent
Agglomeration Schedule
Cluster Combined
Stage
Cluster 1
Cluster 2
Coefficients
Cluster 1
Cluster 2
Next Stage
23 ,049
17
21
32 ,109
26
27
38 ,175
13
18 ,251
14
22
28 ,336
16
37 ,420
22
26 ,505
15
11
40 ,615
18
24
30 ,729
21
10
14 ,881
23
11
29
36
1,035
19
12
34
39
1,195
24
13
16
27
1,361
26
14
33
1,587
31
15
10
1,814
23
16
17
22
2,045
27
17
25
2,304
21
18
11
19
2,566
20
19
29
2,843
11
28
20
11
3,238
18
30
21
24
3,722
17
30
22
15
4,294
29
23
4,919
15
10
33
24
34
5,607
12
28
25
12
35
6,488
37
26
16
21
7,376
13
31
27
13
17
8,609
16
32
28
10,088
19
24
32
29
20
11,608
22
34
30
13,527
20
21
35
31
16
16,624
14
26
35
32
13
19,835
28
27
33
33
27,073
23
32
38
34
35,371
29
36
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
Belgium
Finland
United Kingdom
France
Iceland
Canada
Netherlands
Denmark
Australia
Austria
Germany
Japan
Spain
Italy
Greece
Malta
Cyprus
Switzerland
Luxembourg
Bulgaria
China
Armenia
Georgia
Brazil
Estonia
Croatia
Czech Republic
Chile
Hungary
Latvia
Bosnia and Herzegovina
Lithuania
Montenegro
Belarus
Argentina
Mexico
Colombia
Ecuador
Azerbaijan
6
23
25
24
30
11
40
19
3
4
18
33
21
32
27
38
16
12
35
7
14
2
26
10
22
28
17
13
29
36
8
34
39
9
1
37
15
20
5
Israel
31
Label
Cluster 1: Belgia, Finlanda, Regatul Unit, Franta, Islanda, Canada, Olanda, Danemarca,
Australia
Cluster 2: Austria, Germania, Japonia, Spania, Italia, Grecia, Malta, Cipru,
Cluster 3: Elvetia, Luxemburg
Cluster 4:Bulgaria, China, Armenia, Georgia,Brazilia
Cluster 5:Estonia,Croatia,Letonia,Bosnia,Lituania,Muntenegru,Belarus
Cluster 6:Argentina,Mexic,Columbia,Ecuador
Cluster 7: Azerbaijan, Israel
n cazul de fa, metoda lui Ward a dus la obinerea unor rezultate mai bune, permind o
diferenier mai clar a clusterelor. Folosind principiul minimizrii varianei n cadrul
grupurilor, ilustreaz mai bine profilul trilor.
III.Analiza discriminant
Prin coninutul su i prin natura procedurilor i tehnicilor pe care le utilizeaz ,analiza
discriminanta este echivalent cu rezolvarea unei probleme de predicie cu privire la
apartenena la o anumit clas a unor noi obiecte. Acesta constituie scopul principal al teoriei
recunoaterii formelor.
Exist cteva scopuri ale acestei analize:
-s clasifice cazurile n grupuri utiliznd o ecuaie de predicie a discriminantului
-s testeze teoria prin observarea faptului c cazurile sunt clasificate aa cum au
fost prevzute
-s investigheze diferenele dintre sau din interiorul grupurilor
-s determine cel mai posibil mod de a distinge ntre grupuri
-s determine procentul variantei n variabila dependent explicat de ctre independente
-s se determine proporia variabilei dependente explicat de ctre independente
-prin sau deasupra variantei calculate prin variabila de control utiliznd analiza
discriminatului secvenial
-s arate importana relativ a variabilelor independente n clasificarea variabilei dependente
-s precizeze variabilele care sunt ntr-o msur mic legate de distinciile grupului
Adugm o nou coloan suplimentar, ce se refer la mrimea rii respective ca i
populaie, obinnd astfel:
1.ri de dimensiune mica ( 0-10 milioane locuitori )
2.ri de dimensiune medie ( 10-20 milioane locuitori )
3.ri de dimensiune mare ( peste 20 milioane locuitori )
df1
df2
Sig.
Zscore(V1)
,987
,237
37 ,790
Zscore(V2)
,997
,052
37 ,949
Zscore(V3)
,912
37 ,184
Zscore(V4)
,997
,047
37 ,954
Zscore(V5)
,962
,724
37 ,492
1,775
Zscore(V1)
-,625 ,428
Zscore(V2)
1,008
Zscore(V3)
-,902
Zscore(V4)
-,406 ,339
,499
Zscore(V5)
-,077 ,147
,057
(Constant)
,811
-1,137
-1,104
1,175 ,915
-1,255
-1,344
-1,279
n tabelul de mai sus, sunt prezentai coeficienii funciilor clasificatorilor, care sunt
combinaii liniare de variabilele originale. Aceti coeficieni sunt rezultatul unei probleme de
optim, ce presupune minimizrea varianei dintre grupe i reprezint ecuaia dreptei trasate
pentru a separa spaiul obiectelor n clasele de mai sus.
Eigenvalues
Functio
n
Canonical
Eigenvalue
% of Variance
Cumulative %
Correlation
,375a
97,7
97,7 ,522
,009a
2,3
100,0 ,094
Wilks' Lambda
1 through 2
,721
,991
Chi-square
11,459
,308
df
Sig.
10 ,323
4 ,989
Pe baza tabelului de mai sus, Wilks Lambda, putem verifica dac exist diferene
majore ntre clasele propuse. Testul Wilks Lamda verific semnificaia tuturor funciilor de
discriminare pe un interval precizat. Pentru o discriminare ct mai bun este necesar ca
valoarea lui s fie mai mare dect 0.05 , criteriu ce se respect n ambele cazuri( 0.721 i
0.991).
Urmrind interpretarea grafic de mai sus asupra celor trei clase, vedem cum se
poziioneaz n jurul centroizilor i cam cum sunt de omogene. Nu se observ nicio clas cu
un grad foarte redus de dispersie doarece toate trei au cte o component care se apropie de
alte clase.
Classification Resultsa
Dimensi
une
Original
Count
Total
14
21
13
66,7
14,3
19,0
100,0
16,7
50,0
33,3
100,0
23,1
46,2
30,8
100,0
Concluzii
Lumea se afla intr-o continua schimbare sau transformare. Asadar consider ca nivelul
de investitie in sanatatea mamei si al copilului accelereaza ritmul de dezvoltare al sanatatii,
dar si al economieic
Aceasta analiza ne sugereaza prin intermediul cifrelor , legatura ce o au anumite tari
intre ele si nivelul de investitie in sanatate specifice celor 40 de tari observate.
Asadar precizez ca informatiile despre sanatate furnizate, pot fi utile in diverse
domenii de activitate stiintifice sau practice.