Documente Academic
Documente Profesional
Documente Cultură
Descrierea datelor
Produsul intern brut (prescurtat PIB) este un indicator macroeconomic care reflecta
suma valorii de piata a tuturor marfurilor si serviciilor destinate consumului final, produse In
toate ramurile economiei In interiorul unei tari In decurs de un an.
Cea mai importanta cauza a mortalitatii infantile este deshidratarea din cauza diareei.
Datorita succesului In raspandirea informatiei despre solutiile orale rehidratante (un amestec
de saruri, zahar si apa), numarul copiilor care mor din cauza deshidratarii a scazut, ajungand
pe locul doi spre sfarsitul anilor 1990. In prezent, cea mai comuna cauza a mortalitatii
infantile este pneumonia.
Rata fertilitatii (nasteri pe femeie)
Media
Mediile sunt marimi statistice care exprima In mod sintetic si generalizat ceea ce este
normal, logic, esential, tipic pentru toate unitatile colectivitatii distribuite dupa o
caracteristica.
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑁
Pentru ca o medie sa fie reprezentativa, trebuie sa Indeplineasca urmatoarele conditii:
Mediana
Mediana reprezintă valoarea din mijlocul unei serii de date ordonate.Este un indicator
mediu de poziţie care face parte din categoria cuantilelor si ia în consideraţie doar poziţia
observaţiilor în serie, nu şi mărimea lor efectivă (nu este afectată de prezenţa valorilor
extreme).
Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe axa absciselor a
punctului de intersecţie dintre cele două curbe ale frecvenţelor cumulate (crescător şi
descrescător).
Pentru a determina mediana se introduce noţiunea de ranguri, adică numere de ordine
asociate observaţiilor, de la cea mai mică (cu rangul 1), până la cea mai mare (rangul n)
.Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unităţii din mijlocul seriei.
Modul
Modulul este parametrul care corespunde celei mai mari frecvențe, adică este valoarea
cea mai frecvent întâlnită.Valoarea modală se poate determina pentru orice tip de variabilă
(nenumerică sau numerică), indiferent de scala de măsurare.
Statistics
V1 V2 V3 V4 V5
N Valid 40 40 40 40 40
Missing 0 0 0 0 0
x x x x
n n
x a
2 n
min
2 2
i i
aR i
i 1 i 1
-pentru un eşantion (sample variance, în engl.) - estimator s2 i 1
n 1
N
x
2
i
-pentru populaţia statistică – parametru 2 i 1
N
Abaterea Standard
In teoria probabilitatilor, abaterea standard a unei variabile aleatoare reprezinta o
masura a dispersiei acestei valorilor acesteia In jurul uneia considerate mijlocii. Se mai
numeste si abatere medie patratica.
Abaterea standard se calculeaza prin extragerea radacinii patrate din dispersie, astfel:
∑(𝑥 − 𝑥̅ )2
𝜎𝑥 = 𝐸[(𝑋 − 𝜇)2 ] = √
𝑛
Statistics
V1 V2 V3 V4 V5
N Valid 40 40 40 40 40
Missing 0 0 0 0 0
Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept
scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus
de componente, fara ca aceasta forma sa contina redundante informationale.Aceste
componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele,
fiecare fiind o combinatie liniara de variabilele originale.
Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa
indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a tarilor.
Standardizarea datelor
Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom
efectua Analiza Componentelor Principale pe date standardizate.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor
fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei
operatii si abaterea standard a respectivei variabile:
𝑥𝑡𝑐𝑖 𝑥𝑡𝑖 − 𝑥̅ 𝑖
𝑥𝑡𝑠𝑖= = , 𝑡 = 1,2, … , 𝑇
𝑠𝑖 𝑠𝑖
unde 𝑥̅ 𝑖 reprezinta media celei de-a i-a variabile, iar 𝑠𝑖 reprezinta abaterea standard a
variabilei 𝑥𝑖 .
1
pentru cazul deplasat: 𝑠𝑖2 = 𝑇 ∑𝑇𝑡=1(𝑥𝑡𝑖 − 𝑥̅𝑖 )2
1
pentru cazul nedeplasat: 𝑠𝑖2 = 𝑇−1 ∑𝑇𝑡=1(𝑥𝑡𝑖 − 𝑥̅𝑖 )2
Matricea de corelatie
Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza
matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile
dintre variabilele initiale si determina componentele pricipale.
Correlation Matrix
Identificam in matrice coeficientii de corelatie atat mari cat si mici. Spre exemplu
putem observa cum cea mai puternica legatura este intre cheltuieli cu sanatatea pe cap de
locuitor si produsul intern brut pe cap de locuitor (0.963). O alta legatura destul de
puternica este cea dintre speranta de viata la nastere si cheltuielile pentru sanatate.
Exista si legaturi foarte slabe cum ar fi intre rata fertilitatii si produsul intern brut
pe locuitor (-0.111) sau speranta de viata la nastere si rata fertilitatii (-0.038).Putem
observa ca nici o legatura intre rata fertilitatii si celelalte categorii nu este una foarte puternica
, deci putem trage concluzia ca aceasta categorie nu este destul de compatibila cu celelalte.
Raw Rescaled
Acest tabel arătă procentul (coeficientul) din varianţa variabilei care poate fi explicat
pe baza tuturor factorilor. Astfel că, cu cât acest coeficient e mai apoape de 1, cu atât variabila
e mai bine explicată. Coloana “Initial” reprezintă varianţa sau dispersia iniţială a variabilelor,
variabile care sunt normate, drept pentru care ele au iniţial abaterea 1. Analizând tabelul
obţinut vom observa că variabilele rata fertilitatii şi cheltuielile pentru sanatate au o
contribuţie majoră la explicarea variabilelor artificiale care se obţin ulterior. Cantiatea de
informaţie recuperată de aceste două variabile este de 0,927 respectiv 0.904. De asemenea tot
din analiza tabelului de mai sus obţinem fatul că variabila rata moratilitatii infantile are
contribuţia cea mai mică în cadrul componentelor principale (0,736). Deoarece toţi
coeficienţii au valori mai mari decât 0,4, rezultă că nu este nevoie să eliminăm din analiza
noastră nicio variabilă. Pentru a stabili numărul de componente principale necesar în analiza
ulterioara se folosesc datele din tabeleul :
Imaginea Scree Plot reprezintă în formă grafică valorile Eigenvalue pentru toate
componentele prncipale rezultate din analiză şi care, numeric, sunt reprezentate în tabelul
Total Variance Explained de mai sus.Reprezentarea grafică a valorilor eigen aferente
factorilor, în ordinea extragerii lor, produce o curbă care poate da informaţii cu privire la
numărul de factori care trebuie reţinuţi. În reprezentarea noastra observăm că forma curbei
este împărţită în două zone, una în care panta este abruptă (este vorba de porţiunea din grafic
corespunzătoare componentelor 1 şi 2) şi alta în care panta este lină (este vorba de porţiunea
corespunzătoare componentelor 3,4,5). Punctului de intersecţie dintre cele două zone (este
vorba de punctul dat de reprezentarea punctului 3) îi corespunde un factor care va fi
considerat ca ultimul factor extras. Deci şi cu ajutorul acestei metode vom obţine tot două
componente principale la fel ca în cazul utilizării tabelului Total Variance Explained.
Component Matrixa
Raw Rescaled
Component Component
1 2 1 2
a. 2 components extracted.
Datele din tabelul de mai sus se referă la soluţia factorială iniţială (înaintea procedurii
de rotaţie). Pentru ca interpretarea să fie facută cu usurinta se mai foloseşte şi tehnica rotirii
axelor( tehnica Varimax) ce are drept scop oţinerea unor coeficienţi de corelaţie cât mai mici
pe una din componentele principale. Însă interpretarea se face uşor şi pe prima matrice de
corelaţie (între componentele principale si variabilele iniţiale), obţinându-se aceeaşi
interpretare ca şi în cazul tehnicii Varimax, însă în cazul tehnicii Varimax rezutatele sunt mai
concludente.
Rotated Component Matrixa
Raw Rescaled
Component Component
1 2 1 2
Component Transformation
Matrix
Compo
nent 1 2
1 ,963 -,269
2 ,269 ,963
Component
1 2
Agglomeration Schedule
1 6 23 ,098 0 0 14
2 21 32 ,120 0 0 24
3 27 38 ,133 0 0 8
4 4 18 ,153 0 0 13
5 22 28 ,169 0 0 12
6 1 37 ,169 0 0 32
7 2 26 ,170 0 0 11
8 16 27 ,208 0 3 22
9 11 40 ,219 0 0 13
10 24 30 ,228 0 0 27
11 2 10 ,267 7 0 16
12 17 22 ,272 0 5 22
13 4 11 ,278 4 9 14
14 4 6 ,295 13 1 15
15 4 19 ,297 14 0 20
16 2 14 ,298 11 0 17
17 2 7 ,305 16 0 29
18 29 36 ,307 0 0 19
19 8 29 ,309 0 18 28
20 4 33 ,314 15 0 23
21 34 39 ,319 0 0 28
22 16 17 ,351 8 12 24
23 3 4 ,358 0 20 25
24 16 21 ,380 22 2 26
25 3 25 ,397 23 0 26
26 3 16 ,409 25 24 27
27 3 24 ,450 26 10 30
28 8 34 ,552 19 21 29
29 2 8 ,586 17 28 30
30 2 3 ,616 29 27 31
31 2 9 ,813 30 0 33
32 1 15 ,819 6 0 33
33 1 2 1,532 32 31 34
34 1 20 1,587 33 0 35
35 1 13 1,600 34 0 37
36 12 35 1,763 0 0 37
37 1 12 3,406 35 36 38
38 1 31 7,439 37 0 39
39 1 5 8,958 38 0 0
În primul pas, se grupeaza tările 6 și 23 (clusterd combined), între acestea existând cea
mai mică distanță. Acestora li se adauga în etapa 14 (coloana Next Stage) o nouă țară (la pasul
14 se grupează 4 cu 6). Logica grupării este aceeași și pentru pașii următori.
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Belgium 6 ─┐
Finland 23 ─┤
Austria 4 ─┤
Germany 18 ─┤
Canada 11 ─┤
Netherlands 40 ─┤
Denmark 19 ─┤
Japan 33 ─┤
Australia 3 ─┤
United Kingdom 25 ─┤
Spain 21 ─┤
Italy 32 ─┤
Greece 27 ─┤
Malta 38 ─┼─┐
Cyprus 16 ─┤ │
Estonia 22 ─┤ │
Croatia 28 ─┤ │
Czech Republic 17 ─┤ │
France 24 ─┤ │
Iceland 30 ─┘ ├─┐
Armenia 2 ─┐ │ │
Georgia 26 ─┤ │ │
Brazil 10 ─┤ │ │
China 14 ─┼─┤ │
Bulgaria 7 ─┘ │ ├───┐
Hungary 29 ─┐ │ │ │
Latvia 36 ─┼─┤ │ │
Bosnia and Herzegovina 8 ─┘ │ │ │
Lithuania 34 ─┬─┘ │ │
Montenegro 39 ─┘ │ │
Belarus 9 ─────┘ │
Argentina 1 ─┬───┐ │
Mexico 37 ─┘ ├───┤
Colombia 15 ─────┘ ├─────────┐
Ecuador 20 ─────────┤ ├─────────────────────┐
Chile 13 ─────────┘ │ │
Switzerland 12 ─────────┬─────────┘ ├───────┐
Luxembourg 35 ─────────┘ │ │
Israel 31 ─────────────────────────────────────────┘ │
Azerbaijan 5 ─────────────────────────────────────────────────┘
Metoda celor mai apropiaţi vecini nu ilustrează foarte clar clustere de tări, motiv
pentru care metoda lui Ward este cea care va furniza numărul de clustere în care vom împărţii
cele 40 de state. Dendograma sugerează un număr de 7 mari grupe. Schema de grupare este
diferită fată de cea din cazul precedent
Agglomeration Schedule
1 6 23 ,049 0 0 17
2 21 32 ,109 0 0 26
3 27 38 ,175 0 0 13
4 4 18 ,251 0 0 14
5 22 28 ,336 0 0 16
6 1 37 ,420 0 0 22
7 2 26 ,505 0 0 15
8 11 40 ,615 0 0 18
9 24 30 ,729 0 0 21
10 7 14 ,881 0 0 23
11 29 36 1,035 0 0 19
12 34 39 1,195 0 0 24
13 16 27 1,361 0 3 26
14 4 33 1,587 4 0 31
15 2 10 1,814 7 0 23
16 17 22 2,045 0 5 27
17 6 25 2,304 1 0 21
18 11 19 2,566 8 0 20
19 8 29 2,843 0 11 28
20 3 11 3,238 0 18 30
21 6 24 3,722 17 9 30
22 1 15 4,294 6 0 29
23 2 7 4,919 15 10 33
24 9 34 5,607 0 12 28
25 12 35 6,488 0 0 37
26 16 21 7,376 13 2 31
27 13 17 8,609 0 16 32
28 8 9 10,088 19 24 32
29 1 20 11,608 22 0 34
30 3 6 13,527 20 21 35
31 4 16 16,624 14 26 35
32 8 13 19,835 28 27 33
33 2 8 27,073 23 32 38
34 1 5 35,371 29 0 36
35 3 4 44,734 30 31 37
36 1 31 57,377 34 0 38
37 3 12 72,039 35 25 39
38 1 2 101,167 36 33 39
39 1 3 195,000 38 37 0
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Belgium 6 ─┐
Finland 23 ─┤
United Kingdom 25 ─┤
France 24 ─┤
Iceland 30 ─┼───┐
Canada 11 ─┤ │
Netherlands 40 ─┤ │
Denmark 19 ─┤ ├─┐
Australia 3 ─┘ │ │
Austria 4 ─┐ │ │
Germany 18 ─┤ │ │
Japan 33 ─┼───┘ │
Spain 21 ─┤ ├─────────────────────────────────────────┐
Italy 32 ─┤ │ │
Greece 27 ─┤ │ │
Malta 38 ─┤ │ │
Cyprus 16 ─┘ │ │
Switzerland 12 ─┬─────┘ │
Luxembourg 35 ─┘ │
Bulgaria 7 ─┐ │
China 14 ─┼─┐ │
Armenia 2 ─┤ │ │
Georgia 26 ─┤ │ │
Brazil 10 ─┘ │ │
Estonia 22 ─┐ ├───────────┐ │
Croatia 28 ─┤ │ │ │
Czech Republic 17 ─┤ │ │ │
Chile 13 ─┤ │ │ │
Hungary 29 ─┼─┘ │ │
Latvia 36 ─┤ │ │
Bosnia and Herzegovina 8 ─┤ │ │
Lithuania 34 ─┤ ├─────────────────────────────────┘
Montenegro 39 ─┤ │
Belarus 9 ─┘ │
Argentina 1 ─┐ │
Mexico 37 ─┤ │
Colombia 15 ─┼───┐ │
Ecuador 20 ─┘ ├─┐ │
Azerbaijan 5 ─────┘ ├───────┘
Israel 31 ───────┘
Cluster 1: Belgia, Finlanda, Regatul Unit, Franta, Islanda, Canada, Olanda, Danemarca,
Australia
Cluster 5:Estonia,Croatia,Letonia,Bosnia,Lituania,Muntenegru,Belarus
Cluster 6:Argentina,Mexic,Columbia,Ecuador
În cazul de faţă, metoda lui Ward a dus la obţinerea unor rezultate mai bune, permiţând o
diferenţieră mai clară a clusterelor. Folosind principiul minimizării varianţei în cadrul
grupurilor, ilustrează mai bine profilul tărilor.
III.Analiza discriminantă
Prin conţinutul său şi prin natura procedurilor şi tehnicilor pe care le utilizează ,analiza
discriminanta este echivalentă cu rezolvarea unei probleme de predicţie cu privire la
apartenenţa la o anumită clasă a unor noi obiecte. Acesta constituie scopul principal al teoriei
recunoaşterii formelor.
Există câteva scopuri ale acestei analize:
-să clasifice cazurile în grupuri utilizând o ecuaţie de predicţie a discriminantului
-să testeze teoria prin observarea faptului că cazurile sunt clasificate aşa cum au
fost prevăzute
-să investigheze diferenţele dintre sau din interiorul grupurilor
-să determine cel mai posibil mod de a distinge între grupuri
-să determine procentul variantei în variabila dependentă explicat de către independente
-să se determine proporţia variabilei dependente explicat de către independente
-prin sau deasupra variantei calculate prin variabila de control utilizând analiza
discriminatului secvențială
-să arate importanța relativă a variabilelor independente în clasificarea variabilei dependente
-să precizeze variabilele care sunt într-o măsură mică legate de distincţiile grupului
Dimensiune
1 2 3
În tabelul de mai sus, sunt prezentați coeficienții funcțiilor clasificatorilor, care sunt
combinații liniare de variabilele originale. Acești coeficienți sunt rezultatul unei probleme de
optim, ce presupune minimizrea varianței dintre grupe și reprezintă ecuația dreptei trasate
pentru a separa spațiul obiectelor în clasele de mai sus.
Eigenvalues
Functio Canonical
n Eigenvalue % of Variance Cumulative % Correlation
Wilks' Lambda
Test of
Function(s) Wilks' Lambda Chi-square df Sig.
Pe baza tabelului de mai sus, Wilks Lambda, putem verifica dacă există diferențe
majore între clasele propuse. Testul Wilks Lamda verifică semnificația tuturor funcțiilor de
discriminare pe un interval precizat. Pentru o discriminare cât mai bună este necesar ca
valoarea lui să fie mai mare decât 0.05 , criteriu ce se respectă în ambele cazuri( 0.721 și
0.991).
Urmărind interpretarea grafică de mai sus asupra celor trei clase, vedem cum se
poziționează în jurul centroizilor și cam cum sunt de omogene. Nu se observă nicio clasă cu
un grad foarte redus de dispersie doarece toate trei au câte o componentă care se apropie de
alte clase.
Classification Resultsa
Original Count 1 14 3 4 21
2 1 3 2 6
3 3 6 4 13
Concluzii
Lumea se afla intr-o continua schimbare sau transformare. Asadar consider ca nivelul
de investitie in sanatatea mamei si al copilului accelereaza ritmul de dezvoltare al sanatatii,
dar si al economieic