Documente Academic
Documente Profesional
Documente Cultură
Proiect Analiza Datelor
1116
Cuprins
Introducere 2
Speranta De Viata La Nastere 3
Femei Însărcinate Care Au Primit Îngrijire Prenatala (%) 3
Rata Fertilității (Nasteri per Femeie) 3
Rata Mortalității Infantile (Numărul Nou-născuților Decedati/1000 Nasteri Vii) 3
Cheltuieli Personale Pentru Sănătate (% Din Totalul De Cheltuieli Private) 3
Analiza Cluster 8
Metoda lui Ward 8
Algoritmul celor K-medii 9
Anexe 16
Datele Initiale 16
Comenzi Folosite in R 17
Matricea Scorurilor 18
Datele Scalate 20
1
Introducere
Datele utilizate in analiza se refera la 41 de tari din Intreaga lume, ordonate in functie de
pozitionarea ca si speranta de viata la nastere, astfel incat Romania sa se afle printre ele. Datele
se caracterizeaza din prisma a 6 indicatori agregati, variabile enumerate mai jos.
2
de a contribui la refacerea sau ameliorarea starii de sanatate a persoanelor fizice sau grupurilor
de populatie. Este o parte a cheltuielilor private de sanatate.
Deviatia Standard
> dtPca<-princomp(dt,cor=TRUE,scores=TRUE)
> dtPca$sdev
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
1.5285967 1.1638761 0.996527 0.8644083 0.5966881 0.4609557
Matricea cu eigenvectors
Valori proprii şi vectori proprii sunt asociati matricei corelatiilor variabilelor initiale. O valoare
proprie mai mare decat 1, pentru o componenta, indica faptul ca acea componenta are o
contributie mai mare decat a unei variabile initiale, deci este indicat a fi extrasa. Vectorii proprii,
asociati valorilor proprii, vor constitui ponderile in calculul combinatiilor liniare respective.
> dtPca$loadings
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
SPERANTA.DE.VIATA.LA.
NASTERE V1 -0.365 0.143 0.621 0.548 0.367 -0.161
FEMEI.INSARCINATE.CA
RE.AU.PRIMIT.INGRIJIRE. V2 -0.127 0.549 0.471 -0.661 -0.102 0.11
3
PRENATALA...
RATA.FERTILITATII..NAS
TERI.PE.FEMEIE. V3 0.397 0.492 0.474 -0.61
RATA.MORTALITATII.MA
TERNE..NUMARUL.MAM
ELOR.DECEDATE.100000
.NASTERI.VII. V4 0.585 0.196 _ 0.447 0.645
RATA.MORTALITATII.INF
ANTILE..NUMARUL.NOU.
NASCUTILOR.DECEDATI.
1000.NASTERI.VII. V5 0.588 0.184 -0.173 0.228 -0.732
CHELTUIELI.PERSONALE
.PENTRU.SANATATE....DI
N.TOTALUL.DE.CHELTUI
ELI.PRIVATE. V6 -0.659 0.562 -0.48 0.101
eigenvalue variance.percent cumulative.variance.percent
Dim.1 2.3366078 38.943463 38.94346
Dim.2 1.3546075 22.576792 61.52026
Dim.3 0.9930661 16.551101 78.07136
Dim.4 0.7472017 12.453362 90.52472
Dim.5 0.3560367 5.933945 96.45866
Dim.6 0.2124802 3.541336 100
Regula Kaiser-Guttman. Este folosita in stabilirea numarului de componente principale: avem
atatea componente cate valori proprii sunt mai mari decat 1. (Totusi, numarul final de
componente va fi stabilit in functie de interpretarea concreta pe care acestea o primesc.)
Variabilele Scalate
> dtPca$scale
V1 V2 V3 V4 V5 V6
0.7710606 10.0732319 0.5803205 53.4144117 5.2178773 14.0457639
Media
> dtPca$center
V1 V2 V3 V4 V5 V6
4
74.12575 92.7 2.036075 77.525 12.4975 84.440695
Matricea de scoruri
Scorurile componentelor principale sunt coordonatele indivizilor in noile axe, date de vectorii
proprii selectati. Media unei coloane de scoruri este 0.
> scores <- dtPca$scores
> fix(scores)
(Matricea Scorurilor completa atasata la Anexe)
5
O metoda alternativa pentru determinarea numărului de componente principale este
interpretarea Graficului descreșterii, care reprezinta valorile proprii ordonate de la mare la mic.
Numărul componentelor principale este identificat in punctul dupa care valorile proprii ramase
au un procent relativ si sunt similare ca dimensiune.
Din graficul anterior ne putem opri la a treia componenta principala deoarece 78.1% din
informația totala este conținuta de primele 3 componente principale.
Analiza Cluster
Analizele de tip cluster reprezinta procedura de clasificare de tip necontrolat, în care nu este
cunoscuta aprioric nici apartenenta anumitor obiecte la anumite clase, nici numărul de clase
posibile.
Analiza cluster poate fi definite ca reprezentând o mulțime de principii, metode și algoritmi de
clasificare, având ca scop organizarea datelor sub forma unor structuri informaționale
semnificative. Este o analiza exploratorie ce are ca scop gruparea unor entități informaționale,
cu natura fizica sau abstracta, în clase sau clustere alcătuite din entități informaționale cu grad
ridicat de similaritate.
În funcție de caracteristicile procedurilor pe care le utilizează, de ipotezele inițiale pe care se
bazează și de natura rezultatelor obținute cu ajutorul lor, metodele de analiză cluster se împart
în doua mari categorii: metode de clusterizare ierarhica și metode de clasificare prin partiționare
sau metode iterative.
Prima categorie de metode de analiză cluster include metodele de clusterizare prin agregare si
metodele de clusterizare prin divizare. Pentru fiecare dintre cele două tipuri de clusterizare
există mai multe proceduri, între care menționăm: metoda agregării simple, metoda agregării
complete, metoda agregării medii, metoda lui Ward etc.
Cea de-a doua categorie include o serie de algoritmi, între care menționăm: algoritmul celor
K-medii, algoritmul celor Kmedoizi, algoritmul CLARA, algoritmul fuzzy etc.
Vom aplica in cele ce urmeaza cate o metoda din fiecare categorie:
● Metoda lui Ward
● Algoritmul celor K-medii
6
este reprezentat de faptul ca prin comasarea a doua clustere se urmărește obținerea unei
omogenități maxime la nivelul tuturor clusterelor care aparțin unei configurații date a obiectelor
pe clustere.
Calculam matricea distantelor, si aplicam functia cluster
> dtDist <- dist(dtScale, method = "euclidean")
> dtClust <- hclust(dtDist, method="ward.D")
Afisam dendograma
> plot(dtClust)
7
Executam si vizualizarea datelor
> clusplot(dtScale, dtKm$cluster, color=TRUE, shade=TRUE, labels=2, lines=0)
> plotcluster(dtScale, dtKm$cluster)
8
9
> scatterplotMatrix(dt[2:6])
10
Scopul aplicării analizei discriminante (LDA) pe setul nostru de date este de a găsi combinațiile
liniare ale variabilelor originale (cei 6 indici legați de speranța de viata si natalitate si indicele de
apartenenta la continentul european) care oferă cea mai bună separare posibilă între grupurile
(euro / non-euro) din setul nostru de date.
Dacă vrem să separăm tarile in grupurile euro si non-euro inseamna ca numărul de grupuri G =
2, iar numărul variabilelor este 6 (cei 6 indici → p = 6). Numărul maxim de funcții discriminante
utile care pot separa tarile prin apartenenta lor este minimul dintre G-1 și p, deci în acest caz
min(1,5) = 1.
> dtLda <- lda(Euro ~ ., data=dt)
> dtLda
Prior probabilities of groups:
0 1
0.725 0.275
Group means:
V1 V2 V3 V4 V5 V6
0 74.12034 92.71034 2.229862 91.62069 13.67241 82.15587
11
1 74.14000 92.67273 1.525182 40.36364 9.40000 90.46433
12
Anexe
Datele Initiale
RATA RATA CHELTUIELI
FEMEI MORTALITATII MORTALITATII PERSONALE
RATA
SPERANTA DE INSARCINATE MATERNE INFANTILE PENTRU
FERTILITATII
TARA VIATA LA CARE AU PRIMIT (NUMARUL (NUMARUL SANATATE (% DIN
(NASTERI PE
NASTERE INGRIJIRE MAMELOR NOU-NASCUTILOR TOTALUL DE
FEMEIE)
PRENATALA (% DECEDATE/1000 DECEDATI/1000 CHELTUIELI
00 NASTERI VII) NASTERI VII) PRIVATE)
Bosnia and
Herzegovina 75.56 98.9 1.148 14 6.7 100
Slovak
Republic 75.5 96.9 1.4 10 6.5 89.41913123
Bahrain 75.37 100 2.54 21 8.6 54.29060214
Ecuador 75.29 84.2 2.479 150 19.6 78.04562835
Vietnam 75.16 90.8 1.822 160 17.3 92.72876264
Tunisia 75.07 96 2.04 110 13.9 87.02634403
Kuwait 75.01 100 2.295 10 9.3 90.56256872
Libya 74.97 93 2.564 76 12.8 100
Macedonia,
FYR 74.92 98.8 1.422 14 8.7 99.11710705
Sri Lanka 74.86 99.4 2.313 74 10.5 81.18647634
Malaysia 74.79 78.8 2.635 44 5.6 76.8085367
Montenegro 74.73 97.4 1.656 10 6.5 90.99181074
Serbia 74.56 98.2 1.4 25 6.1 95.54708674
Estonia 74.44 87.9 1.63 46 2.8 91.84782609
13
Peru 73.79 94.7 2.501 170 14.1 85.83846338
Georgia 73.64 97.6 1.555 75 18.3 89.49658173
Armenia 73.6 99.1 1.736 47 15.6 92.89385093
Jordan 73.58 98.8 3.8 88 18 77.64020564
Bulgaria 73.57 71.2 1.49 23 10.6 97.14484528
China 73.56 92.2 1.598 84 12.6 78.86010263
Nicaragua 73.55 90.2 2.622 150 21.6 92.58959477
Egypt, Arab
Rep. 73.54 73.6 2.733 150 18 97.72268622
Colombia 73.49 97 2.1 130 15.4 71.49175213
Algeria 73.38 89.4 2.264 180 25.6 94.70889018
Latvia 73.33 91.8 1.17 58 7.1 97.28096677
Iran, Islamic
Rep. 73.19 98.3 1.67 72 21.1 96.56736021
Brazil 73.11 98.2 1.83 96 13.9 57.76452659
Mauritius 73.1 45.9 1.47 66 12.8 88.76100937
Comenzi Folosite in R
# Am afisat pe ecran Working Directory
getwd()
Matricea Scorurilor
Bosnia and
Herzegovina -2.63939767 -0.823368 1.531481706 -0.06721838 0.23655802 -0.08027574
Slovak
Republic -2.53086971 -0.2315574 0.972201044 0.28049605 0.28304789 -0.1838219
Bahrain -1.54077247 2.5089092 -0.152798875 1.02751228 0.37669969 -0.528291675
Ecuador 1.42168585 0.3615723 0.848680952 1.62310784 1.31131518 -0.499409304
Vietnam 0.87210381 -0.5309061 1.523302881 0.57770928 1.35390743 0.143442082
Tunisia 0.03994917 0.2219859 1.186862 0.43456997 0.65700415 0.052904578
Kuwait -1.40451359 0.5290596 0.966843542 0.36078413 -0.83922086 -0.425685732
Libya 0.04929201 -0.1109535 1.37999904 0.9237558 -0.68719919 -0.11795501
Macedonia,
FYR -1.9262129 -0.6902245 1.077418778 -0.35375478 -0.2377387 -0.232736298
Sri Lanka -0.52243566 0.9058534 0.721441536 0.38564412 -0.01470736 0.136263387
15
Malaysia -0.91246394 0.2917892 -0.721769539 2.10161281 -0.49284188 0.222818618
Montenegro -1.98961945 -0.2039239 0.467201173 -0.09797577 -0.41173554 -0.004526487
Serbia -1.95298133 -0.6211573 0.562605833 -0.4721182 -0.27951362 0.307633059
Estonia -1.76936892 -0.8120548 -0.178458201 0.45768827 -0.31573632 0.912250964
Hungary -2.01332563 -0.4853322 -0.795329715 -0.0429367 0.40403878 0.203712007
Saudi Arabia -0.79232166 2.5804339 -1.246765603 0.7636672 -0.16174555 -0.128592134
Turkey -0.5801643 1.1540318 -0.672369759 0.12247327 0.42905038 -0.337070895
Venezuela,
RB 0.51907232 0.1936794 0.57719881 0.36768124 -0.44064492 0.221757876
St. Lucia -0.18273603 -0.3471346 0.875053579 -0.56335214 -0.58794151 -0.297014509
Romania -0.63756551 -1.1385499 0.4159578 -0.61474296 0.08863808 0.27604124
Thailand -0.98559774 1.317108 -1.080623598 -0.64336419 1.09875016 -0.149940517
Cape Verde 2.3128921 -0.2220657 1.421862967 -0.24287579 0.25048392 0.872717254
Oman -0.52303567 1.6293875 -0.942993224 -0.06716745 0.05671943 0.641358131
Peru 1.65210018 0.3511783 0.32610793 0.05334146 0.12745314 0.99710097
Georgia 0.49080165 -0.5152462 0.183383838 -1.27926109 0.2838976 -0.657300144
Armenia 0.01986125 -0.4212403 0.179483718 -1.21670013 -0.4091557 -0.566097976
Jordan 2.09029806 1.9999557 0.002333587 0.5132718 -1.61502627 -0.500678585
Bulgaria -0.58968123 -2.3121404 -1.27227865 0.51182933 -0.44641293 -0.423289269
China 0.03057381 -0.2438324 -0.723344871 -0.69565413 0.44540414 0.132955381
Nicaragua 2.56431406 -0.2114941 0.397883965 -0.02689444 -0.13892024 -0.246237758
Egypt, Arab
Rep. 2.47230844 -1.2355228 -0.296632118 1.24130995 -0.4246399 0.117865634
Colombia 1.13067713 0.7476992 -0.526954817 -0.65660709 0.59514658 0.313305141
Algeria 3.20005798 -0.7259936 0.520044976 -0.49662564 0.51788018 -0.406007285
Latvia -0.96424129 -1.4870641 -0.526792039 -1.11778819 -0.29824688 0.763323922
Iran, Islamic
Rep. 1.09083746 -0.8171757 0.23777106 -1.68152765 -0.20303497 -0.933254986
Brazil 0.5035033 1.1735889 -1.533591241 -1.14758396 0.80490613 0.104965094
Mauritius 0.61603702 -3.4257869 -2.937387177 1.83883461 0.35032237 -0.45062124
Honduras 3.06545098 0.3919212 -0.017052952 0.10350685 -0.7224012 0.694340478
Jamaica 0.7997553 0.9835558 -1.094464171 -1.06114066 -0.45606789 -0.419614956
Lebanon -0.48426719 0.2710152 -1.655514163 -1.14350692 -0.48829181 0.473666582
Datele Scalate
Bosnia and
Herzegovina 1.83670183 0.60775028 -1.511068027 -1.17432561 -1.09710755 1.09382325
16
Slovak
Republic 1.75986578 0.4117018 -1.082287639 -1.24826977 -1.13495516 0.3499854
Bahrain 1.59338766 0.71557694 0.857433162 -1.04492334 -0.73755527 -2.11955939
Ecuador 1.49093959 -0.83320603 0.753641084 1.33977566 1.34406319 -0.44957483
Vietnam 1.32446147 -0.18624605 -0.364250641 1.52463604 0.90881569 0.58265336
Tunisia 1.20920739 0.32347999 0.006678425 0.60033411 0.26540635 0.18177184
Kuwait 1.13237134 0.71557694 0.440563341 -1.24826977 -0.60508864 0.43036936
Libya 1.0811473 0.02940727 0.898269389 -0.02819121 0.0572445 1.09382325
Macedonia,
FYR 1.01711726 0.59794786 -1.044854431 -1.17432561 -0.71863147 1.03175564
Sri Lanka 0.94028121 0.6567624 0.471190511 -0.06516329 -0.37800299 -0.22877239
Malaysia 0.85063914 -1.36253692 1.019076562 -0.61974445 -1.3052694 -0.53654269
Montenegro 0.77380309 0.46071392 -0.646701214 -1.24826977 -1.13495516 0.46054518
Serbia 0.55610094 0.53913331 -1.082287639 -0.97097918 -1.21065038 0.78078228
Estonia 0.40242883 -0.47051635 -0.69094046 -0.58277237 -1.83513592 0.52072329
Hungary 0.26156273 -0.37249211 -1.33751406 -1.00795126 -1.34311701 -0.42886336
Saudi Arabia 0.26156273 0.42150423 1.31854223 -0.82309087 -0.87002171 -2.41060232
Turkey 0.23595071 0.22545575 0.088350879 -0.49034218 -0.18876495 -1.40781969
Venezuela,
RB 0.19753269 0.13723393 0.772357688 0.37850164 0.07616831 0.43556909
St. Lucia 0.08227861 0.63715755 -0.095412144 -0.41639802 0.24648254 0.98646662
Romania -0.02016946 0.07841939 -1.116317829 -0.10213536 -0.32123158 0.95550166
Thailand -0.04578148 0.62735513 -0.777717443 -0.43488406 -0.35907919 -2.01520693
Cape Verde -0.17384157 0.48031877 0.627729383 2.26407759 1.07912993 1.07271039
Oman -0.27628964 0.6175527 0.464384473 -0.06516329 -0.98356473 -1.57665769
Peru -0.42996175 0.19604848 0.791074293 1.70949643 0.30325396 0.09826352
Georgia -0.62205188 0.48031877 -0.818553671 -0.04667725 1.09805373 0.35543019
Armenia -0.67327592 0.62735513 -0.510580456 -0.56428633 0.58711102 0.59425911
Jordan -0.69888794 0.59794786 3.0013351 0.19364126 1.04128232 -0.47807615
Bulgaria -0.71169395 -2.10752113 -0.929151786 -1.00795126 -0.35907919 0.89310512
China -0.72449995 -0.04901212 -0.745388763 0.1196971 0.01939689 -0.39231707
Nicaragua -0.73730596 -0.2450606 0.996956939 1.33977566 1.72253927 0.57286982
Egypt, Arab
Rep. -0.75011197 -1.87226296 1.185824491 1.33977566 1.04128232 0.93372749
Colombia -0.81414202 0.42150423 0.108768993 0.97005488 0.54926341 -0.91031404
Algeria -0.95500812 -0.32347999 0.387816547 1.89435682 2.47949144 0.72185684
Latvia -1.01903816 -0.08822181 -1.473634818 -0.36093991 -1.02141234 0.9026745
17
Iran, Islamic
Rep. -1.19832228 0.54893574 -0.622880081 -0.10213536 1.62792025 0.85250777
Brazil -1.30077036 0.53913331 -0.350638565 0.34152957 0.26540635 -1.87534159
Mauritius -1.31357637 -4.58753437 -0.963181976 -0.2130516 0.0572445 0.30371926
Honduras -1.37760641 -0.09802424 1.876637337 1.89435682 1.07912993 0.34517291
Jamaica -1.49286049 0.6175527 0.498414663 -0.28699575 0.60603482 -0.9481547
18