Sunteți pe pagina 1din 19

Academia de Studii Economice

Master BDSA
PROIECT ANALIZA
MULTIDIMENSIONALA A
DATELOR
Dincu Madalina
Cristiana
Cuprins
Cuprins........................................................................................................................................ 2
Introducere................................................................................................................................... 3
Statistici Descriptive..................................................................................................................... 4
Descrierea datelor.................................................................................................................... 4
Definirea variabilelor................................................................................................................ 5
Calculare statistici descriptive..................................................................................................
Calculare matrice de corela!ie.................................................................................................. "
Calculare matrice standardi#at$............................................................................................... %
Anali#a componentelor principale................................................................................................ &
Matricea de covarian!$............................................................................................................. &
'alorile proprii.......................................................................................................................... &
'ectorii proprii........................................................................................................................ ()
*epre#entarea +rafic$............................................................................................................ ((
Matricea factor........................................................................................................................ (4
Anali#a cluster........................................................................................................................... (5
Dendro+rama......................................................................................................................... (5
Metoda ,ard.......................................................................................................................... (5
Anali#a discriminant................................................................................................................... ("
2
Introducere
-n cele ce urmea#$ am reali#at o anali#$ asupra !$rilor din .E /i a celor care
urmea#$ s$ adere la .E . Scopul final este acela de a stabili care sunt caracteristicile
definitorii prin care se deosebesc aceste !$ri.
0abelul urm$tor con!ine caracteristicile a 3) de !$ri. 0abelul are 3) de linii1
corespun#$toare !$rilor anali#ate /i (( coloane1 repre#ent2nd caracteristicile principale
ale acestor !$ri.
E/antionul anali#at este format din 3) de !$ri dintre care primele 2" sunt !$rile
.E1 iar urm$toarele 3 sunt cele care urmea#$ sa adere la .E.
Sunt necesare3
Descrierea datelor /i sursa lor
Calcularea de indicatori ce !in de statistica descriptiv$
0ransform$ri asupra datelor3 standardi#are sau centrali#are
Calcularea matricelor de covarian!$ /i corela!ie
Sinteti#area informa!ional$ prin Anali#a Componentelor 4rincipale1 5ntr6un
soft precum SAS1 S4SS sau *.
pentru o anali#$ complet$ /i competent$ asupra celor 3) de state.
3
Statistici Descriptive
Descrierea datelor
Matricea de date3
Suprafa!
$
78m
2
9
Suprafa!a
ocupat$
din total
7:9
4opula!ie
7loc.9
4opula!ia
ocupat$
din total
7:9
Densitatea
popula!iei
7loc.;8m
2
9
4rodusul
intern brut
7mil. <9
4rodusul
intern brut
pe cap de
locuitor
7<9
Cel mai
inalt
punct
+eo+rafic
7m9
Indicele
de#voltar
ii umane
Speranta
de viata
7ani9
=r.trupe
militare7mii
9
I( I2 I3 I4 I5 I I" I% I& I() I((
Austria %3%"( ).) %2)524 ).(2 &".%4 3"%4( 44&%" 3"&% ).%%5 %).& ().
Bel+ia 3)52% ).)2 ()445%52 ).(5 342.(" 45" 423) &4 ).%% %) (4(.3
Bul+aria (()%"& ).)" ""())) ).((
&.&&
44%43 334 2&25 ).""( "3.5 3"
Cipru &25( ).)( %(%2)) ).)(( %%.44 22"52 2%23" (&5( ).%4) "&. ")."5
Danemarc
a
43)&4 ).)3 544")%4 ).)"& (2.4) 3()") 5(4" (")% ).%&5 "&.( (4&.2%
Estonia 4522" ).)3 (332%&3 ).)(& 2&.4" (&22) (4%3 3(% ).%35 "5.4 234.
>inlanda 33%424 ).23 52())% ).)"" (5.54 23&232 444%& (324 ).%%2 %) 52)
>ran!a 4)2&4 ).43 33&2(4) ).&4 && 25%252" 4()(& 4%() ).%%4 %(.5 ""&
?ermania 35"((4 ).24 %24222&& (.( 23).% 33(543 4)3( 2&2 ).&)5 %) %4
?recia (3(&5" ).)& ((244((% ).( %5.2( 3)54(5 2"3)2 2&(& ).%( "&.& 4"2.
Irlanda ")2"3 ).)5 4234&25 ).)4 5".( 2)42( 45%& ()3% ).&)% %). (".5
Italia 3)(33 ).2) 5%"5("(( ).% (&3 2)55((4 34)5& 4%() ).%"4 %(.& 535
@etonia 455& ).)4 22&)23" ).)32 35.5 233%5 ()&5 3(2 ).%)5 "3.5 22."
@ituania 53)) ).)4 35&(" ).)4 55.2 35"34 (()44 2&4 ).%() "3.3 33".(
@uAembur
+
25% ).)( 4%5"( ).))" (%( 52433 ()%%32 5) ).%" %) (.5
Malta 3( ).))( 4)2% ).)) (.3(" "%)( (&"4 253 ).%32 %).& 2.2
4olonia 3(2%5 ).2( 3%(322"" ).54 (24 4%53& (23)) 24&& ).%(3 ".2 4(%.3
4ortu+alia &2)&) ).) ())5%") ).(5 ((4 22&33 2(55& 235( ).%)& "& 2%(.43
Marea
Britanie
242&)) ).( )2)&5)) ).%% 24& 224"455 3(2) (344 ).%3 %).2 5&2
Blanda 3"354 ).)3 (4)"4&( ).2 3&5.(( "%32&3 4"("2 %2 ).&() %)." %%.3
*epublica
CeCa
"%%5 ).)5 ()2%"(%& ).(5 (3) (&2(52 (%2%% ()2 ).%5 "".4 2.5
*omania 23%3&( ).( 2232&&"" ).3( &3. ((2& "542 2544 )."%( "4 2%(.(
Slovacia 4&)3" ).)3 543(33 ).)"" ((( %22 (()4 255 ).%34 "5.( 5).&
Slovenia 2)2"3 ).)( 2)(()") ).)2& &&.(& 4442 23") 2%4 ).%%4 "&.4 33.5
Spania 5)5&&2 ).34 45)(2"4 ). "&.&( (4)&&4 3)3& 3"(% ).%"% %(.4 5"&
Suedia 45)2&5 ).3) &)4""52 ).(3 2).) 455%4% 4%%"5 2()4 ).&)4 %(.4 335
.n+aria &3)2% ).) ())"))) ).(4 ()% (2%&) (2%"& ()(4 ).%( "4.2 (35."
4
Croatia 55&4 ).)4 44%3%)4 ).)3 "5.& 5&&(" (3"2) (%3( )."& ".5 42
Macedoni
a
25"(3 ).)2 2)4522 ).)2& %( &5%) 443( 2"4 )."2% "4. %).45
0urcia "%352 ).53 "4"242& (.)5 %&.24 "4(%53 ()3&& 5(3" ).&& "3." 2442."
0oate datele au fost culese de pe site6ul
Cttp3;;epp.eurostat.ec.europa.eu;portal;pa+e;portal;eurostat;Come;1 fiind actuali#ate in 2)().
Definirea variabilelor
I1:Suprafaa rii - Prin suprafaa unei ri se nelege o mulime de puncte avnd local
n fiecare punct o structur asemntoare cu un plan (o varietate bidimensional) unde alturi de
uscat sunt cuprinse i apele interioare! Suprafe ele nu au volum (sunt bidimensionale)" pot fi
plane sau curbe i mrginesc corpuri tridimensionale#
I$:Suprafaa ocupat de ar din totalul suprafeei Pmntului#
I%:Populaia rii - Popula ia unei ri repre&int numrul total de oameni care triesc
ntr-o ar ntr-un anumit momentD
I':Populaia ocupat de ar din totalul populaiei Pmntului#
I(:)ensitatea populaiei rii - )ensitatea popula iei repre&int numrul de persoane pe
unitate de suprafa " msurndu-se n general n persoane pe *ilometru ptrat" ob inndu-se prin
mpr irea numrului de locuitori la suprafa n *ilometri ptrai#
I+:Produsul intern brut al rii - Produsul intern brut este un indicator macroeconomic
care reflect suma valorii de pia a tuturor mrfurilor i serviciilor destinate consumului final"
produse n toate ramurile economiei n interiorul unei ri n decurs de un an! PI, - consum .
investi ii . e/porturi 0 importuri#
I1:Produsul intern brut pe cap de locuitor al rii - PI,-ul pe cap de locuitor este PI,-ul
mpr it la numrul locuitorilor! 2cest indicator msoar prosperitatea material#
I3:4el mai inalt punct geografic-punctul cel mai inalt al unei ri!5nitatea de masur :
metri (m)!
5
I6:Indicele de&voltrii umane din ara respectiv - Indicele de&voltrii umane este o
msur comparativ a speranei de via " alfabeti&rii" nv mntului i nivelului de trai! 7n
acest fel" este folosit pentru a compara mai bine nivelul de de&voltare a unei ri deoarece ia n
calcul indicatori socioeconomici#
I18:Sperana de via la natere din ara respectiv - Speran a de via la natere este
durata medie a via ii unui individ sau numrul mediu de ani via rma i pe care i va tri un
individ n condiii de meninere nesc9imbat pe tot parcursul vieii a indicilor de mortalitate#
I11::r!trupe militare-arat de cate trupe militare dispune o ar!Se msoar n mii
uniti!
Calculare statistici descriptive
Pentru inceput se calculea& anali&a descriptiv a fiecrei variabile i indicatorii de
centrare i mprtiere" cum este media i abaterea standard!
2m luat ca e/emplu anali&a pentru variabila Suprafa (S5P)!

Putem observa c suprafaa rilor studiate este " n medie" de 11+8(6!+ *m;" iar abaterea
standard a variabilei este $8$$83!61! 4ea mai mare medie este nregistrat de populaie
( $8%11'$' locuitori) i abaterea standard ($(86$%%6 loc!)
Calculare matrice de corelaie
<atricea de corelaie reflect legturile dintre variabilele studiate! =ste o matrice
ptratic" simetric ce arat ct de puternice sunt legturile ntre variabile" avnd urmtoarea
form :
Ia valori ntre -1 i .1 indicnd puterea (interpretm valoarea coeficientului)
i direcia (interpretm semnul coeficientului) asocierii lineare!>aloarea absolut indic puterea
asocierii" iar semnul .(direct proporional) sau - (invers proporional) indic direcia asocierii!
Pentru un coeficient de corelaie egal cu 1 spunem c e/ist o legtur puternic i direct"
pentru -1 puternic i indirect" iar pentru 8 nu e/ist legtur!
7n ca&ul studiat de noi" s-a obinut urmtoarea matrice:
"
De eAemplu 5ntre 4IB /i popula!ia ocupat$ eAist$ o le+$tur$ puternic$1 direct$ 1 iar 5ntre
4IB pe cap de locuitor /i suprafa!a ocupat$ eAist$ o le+$tur$ slaba indirect$.
Calculare matrice standardizat
Pentru a reali&a standardi&area datelor din matrice" este necesar pentru fiecare
caracteristic repre&entat printr-o variabil cantitativ" media i abaterea standard! 2cestea au
fost calculate cu a?utorul =/cel" folosind funciile <=2: si S@)=>! Aa sfritul standardi&rii
toate variabilele vor avea valori cuprinse n intervalul B-%"%C " cu media - 8 i abaterea standard 1!
%
Analiza componentelor principale
Matricea de covarian
7n vederea reali&rii anali&ei componentelor principale" se calculea& mai nti matricea
covarianelor variabilelor" o matrice ptratic de dimensiune 3/3 n ca&ul de fa! <atricea de
covarian constituie una dintre cele mai utili&ate matrici n anali&a datelor" ma?oritatea te9nicilor
de anali& a datelor presupunnd calculul acesteia!
Valorile proprii
&
7n imaginea de mai sus sunt evideniate valorile proprii! 2cestea sunt egale cu variana
componentelor principale! 7n prima coloana sunt descrise aceste valori repre&entnd informaia
adus de componenta principal! )eoarece calculele s-au efectuat pe ba&a variabilelor
standardi&ate" re&ult c variana total a componentelor principale este egal cu numrul de
variabile ( 18 )!
2 doua coloan repre&int cantitatea de informaie adus de componeta principal i
comparativ cu i . 1! )e e/emplu" componenta principal % reine 8!'3 informaie principal
comparativ cu componenta principal '!
5ltimele $ coloane pre&int proporia componentelor principale din variana total" prima
separat" iar cea de-a doua cumulat pentru primele *.1 componente principale!
Pentru a decide numrul de componente principale ce urmea& a fi reinute vom folosi
criteriul lui Daiser ce spune ca pstrm acele componente principale pentru care valorile proprii
au valoare mai mare ca 1! 7n ca&ul nostru" vom pstra primele % componente principale
(E-(!86%" E-$!316" E-1!81 )!2cestea vor prelua 33!6( F din informaia variabilelor
iniiale!
Vectorii proprii
<atricea vectorilor proprii conine coeficienii combinaiilor liniare de variabile iniiale!
5n vector propriu are formula

=
=
18
1 i
i ij j
X a W
" unde
i
X
repre&int variabilele iniiale
standardi&ate i
ij
a
repre&int vectorii proprii!
()
Reprezentarea grafic
@a fel ca re#ultatele criteriului lui Eaiser1 din +raficul FScree 4lotG pentru toate cele ()
componente principale a re#ultat1 conform criteriului pantei1 ca trebuie pastrate doar primele 3
componente principale. Asadar1 am repre#entat +rafic doar componentele principale ,(1 ,2 si
,3.
?raficul F'ariance EAplainedG ne arata in acelasi timp1 proportia fiecarei componente
principale 7linia continua9 si proprtia cumulata a componentelor principale 7linia punctata9. Astfel1
proportia cumulata a componentelor ,( si ,2 este de aproAimativ "%.3:1 iar proportia
cumulata a tuturor celor 3 componente principale este de aproAimativ %&:.
?raficele FComponent ScoresG ne arata informatii despre fiecare !ar$1 5n func!ie de
variabilele considerate. Astfel1 putem face o anali#$ detaliat$ asupra fiec$rei !$ri. .
Se observ$ c$ !$ri precum >ran!a1 ?ermania sau Croa!ia sunt !$ri cu un 4IB ridicat1 nivel
al popula!iei mare /i cu un procent foarte mare al popula!iei ocupate. De asemenea1 putem
spune despre Croa!ia c$ este on outlier deoarece nu se afl$ 5n apropierea altor !$ri.
((
-n continuare vom anali#a +raficele FComponent 4atternG 5ntre ,( /i ,21 ,( /i ,3 /i
,2 /i ,3. 4ractic1 urmatoarele +rafice ne arata aceeasi informatie ca +raficul FComponent
4attern 4rofileG cu deosebirea c$ 5n cele de mai Hos corela!iile se v$d mult mai bine /i pot fi
interpretate mai 5n detaliu.
Din outputul de mai Hos1 observ$m c$ 4IB pe cap de locuitor nu este corelat$ cu
componenta ( deoarece coeficientul de corela!ie este aproAimativ ). 4e cealalt$ parte 4IB pe
cap de locuitor1 speran!a de via!$ /i indicele de#volt$rii umane sunt puternic corelate de
componenta principal 2.

(2
Din ima+inea de mai sus1 se observ$ c$ num$rul de trupe militare nu este corelat cu
componenta 31 iar 5ntre component ( /i 4IB1 popula!ie /i popula!ie ocupat$ eAist$ o le+$tur$
invers$ slab$.
(3
Matricea factor
Matricea factor repre#int$ matricea corela!iilor dintre componentele principale /i
variabilele ini!iale.
Gormula este " unde repre&int coeficientul de corelaie
dintre variabila iniial i componenta principal ! Se mai numete matricea scorurilor
factor! Scorurile factor determinate n acest mod pot fi folosite n anali&e ulterioare n locul
valorilor variabilelor originale!
(4
Analiza cluster
Anali#a cluster presupune +ruparea indivi#ilor identifica!i printr6o serie de atribute 5ntr6un
num$r c2t mai restr2ns de clase omo+ene. Cu alte cuvinte1 vom 5ncerca s$ +rup$m toate !$rile
astfel 5nc2t fiecare clas$ s$ aib$ !$ri c2t mai asem$n$toare prin variabilele lor /i1 5n acela/i timp1
clasele constituite s$ difere c2t mai mult 5ntre ele.
Dendrograma
4e datele de mai sus vom construi dendro+rama prin metoda ,ard.
Metoda Ward
Metoda lui ,ard este o metod$ de clasificare ierarCic$ de tip ascendent1 care
comasea#$ 5n fiecare etap$ a clasific$rii acele dou$ clustere pentru care suma abaterilor la
nivelul clusterului re#ultat prin comasare este cea mai mica. Este o metod$ de formare a
(5
clusterelor pe ba#a maAimi#$rii +radului de omo+enitate a clusterelor. Este considerata ca fiind
metoda care ofer$ cele mai bune solu!ii.
5n ca#ul nostru1 outputurile oferite de SAS folosind aceast$ metod$ sunt urm$toarele3
Din +raficul de mai sus putem spune c$ num$rul ideal de clase este 4. Acest lucru se
datorea#$ faptului c$ punctele de maAim local pentru +raficele CCC si 4seudo> se afl$ in
dreptul lui 41 iar punctul de minim local al +raficului 4seudo 06SIuared se afl$ tot 5n dreptul lui 4.
'om pre#enta mai Hos dendo+rama /i1 cu aHutorul t$ieturii1 vom vedea dac$ putem spune c$ /i
de acolo re#ult$ c$ trebuie s$ p$str$m 4 clase.
(
Bbserv$m c$ primul cel mai mare salt se afl$ 5ntre ).) si ).(. Acest lucru inseamna ca
vom avea 4 clase pentru un pra+ de distan!$ de aproAimativ ).1 eAact cum a re#ultat /i din
+raficul Criteria for tCe =umber of Clusters.
4rima clas$ este compusa din (4 !$ri. 4utem spune astfel c$ prima clas$ este
repre#entat$ de !$ri cu suprafa!$ relative mic$1 nr. de trupe militare mic1 4IB mediu /i popula!ie
ocupat$ 5n procent de p2n$ la 2):.
A doua clas$ este compus$ din (( ma/ini. -n aceast$ clas$ se afl$ 5n +eneral !$rile cu o
suprafa!$ medie1 nr de trupe mediu /i 4IB sc$#ut.
A treia clasa este compusa din 5 !$ri cu 4IB ridicat1 suprafa!$ mare /i nr ridicat de trupe.
A patra clas$ este compus$ din ( !ar$. Aceast$ clasare se datorea#$ mai ales nr de
trupe foarte ridicat comparative cu celelalte !$ri studiate.
Analiza discriminant
Anali#a discriminant$ este o procedur$ prin care se stabile/te apartenen!a unor obiecte
la ni/te clase cunoscute dinainte pe ba#a caracteristicilor respective.
-n anali#a noastr$ ne vom folosi de clasificatorul baJesian. 'om considera cele 4 clase
ca fiind !$ri de#voltate sau mai pu!in de#voltate. 4entru a efectua anali#a discriminant$1 vom
folosi softul speciali#at SAS. Se vor ob!ine urm$toarele outputuri 3
("
Giecare element al matricii din prima imagine arat numrul de obiecte aparinnd n mod
real clasei i care" prin intermediul te9nicilor de recunoatere a formelor" sunt clasificate n
clasa ! )efinind n acest fel elementele matricii de clasificare" re&ult c numrul de obiecte
clasificate corect este repre&entat de suma elementelor de pe diagonala principal a matricii
clasificrii"
respectiv:
Similar" numrul de obiecte clasificate incorect este repre&entat de suma elementelor aflate n
afara diagonalei principale a matricii clasificrii" respectiv:

De eAemplu1 pentru prima clas$ au fost 5ncadrate correct " obiecte 7 "%:9 /i incorect 2
722:9.
A doua matrice arat$ pe prima linie procentul de obiecte clasificate incorect la nivelul fiec$rei
clase /i per total 7 ).(325:9.
(%
(&