Sunteți pe pagina 1din 23

Academia de Studii Economice Bucuresti Facultatea de Cibernetica, Statistica si Informatica Economica

Proiect Analiza Datelor Analiza in compomemte principale si analiza claselor ierarhice

Bucuresti 2009 Proiectul isi propune sa analizeze pro resul te!nolo ic in 2" tari cu un ni#el mediu de dez#oltare umana$ %atele prelucrate sunt din 200& iar sursa este 'uman %e#elopment (aport 200)*200+$ Scopul acestei analize este de a estima tara cea mai a#anta,oasa din punct de #edere a dezboltarii te!nolo ice$ Analiza in componente principale

Case Summariesa abonati_ utilizator Tara 1 & % ) Kazakhstan (olombia Thailand (hina Turke+ Peru ,cuador Philippines Tunisia 1* 11 1& 1% 1) 1" 1# 1$ 1' 1 &* &1 && &% &) Iran Paragua+ -ri./anka ,l.-al0ador 1epal 2adagascar 3iet.1am Indonesia 1icaragua ,g+pt Boli0ia India Pakistan Bangladesh -outh.4frica &) tizare !" &!' &!# *! '$!) '$! 1!* &!# $)!% '&!) %!" *!$ '*!# )'!# $*!$ *!% *!) $#!$ $1!) '#!$ #1!* ) ! )$!" '&!) &) fonie 1#$ 1#' 11* &# &#% '* 1& )1 1&" &$' ") #% 1)1 1$ ) 1 1 "' )% 1)* $* )" %) ' 1*1 &) &$ 11" &1% &1$ 1') &#) '& '& #% $&) &) 1* &) 1& $% &$ #' "& "" #$ % l %&$ )$ )%* %*& #*" &** )$& )1 "## 1*# %&* 1$1 %"* t &$ 1*) 11* '" &&& 1#) )$ ") " 1*% %) 1) % ) " atori #& 1* &'$ $*' %)1 &&# "* )' 1*1% 1&$ $ 1&' )$ " 1" 11" &*$ $% ) % 1&* 11 $" "1 %*$ &) consum e ) 1!" "$!1 !$ 1&&!% 1!) 1$#!# &!1 &&%)! % _saracie 1'!& $! 1*!* 11!$ !& 11!# '!$ 1"!% 1$! 1&! '!' 1$!' 1"!1 %'!1 %"!' 1"!& 1'!& 1$! &*!* 1%!# %1!% %#!& )*!" &%!" &) Populati a "$!% $&!$ %&!% )*!) #$!% $&!# #&!' #&!$ #"!% ##! "'!" 1"!1 " !' 1"!' &#!' &#!) )'!1 " !* )&!' #)!& &'!$ %)! &"!1 " !% &) ngajati $1'& 1'&1$ %#%*& $%$)** &&*)$ %)** %' & %&'$" %%1" 1 $#* &&)$ # )% &"&# $)" '* )&%1# ) )' 1 "% 1'11 &* 1 %*'$#* %'''& ))%&& 11#&& &)

alfabe linii_tele tel_mobi i_interne cercet _energi PIB($ indicele e_urban numar_a

" # $ '

1!1 %#&!" !) $ !) !' %#!" !$ ! !* &'!$

1!% 1' !' 1!* $!%

1!% &%!" !# 1$!* 1!* !1 $!) "!*

%!& "&!) !' &'$!& !) ! !) )! ' !) !%

!' '*"!$ !# 11*!$ 1!1 #*!* !& &% !" &) &)

Total 1

In #ederea clasificarii tarilor se urmareste reducerea dimensionalitatii, adica aflarea unor indicatori rele#anti pentru analiza, indicatori sintetici redusi din cei initiali, pe baza carora datele pot fi interpretare mai usor$ Pentru aceasta se foloseste te!nica analizei componentelor principale pe baza matricei de corelatie$ Componentele noi #or e-prima atribute noi ale tarilor si sunt construite in asa fel incat

sa fie necorelate intre ele, fiecare dintre aceste noi #ariabile fiind o combinatie liniara de #ariabile ori inale$ /ariabilele luate in considerare sunt0 alfabetizare1 2radul de alfabetizare a adultilor de peste 3& ani in anul 200&4 linii5telefonice 1 6umatul de linii de telefonice la 3000 de persoane in 200&4 abonati5tel5mobil 1 numarul de telefoane mobile la 3000 de persoane in 200&4 utilizatori5internet 1 numarul utilizatorilor de internet la 3000 de persoane in 200&4 cercetatori numar de cercetatori la milionul de locuitori in 200&4 consum5ener ie1 consumul de ener ie pe cap de locuitor789 din totalul de ener ie consumata in 200&4 PIB miliarde : 7us9 200&4 indicele saracie1 indicele de saracie umana, #aloare procentuala in 200&7 cu cat #aloarea sa este mai mare cu atat poporul e mai sarac94 populatie5urbana1 8 din totalul populatiei 200&4 numar5an a,ati1 numarul de an a,ati 7mii9 in anul 200&$ In prima etapa calculam analiza descripti#a a #ariabilelor si calculam indicatorii de centrare si imprastire, cum este media, #aloarea minima si #aloarea ma-ima, abaterea standard$

Descriptive Statistics 1 alfabetizare linii_telefonie abonati_tel_mobil utilizatori_internet cercetatori consum_energie PIB($) indicele_saracie Populatie_urbana numar_angajati 3alid.1.(list7ise) &) &) &) &) &) &) &) &) &) &) &) % 1" !1 )! $! 1"!1 1 "% 2inimum )$!" ) 2a5imum !" &$' $&) &&& 1&$ %!& &&%)!% )*!" $&!$ $%$)** 2ean '*!) & 1*'!& &'*!& $&!#$ &$)!*' ! $1 &1&!$& 1'! $" )'!"%% #1)))!'' -td!.6e0iation 1"!1$* '1!)#) 1 )!%)% "&! $$ %&'!$ ) !#"%1 )#)!&$ # 1*!*&%' 1'!" $& 1"$*&"!)"# 3ariance &%*!1"# ##%#!%*% %$$# !&" &'*#!"'* 1*'1*"!'1 !)&$ &1""""!" * 1**!)$# %)"!'"$ &!)##,1*

"

;abelul Descriptive Statistics contine informatii despre fiecare #ariabila analizata independent$ %in tabel aflam ca pentru #ariabila radului de alfabetzare la adulti 7peste 3& ani9 #aloarea ma-ima este 99$& iar cea medie este de +0$"9 de unde putem concluziona ca desi analizam tari medii din punct de #edere al dez#oltarii umane, radul de alfabetizare este in medie destul de ridicat$ %esi reteaua telefonica nu este foarte bine dez#oltata, e-istant ma-im 2)+ linii telefonice la 3000 de persoane, numarul ma-im al utilizatorilor de telefon mobil este apro-imati# triplu )2" la acelasi numar de persoane$ 2radul de raspandire a telefoniei mobile in aceste tari este mult mai ridicat decat cel al utilizarii internetului, care are #aloarea medie de )2$<) la mia de locuitori$ /aloarea medie a consumului de ener ie pe cap de locuitar a tarilor analizate este .$2, aceasta #ariabila a#and #arianta cea mai mica, .*!)&$, ceea ce ne arata ca este si cea mai omo ena #ariabila, dar si cea mai stabila, a#and abaterea standard cea mai mica, *!#"%1$ Populatia in aceste tari este predominant rurala, indicele populatiei urbane a#and media "+$&..$ ;ot in urma analizei descripti#e se obtin si standardizarile #ariabilelor initiale$ Pentru analiza in componente principale se #or folosi #ariabilele standardizate, e#itand in acest fel discrepantele dintre #alori ce ar putea fi datorate unitatilor de masura diferite$ Informatiile astfel e-primate in forma standardizata, in unitati standard de abatere medie patratitica, se afla in tabelul de mai ,os0

&

Case Summariesa 8score(al 8score(li 8score(a 8score(ut 8score(c 8score(c Tara 1 & % ) " # $ ' Kazakhstan (olombia Thailand (hina Turke+ Peru ,cuador Philippines Tunisia 1* 11 1& 1% 1) 1" 1# 1$ 1' 1 &* &1 && &% &) Iran Paragua+ -ri./anka ,l.-al0ador 1epal 2adagascar 3iet.1am Indonesia 1icaragua ,g+pt Boli0ia India Pakistan Bangladesh -outh.4frica &) e) 1!&"& " !'11%1 !$ '1% !#'#*$ !)""%$ !)''%& !# &## !$ '1% :!)*'1% !1&"$ !'"$)" !#$&' !**$1) nie) !$&*#$ !$%& " !*&* $ 1! $&$# 1!' 11 l_mobil) !&)*%) 1!*&&)# !$$*%% !111$* 1!#$*'* :!)1%1) ! '#)) !$1%$% 1!)$*1& :!' #'& !&*)%& nternet) :!'#&*1 !" 1)" !$*)$1 !&%&'* &!'1''& 1!$&)*1 :!)')) :!%"&%" !)&1"$ !"$&"$ :!$& '$ ) 1!*$ )" :!"*&* !*% &' 1!%1 $& !&*%"& :!1)#&) :!#'1"% :!#'$#1 &!&)$%" %!*"#%$ :!" %%% :!)))%* :!# *#" :!#")1# nergie) !'1*&$ :!)1)$1 !#"$1" 1!$& *1 !1 $$' :!'$)*$ :!&#1"' :!)1)$1 :!1*')# !"*)*% !*))## !"*)*% :!"#$'% !*))## PIB($) :!%%"&1 8score(in 8score(P 8score(nu racie) :!*$$%& urbana) !)$1)* 1!& )' jati) :!%)""$ :!&$"& :!1#*1& )!%*)$" :!&"* * :!%# #" :!%##"& :!1'1 ) :!%$*1 :!&#")$ :!%$$** :!%)$* :!%$"&& :!%)%'* :!%% $% :!1&1'& !&1%%# :!%$''$ :!&$" & :!%$$ 1!"$"** :!1)%# :!1* *" :!%1$& &)

fabetizar nii_telefo bonati_te ilizatori_i ercetatori onsum_e 8score9. dicele_sa opulatie_ mar_anga

:!1 )$$ :1!1*)'$ :!*$$'& )!%")&1 !%&&" :!&'$1$ :!' "%$ :!$&"$' :! $"1' :!$%"$"

:!'$&' :!)%$%) 1!** 11 1!& )1* !$#$1) !$#1$# ! *1"$ ! '$#* !"%" &

:!%)$& !&")&* :!'&#*% !&*"1* &!*'%&) :!###)" :!""" $ !)*1"1

:!%$ "' :1!*&"*# :!&)) # :!% #%' :!*) % :!%###% :!1*$&" :!#*#*#

:!))&)$ :1!*1"* :!)*$"' :!)&1"' :!))&&" :!))$)& :!%)"%% !1#*)* :!))$#) :!&#"#) :!)%'1# 1!&$$1' :!&1 $# :!%&' # !*"$## &)

:!"#&%# :1!1*$)* !%"'# !%'%'1

:!11$&& :1!$ $$# :!%'#"' !#*"'&

:&!1*&1# :1!1&*#) :1!% " ) :1!& #1# :!#)")& :1!&'*&% :1!%*%%& :1!&$$&' !#)#"& !#"%11 :!&) :!" % &' 1!*1"&' :!#1$%" :!'*1)' !%' &% :!)$**" :!'"*"1 :!%)#&" :!%&"#$ :!) ")$ :!*'%'% 1!*#%%" !**#& :!'#&*1 :!*''* :!% *11 :!%%%)' :!1*# #

1! *$ $ :1!$#*1& 1!#$'"1 :1!1#'#% :!%$##* :1!1 *1) :!*$$%& :!1*$&" !1*&&# :!"%#&% :!*&%%* !"#&'1 :!%*'& !')&)&

:!$'$ ' :1!%%%)) :!)'%') :!&*)*% :!#11"' !##"'& :!)#'#% :!)$1#$ :!#*") :!#$') %!)1%%" :!&#1"' :!'$)*$ :!1*')# :!'$)*$ :!&#1"' :!"#$'% !1 $$'

!)* &% :1!&')'1 :&!*1#)$

:!$$# % :1!*&*%& :! 11 # :1!*&*%&

1!&& "' :1!*##)$ 1!$1')& :!$%%*'

:&!1$)#$ :1!&%11& :1!11'*' :1!%1"*% !1&"$ &) :!*' "1 &) &!&'%1& &) !#'"'% &)

&!1)$)* :1!&#**) !)"1)% &) !"$' ) &)

!1**11 :1!1'*%& &) &)

Total 1

a!./imited.to.first.1**.cases!

In urma standardizarii, #ariabilele, anterior e-primate in unitati de masura diferite, sunt perfect comparabile intre ele si se pot realiza topuri ale tarilor in functie de fiecare #ariabila indi#iduala$ %e e-emplu intr1un top al tarilor cu cel mai mare rad de alfabetizare pe primul loc se afla =aza>!stan,urmata de Para ua? si Colombia iar la urma clasamentului se afla Ban lades!$ %e asemeni, din punct de #edere al indicelui de saracie, cele mai bo ate tari din cele analizate sunt0 Colombia si Para ua? iar cele mai sarace Ban lades!, 6epal si @ada ascar$

<

Pentru a realiza scopul propus de Analiza in componente principale, se calculeaza mai intai matricea corelatiilor #ariabilelor, o matrice patratica de dimensiune +-+ in cazul de fata$ @atricea de corelatie, Correlation Matrix, care se obtine prin utilizarea #ariabilelor standardizate este0

Correlation Matrixa 8score( 8score( 8score(l abonati 8score(ut 8score( 8score(c zare) (orrelati 8score(alfabeti on zare) 8score(linii_tel efonie) 8score(abonati _tel_mobil) 8score(utilizat ori_internet) 8score(cerceta tori) 8score(consu m_energie) 8score9.. PIB($) 8score(indicel e_saracie) 8score(Popula tie_urbana) 8score(numar _angajati) a!.6eterminant.;.1!&%,: **" 1!*** fonie) !)'* bil) !"&' nternet) !%"& ori) !1#$ nergie) !&)# PIB($) !* & 8score(i ndicele 8score(P 8score(nu e) :!''& urbana) !"*" ati) !*&#

alfabeti inii_tele _tel_mo ilizatori_i cercetat onsum_e 8score9. _saraci opulatie_ mar_angaj

!)'*

1!***

!%#

!#%$

!#"'

!"&"

!)&

:!#1*

!%'#

!%&%

!"&'

!%#

1!***

!) )

!1$"

:!1)&

!*%'

:!"$$

!#&$

:!*'%

!%"&

!#%$

!) )

1!***

!&')

!1'*

!1"

:!"%)

!)'1

!*%"

!1#$

!#"'

!1$"

!&')

1!***

!&#*

!&'"

:!&""

!%**

!&1)

!&)#

!"&"

:!1)&

!1'*

!&#*

1!***

!%%%

:!&1

:!%%'

!%"'

!* &

!)&

!*%'

!1"

!&'"

!%%%

1!***

:!1*$

:!11*

! '%

:!''&

:!#1*

:!"$$

:!"%)

:!&""

:!&1

:!1*$

1!***

:!#""

:!*&#

!"*"

!%'#

!#&$

!)'1

!%**

:!%%'

:!11*

:!#""

1!***

:!&*#

!*&#

!%&%

:!*'%

!*%"

!&1)

!%"'

! '%

:!*&#

:!&*#

1!***

@atricea de corelatie ofera informatii cu pri#ire la AtariaB le aturii dintre #ariabile si, deasemenea, in functie de #alorile coeficientilor ne putem da seama de cate componente principale este necesar in cadrul analizei$ )

%in analiza matricei de corelatie se obser#a faptul ca cea mai puternica le atura, 0$9+. este intre #ariabila produsului intern brut si cea a numarului de an a,ati, urmata de corelatia puternicade 0$92 intre produsul intern brut si radul de alfabetizare$ %in analiza matricei de corelatie deducem faptul ca pentru a caracteriza datele initiale a#em ne#oie de apro-imati# trei #ariabile artificiale$ Continutul informational total al datelor initiale, care reprezinta de fapt #arianta eneralizata calculata ca determinant al matricei de co#arianta, este 1!&%,:**"$ ;abelul Communalities ne arata influenta #ariabilelor luate in studiu$

Communalities Initial 8score(alfabetizare) 8score(linii_telefonie) 8score(abonati_tel_mobil) 8score(utilizatori_internet) 8score(cercetatori) 8score(consum_energie) 8score9..PIB($) 8score(indicele_saracie) 8score(Populatie_urbana) 8score(numar_angajati) 1!*** 1!*** 1!*** 1!*** 1!*** 1!*** 1!*** 1!*** 1!*** 1!*** ,5traction !#"" !'"* !$*" !"%* !%$1 ! 1# ! $ !'&) !')& ! "$

,5traction.2ethod9.Principal.(omponent.4nal+sis!

%in acest tabel reiese faptul ca toate #ariabilele folosite contribuie ma,or la e-plicarea #ariabilelor artificiale obtinute ulterior7cu e-ceptia #ariabilei a &1a reprezentand numarul cercetatorilor la mia de persoane, fiecare dintre ele, in rest, a#and o cantitate de informatie recuperata de peste "08, dupa cum reiese din coloana E-traction$ %in analiza acestuia se obser#a ca #ariabila ) are o contributie ma,ora la e-plicarea #ariabilelor artificiale care se obtin ulterior$ Cantitatea de informatie recuperata din acesta #ariabila este de 0$9)9, urmata in aproape de ultima #ariabila care recupereaza 0$9&) din informatie, dupa cum reiese din coloana E-traction din tabelul de mai sus$ Pentru a stabili numarul de componente principale necesare, se folosesc informatiile din tabelul Total Variance Explained$ ;abelul ne ofera informatii cu pri#ire la #aloriile proprii ale matricei de corelatie, dar si informatii referitoare la componentele principale si cantitate de informatie retinuta de acestea$ C #aloare proprie mai mare decat 3, pentru o componenta, indica faptul ca acea componenta are o contributie mai mare decat a unei #ariabile initiale, deci este indicat a fi e-trasa$

Total Variance Explained (ompo nent 1 & % ) " # $ ' Total )!*"% &!"1" 1!*#1 ! $* !#)$ !% 1 !1#' !11" !*$# 1* !**% Initial.,igen0alues =.of.3ariance )*!"%% &"!1"& 1*!#*" !$*) #!)$" %! *$ 1!#'& 1!1"% !$"$ !*%1 (umulati0e.= )*!"%% #"!#'" $#!& * '"! &!)# #!%$# '!*" !&11 ! # 1**!*** ) ,5traction.-ums.of.-<uared./oadings Total )!*"% &!"1" 1!*#1 =.of.3ariance )*!"%% &"!1"& 1*!#*" (umulati0e.= )*!"%% #"!#'" $#!& *

,5traction.2ethod9.Principal.(omponent.4nal+sis!

Se obser#a ca pentru a recupera o cantitate cat mai mare de informatie din datele initiale a#em ne#oie de trei componente principale$ Acestea corespund #alorilor proprii cele mai mari, #alori proprii peste 3, iar aceste #alori proprii reprezinta #ariantele corespunzatoare celor trei componente retinute$ Cele trei #alori proprii retinute, cu #alori peste 3, se afla in coloana Initial Eigenvalues si sunt, in ordine descrescatoare, "$0&., 2$&3& si 3$0<3$ Dtilizand trei componente principale, cantitatea de informatie total recuperata este de )<$29 8 din informatia initiala, asa cum se obser#a in coloana Cumulative %. %intre cele trei componente principale, prima acopera )*!"= din #arianta finala, a doua componenta &"!18 7&"!1"&9, in timp ce a treia componenta 1*!#8 71*!#*"9$ Pentru a stabili numarul de componente principale necesare se mai poate folosi si metoda rafica$ In Scree Plot, raficul descresterii, se obser#a trei diferente semnificati#e de ni#el intre se mentele ce indica reprezentarea rafica a #alorilor proprii, ceea ce ne indica necesitatea unui numar de . componente principale$ Pe abscisa sunt reprezentate etic!etele #alorilor proprii, in timp ce pe ordonata se afla #alorile efecti#e ale acestora$ Folosind criteriul pantei si reprezentarea rafica a #alorilor proprii se poate determina numarul de componente principale necesare reprezentarii spatiului initial$ In urma identificarii numarului de diferente semnificati#e dintre #alorile proprii reprezentare, deasupra ultimei diferente semnificati#e in reprezentarea rafica se duce o paralela la abscisa, iar numarul de #alori proprii ramase deasupra paralelei da numarul de componente principale$

Pentru a caracteriza componentele astfel obtinute se determina coeficientul de corelatie intre #ariabilele artificiale obtinute si #ariabilele ori inale luate in calcul, datele fiind disponibile in Component Matrix$ Cu a,utorul tabelului se poate da o interpretare #ariabilelor in spatiul transformat, aceasta continand coeficientii corelatiilor dintre componentele principale si #alorile initiale$
Component Matrixa (omponent 1 8score(alfabetizare) 8score(linii_telefonie) 8score(abonati_tel_mobil) 8score(utilizatori_internet) 8score(cercetatori) 8score(consum_energie) 8score9..PIB($) 8score(indicele_saracie) 8score(Populatie_urbana) 8score(numar_angajati) !$#1 !'"# !##" !$&1 !")# !%&% !%#* :!'#$ !#" !&)& & :!&11 !&'' :!)1) :!1** !&#& !#* !'11 !&)* :!"#% !'"' % :!1$) :!1') !%*% :!*1' :!*#& :!##) !)%$ !11 !%*& !)*)

,5traction.2ethod9.Principal.(omponent.4nal+sis! a!.%.components.e5tracted!

30

Se obser#a astfel ca prima componenta principala se poate analiza in termenii numarului liniilor de telefonie fi-a e-istente la mia de locuitori,a numarului de telefoane mobile la mia de locuitori precum si in functie de radul de alfabetizare si numarul utilizatorilor de internet, toate a#and un coeficient de corelatie de peste 0$)00$ Prima componenta principala este puternic ne ati# influientata de indicele de saracie, deoarece, cu cat tara are un indice de saracie mai mare cu atat este mai putin inclinata spre folosirea de te!nilo ie$ Astfel, aceasta prima componenta poate fi considerata un indicator accesului populaEiei la Fntrea a amG de ser#icii oferite de dez#oltarea te!nolo iilor informa Eionale$ In acelasi timp, aceasta prima componenta poate fi folosita pentru a caracteriza tarile in functie de radul de educatie utilizare a te!nolo iei fiind fiind puternic influientata de radul de alfabetizare$ Intr1un top al tarilor ordonate dupa prima componenta principala,;urcia, C!ina si Iran ocupa primele pozitii, acestea putand fi caracterizate drept cele mai dez#oltate tari din punct de #edere te!nolo ic dintre cele studiate, incadrate in tarile cu ni#el mediu de dez#oltare umana, in timp ce ultimele locuri sunt ocupate Pa>istan, @ada ascar, Ban lades!, 6epal $ Topul tarilor in functie de prima componenta principala, componenta ce indica accesului populaEiei la Fntrea a amG de ser#icii oferite de dez#oltarea te!nolo iilor informa Eionale0
Tara Turke+ (hina Iran (olombia Tunisia Kazakhstan Kazakhstan Thailand Peru 3iet.1am ,cuador -outh.4frica -outh.4frica ,l.-al0ador Paragua+ Philippines Boli0ia Indonesia ,g+pt 1icaragua -ri./anka India Pakistan 2adagascar Bangladesh 1epal >4(T_1 1!# &*"" 1!#) %#" 1!1)*$$ *!' %)*' *!#' )*) *!"&#" & *!"&#" & *!) $*) *!)''*') *!))1'%) *!)%"1$1 *!)*)%)1 *!)*)%)1 *!1 #&#" *!*' *!*$%##' :*!*)'%& :*!*$&* :*!1"'&" :*!"&%&1 :*!#&)1' :*! )"#) :1!% $ :1!#")#& :1!'#1$' :1! %*1%

Componenta a doua este puternica influentata de ni#elul PIB1ului si a numarului de an a,ati$ (eiese astfel, in urma unei ordonari crescatoare, ca C!ina,

33

India si /iet 6am sunt tarile cu ni#elul cel mai ridicat al produsului intern brut si cu numarul cel mai mare de an a,ati$ Topul tarilor in functie de a doua componenta principala , ordonata crescator, deoarece indica, intr1un fel bo atia tarilor respecti#e0
Tara (hina India 3iet.1am Bangladesh 1epal Iran Pakistan -ri./anka ,g+pt Thailand Indonesia Kazakhstan 2adagascar Turke+ Tunisia 1icaragua ,l.-al0ador Paragua+ Philippines ,cuador Boli0ia -outh.4frica (olombia Peru >4(T_& %!" $1'# 1!% &**' 1!*1%1%1 *!" '*$$ *!"'$"%' *!)*'*"& *!&))& $ *!&%%1 *!1&1 $" :*!*&"' :*!*%1&1 :*!*"'&" :*!*$11$ :*!)%'1 :*!)"'') :*!##'*& :*!#$)%# :*!# 1') :*!$'%)# :*!'&& # :*!'& * :*!'$)') :*!''1*% :*!''#&

A treia componenta principala indica pe bo atia monetara a tarilor considerate, fiind influientata atat de PIB si numarul de an a,ati cat si de economisirea de ener ie electrica, ni#elul dez#oltarii populatiei in mediul urban, numarul de abonati la telefonia mobila$ Topul tarilor in functie de cea de-a treia componenta principala , componenta ce indica ni#elul dez#oltarii economice a tarilor considerate0
Tara (hina -outh.4frica India Philippines 1icaragua Pakistan Boli0ia Peru 2adagascar (olombia Tunisia ,l.-al0ador Indonesia ,cuador Turke+ >4(T_% 1!#)& ) 1!)'#)$' 1!&1%)") *!"&#'"$ *!"*%$$ *!)%*" *!)&#*"1 *!)1))%% *!)*11#$ *!%$*1'" *!%&*#$" *!&%&#'1 *!&*'#%# *!1)&*&1 *!1*%"#%

32

Bangladesh Paragua+ ,g+pt 1epal Thailand Kazakhstan Iran -ri./anka 3iet.1am

:*!1*%$1 :*!&%"$& :*!%$* ) :*!)&")$ :*!$'&$" :*! #&%) :1!*"*'" :1!&$*%& :%!&&1)1

;abelul Rotated Component Matrix foloseste te!nica rotirii a-elor, te!nica /arima-, si are drept scop obtinerea unor coeficienti de corelatie cat mai mici pe una din componentele principale$ In cazul nostru interpretarea se poate face cu usurinta si pe prima matrice de corelatie dintre #ariabilele ori inale si componentele principale$ Se obser#a ca prin te!nica /arima- obtinem aceeasi interpretare$ ;e!nica /arimarealizeaza o roatie a a-elor initiale pentru a facilita interpretarea factorilor astfel obtinuti$
Rotated Component Matrixa (omponent 1 8score(alfabetizare) 8score(linii_telefonie) 8score(abonati_tel_mobil) 8score(utilizatori_internet) 8score(cercetatori) 8score(consum_energie) 8score9..PIB($) 8score(indicele_saracie) 8score(Populatie_urbana) 8score(numar_angajati) !$"% !#%) !'*' !# 1 !%'* :!*% !*) :!'#$ !'#% :!*'1 & :!*"% !%"' !*%* !111 !%&* !1 % ! $' !*1" :!*' ! #% % !& 1 !"## :!&&$ !&*% !%"% ! %$ !1)% :!&#$ :!& ' !1")

,5traction.2ethod9.Principal.(omponent.4nal+sis!. .?otation.2ethod9.3arima5.7ith.Kaiser.1ormalization! a!.?otation.con0erged.in.".iterations!

;abelul Component Transformation Matrix indica corelatia componentelor inainte si dupa rotatie$

3.

Component Transformation Matrix (omponent 1 & % 1 ! '# :!1#& !*%% & !1#% ! 1) :!%$1 % !*%* !%$1 ! &'

,5traction.2ethod9.Principal.(omponent.4nal+sis!.. .?otation.2ethod9.3arima5.7ith.Kaiser.1ormalization!.

Component Plot in Rotated Space ofera o reprezentare rafica tridimensionala a celor . componente principale$ Fiecare #ariabila este reprezentata in functie de corelatia cu fiecare componenta$ Este un mod rafic de a prezenta aceeasi informatia ca in tabelul Rotated Component Matrix.

Componentele principale nu sunt altce#a decat combinatii liniare ale #ariabilelor ori inale cu #ersorii noului spatiu redus $ Acesti #ersori sunt dati de #ectorii proprii corespunzatori #alorilor proprii mai mari decat 3$ ;abelul Component Score Coefficient Matrix reprezinta matricea #ersorilor, continand #ectorii proprii corespunzatori #alorilor proprii retinute$ %atele sunt prezente in tabelul de mai ,os0

3"

Component Score Coefficient Matrix (omponent 1 8score(alfabetizare) 8score(linii_telefonie) 8score(abonati_tel_mobil) 8score(utilizatori_internet) 8score(cercetatori) 8score(consum_energie) 8score9..PIB($) 8score(indicele_saracie) 8score(Populatie_urbana) 8score(numar_angajati) !1') !1&% !&"1 !1$" !*$& :!1*" !*** :!&1' !&$) :!*%' & :!1*# !*"* !*$$ !**' !*'# :!1)* !"*' !*$ !*%* !) # % !1"# !&#" :!&"' !*"% !1)1 !#"% :!1"# :!11$ :!&'# :!1%1

,5traction.2ethod9.Principal.(omponent.4nal+sis!. .?otation.2ethod9.3arima5.7ith.Kaiser.1ormalization!

@atricea Component Score Covariance Matrix demonstreaza faptul ca co#arianta dintre componentele principale este 0, componentele fiind interpretate in functie de #alori diferite$

Component Score Covariance Matrix (omponent 1 & % 1 1!*** !*** !*** & !*** 1!*** !*** % !*** !*** 1!***

,5traction.2ethod9.Principal.(omponent.4nal+sis!.. .?otation.2ethod9.3arima5.7ith.Kaiser.1ormalization!.

6oile #ariabile obtinute prin aplicarea acestei multidimensionala sunt prezentate in tabelul de mai ,os0

te!nici

de

analiza

3&

Case Summaries ?,@?.factor. score...1.for. (ase.1umber 1 & % ) " # $ ' Tara 1 Kazakhstan & (olombia % Thailand ) (hina " Turke+ # Peru $ ,cuador ' Philippines Tunisia 1* 11 1& 1% 1) 1" 1# 1$ 1' 1 &* &1 && &% &) Total 1 1* Iran 11 Paragua+ 1& -ri./anka 1% ,l.-al0ador 1) 1epal 1" 2adagascar 1# 3iet.1am 1$ Indonesia 1' 1icaragua 1 ,g+pt &* Boli0ia &1 India && Pakistan &% Bangladesh &) -outh.4frica &) anal+sis.& !%'*&) 1!&1%#$ !%#&#% !&&$'* 1!$&&*1 !'")$$ !$)$1" !)"&** !'"*#' !$%)%) !%%))" :!'1$$" !)'1$& :&!*%'%) :1!)1$)& :!)1) 1 :!*&#) :!1%$'* :!&% *$ !%)$$" :1!&$&%' :1!%1&*# :1! )*$' ! *$$' &) ?,@?.factor. score...&.for. anal+sis.& :!)% % ?,@?.factor. score...%.for. anal+sis.& ! %&*% :!)&'&" !$ *$* !' &'' !&" $& :!" 11

:!&%)"$ :!%&&*" )!1')"% !1'1$" :!%&") :!))%%* :!& #&$ !*11&% !*)%$$ :!#)$#' :!$*1' :!%)&&1 :!%1111 :!&'#%% :!' &'& !*$&$& :!%'%)1 :!1"#&) :!)&&*1 1!"*# $ !*)#$1 :!1*%$* !&#1%% &)

:!%#%% :!$$$#" :!&")#$ 1!)&"1% :!1*)#' ! )#$% :!))"&$ :!**%1 :! *1"1 %!&#*%" :!&* *$ :!' '$$ !%* $# :!$"#)" :!#)%'1 :!# %)1 :!&% %# :1!) '# &)

3<

Analiza claselor ierarhice


@etodele de clasificare sau de analiza HclusterI au ca scop ruparea indi#izilor, caracterizati de di#erse #ariabile, intr1un numar restrans de clase omo ene$ Analiza claselor ierar!ice 7Hierarchical Cluster Analysis9 este o metoda de rupare Hierar!icaI in care fiecare clasa este in totalitate continuta in alta clasa$ Clasele rupeaza indi#izi cat mai asemanatori intre ei prin #alorile #ariabilelor lor, in timp ce clasele constituite sunt cat mai diferite$ In urma realizarii analizei ierar!ice se obtin mai multe tabele$ ;abelul Case Processing Summary arata cate #ariabile au fost luate in considerare in analiza, in cazul de fata 2" dintre ele fiind #alide, adica un procent de 3008$
Case Processing Summary (ases Included 1 Tara. ?,@?.factor.score...1.for. anal+sis.&. ?,@?.factor.score...&.for. anal+sis.&. ?,@?.factor.score...%.for. anal+sis.&. &) &) Percent 1**!*= 1**!*= 1 * * ,5cluded Percent !*= !*= 1 &) &) Total Percent 1**!*= 1**!*=

&)

1**!*=

!*=

&)

1**!*=

&)

1**!*=

!*=

&)

1**!*=

;abelul Proximity Matrix e-prima distantele euclidiene dintre #ariabile, in cazul de fata dintre tari, si se obser#a ca acestea pot fi folosite ca masura de comparare a tarilor$ Cu cat dinstanta dintre tari este mai mare, cu atat punctele sunt mai putin asemanatoare$ Astfel, distantele euclidiene masoara disimilaritatea dintre puncte$ /aloarea dintre elementele de pe dia onala este 0, in timp ce in restul tabelului o #aloare mica indica o similaritate ridicata iar o #aloare ridica o disimilaritate puternica$ In cazul de fata tabelul rezultat este o matrice patratica de dimensiune 2"-2"$ In tabelul Agglomeration Sc edule se afla ruparea claselor in functie de distantele din matricea de pro-imitate 7 Coefficients9$ Fiecare rand reprezinta o etapa din procesul de rupare al #ariantelor, numerotate de la 3 la 2. 7n13, unde n este numarul de #ariante9$ Dltima etapa, n13, cuprinde toate #ariantele intr1un sin ur cluster$ Cele doua coloane continute de campul Sta e Cluster First Appears indica etapa la care a mai fost intalnit un cluster de,a format, iar 6e-t Sta e indica etapa #iitoare la care #a mai fi intalnita combinatia de clustere formata$

3)

Agglomeration Schedule (luster.(ombined -tage 1 & % ) " # $ ' (luster.1 1) 1' ' ' $ & & & 1) 1* 11 1& 1% 1) 1" 1# 1$ 1' 1 &* &1 && &% 1) & & 1) & & & 1 1 1 1 1 1 1 1) " 1* 1# ) (luster.& &% &* 11 1' ' $ 1% 1$ && &1 1 # 1" % 1& &) & (oefficients !)% 1!1*' 1!1#1 1!&)$ 1!$*# 1!$'& 1! %' &!*$1 &!##1 %!%*' %!#'' )!1'' )!%&' )!"1) "!)*' "! '% #!%)1 $!)'" $!$* '!11* 1*!')) 1&!*$ &$!1&' ' 11 1* 1& 1) 1" * 1$ 1' 1 &* &1 && -tage.(luster.>irst.4ppears (luster.1 * * * % * * # $ 1 (luster.& * * * & ) " * * * * * * * * * * 1# * 1% * * * * ) ) " # $ ' 11 1* 1% 1& 1) 1 1" 1# 1$ 1' 1 &* &1 && &% * 1e5t.-tage

;abelul Vertical !cicle indica pentru fiecare tara in parte din cate clustere face parte, intreruperea de J din coloane indicand si locul in care se termina o clasa$ Pe pe prima coloana #erticala sunt prezentate numarul de clustere, iar urmatoarele coloane reprezinta #ariantele, in cazul de fata tarile$ Citind tabelul de ,os in sus, se poate obser#a cum au fost rupate tarile$ Prima solutie din A lomeration Sc!edule #a fi prezentata pe ultimul rand, n13, cea in care doar primele doua tari erau rupate, in timp ce primul rand reprezinta clusterul ce contine toate #ariantele$ Pe masura ce se succed randurile, numarul de clustere creste$ 3+

%in dendrograma se obser#a cel mai usor formarea claselor$ Aceasta ne indica modul de rupare al tarilor in functie de asemanarile dintre ele, dar si ni#elul lor de a re are0
Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E Label Ne al %anglades& *akistan ,ndia .adagascar Nicaragua %oli0ia *&ili ines *aragua2 Ecuador Colombia El Sal0ador ,ndonesia Eg2 t *eru 6&ailand Sri Lanka Sout& A7rica 8a9ak&stan 6unisia 6urke2 ,ran :iet Nam C&ina Num 1! 2' 22 21 15 1/ 20 / 11 3 2 1' 13 14 5 ' 12 2! 1 4 5 10 15 ! 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ "#"""$ "( ) """""+"$ """""( -"""""$ """""""( ) "$ ) "+"$ ) "1 ) ) "( ) ) """1 ) """+"""$ -"$ """1 ) ) ) """( ) ) ) """""""+"$ ) ) """""""1 -"$ ) ) """""""( ) ) ) -"""$ """""""""( -"1 ) ) """""""""""1 ) ) ) """""""""""( ) ) -"$ """""""""""""( ) ) ) """""""""""""""( ) -"""""""""""""""""""""""""""$ """""""""""""""""""( ) ) """""""""""""""""""""( ) """""""""""""""""""""""""""""""""""""""""""""""""(

In cazul analizei ierar!ice prin metoda celor mai departati #ecini 7 Complete "in#age9 se obtin informatiile urmatoare$ (ezulta tabelul Agglomeration Sc edule0

39

Agglomeration Schedule (luster.(ombined -tage 1 & % ) " # $ ' (luster.1 1) 1' ' $ & 1$ 1) 1) & 1* 11 1& 1% 1) 1" 1# 1$ 1' 1 &* &1 && &% & 1 & 1 " & 1 1 1 1# 1* " & ) 1) $ 1) 1 1 (luster.& &% &* 11 ' 1% 1' && 1" # 1$ &1 1 % &) $ 1& (oefficients !)% 1!1*' 1!1#1 1!$)" &!%)' &!'" %!1&) )! $# "!* $ "!1%# #!*#' #!%)1 $!*'* $!)'" !&%# 1*!&)& 1)!$'' 1'!1%) &*!&'' &'!#') %#!'$) ))! * #*!%'* 1% 1" 1# * 1$ 1' &1 && -tage.(luster.>irst.4ppears (luster.1 * * * * * * 1 $ " ) ' * 1& * (luster.& * * * % * & * * * # * * * * 1* * 1) * * 1 &* * 11 1* ' 11 1" 1" &% 1% 1# 1$ 1$ 1' &* &1 &* &1 && &% * 1e5t.-tage $ # ) 1*

Dendrogram using Com lete Linkage Rescaled Distance Cluster Combine C A S E Label Ne al %anglades& *akistan .adagascar ,ndia Num 1! 2' 22 15 21 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ "#"$ "( ) """+"$ """( -"""""""""""""""""""""""""""""""""""""""""""$ """""( )

20

8a9ak&stan Eg2 t 6&ailand Sri Lanka :iet Nam 6unisia Sout& A7rica Colombia El Sal0ador *eru *&ili ines *aragua2 Ecuador Nicaragua %oli0ia ,ndonesia 6urke2 ,ran C&ina

1 14 ' 12 15 4 2! 2 1' 5 / 11 3 1/ 20 13 5 10 !

"""""$ ) """""+"""$ ) """""( -"""""$ ) """""""""( -"""""""""""""""$ ) """""""""""""""( ) ) """""#"""""$ ) ) """""( ) ) ) "#"$ -"""""""""""$ -"""""$ ) "( -"""$ ) ) ) ) ) """( ) ) ) ) ) ) "$ -"""( ) ) ) ) "+"$ ) -"""""""( ) ) "( -"""( ) -"""""""""""( "#"1 ) ) "( ) ) ) """( ) ) """""""""""""""""#"""""( ) """""""""""""""""( ) """""""""""""""""""""""""""""""""""""(

In urma folosirii celei de1a treia metode pentru clasificarea ierar!ica, metoda centroidelor 7Centroid Met od9, se obtine urmatorul tabel Agglomeration Sc edule0

23

Agglomeration Schedule (luster.(ombined -tage 1 & % ) " # $ ' (luster.1 1) 1' ' $ $ $ $ 1) & 1* 11 1& 1% 1) 1" 1# 1$ 1' 1 &* &1 && &% 1) 1) & & & 1 1 1 1 1 1 1 1 1 1& " 1) 1* 1# ) (luster.& &% &* 11 ' 1' 1% 1$ && $ 1" &1 # 1 % & &) (oefficients !)% 1!1*' 1!1#1 1!)%" 1! "& &!*%# &!**1 &!$'% %!'&% %! *& %! '" "!11 "!&$ "!**1 "! # #! &" '!"$$ !*"' 1"!1%" 1#! *$ 1 !%)) 1 !1$% %1!)** 1& 1% * 1" 1# 1$ 1' 1 &* &1 && -tage.(luster.>irst.4ppears (luster.1 * * * * ) " # 1 * ' 1* (luster.& * * * % & * * * $ * * * * * 1) * * * * 11 * * * 1* 1& 11 &* 1% 1) 1" 1# 1$ 1' 1 &* &1 && &% * 1e5t.-tage ' " ) " # $

Dendograma obtinuta este0


Dendrogram using Centroid .et&od Rescaled Distance Cluster Combine

22

C A S E Label Ne al %anglades& *akistan .adagascar ,ndia Nicaragua %oli0ia *&ili ines *aragua2 Ecuador El Sal0ador ,ndonesia Colombia *eru Eg2 t 6&ailand 8a9ak&stan Sout& A7rica 6unisia Sri Lanka 6urke2 ,ran :iet Nam C&ina

Num 1! 2' 22 15 21 1/ 20 / 11 3 1' 13 2 5 14 ' 1 2! 4 12 5 10 15 !

0 5 10 15 20 25 +---------+---------+---------+---------+---------+ "#"$ "( -"$ """( ) """""+"""""""""""""""""""""$ """""( ) "#"$ ) "( ) ) "$ ) ) "+"1 ) "( -"$ ) """1 -"$ -"""$ """( ) ) ) ) """""( ) ) ) """""""+"$ ) ) """""""1 -"$ ) ) """""""( ) -"$ ) ) """""""""( ) ) ) ) """""""""""( -"""""""""$ ) ) """""""""""""1 -"""( -"""""""""""""""""$ """""""""""""( ) ) ) """""""""""""""""""""""( ) ) """""""""""""""""""""""""""""""1 ) """""""""""""""""""""""""""""""( ) """""""""""""""""""""""""""""""""""""""""""""""""(

2.