ACP

Cuprins
I. Descrierea datelor................................................................................................................................. 2 Descrierea variabilelor .............................................................................................................................. 2 Statistici descriptive .................................................................................................................................. 4 II. III. Analiza componentelor principale ...................................................................................................... 13 Analiza cluster ................................................................................................................................. 27
Metodele ierarhice................................................................................................................................. 27 Metoda centroidului ........................................................................................................................... 27 Metoda lui Ward ................................................................................................................................. 31 Algoritmii de partitionare ....................................................................................................................... 34 Algoritmul celor k medii (k means) .................................................................................................. 34 IV. V. VI. Analiza discriminanta ...................................................................................................................... 37 Analiza factoriala................................................................................................................................. 41 Anexe ................................................................................................................................................ 1
I.
Descrierea datelor
Matricea de date contine 30 de observatii, reprezentand tari din Europa pentru care sunt luate in considerare 11 variabile. Datele sunt preluate de pe site-urile www.eurostat.com si http://hdr.undp.org/en/reports/ si incearca sa surpinda realitatea economica si sociala din statele considerate in anul 2008.
Descrierea variabilelor
1. Prima variabila masurata pentru cele 30 de state este Produsul Intern Brut (PIB). Acesta reprezinta valoarea cumulata a bunurilor finale produse in economie in anul de referinta. Pentru a asigura comparabilitatea intre observatii am considerat produsul intern brut pe cap de locuitor, exprimat in euro. 2. Al doi-lea indicator considerat este rata somajului, o masura a fortei de munca neutilizate existenta in economie, calculandu-se ca raport intre numarul somerilor si populatia activa.Se pune problema ca, in diferite tari ale Europei, notiunea de somer este interpretata diferit, iar acest lucru face dificila comparatia celor 30 de observatii dupa acest criteriu. Pentru a exista comparabiliate intre state am luat in considerare rata somajului standardizata B.I.M. Aceasta se calculeaz ca raport ntre numrul omerilor n sens B.I.M (Biroul international al muncii) i populaia activ total si are cea mai mare sfer de cuprindere, fiind cea mai utilizat n comparaiile internaionale; omerii n sens B.I.M. sunt persoanele de 15 ani i peste care n decursul perioadei dereferin ndeplinesc simultan urmtoarele condiii: - nu au un loc de munc i nu desfoar o activitate n scopul obinerii unor venituri; - sunt n cutarea unui loc de munc, utiliznd n ultimele 4 sptmni diferite metode pentru a-l gsi: nscrierea la Oficiul de for de munc i omaj sau la agenii particulare de plasare, demersuri pentru a ncepe o activitate pe cont propriu, publicarea de anunuri sau rspunsuri la anunuri, apel la rude, prieteni, sindicate etc; - sunt disponibile s nceap lucrul n urmtoarele 15 zile, dac s-ar gsi imediat un loc de munc; Sunt incluse, de asemenea: - persoanele fr loc de munc, disponibile s lucreze, care ateapt s fie rechemate la lucru sau care au gsit un loc de munc i urmeaz s nceap lucrul la o dat ulterioar perioadei de referin; - persoanele care n mod obinuit fac parte din populaia inactiv (elevi, studeni, pensionari), dar care au declarat c sunt n cutarea unui loc de munc i sunt disponibile s nceap lucrul. 3. Urmatorul indicator il reprezinta venitul salarial net anual. Acest indicator reprezinta suma de bani pe care o castiga, in medie, fiecare cetatean al unui stat, intr-un an, dupa ce s-au eliminat taxele si impozitele. Acest indicator influenteaza in mod direct consumul si nivelul de trai al populatiei.
2
4. Indicatorul sarcina fiscala asupra costului fortei de munca arata cat la suta din suma platita de un angajator pentru factorul munca se duce catre bugetul de stat, prin intermediul impozitelor. Acest indicator are o influenta inversa asupra dezvoltarii economice, intrucat creste pretul factorului munca, scade venitul mediu al populatiei (si prin urmare consumul) si descurajeaza investitiile. 5. Rata saraciei se calculeaza ca raport intre numarul persoaneleor care traiesc sub pragul absolut al saraciei si populatia totala. Pragul absolut de saracie reprezinta expresia monetara a unui "cos" de bunuri si servicii considerat a constitui "minimul necesar" pentru o viata "normala". Acest prag se estimeaza pe baza cheltuielilor totale de consum, prin majorarea pragului alimentar al saraciei cu un supliment pentru bunuri nealimentare si servicii. Componenta nealimentara a fost estimata pentru segmentul gospodariilor esantionate, a caror cheltuieli de consum pe persoana s-au plasat n intervalul unei devieri de 10% (+/-) de la nivelul pragului alimentar al saraciei. 6. Rata inflatiei masoara modificarea preturilor in anul de referinta (2008) fata de anul precedent.Nu se poate surprinde evolutia pretului tuturor produselor, ci evolutia la nivel mediu a preturilor, calculata cu ajutorul deflatorului PIB.
deflatorului PIB=
Ri= deflatorului PIB-100
In teoria economica se considera ca o rata a inflatiei intre 1% si 3% este benefica, intrucat incurajeaza producatorii sa-si mentina activitatea. In general, o rata a inflatieie peste acest prag nu este agreata, intrucat influenteaza negativ puterea de cumparare (este vazuta ca o taxa ascunsa). 7. Indicele dezvoltarii umane este un indicator complex care are in vedere speranta de viata la nastere, gradul de alfabetizare al populatiei adulte, rata bruta de cuprindere in invatamant si PIB pe locuitor la paritatea puterii de cumparare. Se considera ca IDU compara mai bine nivelul de dezvoltare umana a tarilor decat PIB-ul, cu toate ca acest concept (dezvoltare umana) este mult mai adanc si mai bogat decat ceea ce poate fi suprins printr-un indice compozit sau chiar printr-un set detaliat de indicatori statistici. 8. Rata neta a migratiei internationale se calculeaza ca raport intre migratia neta (imigranti- emigranti) si numarul mediu al populatiei. 9. Cheltuielile publice cu sanatatea (ca procent din total cheltuieli guvernamentale) sunt o masura a atentiei acordate de guvernele statelor observate sistemului public de sanatate, atentie reflectata prin fondurile repartizate. 10. Cheltuielile publice cu educatia (ca procent din total cheltuieli guvernamentale) arata cat % din bugetul statelor observate a fost directionat spre educatie in anul 2008. 11. Ultima variabila considerata este populatia care a absolvit studii superioare (ca procent din populatia peste 25 de ani)
Statistici descriptive
Pentru simplificare, in continuare voi numi variabilele V1, V2,...V11 , in ordinea in care au fost prezentate anterior. Inainte de a calcula statisticile descriptive am completat valorile lipsa prin metoda mediei celor mai apropiati vecini. In tabelul 1 sunt prezentate statistici generale privitor la cele 11 variabile
Descriptive Statistics N (Numarul de observatii) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 Valid N 30 29 30 30 30 30 30 30 30 30 30 29
Minimum (Valoarea minima) 4000.00 3.10 2229.54 17.70 8.60 -1.70 .83 -.60 9.90 6.20 9.00
Maximum Valoarea maxima) 78100.00 18.00 28587.14 49.40 25.70 16.30 .97 1.30 19.60 18.00 31.70
Mean (Media) 26892.366 7 8.6741 15578.495 0 35.5433 15.5100 1.9167 .9248 .2800 14.4833 12.0692 21.1692
Std. Deviation ( Abaterea standard) 17313.24139 3.58819 8617.79554 8.18934 4.07992 3.20883 .04416 .36897 2.55182 2.49908 6.78629
Variance (Varianta) 29974832 7.344 12.875 74266399. 931 67.065 16.646 10.297 .002 .136 6.512 6.245 46.054
Tabelul 1 Observand diferente semnificative intre valoarea minima si cea maxima a fiecarei variabile, am construit diagrama boxplot pentru a vedea daca exista valori aberante. Comanda R: boxplot(variabila)
V1
V2
4
V3
V4
V5
V6
V7
5
V8
V9
V10
V11 Dupa cum se observa din diagramele boxplot, variabilele V1, V2, V4, V6, V8 contin outlieri, si voi proceda la eliminarea lor . Pentru a verifica apropierea de normala a noilor variabile obtinute prin eliminarea outleierilor voi rula obtiunea Sumary Statistcs in Excel. Rezultatul obtiunii este vizibil in tabelul de mai jos.
V1 Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness 26302.37 2873.341 27750 #N/A 15737.94 2.48E+08 -0.49929 0.475615 V7 Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness 0.925333 0.008105 0.95 0.96 0.044391 0.001971 -0.63407 -0.86789
V2 8.465 0.565559 7.8 7.8 3.097695 9.595716 -0.1171 0.628817 V8 0.276667 0.057272 0.25 0.4 0.313691 0.098402 -0.23379 0.40352
V3 15578.5 1573.387 16578.47 #N/A 8617.796 74266400 -1.58402 -0.05764 V9 14.48333 0.465896 14.45 15.6 2.551819 6.511782 -0.7589 -0.06429
V4 35.81 1.393774 35.65 34.4 7.634014 58.27817 -0.516 -0.35426 V10 12.07 0.456301 12.3 9.2 2.499262 6.24631 0.494368 0.161647
V5 15.51 0.744888 14.95 19.7 4.079921 16.64576 -0.11926 0.602778 V11 21.17 1.239504 21.55 30.3 6.789045 46.09114 -1.1395 -0.29317
V6 1.633333 0.377418 1.05 0 2.067204 4.273333 1.468788 1.092133
Tabelul 2 In tabelul 2 putem vizualiza, in liniile Kurtosis si Skewness imprastierea si respectiv inaltimea celor 11 variabile. Cu cat kurtosis si skewness sunt mai apropiate de 0, cu atat distributia variabilelor e mai apropiata de distributia normala. Astfel, putem spune ca V2, V5, V10 au o ditributie apropiata de normala, in timp ce V6 este cea mai atipica din acest punct de vedere. In continuare doresc sa vizualizez si grafic apropierea variabilelor fata de normala si de aceea reprezint grafiv densitatea de probabilitate. In plus voi prezenta si graficul vioara, o combinatie intre densitatea de probabilitate si boxplot. Comanda R: d= density(variabila) plot(d) Vioplot(variabila)
V1 Variabila V1 are o imprastiere prea mare si o asimetrie la stanga fata de normala.
V2 Variabila V2 e destul de apropiata de normala, dar cozile distributiei sunt prea groase, adica exista multe valori foarte mici si multe valori foarte mari, departate de medie.
V3
8
Variabila V3 are o distributie foarte diferita de cea normala, existand putine valori care se grupeaza in jurul mediei si foarte multe valori extreme. Pentru a normaliza aceasta variabila am putea considera impartirea ei in doua grupe: tari cu venit net anual mic si tari cu venit neta anual mare. Am obtine, astfel, 2 distributii mai apropiate de normala.
V4 Variabila V4 este asimetrica la stanga.
V5 Variabila V5 este asimetrica la stanga.
V6 Asimetrie la stanga
V7 Asimetrie la dreapta
10
V8
V9
11
V10
V11
12
II.
Analiza componentelor principale
In scopul analizei datelor trebuie sa analizam daca cele 11 variabile sunt corelate, urmarind matricea de corelatie
V1 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 1 -0.48029 0.87782 -0.33301 -0.46613 -0.19182 0.844616 0.691972 0.750559 0.521379 0.614163 V2 1 -0.4338 0.0972 0.5415 -0.0988 -0.3932 -0.1666 -0.3758 0.0401 -0.0222 V3 V4 V5 V6 V7 V8 V9 V10 V11
1 -0.0672 -0.3903 -0.4478 0.8695 0.5156 0.6859 0.2856 0.561
1 0.098 -0.024 -0.1912 -0.4052 -0.4404 -0.313 -0.1882
1 0.11571 -0.5243 -0.3867 -0.4369 -0.2321 -0.1213
1 -0.324 1 -0.2742 0.7076 1 -0.2906 0.708 0.5875 1 0.2438 0.303 0.2573 0.291075 -0.0457 0.4772 0.1993 0.326179
1 0.64828
Dupa cum putem vedea, exista multe variabile puternic corelate (V7-V1, V7-V3, V3-V1, V9- V1) , prin urmare are sens sa aplicam metoda analizei componentelor principale. La momentul actual datele noastre nu se pot constitui in informatie, datorita dimensionalitatii foarte mari, care ne impiedica sa vedem informatia. Prin analiza componentelor principale putem reduce aceasta dimensionalitate si, in acelasi timp, sa pierdem cat mai putina informatie. Metoda se bazeaza pe eliminarea redundantei informationale. Cantitatea de informatie continuta de o variabila poate fi masurata prin varianta. Cantitatea totala de informatie continuta in date se poate exprima prin varianta totala (VT) sau varianta generalizata (VG). VT= VG= |Sn*n| , determinantul matricei de covarianta
Niciuna din aceste masuri ale informatiei totale nu este buna, deoarece aduna de mai multe ori informatia redundanta. Tot redundanta informationala este motivul pentru care nu putem compara cantitatea de informatie continuta de fiecare variabila. Pentru a elimina problema redundantei informationale ACP isi propune sa construiasca niste noi variabile independente, sau dimensiuni ortogonale ale spatiului observatiilor. Aceste noi variabile, notate W1, W2,... Wk vor fi necorelate doua cate doua, deci ( ) Noile variabile trebuie sa fie, in acelasi timp, functie de vechile variabile, pentru a putea prelua cat mai multa informatie din acestea. Vom considera o dependenta liniara, pentru a
13
simplifica modul de lucru si deoarece o functie mai complicata nu ar aduce informatie suplimentara. W1=1*V1+
2 * V2+... + n * Vn W2=1*V1+ 2 * V2+... + n * Vn

....
Wk=1*V1+ W1=1*V1+
2 * V2+... + n * Vn
W1=
2 * V2+... + n * Vn
T *V
2 , ... , n ) V= (V1, V2 , ... ,Vn ) Se pune problema determinarii ponderilor 1 , 2 , ... , n astfel incat cov(Wi,Wj ) = 0. Se demonstreaza ca aceasta conditie este indeplinita daca se considere , , ... vectori proprii ai
matricei de covarianta. In acest moment putem obtine W1, W2,... Wk astfel incat sa eliminam problema redundantei informationale. Pentru a rezolva si problema dimensionalitatii datelor, putem renunta la o parte din variabilele nou obtinute. Informatia continuta in W1, W2,... Wk este egala cu varianta lor si, tot odata, cu valorile proprii corespunzatoare vectorilor proprii cu ajutorul carora au fost obtinute aceste variabile. Variabilele W1, W2,... Wk pot fi ordonate dupa cantitatea de informatie continuta, ordonand valorile proprii ale matricei de covarianta. Vom reduce dimensionalitatea prin renuntarea la variabilele corespunzatoare celor mai mici valori proprii, pentru a pierde cat mai putina informatie. Prin urmare, pasii care trebuie urmati in ACP sunt: Calculul matricii de covarianta a variabilelor initiale Calculul valorilor proprii si a vectorilor proprii ai matricei de covarianta Construirea unor noi variabile ca o combinatie liniara de variabilele initiale si vectorii proprii calculati Ordonarea variabilelor noi obtinute descrescator dupa cantitatea de informatie continuta Un compromis intre cantitatea de informatie si reducerea dimensionalitatii, pastrand doar variabilele cu cantitatea de informatie cea mai mare
Unde = (1 ,
OBS: Daca datele sunt standardizate matricea de covarianta este egala cu matricea de corelatie. Toti pasii prezentati mai sus pot fi realizati si pe matricea de corelatie, pentru a standardiza datele si a evita problemele legate de unitatile de masura diferite
14
In continuare voi aplica metoda analizei componentelor principale asupra setului initial de date cu 11 variabile, cu ajutorul SAS. Mai intai, pentru a putea stabili cate variabile retin in analiza rulez comanda fara a specifica numarul de componente principale
proc princomp data=date1 out=comp outstat=acp ; var V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11; run;
Se obtin 11 valori proprii, 11 vectori proprii si 11 componente principale. In Tabelul 3 sunt prezentate doar valorile proprii.
Tabel 3 Aplicand criteriul Kaiser ar trebui sa retinem in analiza 4 componente principale, deoarece sunt 4 valori proprii mai mari decat 1. Aplicand criteriul procentului de acoperire am putea retine in analiza 3 sau 4 componente. Tot in tabelul 3, in coloana proportion este prezentat cate procente din variatia totala explica fiecare componenta principala. In coloana cumulative, pe linia i este prezentat cat % din variatia totala explica primele i componente principale. Astfel, analizand tabelul 3 putem spune ca primele 3 componente principale retin 72.82% din variatia totala continuta in cele 11 variabile initiale, in timp ce 4 componente principale ar retine 82.83% din variatia totala. Informatiile din tabel sunt reprezentate grafic in figura alaturata (fig. 1)
Fig. 1
15
In figura 2 este prezentat graficul Scree plot pe baza caruia se poate aplica criteriul pantei. Criteriul pantei spune ca numarul de componente principale retinute in analiza se determina facand o taietura verticala in Scree plot astfel incat la dreapta taieturii sa ramana o dreapta cu panta aproximativ egala cu 0. Conform acestui criteriu ar trebui retinute in analiza 4 componente principale.
Fig.2
In ciuda rezultatelor indicate de criteriul lui Kaiser si criteriul pantei voi alege numarul de componente principale ghidandu-ma dupa criteriul variantei explicate. Si anume, ma voi multumi cu o varianta totala explicata de 72.82 % cu ajutorul a 3 componente principale, deoarece interpretarea ulterioara a celor 3 componente este mai convenabila. Prin urmare rulez comanda SAS specificand numarul de componente principale n=3 si solicitand toate graficele reprezentative.
proc princomp data=date out=comp1 outstat=acp1 n=3 plots=all; var V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11; run;
In tabelul 4 sunt prezentate primele 3 valori proprii ale matricei de corelatie.
Tabel 4 Valorile proprii ale matricei de corelatie sunt egale cu variatia componentelor principale. Astfel, din tabelul 4 putem conchide ca prima componenta principala va avea varianta 5.133 si
16
va cuprinde in proportie de 46.67% informatia din variabilele initiale. A 2-a componenta principala va avea o varianta de 1.599 si va explica 14.54% din varianta variabilelor initiale. Impreuna cu prima variabila cuprinde 61.21% din varianta variabilelor initiale. A 3-a componenta principala va avea varianta 1.276, adica 11.61% din varianta variabilelor initiale, iar impreuna cu primele 2 componente principale cuprinde 72.82% din informatia continuta in variabilele initiale. In tabelul 5 sunt prezentati vectorii proprii ai matricei de corelatie, corespunzatori celor 3 valori proprii maxime.
Tabel 5 Componentele principale obtinute prin inmultirea variabilelor initiale cu cei 3 vectori proprii de mai sus. Analizand vectorii proprii putem preciza puterea si directia legaturii dintre variabilele initiale si componentele principale. Astfel, variabila V1 este reprezentata cel mai puternic in componenta principala 1, existand o legatura directa puternica intre acestea. Intre componenta principala 1 si variabilele V2, V4, V5, V6 exista o legatura inversa. In tabelul 6 sunt prezentata componentele principale Prin1 0.970746271 -3.658821036 -0.962231494 2.060989163 0.693036632 -2.526399103 2.87903457 -1.057588811 0.365989454 0.630804818 -0.292038374 -3.450651689 -2.75604367 3.219078287 -2.694172154 Prin2 -0.772111 -0.714945 -1.877048 0.7229643 -1.543759 1.8541948 0.4923255 -0.196303 0.1199594 -1.334788 -1.959841 2.0903764 2.497671 -0.531757 -0.246227
17
Prin3 0.878378414 -0.465402157 -1.097085358 -0.160614272 0.616932074 1.63167322 1.964689406 0.791835179 2.51690252 0.58747308 0.400506553 1.441410628 0.442803325 0.066589348 -1.074641842
-1.012682979 1.852929101 1.302591735 -2.773842484 -0.87836162 -4.17962925 -0.368702608 -1.85596891 0.940281575 1.083632753 1.364657261 3.139382966 4.131336014 2.78424023 1.048403354
-0.546404 -0.72973 -1.948734 0.859376 -0.913933 -0.371312 -0.697114 -0.566524 0.442112 0.178567 0.811263 2.987385 0.9965975 0.1395435 0.7581967
-1.043067001 -0.904506918 -0.483780494 -1.203497566 0.981451659 -1.516974004 -0.918620371 -0.111220687 0.256227265 0.091300436 0.153170581 -2.55943407 -1.002255961 0.757048235 -1.037291224 Tabel 6
Cu ajutorul componentelor principale putem caracteriza obiectele (tarile) prin doar 3 noi variabile, in loc de cele 11 initiale si pastram 72.83% din informatia continuta in datele initiale. Astfel, am transformat spatiul cu 11 dimensiuni in care erau reprezentate variabilele initiale intr-un spatiu cu doar 3 dimensiuni ortogonale, in care este mult mai usor de observat asemanarile si deosebirile dintre obiecte, fara a pierde prea multa informatie despre acestea. In continuare, voi nota cele 3 componente principale W1, W2, W3. In figura 3 este prezentata Component Score Matrix. Aceasta contine, pe diagonala principala histogramele celor 3 componente principale. Din acestea putem observa ca cele 3 componente au o distributie apropiata de normala, cu frecvente mai mari in jurul mediei si frecvente reduse ale valorilor extreme. In celelalte cadrane este reprezentat norul de puncte a celor 30 de tari in spatiul a cate 2 componente principale. Sunt cadrane, adica 6 scater plot. Am adaugat in fiecare cadran cate o eticheta rosie pentru a indica variabilele in functie de care se face reprezentarea tarilor. In cadranele simetrice fata de diagonala principala sunt scree plot-uri identice, dar rasturnate la 900.
18
W1 (W2)
W1 (W3)
W2 (W1)
W2 (W3)
W3 (W1)
W3 (W2)
Fig. 3 Analizand scater plot-urile putem sesiza o usoara legatura directa intre W1 si W3 , si de asemenea intre W2 si W3. In celelalte cadrane nu prea se realizeaza gruparea punctelor in jurul unei drepte, deci putem spune ca nu exista legatura intre variabile. Dar voi mai reveni asupra aspectului legaturilor dintre componentele principale. In graficul Component Pattern Profiles (fig. 4) este reprezentata corelatia dintre cele 11 variabile initiale si componentele principale.
19
Fig. 4 Analizand acest grafic putem grupa variabilele initiale in jurul componentelor principale, in functie de componenta cu care au corelatie maxima, fie ea pozitiva sau negativa. Putem ajunge la concluzia ca componentele principale preiau mai multa informatie de la variabilele cu care au corelatie mai mare. Astfel: W1 este puternic corelata cu V1, V3, V5, V7, V8, V9. W2 este puternic corelata cu V4, V10, V11 W3 este puternic corelata cu V2, V5, V6
Variabila V5 este reprezentata in mare masura atat in componenta W1 cat si in W3, dar pentru usurinta interpretarii componentelor principale o voi considera ca fiind reprezentata de W3. Pentru a putea interpreta economic componentele principale trebuie sa revenim la interpretarea economica a variabileor initiale V1 V2 V3 V4 PIB Rata somajului Venitul salarial Sarcina fiscala
20
V5 V6 V7 V8 V9 V10 V11 W1 W2 W3
Rata saraciei Rata inflatiei IDU Rata neta a migratiei Cheltuieli cu sanatatea Cheltuieli cu educatia Absolventi studii superioare V1,V3,V7,V8,V9 V4,V10,V11 V2,V5,V6
W1:
- PIB - Venit salarial - IDU - Rata neta a migratiei - Cheltuieli cu sanatatea - Sarcina fiscala - Cheltuieli cu educatia - Absolventi studii superioare
nivel de trai
W2:
nivelul educatiei
W3:
- Rata somajului - Rata saraciei - Rata inflatiei
probleme sociale
Avand in vedere cele prezentate mai sus, in continuare vom lucra cu cele 30 de tari caracterizate prin 3 variabile: nivelul de trai (W1), nivelul educatiei (W2) si problemele sociale (W3). Tot informatii cu privire la preluarea informatiei din variabilele initiale in fiecare componenta principala pot fi citite si in graficele component pattern (fig. 5.1, 5.2, 5.3)
21
Variabilele V1, V3, V7, V8, V9 au o corelatie puternica pozitiva (>0.7) cu W1 si au o corelatie foarte slaba cu W2 ( < 0.2 ) ; Variabilelele V10, V11 au o corelatie puternica pozitiva cu W2; V4 are o corelatie negativa cu W2
Fig. 5.1
Variabilele apropiate de axa orizontala au o corelatie foarte slaba cu W3 (V1, V3, V4, V7, V8, V9, V10,V11) Variabilele puternic corelate cu W3 sunt V2, V5 pozitiv si V6 negativ Variabilele grupate in dreapta au corelatie puternica cu W1
Fig. 5.2
22
Variabilele grupate in jurul intersectiei celor doua axe sunt slab reprezentatate atat in W1 cat si in W2 V6, V2 si V5 au corelatie puternica cu W3; V10, V11 au corelatie puternica cu W2
Fig. 5.3
In continuare, voi incerca sa caracterizez cele 30 de observatii in noile dimensiuni : nivel de trai, nivel al educatiei si probleme sociale. Caracterizarea completa a observatiilor in acest spatiu tridimensional este prezentata in tabelul 6, dar este dificil sa observam asemanari sau deosebiri intre observatii analizand tabelul. Pentru a putea analiza comparativ observatiile mai usor, vom reprezenta grafic puctele din tabelul 6.
23
Nivelul educatiei
Nivel de trai Fig. 6.1 Din figura 6.1 putem observa ca tarile au o distributie normala din punct de vedere al nivelului de trai, dar tind sa se grupeze in jurul unui nivel scazut al educatiei, fapt ce putea fi observat si din histogramele din figura 3. Am incercat sa fac o grupare a tarilor in functie de nivel de trai si educatie. Astfel, am observat ca exista tari cu un nivel de trai peste medie, dar cu un nivel al educatiei foarte scazut, pe care le-am incercuit cu rosu (Cehia, Germania, Franta, Italia si Austria). La polul opus sunt tarile cu un nivel de trai scazut, dar un nivel al educatiei foarte ridicat, pe care le-am incercuit cu verde ( Estonia, Letonia si Lituania) Tarile cu un nivel al educatiei mediu le-am impartit in 3 grupe, in functie de nivelul de trai: -nivel de trai scazut (albastru) : Bulgaria, Romania, Ungaria si Polonia -nivel de trai mediu (galben) : Grecia, Malta, Slovacia si Slovenia -nivel de trai ridicat (negru) : Belgia, Danemarca, Irlanda, Spania, Luxemburg, Olanda, Finlanda, Suedia, Regatul Unit, Elvetia si Turcia
24
Norvegia (28) si mai ales Islanda (27) se remarca avand atat un nivel de trai cat si un nivel al educatiei foarte ridicat
Probleme sociale
Nivel de trai Fig. 6.2 Reprezentand tarile in spatiul nivel de trai probeleme sociale ma asteptam ca punctele sa se grupeze in jurul une drepte, adica tarile cu un nivel de trai scazut sa aiba probleme sociale mai ridicate si invers. Cu toate acetste exista si paradoxuri: tari cu un nivel de trai scazut, si probleme sociale mici (Romania 21) si tari cu un nivel de trai ridicat si probleme sociale mari (Irlanda 7). Se remarca si tari foarte asemanatoare din punct de vedere al acestor doua caracteristici considerate: 3-16 Bulgaria Ungaria; 5-10 Germania Franta; 15-19 Luxemburg Austria.
25
Fig. 7 In figura 7 se incearca o reprezentare tridimensionala a tarilor. In plan sunt surpinse caracteristicile nivel al educatiei si probleme sociale, iar componenta nivel de trai este reprezentata prin colorarea punctelor pe o scala de la albastru la rosu. Tarile reprezentata cu albastru au nivel de tari scazut, iar cele reprezentate cu rosu au nivel de trai ridicat. Putem observa ca se formeaza grupuri de tari asemanatoare dupa toate cele 3 componete principale: 4, 24, 25, 26 adica Danemarca, Finlanda, Suedia si Norvegia (tarile nordice). Cea mai apropiata tara de Romania (21) este Ungaria (15). In concluzie, analiza componentelor principale ne-a permis sa realizam sintetizare informationala si sa caracterizam un sir de observatii prin 3 caracteristici in loc de 11. Astfel, am putut realiza comparatii intre observatii.
26
III.
Analiza cluster
Clusterizarea este tot o forma de sinteza informationala, dar vizeaza obiectele, nu variabilele. Cu ajutorul analizei cluster ne propunem impartirea celor 30 de obiecte in clase cat mai omogene in interior si cat mai eterogene intre ele. Repartizarea obiectelor pe clase se poate face cu ajutorul unor metode ierarhice, sau cu ajutorul unor algoritmi de partitionare
Metodele ierarhice se numesc astfel deoarece exista o ierarhie intre clase, fiecare
clasa mai mica fiind inclusa intr-o clasa mai mare, pana cand se ajunge la o singura clasa. Se grupeaza mai intai obiectele aflate la distanta minima, si odata grupate, doua obiecte devin o clasa, si se grupeaza cu alte clase pe baza distantei intre clase. Exista mai multe metode de calcul a distantei intre clase, care genereaza diferite metode ierarhice de analiza cluster.
Metoda centroidului calculeaza distanta intre doua clase A si B ca fiind distanta
euclidiana intre centroidul clasei A si centroidul clasei B. In continuare, voi aplica in SAS metoda centroidului pentru a grupa cele 30 de tari pe clase. In impartirea pe clase voi lua in considerare doar 5 variabile de interes (PIB, rata somajului, venitul salarial net, rata inflatiei si indicele dezvoltarii umane) din cele 11.
proc cluster data=date outtree=tree method=centroid plots=all standard; var V1 V2 V3 V6 V7;run;
Dendrograma rezultata este prezentata in figura 8.
27
Fig. 8 Dendrograma este un grafic foarte sugestiv pentru a observa ordinea in care se grupeaza obiectele pe clase. De exemplu, din figura 8 putem observa ca cele mai apropiate obiecte sunt 1 si 5, adica Belgia si Germania. Ducand o perpendiculara din punctul in care cele doua obiecte se unesc pe axa absciselor, putem aproxima distanta dintre centroizii celor doua clase, care, in cazul obiectelor, este chiar distanta euclidiana dintre ele. Putem observa ca distanta dintre Belgia si Germania este mai mica de 0.1. Urmatoarele obiecte care formeaza o clasa sunt 24 si 25, adica Finlanda si respectiv Suedia. La aceasta clasa se adauga ulterior obiectul 26, Marea Britanie, aflata la o distanta de aproximativ 0.2 de centroidul clasei formata din Finlanda si Suedia. Cel mai indepartat obiect de celelalte este 27, Islanda, dupa cum am putut observa si din reprezentarea in planul componentelor principale (fig. 7). Islanda se adauga ultima la clasa formata de celelalte tari, aflandu-se la o distanta mai mare de 1.1 de centroidul acestei clase. Pentru a stabili numarul optim de clase care trebuie pastrate, SAS pune la dispozitie trei criterii, prezentate in figura 9.
Fig. 9
28
Conform figurii 9, numarul optim de clase care trebuie retinut este 3. Avand in vedere ca variabilele considerate pentru cele 30 de observatii sunt din sfera economica, vom considera cele 3 clase ca fiind: clasa tarilor in curs de dezvoltare, clasa tarilor cu dezvoltare economica ridicata si clasa tarilor cu dezvoltare economica foarte ridicata. Componenta clusterelor poate fi citita si din dendrograma, astfel: ducem o dreapta paralela cu ordonata care sa intersecteze de 3 ori dendrograma, iar ulterior parcurgem in sens invers ramurile dendrogramei pentru a vedea apartenenta formelor la cele 3 clase. Din figura 9, componenta celor 3 clase este: clasa tarilor in curs de dezvoltare: Bulgaria, Ungaria, Polonia, Romania, Estonia, Slovacia, Letonia, Lituania, Cehia, Malta, Slovenia, Grecia, Portugalia clasa tarilor cu dezvoltare economica ridicata: Belgia, Germania, Franta, Italia,Finlanda, Suedia, Marea Britanie, Danemarca, Olanda, Austria, Elvetia, Turcia, Luxemburg, Norvegia, Irlanda, Spania clasa tarilor cu dezvoltare economica foarte ridicata: Islanda In continuare voi aplica metoda centroidului pe aceleasi observatii, dar luand ca variabile cele 3 componente principale obtinute prin ACP: nivelul de trai, nivelul educatiei si problemele sociale.
proc cluster data=comp outtree=tree method=centroid plots=all standard; var prin1 prin2 prin3;run;
Dendrograma: Fig. 10
29
In figura 11 sunt prezentate testele pentru stabilirea numarului de clase.
Fig. 11 Conform testelor CCC si Pseudo T-Squared din figura 11 voi alege sa pastrez 3 clase. Impartirea formelor pe clase este vizibila in figura 10, si putem observa ca exista o clasa care contine foarte multe tari, in timp ce celelalte doua clase au doar 3 si respectiv 2 obiecte. Aceasta impartire face ca rezultatele sa fie greu de interpretat, dar este oarecum de inteles, avand in vedere faptul ca cele 3 componente principale contin informatii din domenii diferite: nivelul de trai, nivelul educatiei si problemele sociale. Pe de alta parte, daca reprezentam grafic tarile in functie de cele 3 componente (figura 12 ) , vom vedea ca impartirea pe clase reflecta impartirea intuitiva bazata pe distantele dintre obiecte. Cu toate ca obiectul 28 pare mai apropiat de clasa 1, el are valori mari ale componentei 1 (nivel de trai) , si de aceea este pus in aceeasi grupa cu 27. De asemenea, obiectele 7 si 9 par izolate de celelalte obiecte din clasa 1, dar au aproximativ aceeasi culoare cu acestea, adica au valori apropiate pentru componenta 1.
30
2 1
Fig. 12
Metoda lui Ward este metoda ierarhica cea mai apropiata de spiritul criteriului general
al clasificarii, luand in considerare variabilitatea intraclasa si interclase. Metoda se bazeaza pe o virtuala comasare a doua clustere, iar distanta lui Ward se calculeaza ca fiind diferenta dintre variabilitatea comuna intraclasa de dupa comasare si variabilitatea comuna intraclasa dinainte de comasarea celor doua clustere. Comanda SAS: proc cluster data=date outtree=tree_ward method=ward plots=all standard; var V1 V2 V3 V6 V7;run; Dedrograma (figura 13) are aceeasi semnificatie ca si in cazul metodei centroidului, doar ca pe axa absciselor nu mai este reprezentata distanta dintre centroizii claselor, ci distanta Ward. Gruparea obiectelor pe clase este evident diferita de cea obtinuta prin metoda centroidului, desi au fost luate in considerare aceleasi variabile ale obiectelor.
31
Fig. 13 In figura 14 sunt prezentate testele pentru stabilirea numarului de clase.
Fig. 14
32
Numarul de clustere pe care voi alege sa le pastrez sunt doua: clasa tarilor dezvoltate si clasa tarilor in curs de dezvoltare. Componenta celor 2 grupe, dupa cum rezulta din figura 10, este urmatoarea: clasa tarilor dezvoltate: Belgia, Germania, Elvetia,Danemarca, Olanda, Austria,Finlanda, Suedia, Marea Britanie, Turcia, Luxemburg, Norvegia, Islanda, Cehia, Malta, Slovenia, Grecia, Franta, Italia, Portugalia, Irlanda, Spania clasa tarilor in curs de dezvoltare: Bulgaria, Romania, Ungaria, Polonia, Estonia, Slovacia, Letonia, Lituania. In continuare, voi aplica metoda lui Ward utilizand ca si variabile ale obiectelor componentele principale. Comanda SAS: proc cluster data=comp outtree=tree method=ward plots=all standard; var prin1 prin2 prin3; run; Dendrograma: figura 15
Fig. 15 Voi alege sa lucrez cu 4 clase, deoarece variabilitatea intraclasa ar creste foarte mult daca as pastra doar 3 clase (de la 0.1 la aproximativ 0.2), iar in spiritul criteriului general al clasificarii, variabilitatea intraclasa trebuie sa fie minima. Avand in vedere ca cele 3 criterii dupa care se face clasificarea sunt nivelul de trai, nivelul educatiei si problemele sociale, vom considera cele 4 clase ca fiind: tari slab dezvoltate, tari in curs de dezvoltare, tari dezvoltate si tari foarte dezvoltate.
33
Dupa cum rezulta din figura 15, apartenenta formelor la clase este urmatoarea: tari slab dezvoltate : Estonia, Letonia, Lituania tari in curs de dezvoltare : Bulgaria, Slovacia, Ungaria, Romania, Polonia, Cehia, Malta, Olanda, Austria tari dezvoltate : Belgia, Germania, Franta, Italia, Grecia, Portugalia, Irlanda, Spania tari foarte dezvoltate : Danemarca, Regatul Unit, Finlanda, Suedia, Turcia, Luxemburg, Elvetia, Norvegia, Islanda
Algoritmii de partitionare sunt metode de analiza cluster de tip algoritmic, mult

mai performante decat metodele de tip ierarhic. Pentru a putea aplica un algoritm de partitionare, numarul de clase trebuie sa fie aprioric cunoscut. Algoritmul celor k medii (k means) este cel mai utilizat algoritm de partitionare si presupune parcurgerea urmatoarelor etape: Se aleg initializatorii de clasa, acestia fiind primul obiect care intra in fiecare din cele k clase Se arondeaza restul formelor la cele k clase, in functie de distanta dintre forme si initializatorul clasei Se calculeza centroizii claselor Se renunta la arondarea precedenta, si se reia procesul de impartire a formelor pe clase, centroizii jucand acum rolul de initializator de clasa Procesul se repeta pana cand are loc o stabilizare a centroizilor, adica diferenta dintre centroizii de la pasul t si cei de la pasul t-1 este mai mica decat un prag fixat Cunoscand numarul de clase obtinut prin metoda lui Ward (fig. 15), voi aplica algoritmul celor k medii in incercarea de a obtine o clasificare mai riguroasa a celor 30 de tari studiate. Sintaxa SAS este: proc fastclus data=comp out=w maxclusters=4;
var prin1 prin2 prin3;run;
Apartenenta formelor la cele 4 clase poate fi citita in output-ul w . O parte din acest output este vizibila in tabelul 7.
Tara BE BG CZ DK DE EE IE GR SP FR IT LV LT LU HU MT NE AT CLUSTER 4 3 3 4 3 1 4 3 4 3 3 1 1 4 3 3 4 3 DISTANCE 1.56089271 3.075436811 1.529575406 1.130085167 1.805355585 0.667273296 1.340872772 1.248020918 2.3977478 1.648670217 1.51201585 0.605842894 0.823634685 1.603297894 2.284786603 0.880511252 2.075345078 2.309801462
34
PL PT RO SI SK FI SE UK IS NO CH TU
1 3 3 3 3 4 4 4 2 2 4 4
2.70567423 1.319012321 3.807437062 0.681594515 1.278793059 1.337504801 1.303037552 1.166555627 1.357572214 1.357572214 0.70048278 2.244171737
Tabelul alaturat cuprinde toate cele 30 de tari, clasa in care au fost incluse, precum si distanta euclidiana fata de centroidul clasei respective
Tabel 7
Utilizand optiunea filtru in Excel, am obtinut tabele cu componenta fiecarui cluster.

Tara EE LV LT PL Tara BG CZ DE GR FR IT HU MT AT PT RO SI SK CLUSTER 1 1 1 1 CLUSTER 3 3 3 3 3 3 3 3 3 3 3 3 3 DISTANCE 0.667273296 0.605842894 0.823634685 2.70567423 DISTANCE 3.075436811 1.529575406 1.805355585 1.248020918 1.648670217 1.51201585 2.284786603 0.880511252 2.309801462 1.319012321 3.807437062 0.681594515 1.278793059 tara IS NO CLUSTER 2 2 DISTANCE 1.357572214 1.357572214
tara BE DK IE SP LU NE FI SE UK CH TU
CLUSTER 4 4 4 4 4 4 4 4 4 4 4
DISTANCE 1.56089271 1.130085167 1.340872772 2.3977478 1.603297894 2.075345078 1.337504801 1.303037552 1.166555627 0.70048278 2.244171737
Dupa cum putem vedea in tabelele de mai sus, clasificarea este asemanatoare cu cea utilizand metoda Ward. In plus, ne putem da seama si daca o forma este indubitabil arondata corect grupei din care face parte, sau daca este introdusa la limita in acea grupa, in functie de distanta fata de centroidul grupei. Cu cat distanta este mai mare, cu atat forma este mai diferita de celelalte forme din grupa, si deci, este inclusa la limita in grupa din care face parte. De exemplu, clasa 1, clasa tarilor slab dezvoltate, cuprinde Estonia, Letonia, Lituania (la fel ca si la clasificarea obtinuta prin metoda Ward), si in plus, este inclusa si Polonia. Totusi, Polonia se afla la o distanta mult mai mare de centroidul clasei decat celelalte trei tari, deci putem spune ca se afla la limita dintre clasa tarilor slab dezvoltate si cea a tarilor in curs de dezvoltare.
35
Clasa 3, cea a tarilor in curs de dezvoltare cuprinde tarile Bulgaria,Cehia, Germania, Grecia, Franta, Italia, Ungaria, Malta, Austria, Portugalia, Romania, Slovenia, si Slovacia. Bulgaria, Romania si Ungaria sunt cele mai departate de centroidul clasei, si daca le comparam cu celelalte tari din grupa, ne putem da seama cu usurinta ca sunt mai putin dezvoltate. Clasa 4, clasa tarilor dezvoltate, cuprinde Belgia, Danemarca, Irlanda, Spania, Luxemburg, Olanda, Finlanda, Suedia, Regatul Unit si Elvetia. Multe din aceste tari apartineau clasei tarilor foarte dezvoltate atunci cand am aplicat metoda Ward, dar acum aceasta clasa mai cuprinde doar Islanda si Norvegia. Pentru a face dreptate tarilor din clasa 4, am putea denumi aceasta clasa ca fiind clasa tarilor dezvoltate si foarte dezvoltate. Clasa 2, formata din Islanda si Norvegia, poate fi considerata clasa tarilor cu dezvoltare excelenta. Norvegia, si mai ales Islanda sunt caracterizate de un nivel de trai foarte ridicat, nivel al educatiei ridicat si probleme sociale reduse, caracteristici ce reprezinta un deziderat pentru toate celelalte tari.
36
IV.
Analiza discriminanta
Analiza discriminanta face parte din metodele de recunoastere supervizata a formelor. In cadrul acestor metode se cunoaste numarul de clase si apartenenta formelor dintr-un esantion la clase, si se urmareste predictia apartenentei formelor dinafara esantionului la una dintre clase. In acest scop se construieste un clasificator, functie de variabilele dupa care se face clasificarea. In functie de valoarea clasificatorului pentru fiecare obiect se stabileste daca el apartine unei forme sau alteia. Tabelul 8 cuprinde informatii despre cele 30 de tari studiate, precum si clasificarea obtinuta utilizand algoritmul celor k medii .
tara BE DK DE IE FR IT LU NE AT FI SE UK IS NO CH TU BG CZ EE GR SP LV LT HU MT PL PT RO SI SK PIB 31600 41700 29500 43500 29600 26000 60400 34900 33000 34000 36900 33700 48000 60200 41600 34071 4000 12800 12000 19900 23500 9200 8500 9900 13300 8200 16000 5800 17100 10200 Rata somajului 7.9 6 7.8 11.9 9.5 7.8 5.1 3.7 4.8 8.2 8.3 7.6 6.55 3.1 7.8 7.2 6.8 6.7 13.8 9.5 14.9 14.8 13.7 10 6.9 8.2 10.6 6.9 5.9 12 Venitul salarial 25390.1 24646.87 24449.96 22361.9 19509.93 18232.32 26813.1 24024.62 25531.3 23348.19 22418.14 20650.77 12596.54 28587.14 26707.33 17462.42 2229.54 7144.48 6353.39 11871.8 15694.52 8279.78 4522.84 5773.61 9207.14 4690.93 10598.57 3217.61 9333.88 5706.13 Rata inflatiei 0 1.1 0.2 -1.7 0.1 0.8 0 1 0.4 1.6 1.9 2.2 7.8 2.3 -0.7 3.8 2.5 0.6 0.2 1.3 -0.2 3.3 4.2 4 1.8 4 -0.9 5.6 0.9 0.9 IDU 0.95 0.96 0.95 0.97 0.96 0.95 0.96 0.96 0.96 0.96 0.96 0.95 0.97 0.97 0.96 0.94 0.84 0.9 0.83 0.94 0.96 0.87 0.87 0.88 0.9 0.88 0.91 0.84 0.93 0.88 Clasa 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Tabel 8
37
Voi utiliza clasificatorul Fisher, o functie liniara de forma:
Coeficientii 0, 1, 2, 3, 4, 5 sunt elementele vectorului propriu corespunzator valorii proprii maxime a matricei
Matricea de covarianta totala () (varianta totala) Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 2.39E+08 -22634.5 1.15E+08 -6032.54 570.4014 Column 2 -22634.5 9.275858 -11194.3 -0.61183 -0.05226 Column 3 115086982 -11194.29 71790853 -7711.514 321.55482 Column 4 -6032.54 -0.61183 -7711.51 4.130889 -0.02874 Column 5 570.4014 -0.05226 321.5548 -0.02874 0.001905
Matricea de covarianta a clasei 1 (w1)
(varianta intraclasa 1)
Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 Column 2 Column 3 Column 4 97368759 -8741.84 12439919 3579.219 -8741.84 4.510928 -2923.951 -1.29719 12439919 -2923.95 15996451 -5608.8 3579.219 -1.29719 -5608.797 4.43625 49.22426 -0.0017 4.9434895 0.000938 Matricea de covarianta a clasei 2 (w2) (varianta intraclasa 2) Column 1 27372041 3483.571 17642898 -6923.88 173.0816 Column 2 3483.571 10.01107 3441.94 -0.96071 0.001321 Column 3 17642898 3441.9396 12374987 -4325.092 113.85171 Column 4 -6923.88 -0.96071 -4325.09 3.509796 -0.0359 Column 5 49.22426 -0.0017 4.943489 0.000938 6.52E-05
Column 1 Column 2 Column 3 Column 4 Column 5
Column 5 173.0816 0.001321 113.8517 -0.0359 0.001374
Variabilitatea intraclasa
Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 64703624 -3036.65 14867976 -1322.23 107.0244
Column 2 -3036.65 7.077661 46.79792 -1.14017 -0.00029
Column 3 14867976 46.79792 14306434 -5009.73 55.76733 Column 4 -1322.23 -1.14017 -5009.73 4.003905 -0.01625 Column 5 107.0244 -0.00029 55.76733 -0.01625 0.000676
38
Variabilitatea interclasa
Column 1 Column 2 Column 3 Column 4 Column 5
Column 1 174722985 -19597.84 100219006 -4710.313 463.37701
Column 2 -19597.8 2.198197 -11241.1 0.528333 -0.05197
Column 3 1E+08 -11241.1 57484419 -2701.78 265.7875
Column 4 -4710.31 0.528333 -2701.78 0.126984 -0.01249
Column 5 463.377 -0.05197 265.7875 -0.01249 0.001229
Column 1 Column 2 Column 3 Column 4 Column 5 Column 1 174722985 -19597.84 100219006 -4710.313 463.37701 Column 2 -19597.8 2.198197 -11241.1 0.528333 -0.05197
Column 3 1E+08 -11241.1 57484419 -2701.78 265.7875 Column 4 -4710.31 0.528333 -2701.78 0.126984 -0.01249 Column 5 463.377 -0.05197 265.7875 -0.01249 0.001229
Vectorii proprii ai matricei
1 = 1.23 ; 2= - 2.16 ; 3 = 3.52 ; 4 = 4.04 ; 5=9.14 0 = - ( 1* + 2* + 3 * +4 * +5* ) 0= - 87184.99
Planul care separa cele 2 clase este definit de ecuatia . Daca D(x) > 0 tara x apartine clasei 1, altfel, daca scorul discriminant ia valori negative tara x apartine clasei 2. In tabelul 9 sunt date cele 5 variabile considerate pentru tarile SUA, Japonia si Cipru. In ultima coloana a tabelului este calculat scorul discriminant.
39
Tara
PIB x1 33900 25000 20300
SUA Japonia Cipru
Rata somajului x2 4.6 3.9 3.9
Venitul salarial x3 15546.63 10231.56 11871.93
Rata inflatiei x4 2.8 0 2.2
IDU x5 0.908 0.899 0.839
scoruri discriminant D(x) 84558.88272 54892.95406 54894.39606
Tabel 9 Cum D(x) > 0 pentru toate cele 3 tari, toate vor fi arondate clasei 1, clasa tarilor dezvoltate.
40
V.
Analiza factoriala
Analiza factoriala isi propune sa explice legaturile dintre anumite variabile observabile, prin intermediul influentei comune a unor factori neobservabili, numiti factori latenti. In analiza factoriala sunt luati in considerare trei tipuri de factori, dupa cum urmeaza: Factori observabili, sau variabile indicator sunt acele variabile care se pot masura direct, pentru obiectele observate (PIB, rata somajului, rata saraciei, etc.) Factori latenti (ascunsi / comuni) variabile care nu pot fi masurate, dar care influenteaza toate variabilele indicator Factori unici au influenta doar asupra unei variabile
Fie x1, x2, x3, variabilele observate, f1, f2, factori comuni si u1, u2, u3, factorii unici corespunzatori fiecarei variabile. Variabilele observate se pot scrie ca o combinatie liniara de factorii comuni si factorul unic corespunzator.
Coeficientii a11,a12...a1p, ... , an1, an2anp poarta numele de intensitati (loadings), iar matricea F care ii contine, are pe coloane vectorii proprii ai matricei de covarianta ai variabilelor observabile. Analiza factoriala este de fapt corespondentul dual al analizei componentelor principale. Daca scopul ACP este reducerea dimensionaliatii prin reprezentarea obiectelor intr-un nou spatiu, deci crearea unor noi caracteristici ale obiectelor, scopul AF este explicarea caracteristicilor existente prin niste factori care le influenteaza. Voi considera cele 30 de tari din Anexa 1, avand cinci variabile observabile: PIB-ul (V1), rata somajului (V2), venitul salarial net anual (V3), rata inflatiei (V6) si IDU (V7), si voi incerca sa explic aceste variabile prin intermediul unor factori comuni. Comanda SAS pentru analiza factoriala:
proc factor data=date method =principal rotate =varimax priors=one plots=all n=2 out=sc reorder; run;
Valorile proprii ale matricei de covarianta (Fig. 16) arata proportia din varianta totala a variabilelor explicata prin intermediul variantei fiecarui factor comun. Primii 2 factori explica, cumulat, 84.97% din varianta variabilelor masurabile, deci ma voi multumi sa explic varianta prin doar doi factori comuni.
41
Fig. 16 Matricea factor (Fig. 17) prezinta corelatiile dintre factorii comuni si variabilele indicator. Astfel, putem observa ca primul factor explica intr-o proportie mai mare varianta variabilelor V1, V3 si V7, in timp ce al 2-lea factor este corelat mai puternic cu variabilele V2 (negativ corelat) si V6.
Fig. 17 Analizand matricea factor putem da o interpretare factorilor. Factorul 1 influenteaza pozitiv PIB-ul, venitul salarial net si IDU si influenteaza negativ rata somajului si rata inflatiei. Acest factor il vom considera ca fiind dezvoltarea economica. Al 2-lea factor influenteaza puternic pozitiv rata inflatiei si negativ rata somajului. Vom considera acest factor ca fiind cererea agregata din economie.
Fig. 18 In figura 18 putem observa ce proportie din varianta variabilelor indicator este explicata prin factorii comuni. Aceasta varianta explicata prin factorii comuni poarta numele de comunalitate si se poate calcula ca fiind suma patratelor corelatiilor dintre fiecare factor si variabila indicator considerata.
42
dezvoltare economica 0.9624 Venit net 0.92908 PIB 0.92789 IDU -0.40214 rata inflatiei rata somajului -0.55942
cerere agregata -0.11274 0.12924 -0.04026 0.82629 -0.64005
comunalitate 0.938924068 0.879892624 0.86260072 0.844471744 0.722614739
specificitate 0.061075932 0.120107376 0.13739928 0.155528256 0.277385261 Tabel 9
Specificitatea reprezinta proportia din variatia variabilei observate care nu este explicata de factorii comuni, ci se datoreaza factorilor unici si variantei reziduale. Este complementara fata de 1 cu comunalitatea. Rotatia factorilor este posibila, deoarece solutia problemei nu este unica. Prin rotatie, nu se modifica variatia totala explicata de cei doi factori, ci se redistribuie.
Fig. 19 Comparand rezultatele din figura 17 cu cele din figura 19 observam ca nu exista modificari majore prin rotirea factorilor. Interpretarea factorilor ramane aceeasi, deoarece nu se schimba sensul in care ei influenteaza variabilele indicator.
Fig. 20 Comparand figura 20 cu figura 18, observam ca comunalitatea fiecarei variabile nu s-a modificat. Se modifica doar proportia din varianta explicata de fiecare factor.
43
Anexa 1
PIB /loc Belgium Bulgaria Czech Republic Denmark Germany Estonia Ireland Greece Spain France Italy Latvia Lithuania Luxembourg Hungary Malta Netherlands Austria Poland Portugal Romania Slovenia Slovakia Finland Sweden United Kingdom Iceland Norway Switzerland Turkey 31600 4000 12800 41700 29500 12000 43500 19900 23500 29600 26000 9200 8500 78100 9900 13300 34900 33000 8200 16000 5800 17100 10200 34000 36900 33700 48000 60200 41600 34071 Rata somajului armonizata 7.9 6.8 6.7 6.0 7.8 13.8 11.9 9.5 18.0 9.5 7.8 17.1 13.7 5.1 10.0 6.9 3.7 4.8 8.2 10.6 6.9 5.9 12.0 8.2 8.3 7.6 3.1 7.2 Venitul salarial net anual 25390.10 2229.54 7144.48 24646.87 24449.96 6353.39 22361.90 11871.80 15694.52 19509.93 18232.32 8279.78 4522.84 26813.10 5773.61 9207.14 24024.62 25531.30 4690.93 10598.57 3217.61 9333.88 5706.13 23348.19 22418.14 20650.77 12596.54 28587.14 26707.33 17462.42 sarcina fiscala 49.4 33.9 38.7 38.0 46.0 37.7 22.7 34.4 34.3 45.1 43.5 41.5 38.9 27.3 46.2 17.7 33.2 43.2 33.2 32.7 43.1 39.7 34.4 36.9 41.3 29.3 22.2 33.7 17.8 30.3 rata saraciei 14.6 21.8 8.6 13.1 15.5 19.7 15.0 19.7 19.5 12.9 18.4 25.7 20.6 14.9 12.4 15.1 11.1 12.0 17.1 17.9 22.4 11.3 11.0 13.8 13.3 17.2 10.2 11.7 15.1 13.7 rata inflatiei 0.0 2.5 0.6 1.1 0.2 0.2 -1.7 1.3 -0.2 0.1 0.8 3.3 4.2 0.0 4.0 1.8 1.0 0.4 4.0 -0.9 5.6 0.9 0.9 1.6 1.9 2.2 16.3 2.3 -0.7 3.8 indicele dezvoltarii umane 0.953 0.840 0.903 0.955 0.947 0.833 0.965 0.942 0.955 0.961 0.951 0.866 0.870 0.960 0.879 0.902 0.964 0.955 0.880 0.909 0.837 0.929 0.880 0.959 0.963 0.947 0.969 0.971 0.960 0.940 rata migratiei internationale neta 0.4 -0.1 0.4 0.1 0.1 0.0 0.9 0.3 0.8 0.2 0.6 -0.1 -0.6 0.8 0.1 0.2 0.1 0.4 -0.1 0.4 -0.2 0.2 0.1 0.2 0.3 0.3 1.3 0.6 0.3 0.4 cheltuielile publice cu sanatatea 13.9 11.9 13.6 15.6 17.6 11.3 17.3 11.5 15.3 16.7 14.2 10.2 13.3 16.8 10.4 14.7 16.4 15.5 9.9 15.5 12.4 13.5 13.8 12.1 13.4 16.5 18.1 17.9 19.6 15.6 cheltuieli publice cu educatia 12.1 6.2 9.5 15.5 9.7 14.6 13.9 9.2 11.0 10.6 9.2 14.2 14.7 10.9 10.5 11.5 10.9 12.7 11.3 8.6 12.7 10.8 12.5 12.9 12.5 18.0 16.7 13.0 13.6 absolventi studii superioare 26.8 18.0 12.5 30.3 21.4 27.5 26.4 23.3 23.6 19.8 10.1 20.3 25.7 21.3 14.7 10.8 26.0 15.9 11.2 9.0 18.1 13.2 30.3 27.0 27.6 31.7 26.2 21.7

ACP

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

ACP

Încărcat de

Drepturi de autor:

Formate disponibile

Cuprins

Ri= deflatorului PIB-100

V6 1.633333 0.377418 1.05 0 2.067204 4.273333 1.468788 1.092133

V1 Variabila V1 are o imprastiere prea mare si o asimetrie la stanga fata de normala.

V4 Variabila V4 este asimetrica la stanga.

V5 Variabila V5 este asimetrica la stanga.

Analiza componentelor principale

1 -0.0672 -0.3903 -0.4478 0.8695 0.5156 0.6859 0.2856 0.561

1 0.098 -0.024 -0.1912 -0.4052 -0.4404 -0.313 -0.1882

1 0.11571 -0.5243 -0.3867 -0.4369 -0.2321 -0.1213

2 * V2+... + n * Vn W2=1*V1+ 2 * V2+... + n * Vn

In tabelul 4 sunt prezentate primele 3 valori proprii ale matricei de corelatie.

- Rata somajului - Rata saraciei - Rata inflatiei

Dendrograma rezultata este prezentata in figura 8.

In figura 11 sunt prezentate testele pentru stabilirea numarului de clase.

Fig. 13 In figura 14 sunt prezentate testele pentru stabilirea numarului de clase.

Algoritmii de partitionare sunt metode de analiza cluster de tip algoritmic, mult

Utilizand optiunea filtru in Excel, am obtinut tabele cu componenta fiecarui cluster.

Voi utiliza clasificatorul Fisher, o functie liniara de forma:

Matricea de covarianta a clasei 1 (w1)

Column 1 Column 2 Column 3 Column 4 Column 5

Column 5 173.0816 0.001321 113.8517 -0.0359 0.001374

Column 2 -3036.65 7.077661 46.79792 -1.14017 -0.00029

Column 1 Column 2 Column 3 Column 4 Column 5

Column 1 174722985 -19597.84 100219006 -4710.313 463.37701

Column 2 -19597.8 2.198197 -11241.1 0.528333 -0.05197

Column 3 1E+08 -11241.1 57484419 -2701.78 265.7875

Column 4 -4710.31 0.528333 -2701.78 0.126984 -0.01249

Column 5 463.377 -0.05197 265.7875 -0.01249 0.001229

Vectorii proprii ai matricei

1 = 1.23 ; 2= - 2.16 ; 3 = 3.52 ; 4 = 4.04 ; 5=9.14 0 = - ( 1* + 2* + 3 * +4 * +5* ) 0= - 87184.99

PIB x1 33900 25000 20300

SUA Japonia Cipru

Rata somajului x2 4.6 3.9 3.9

Venitul salarial x3 15546.63 10231.56 11871.93

Rata inflatiei x4 2.8 0 2.2

IDU x5 0.908 0.899 0.839

scoruri discriminant D(x) 84558.88272 54892.95406 54894.39606

cerere agregata -0.11274 0.12924 -0.04026 0.82629 -0.64005

comunalitate 0.938924068 0.879892624 0.86260072 0.844471744 0.722614739

specificitate 0.061075932 0.120107376 0.13739928 0.155528256 0.277385261 Tabel 9

S-ar putea să vă placă și

2 * V2+... + n * Vn W2=1V1+ 2 V2+... + n * Vn