Sunteți pe pagina 1din 16

Academia de Studii Economice, Bucuresti

Proiect Analiza Statistica Multidimensionala

Prof. coordonator: Conf.univ.dr.Cristina BOBOC

Studenti: Borca Mariana Andreea, Radu Dragan, Master Statistica, Anul II

Cuprins:
I. II.

Scopul si obiectivele proiectului Metodele folosite


1. 2.

Metoda clasificarii ierarhice Metoda analizei discriminante

3 4

III.

Analiza datelor 3A. Analiza unidimensionala a datelor 3B. Analiza si interpretarea datelor Metoda clasificarii ierarhice Metoda analizei discriminante 4 5 5 6 8 9

IV.

Concluzii

Bibliografie Anexe Anexa 1 Anexa 2

10 13

I.

Scopul si obiectivele proiectului

In cadrul acestui proiect, ne propunem sa abordam metoda clasificarii ierarhice si metoda analizei discriminante. Atat pentru metoda clasificarii ierarhice, cat si pentru metoda analizei discriminante, datele supuse analizei au fost extrase de pe site-ul Eurostat. Obiectivele propuse: 1. Metoda clasificarii ierarhice:

Plecand de la anumite variabile (rata somajului, procentul de scolarizare, rata riscului de saracie, PIB, venitul national net, ajutorul de la stat si indicele desvoltarii umane) ce caracterizeaza structura unor tari europene (Belgia, Germania, Grecia, Spania, Franta, Italia, Ungaria, Olanda, Austria, Romania, Anglia, Norvegia, Croatia), ne dorim sa aflam cum se grupeaza aceste tari la momentul anului 2010 din perspectiva variabilelor analizate; Dorim sa aflam daca putem descoperi clase sau grupe de tari in cadrul carora setul de similitudini construit in jurul caracteristicilor studiate este unul destul de ridicat, si sa descoperim masura in care tarile ce apartin unor clustere diferite se deosebesc.

2. Metoda analizei discriminante:

Urmarirea masurii in care cazurile de clasificari au fost previzionate corect, pornind de la un set de caracteristici studiate. Previzionarea repartitiei Romaniei

II. Metodele folosite 1. Metoda clasificarii ierarhice

Algoritmul acestei metode are la baza calcularea distantei dintre tari, in urma careia, tarile cele mai apropiate din punct de vedere al caracteristicilor masurate, vor forma o clasa, dupa care se reia procedeul de calculare a distantelor dintre clase pana in final cand va ramane o singura clasa. Tarile studiate: Belgia, Germania, Grecia, Spania, Franta, Italia, Ungaria, Olanda, Austria, Romania, Anglia, Norvegia, Croatia. Variabile: rata somajului, procentul de scolarizare, rata riscului de saracie, PIB, venitul national net, ajutorul de la stat si indicele desvoltarii umane. Anul de referinta: 2010

2. Metoda analizei discriminante Aceasta metoda ne ajuta sa previzionam, pornind de la o caracteristica sau de la un set de caracteristici in care grup este cel mai probabil ca niste indivizi sa se incadreze. Conditia ca metoda sa fie aplicata, este ca variabilele de care se va tine cont in analiza, sa fie pe scala ordinala. In cazul nostru, dorim sa vedem care este procentul cazurilor clasificate in mod correct pe baza unor predictori, si tinand cont de indicele dezvoltarii umane. Insa, avand in vedere ca aceasta variabila este exprimata pe scala proportionala, va fi recodificata si transformata pe scala ordinala. De exemplu, tarile cu un IDU cuprins intre 0,70 si 0,88 vor fi recodificate cu 1-tari cu un indice al dezvoltarii umane mediu spre ridicat, iar cele cu IDU cuprins intre 0,89 si 0,95 for fi recodificate cu 2, categorie corespunzatoare tarilor cu un indice al dezvoltarii umane foarte ridicat. Tarile studiate: Belgia, Germania, Grecia, Spania, Franta, Italia, Ungaria, Olanda, Austria, Romania, Anglia, Norvegia, Croatia, cu accent pe Romania. Variabile: rata somajului, procentul de scolarizare, rata riscului de saracie, PIB, venitul national net, ajutorul de la stat si indicele desvoltarii umane. Perioada de referinta: 2006-2010

III.Analiza datelor 3A. Analiza unidimensionala a datelor

Statistics Rata_somaj ului 15 0 7,8133 7,0000 Procentul_d e_scolarizar e 15 0 21,7333 21,1000 Rata_risculu i_de_saraci e 14 1 16,2714 16,3500 Ajutorul_de _la_stat 14 1 229980,141 6 96707,1142

PIB 15 0 757899, 7867 356125, 0000

N Mean Median

Valid Missin g

VNN 14 1 663193, 8286 289028, 4000

IDU 15 0 ,8501 ,8740

Facand o comparatie intre mediile si medianele variabilelor analizate, putem constata ca exista o serie de variabile precum: rata somajului, procentul de scolarizare, rata riscului de saracie si IDU care sunt caracterizate de valori repartizate normal, in timp ce PIB, VNN si ajutorul de la stat reprezinta indicatori caracterizati de valori extreme, existand discrepante mari intre tari.

3B. Analiza datelor si interpretarea datelor Metoda clasificarii ierarhice Datorita faptului ca baza noastra de date cuprinde informatii ce caracterizeaza evolutia acestor tari pe perioada 2006-2010, iar noi dorim sa analizam numai situatia anului 2010, vom selecta Data-Select cases-If condition is satisfied si punem Anul=2010. Celelalte cazuri vor aparea hasurate, fiind luate in continuare in calcul doar cele specifice anului 2010. Pentru aplicarea acestei metode, din panoul de comanda SPSS vom selecta AnalyzeClassify-Hierarchical Cluster Analysis, vom selecta variabilele dupa care dorim sa facem analiza, iar la label cases vom pune variabila Tara.

De la Statistics bifam Proximity Matrix, de la Cluster Membership lasam pentru moment None, deoarece nu stim deocamdata cate clustere se vor forma. De la Plots, bifam Dendograma pentru a putea vizualiza formarea clusterelor, de la Method alegem la Cluster Method, Wards method, la interval ne intereseaza eucledean distance, iar de la Standardize, selectam Z scores. Uitandu-ne in Anexa 1 la Tabelul 1, putem observa matricea proximitatilor care ne arata care este distanta euclidiana intre tari. Cu cat aceasta distanta este mai mica, cu atat tarile sunt mai apropiate din punct de vedere al similitudinilor si au sanse mai mari sa formeze un cluster, cu cat distant euclidiana este mai mare, cu atat tarile sunt mai indepartate, mai diferite. Uitandu-ne la Dendograma generata in Tabelul 2 din Anexa 1, putem sesiza in linii mari existenta a 2 sau 3 clustere. Avem pe de-o parte un cluster format din Bulgaria, Croatia, Romania, Grecia, Ungaria si Spania, unul format din Anglia, Franta, Germania, Italia si unul format din Austria, Olanda, Belgia si Norvegia. Avand in vedere ca am gasit Solutia, ne putem intoarce in meniu la Analyze-ClassifyHierarchical cluster, de la Save-Single solution, iar la Number of clusters introducem 3. Astfel se creeaza o noua variabila CLU3_1 care ne arata in ce clustere au fost impartite tarile supuse analizei. Impartirea pe clustere poate fi vizualizata si in Tabelul 3 din Anexa 1. Pentru a realiza si o reprezentare grafica a clusterelor, tinand cont de modalitatea in care cresterea ratei somajului contribuie la cresterea ratei riscului de saracie, din meniu selectam Graphs-Legacy Dialogs-Scatter/Dot-Simple Scatter. Pe axa Y punem variabila Rata riscului de saracie, pe axa X Rata somajului, iar la set markers by, punem variabila nou creata CLU3_1.

Rezultatul se poate vedea in Anexa 1, in Img. 1, unde putem remarca repartitia tarilor analizate si distanta dintre acestea.

Metoda analizei discriminante Pentru a previziona in ce grupa se va incadra Romania, am creat o noua variabila pornind de la indicele dezvoltarii umane, numita IDU_split, grupand observatiile in tari cu IDU mediu spre ridicat si tari cu IDU foarte ridicat. De asemenea am recodificat variabila corespunzatoare anului in An_split, unde 2010 ia valoarea 0, iar ceilalti ani iau valoarea 1. Pentru a aplica metoda analizei discriminante, din meniu selectam Analyze-ClassifyDiscriminant

La Grouping Variable selectam variabila nou create IDU_split care imparte tarile in doua categorii, la independents punem variabilele independente, iar la Selection Variable punem An_split cu valoarea 0. De la Statistics bifam Means, Univ. Anova, Fishers, de la Classify selectam summary table, combined groups, iar de la Save, bifam toate optiunile. In Tabelul 1 din Anexa 2 se pot observa diferentele existente la nivelul mediilor variabilelor intre cele doua categorii de clase, cu IDU mediu spre ridicat si IDU foarte ridicat. Astfel in tarile mai dezvoltate, indicatorii pozitivi precum procentul de scolarizare, PIB, venitul national net, ajutorul de la stat au valori mult mai mari comparativ cu celalalt grup de tari, in timp ce indicatorii negativi, precum rata somajului si rata riscului de saracie, au valori mai mici in tarile cu IDU mai ridicat. In Tabelul 2 din Anexa 2 se poate remarca faptul ca variabilele rata riscului de saracie si IDU au mediile semnificativ diferite. Ho:1= 2

H1:1 2

, Unde Sig.<0,05 --> Se respinge Ho

In timp ce pentru celelalte variabile rata somajului, procentul de scolarizare, PIB, VNN, ajutor de la stat, mediile nu difera semnificativ, se accepta ipoteza nula (Ho). In Tabelul 3 din Anexa 2, putem remarca faptul ca valoarea indicatorului Canonical Correlation, de 0,800 arata o discriminare destul de buna a celor doua grupe. Int Tabelul 4, Anexa 2, valoarea Wilks` Lambda de 0,359 arata ca 35,9% din varianta nu poate fi explicata de diferentele dintre grupe. In Tabelul 5 din Anexa 2, putem observa coeficientii ce stau la baza functiei discriminante. Astfel, PIB-ul si venitul national net reprezinta variabilele cu cea mai mare putere de discriminare, datorata valorii absolute ridicate a coeficientilor. In Tabelul 6 din Anexa 2 se pot urmari corelatiile dintre fiecare variabila si fiecare functie discriminanta. In Tabelul 7 din Anexa 2 inregistreaza valorile catre care tind tarile proaspat inscrise in analiza. Daca o tara va avea o valoare a functiei discriminante ce tinde spre 0,740, ea va face parte din grupul tarilor cu un IDU mai scazut, iar daca valoarea acestei functii tinde spre -1,973, tara va face parte din grupul tarilor cu IDU mai ridicat. In Tabelul 8 din Anexa 2 putem observa ca 93,2% din cazuri au fost clasificate correct. Se remarca faptul ca in SPSS au fost create 4 noi variabile ( Dis_1, Dis1_1, Dis1_2, Dis2_2). Prima variabila, Dis_1 arata in care grupa au fost clasificate tarile. O singura tara a fost clasificata gresit, Ungaria, care initial fusese introdus n grupa 1. Cea de-a doua variabila creata, Dis1_1 reprezinta valoarea functiei Fisher, iar valorile negative clasifica tara in grupa 2, in timp ce valorile pozitive o situeaza in prima grupa. Ultimele doua variabile, Dis1_2, Dis2_2 reprezinta probabilitatea de apartenta la grupul 1 sau 2. Asa cum se poate observa, doar n cazul Ungariei probabilitatea are o valoare de 21,5% . In cazul Romaniei, aceasta a fost perfect clasificata cu o probabilitate de 100%. IV. Concluzii

In urma aplicarii metodei clasificarii ierarhice, am descoperit un numar de aproximativ 3 clustere grupate din punct de vedere al ratei somajului, ratei de scolarizare, ratei riscului de saracie, PIB-ului, VNN, ajutorului de la stat si al IDU-lui dupa cum urmeaza: Clusterul 1: Bulgaria, Croatia, Romania, Grecia, Ungaria si Spania Clusterul 2: Anglia, Franta, Germania, Italia

Clusterul 3: Austria, Olanda, Belgia si Norvegia. Dupa cum se poate vedea, la nivelul fiecarui cluster exista un nivel comparabil de dezvoltare, economic si social. In cadrul dendogramei, Clusterele 2 si 3 erau mai apropiate, la fel cum se intampla si in realitate, deoarece tarile membre ale acestor clustere au un nivel mai ridicat decat cele din Clusterul 1. Indivizii din primul cluster se deosebesc foarte mult de cei din clusterul 3, acest lucru se poate urmari si din distanta dintre cele doua grupe. In urma aplicarii metodei analizei discriminante, in cadrul careia am impartit tarile in doua grupe in functie de indicele dezvoltarii umane: grupe cu IDU mediu spre ridicat si grupe cu IDU foarte ridicat. Astfel, in baza acestui criteriu si tinand cont de variabilele studiate, am obtinut un procent de 93,2% ce exprima cazurile clasificate correct. Romania a fost clasificata correct cu o probabilitate de 100%. Ungaria a fost clasificata corect doar pentru o probabilitate de 21,5%, ceea ce a dus la incadrarea ei in grupa 2 intr-un mod eronat. PIB-ul si venitul national net reprezinta variabilele cu cea mai mare putere de discriminare, datorata valorii absolute ridicate a coeficientilor.

Bibliografie: http://cristinaboboc.wordpress.com http://en.wikipedia.org/wiki/List_of_sovereign_states_in_Europe_by_Human_Development_Ind ex http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database http://profs.info.uaic.ro/~val/statistica/StatWork_12.pdf http://www.scribd.com/doc/86224233/06-Norbert-Petrovici-Analiza-Cluster

Anexa 1 Tabelul 1
Proximity Matrix Case 1:Bul garia 1:Bulgari a 2:Roma nia 3:Croati a 4:Hunga ry 5:Greec e 6:United Kingdom 7:Italy ,000 1,468 ,613 2,697 1,989 4,555 3,821 2:Ro mania 1,468 ,000 1,273 2,572 2,151 3,897 3,618 3:Cr oatia ,613 1,27 3 ,000 2,35 1 1,42 7 4,21 9 3,54 7 4:Hun gary 2,697 2,572 2,351 ,000 2,300 3,863 3,735 5:Gr eece 1,98 9 2,15 1 1,42 7 2,30 0 ,000 3,68 2 2,97 7 6:Un ited King dom 4,55 5 3,89 7 4,21 9 3,86 3 3,68 2 ,000 1,67 7 Euclidean Distance 7:It aly 3,8 21 3,6 18 3,5 47 3,7 35 2,9 77 1,6 77 , 00 0 8:S pain 3,89 2 4,11 2 3,49 4 3,69 8 2,50 9 3,66 2 3,25 1 9:Fr ance 5,45 1 4,99 9 5,11 4 4,32 0 4,43 3 1,42 7 2,30 2 10:Au stria 3,653 3,111 3,258 2,168 2,855 3,363 3,205 11:Bel gium 4,398 3,484 3,870 2,609 3,219 3,199 3,900 12:Ger many 6,027 5,734 5,765 5,484 5,110 2,237 2,289 13:Neth erlands 4,684 3,992 4,243 2,795 3,625 3,049 3,400 14:No rway 5,515 4,615 5,010 3,627 4,309 3,878 4,493

8:Spain 9:France 10:Austri a 11:Belgi um 12:Germ any 13:Neth erlands 14:Norw ay

3,892 5,451 3,653 4,398 6,027 4,684 5,515

4,112 4,999 3,111 3,484 5,734 3,992 4,615

3,49 4 5,11 4 3,25 8 3,87 0 5,76 5 4,24 3 5,01 0

3,698 4,320 2,168 2,609 5,484 2,795 3,627

2,50 9 4,43 3 2,85 5 3,21 9 5,11 0 3,62 5 4,30 9

3,66 2 1,42 7 3,36 3 3,19 9 2,23 7 3,04 9 3,87 8

3,2 51 2,3 02 3,2 05 3,9 00 2,2 89 3,4 00 4,4 93

,000 3,90 5 4,52 5 4,01 9 4,55 2 4,69 6 5,32 3

3,90 5 ,000 3,90 1 3,73 6 1,72 1 3,31 0 4,21 0

4,525 3,901 ,000 2,424 4,796 1,296 2,353

4,019 3,736 2,424 ,000 5,121 1,994 1,799

4,552 1,721 4,796 5,121 ,000 4,428 5,397

4,696 3,310 1,296 1,994 4,428 ,000 1,474

5,323 4,210 2,353 1,799 5,397 1,474 ,000

Tabelul 2

Tabelul 3
Cluster Membership Case 1:Bulgaria 2:Romania 3:Croatia 4:Hungary 5:Greece 6:United Kingdom 7:Italy 8:Spain 9:France 10:Austria 11:Belgium 12:Germany 13:Netherlands 14:Norway 3 Clusters 1 1 1 1 1 2 2 1 2 3 3 2 3 3

Img. 1

22,00

Ward Method
1 2 3

20,00

Rata_riscului_de_saracie

18,00

16,00

14,00

12,00

10,00 0,00 5,00 10,00 15,00 20,00

Rata_somajului

Anexa 2

Tabelul 1
Group Statistics Mean IDU_split 1 Unweighted 9,5625 19,9375 18,8375 604443,58 75 512976,68 75 167098,32 50 ,8300 4,3667 23,0667 12,3667 1134267,4 667 977816,93 33 345094,16 69 ,9193 8,1455 20,7909 17,0727 748941,00 91 639751,30 00 215642,64 55 ,8544 Std. Deviation Valid N (listwise)

Rata_somajului Procentul_de_scolarizare Rata_riscului_de_saracie PIB VNN Ajutorul_de_la_stat IDU

Weighted Unweighted Weighted 3,94061 8 8,000 1,82439 8 8,000 2,98995 716101,66194 619639,60334 206604,85370 ,04395 2,08167 3,15013 2,83608 1187218,9509 8 1035512,5906 4 368244,01366 ,02065 4,19842 2,53986 4,12337 837917,31587 728264,02172 252810,55433 ,05638 8 8 8 8 8 3 3 3 3 3 3 3 11 11 11 11 11 11 11 8,000 8,000 8,000 8,000 8,000 3,000 3,000 3,000 3,000 3,000 3,000 3,000 11,000 11,000 11,000 11,000 11,000 11,000 11,000

Rata_somajului Procentul_de_scolarizare Rata_riscului_de_saracie PIB VNN Ajutorul_de_la_stat IDU

Total

Rata_somajului Procentul_de_scolarizare Rata_riscului_de_saracie PIB VNN Ajutorul_de_la_stat IDU

Tabelul 2
Tests of Equality of Group Means Wilks' Lambda ,666 ,669 ,463 ,913 ,911 ,892 ,452

Rata_somajului Procentul_de_scolarizare Rata_riscului_de_saracie PIB VNN Ajutorul_de_la_stat IDU

F 4,517 4,456 10,452 ,860 ,878 1,091 10,900

df1 1 1 1 1 1 1 1

df2 9 9 9 9 9 9 9

Sig. ,062 ,064 ,010 ,378 ,373 ,323 ,009

Tabelul 3

Eigenvalues Canonical Eigenvalue % of Variance Cumulative % Correlation 1,783(a) 100,0 100,0 ,800 a First 1 canonical discriminant functions were used in the analysis.

Function 1

Tabelul 4
Wilks' Lambda Wilks' Lambda ,359

Test of Function(s) 1

Chi-square 6,654

df 5

Sig. ,248

Tabelul 5
Standardized Canonical Discriminant Function Coefficients Function 1 Rata_somajului Procentul_de_scolarizare Rata_riscului_de_saracie PIB VNN ,454 -,224 ,680 -5,949 5,493

Tabelul 6
Structure Matrix Function 1 Rata_riscului_de_saracie Rata_somajului Procentul_de_scolarizare IDU(a) VNN PIB Ajutorul_de_la_stat(a) ,807 ,531 -,527 -,374 -,234 -,232

-,227 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. a This variable not used in the analysis.

Tabelul 7
Functions at Group Centroids

Function IDU_split 1 2 1 ,740 -1,973 Unstandardized canonical discriminant functions evaluated at group means

Tabelul 8
Classification Results(a,b) Predicted Group Membership Cases Selected Original Count IDU_split 1 2 Ungrouped cases % 1 2 Ungrouped cases Cases Not Selected Original Count 1 2 Ungrouped cases % 1 2 Ungrouped cases a 100,0% of selected original grouped cases correctly classified. b 93,2% of unselected original grouped cases correctly classified. 1 8 0 0 100,0 ,0 ,0 29 0 0 90,6 ,0 ,0 2 0 3 3 ,0 100,0 100,0 3 12 12 9,4 100,0 100,0 Total 1 8 3 3 100,0 100,0 100,0 32 12 12 100,0 100,0 100,0