Sunteți pe pagina 1din 17

Proiect Analiza Datelor

Student:
Munteanu Ana-Maria
Facultate: Academia de Studii Economice
Specializare: Informatica Economica
An III, Sem I, Grupa 1096
I.

Introducere:

In cadrul acestui proiect este prezentata repartizarea populatiei (categorizata pe grupe de varsta) pe judete, iar
scopul acestei analize este de a avea in vedere factorii care influenteaza diferitele modificari in cadrul populatiei.
Obiectele reprezinta 42 de judete ale Romaniei. Acestea sunt caracterizate de urmatorul set de variabile luate
pentru anul 2014:

Tabel 1- Populatia rezidenta, Anul 2014, pe grupe de varsta si judete

Definitie

Populatia rezidenta reprezinta totalitatea persoanelor cu cetatenie romana, straini si


fara cetatenie, care au resedinta obisnuita pe teritoriul Romaniei.
Resedinta obisnuita reprezinta locul in care o persoana isi petrece in mod obisnuit
perioada zilnica de odihna, fara a tine seama de absentele temporare pentru recreere,
vacante, vizite la prieteni si rude, afaceri, tratamente medicale sau pelerinaje
religioase. Resedinta obisnuita poate sa fie aceeasi cu domiciliul sau poate sa difere,
in cazul persoanelor care aleg sa-si stabileasca resedinta obisnuita in alta localitate
decat cea de domiciliu din tara sau strainatate.
Se considera ca isi au resedinta obisnuita intr-o zona geografica specifica doar
persoanele care au locuit la resedinta obisnuita o perioada neintrerupta de cel putin 12
luni inainte de momentul de referinta.
In populatia rezidenta sunt incluse persoanele care au imigrat in Romania, dar sunt
excluse persoanele care au emigrat din Romania.

Periodicitate

Anuala

Surse de date

Populatia rezidenta a Romaniei (la 1 ianuarie si 1 iulie)

Metodologie

Sursa datelor o constituie cercetarea statistica privind populatia rezidenta a Romaniei.


Indicatorii privind populatia rezidenta au fost construiti utilizand date prelucrate din
surse administrative, date primite de la institutele nationale de statistica a Spaniei si
Italiei, baza de date a Eurostat privind populatia si migratia internationala si
rezultatele unui model econometric bazat pe tehnici de estimare pe domenii mici in
vederea dimensionarii componentei de migratie internationala.
Varsta este exprimata in ani impliniti (de exemplu, o persoana avand varsta de 24 ani
si 11 luni este considerata ca avand varsta de 24 ani).

Sursa: http://statistici.insse.ro/

II.

Analiza componentelor principale:

Dupa incarcarea matricei de date (Tabel nr. 1) in SPSS, vom incepe analiza datelor. Remarcam faptul ca toti
indicatorii (grupurile de varste) sunt variabile continue, scara lor de masura fiind usor de identificat. Prin urmare
pentru fiecare variabila in parte, pentru inceput, vom calcula indicatorii de centrare i de imprastiere cum ar fi media,
valoarea minima, valoarea maxima, precum si abaterea standard in Tabelul nr. 2.
Semnificaia coloanelor tabelului este urmtoarea:
N= numarul de variabile
Minimum= valoarea minima pentru fiecare variabila
Maximum= valoarea maxima pentru fiecare variabila
Mean= media unei variabile
Std.Deviation= abaterea medie patratica
2

Descriptive Statistics
N

Minimum

Maximum

Mean

Std. Deviation

0- 4 ani

42

9690.0

91741.0

22935.119

13576.2933

5- 9 ani

42

11595.0

82716.0

25352.810

12459.7041

10-14 ani

42

12047.0

64943.0

25393.238

10592.2009

15-19 ani

42

11368.0

62478.0

25891.095

10321.4204

20-24 ani

42

9790.0

119180.0

28406.238

19507.2038

25-29 ani

42

12447.0

178560.0

33152.619

26707.3733

30-34 ani

42

13158.0

173403.0

33150.619

25349.0481

35-39 ani

42

16154.0

174381.0

37806.333

24983.2233

40-44 ani

42

16521.0

136440.0

36994.286

19715.8151

45-49 ani

42

13582.0

134195.0

33483.905

19228.9555

50-54 ani

42

11784.0

104946.0

27974.524

15054.8023

55-59 ani

42

14578.0

142270.0

34232.214

20443.0413

60-64 ani

42

13553.0

125160.0

31671.333

17910.9379

65-69 ani

42

9357.0

78213.0

22645.976

11219.1037

70-74 ani

42

8666.0

62579.0

19354.857

9112.8035

75-79 ani

42

6627.0

59038.0

17700.762

8724.4352

80-84 ani

42

4209.0

42666.0

11526.595

6163.6627

85 ani si peste

42

2537.0

32234.0

7263.452

4598.7616

Valid N (listwise)

42

Tabel nr. 2
Tabelul nr. 2 ne arata, dupa o scurta interpretare a rezultatelor, numarul minim si numarul maxim de persoane
din fiecare categorie de varsta, aceste date le putem lua din tabel, din coloanele minimum si maximum. Dupa cum
putem observa elementele matricei de date initiale ar necesita si o standardizare, deoarece abaterile standard ale
indicatorilor sunt destul de diferite.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecrei observatii cu o
noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei
variabile. Daca o variabila a fost standardizata, media ei este intotdeauna 0, iar varianta este 1.
Dupa ce ne-am detasat de scara de masurare a variabilelor, matricea coeficientilor de corelatii va fi
echivalent cu matricea de covarian si astfel vom incepe analiza compomentelor principale utilizand matricea de
date strandardizate.
Pe baza datelor standardizate, apelam Analyse -> Dimension Reduction ->Factor. In urma alegerii datelor
standardizate, in partea de jos a casutei de dialog avem mai multe optiuni ca: Descriptives, Extraction, Rotation,
Scores, Options; care vor fi prezentate in urmatoarele print screenuri:

Tabel nr. 3
Tabelul nr. 3 ne ofera informatii cu privire la media si abatarea standard a fiecarui indicator si avand in
vedere faptul ca media este 0 iar dispersia este 1, confirma faptul ca datele sunt standardizate.

Tabel nr. 4
Tabelul nr 4 ne arata daca indicatori calculati sunt independenti sau nu. Se poate observa c avem prezenti in
matrice coeficienti de corelatie mari si exista numai corelatii in sens prozitiv. Deoarece avem in matricea de mai sus
coeficienti de corelatie apropiati de 1, tragem concluzia ca putem renunta la anumiti indicatori. Ca urmare a acestor
constatari intervine problema pe care sa-i eliminam; pentru a elimina subiectivismul de decizie, vom folosi tehnicile
5

de analiza a componentelor principale implementate n SPSS, si ne propunem sa identificm doi indicatori sintetici cu
care ne-am mulumi in atingerea scopului propus.

Tabelul nr 5
Tabelul Communalities ne arata influenta variabilelor luate in studiu. Din acest tabel reiese faptul ca toate
variabilele folosite contribuie major la explicarea variabilelor artificiale obtinute ulterior. Din analiza acestuia se
observa ca variabila 4 are o contributie majora la explicarea variabilelor artificiale care se obtin ulterior. Cantitatea de
informatie recuperata dinacesta variabila este de 0.994, urmata in aproape de ultima variabila care recupereaza
0.993 din informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.
Pentru a stabili numarul de componente principale necesare, se folosesc informatiile din tabelul Total
Variance Explained . Tabelul ne ofera informatii cu privire la valorile proprii ale matricei de corelatie, dar si
informatii referitoare la componentele principale si cantitate de informatie retinuta de acestea. O valoare proprie mai
6

mare decat 1, pentru o componenta, indica faptul ca acea componenta are o contributie mai mare decat a unei variabile
initiale, deci este indicat a fi extrasa.

Tabel nr. 6
In tabelul nr 6 observam ca valorile proprii i ponderea lor n varian a total arata ca sunt suficiente trei
componente principale care preiau din variabilitatea spaiului iniial 98,6%.
Pentru explicitarea norului de puncte pe 2 axe se procedeaza astfel:
- ajustand norul de puncte printr-o axa factoriala (adic acceptand doar un singur indicator sintetic) se explica
94,798% din totalul variatiei datelor.
- ajustand norul de puncte prin doua axe factoriale (adica acceptand doi indicatori sintetici), recuperam inca
2,380% din variatia totala, adica un total de 97,178% din aceast varian, ceea ce reprezinta un rezultat foate
bun pentru analiza noastra.

Tabelul nr. 7

Graficul scree plot se realizeaza astfel:


Se au in vedere diferentele semnificative existente intre valorile proprii;
Se traseaza o linie paralela cu abscisa deasupra ultimei diferente;
Numarul de valori proprii aflate deasupra paralelei reprezinta numarul de componente principale.

Pentru a stabili numarul de componente principale necesare se mai poatefolosi si metoda grafica. In Scree
Plot, pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe ordonata se afla valorile efective ale
acestora. Folosind criteriul pantei si reprezentarea grafica a valorilor proprii se poate determina numarul de
componente principale necesa rereprezentarii spatiului initial. In urma identificarii numarului de diferente
semnificative dintre valorile proprii reprezentare, deasupra ultimei diferente semnificative in reprezentarea
grafica se duce o paralela la abscisa, iar numarul devalori proprii ramase deasupra paralelei da numarul de
componente principale.

Tabelul nr 8

Pentru a caracteriza componentele astfel obtinute se determina coeficientul de corelatie intre


variabilele artificiale obtinute si variabilele originale luate in calcul,datele fiind disponibile in Component
Matrix. Cu ajutorul tabelului se poate da o interpretare variabilelor in spatiul transformat, aceasta continand
coeficientii corelatiilor dintre componentele principale si valorile initiale.

Tabelul nr. 9
Component Plot in Rotated Space ofera o reprezentare grafica tridimensionala a celor 2
componente principale. Fiecare variabila este reprezentata in functie de corelatia cu fiecare componenta.
Este un mod grafic de a prezenta aceeasi informatia ca in tabelul Rotated Component Matrix.

10

11

Tabel nr. 10
Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu versorii noului
spatiu redus . Acesti versori sunt dati de vectorii proprii corespunzatori valorilor proprii mai mari decat 1. Tabelul
Component Score Coefficient Matrix (Tabel nr 10) reprezinta matricea versorilor, continand vectorii proprii
corespunzatori valorilor proprii retinute.
In continuare apelam Graphs Scatter/Dot Alegem Simple Scatter:

12

In acest grafic putem observa un grup destul de compact ce par a avea un comportament asemanator in raport cu
noii indicatori, dar i un grup de varsta care se detaseaza.

III

Analiza cluster:

In continuare, tot pentru aceiasi matrice a datelor standardizate vom aplica tehnici de clasificare bazate pe
algoritmi ierarhici pentru a putea exemplifica atat gruparea firmelor cat si gruparea indicatorilor.
Analiza cluster este o tehnica de clasificare caracterizat prin faptul c afectarea formelor sau obiectelor in
clustere sau grupe se face progresiv i fara a cunoate aprioric numarul de clase, in functie de verificarea a doua
criterii fundamentale:
a. obiectele sau formele clasificate n fiecare clas sa fie cat mai similare din punct de vedere al anumitor
caracteristici;
b. obiectele clasificate ntr-o clasa si se diferentieze cat mai mult de obiectele clasificate in oricare din celelalte clase.
In vederea aplicrii tehnicii de clasificare in SPSS vom parcurge urmatorii pasi:
Pas 1 avem matricea de date standardizate in SPSS
Pas 2 apelam Analyse Classify Hierarchical Cluster

13

Va fi calculata matricea de proximitatea in care care fiecare element al ei este reprezentat de distanta
euclidiana intre firmele corespunzatoare, distanta calculat in funcie de toti cei 6 indicatori observati (folosind
distanta euclidiana ca masura a disimilaritatii). Aceasta matrice fiind prezentata in urmatorul tabel:

14

Dupa care pentru exemplificarea agregarii firmelor prezentm n tabelul urmtor etapele de constituire a
claselor, in care se poate observa modul de formare a uni grup precum i nivelul de agregare corespunzator pentru
fiecare algoritm in parte, astfel:

Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se numeste arborele
clasificarii sau dendrograma clasificarii. Pentru a identifica numarul de clase trebuie sa identificam o partitie cu un
numar redus de grupe si o partitie cu un numar mare de grupe. Apoi ducem o paralela cu axa oy iar numarul de puncte
care intersecteaza dreapta ne da numarul de clase.

15

16

Figura de mai sus reprezinta dendrograma orizontala a indicatorilor.


Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se numeste arborele
clasificarii sau dendrograma clasificarii
Astfel, pentru un prag de distanta de 20 se vor obtine 2 grupe: prima grupa este formata din judetul
Bucuresti, iar a doua grupa este formata din restul judetelor. Daca pragul de distanta este 3 atunci putem considera
urmatoarele grupe: prima grupa este formata din judetul Bucuresti, a doua grupa din judetul Iasi, a treia grupa din
judetul Prahova, a patra grupa formata din restul judetelor.
Astfel putem deduce ca Bucuresti are cea mai mare populatie medie din grupurile de varsta, pe cand Vaslui,
Covasna si Salaj au printre cele mai mici populatii.
In concluzie, analiza componentelor principale ne-a permis sa realizam o sintetizare informationala si sa
caracterizam un sir de observatii prin 2 caracteristici in loc de 18. Astfel, am putut realiza comparatii intre observatii.
Bibliografie:
Ruxanda, Gheorghe,Analiza multidimensional a datelor, suport de curs pentru coala Doctoral, ASE,
Bucureti,2009.
Suport de curs: Analiza Multidimensionala a Datelor
http://statistici.insse.ro/

17