Proiect Analiza Datelor

Proiect Analiza Datelor
Student:
Munteanu Ana-Maria
Facultate: Academia de Studii Economice
Specializare: Informatica Economica
An III, Sem I, Grupa 1096
I.
Introducere:
In cadrul acestui proiect este prezentata repartizarea populatiei (categorizata pe grupe de varsta) pe judete, iar
scopul acestei analize este de a avea in vedere factorii care influenteaza diferitele modificari in cadrul populatiei.
Obiectele reprezinta 42 de judete ale Romaniei. Acestea sunt caracterizate de urmatorul set de variabile luate
pentru anul 2014:
Tabel 1- Populatia rezidenta, Anul 2014, pe grupe de varsta si judete
Definitie
Populatia rezidenta reprezinta totalitatea persoanelor cu cetatenie romana, straini si

fara cetatenie, care au resedinta obisnuita pe teritoriul Romaniei.
Resedinta obisnuita reprezinta locul in care o persoana isi petrece in mod obisnuit
perioada zilnica de odihna, fara a tine seama de absentele temporare pentru recreere,
vacante, vizite la prieteni si rude, afaceri, tratamente medicale sau pelerinaje
religioase. Resedinta obisnuita poate sa fie aceeasi cu domiciliul sau poate sa difere,
in cazul persoanelor care aleg sa-si stabileasca resedinta obisnuita in alta localitate
decat cea de domiciliu din tara sau strainatate.
Se considera ca isi au resedinta obisnuita intr-o zona geografica specifica doar
persoanele care au locuit la resedinta obisnuita o perioada neintrerupta de cel putin 12
luni inainte de momentul de referinta.
In populatia rezidenta sunt incluse persoanele care au imigrat in Romania, dar sunt
excluse persoanele care au emigrat din Romania.
Periodicitate
Anuala
Surse de date
Populatia rezidenta a Romaniei (la 1 ianuarie si 1 iulie)
Metodologie
Sursa datelor o constituie cercetarea statistica privind populatia rezidenta a Romaniei.

Indicatorii privind populatia rezidenta au fost construiti utilizand date prelucrate din
surse administrative, date primite de la institutele nationale de statistica a Spaniei si
Italiei, baza de date a Eurostat privind populatia si migratia internationala si
rezultatele unui model econometric bazat pe tehnici de estimare pe domenii mici in
vederea dimensionarii componentei de migratie internationala.
Varsta este exprimata in ani impliniti (de exemplu, o persoana avand varsta de 24 ani
si 11 luni este considerata ca avand varsta de 24 ani).
Sursa: http://statistici.insse.ro/
II.
Analiza componentelor principale:
Dupa incarcarea matricei de date (Tabel nr. 1) in SPSS, vom incepe analiza datelor. Remarcam faptul ca toti
indicatorii (grupurile de varste) sunt variabile continue, scara lor de masura fiind usor de identificat. Prin urmare
pentru fiecare variabila in parte, pentru inceput, vom calcula indicatorii de centrare i de imprastiere cum ar fi media,
valoarea minima, valoarea maxima, precum si abaterea standard in Tabelul nr. 2.
Semnificaia coloanelor tabelului este urmtoarea:
N= numarul de variabile
Minimum= valoarea minima pentru fiecare variabila
Maximum= valoarea maxima pentru fiecare variabila
Mean= media unei variabile
Std.Deviation= abaterea medie patratica
2
Descriptive Statistics
N
Minimum
Maximum
Mean
Std. Deviation
0- 4 ani
42
9690.0
91741.0
22935.119
13576.2933
5- 9 ani
42
11595.0
82716.0
25352.810
12459.7041
10-14 ani
42
12047.0
64943.0
25393.238
10592.2009
15-19 ani
42
11368.0
62478.0
25891.095
10321.4204
20-24 ani
42
9790.0
119180.0
28406.238
19507.2038
25-29 ani
42
12447.0
178560.0
33152.619
26707.3733
30-34 ani
42
13158.0
173403.0
33150.619
25349.0481
35-39 ani
42
16154.0
174381.0
37806.333
24983.2233
40-44 ani
42
16521.0
136440.0
36994.286
19715.8151
45-49 ani
42
13582.0
134195.0
33483.905
19228.9555
50-54 ani
42
11784.0
104946.0
27974.524
15054.8023
55-59 ani
42
14578.0
142270.0
34232.214
20443.0413
60-64 ani
42
13553.0
125160.0
31671.333
17910.9379
65-69 ani
42
9357.0
78213.0
22645.976
11219.1037
70-74 ani
42
8666.0
62579.0
19354.857
9112.8035
75-79 ani
42
6627.0
59038.0
17700.762
8724.4352
80-84 ani
42
4209.0
42666.0
11526.595
6163.6627
85 ani si peste
42
2537.0
32234.0
7263.452
4598.7616
Valid N (listwise)
42
Tabel nr. 2
Tabelul nr. 2 ne arata, dupa o scurta interpretare a rezultatelor, numarul minim si numarul maxim de persoane
din fiecare categorie de varsta, aceste date le putem lua din tabel, din coloanele minimum si maximum. Dupa cum
putem observa elementele matricei de date initiale ar necesita si o standardizare, deoarece abaterile standard ale
indicatorilor sunt destul de diferite.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecrei observatii cu o
noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei
variabile. Daca o variabila a fost standardizata, media ei este intotdeauna 0, iar varianta este 1.
Dupa ce ne-am detasat de scara de masurare a variabilelor, matricea coeficientilor de corelatii va fi
echivalent cu matricea de covarian si astfel vom incepe analiza compomentelor principale utilizand matricea de
date strandardizate.
Pe baza datelor standardizate, apelam Analyse -> Dimension Reduction ->Factor. In urma alegerii datelor
standardizate, in partea de jos a casutei de dialog avem mai multe optiuni ca: Descriptives, Extraction, Rotation,
Scores, Options; care vor fi prezentate in urmatoarele print screenuri:
Tabel nr. 3
Tabelul nr. 3 ne ofera informatii cu privire la media si abatarea standard a fiecarui indicator si avand in
vedere faptul ca media este 0 iar dispersia este 1, confirma faptul ca datele sunt standardizate.
Tabel nr. 4
Tabelul nr 4 ne arata daca indicatori calculati sunt independenti sau nu. Se poate observa c avem prezenti in
matrice coeficienti de corelatie mari si exista numai corelatii in sens prozitiv. Deoarece avem in matricea de mai sus
coeficienti de corelatie apropiati de 1, tragem concluzia ca putem renunta la anumiti indicatori. Ca urmare a acestor
constatari intervine problema pe care sa-i eliminam; pentru a elimina subiectivismul de decizie, vom folosi tehnicile
5
de analiza a componentelor principale implementate n SPSS, si ne propunem sa identificm doi indicatori sintetici cu
care ne-am mulumi in atingerea scopului propus.
Tabelul nr 5
Tabelul Communalities ne arata influenta variabilelor luate in studiu. Din acest tabel reiese faptul ca toate
variabilele folosite contribuie major la explicarea variabilelor artificiale obtinute ulterior. Din analiza acestuia se
observa ca variabila 4 are o contributie majora la explicarea variabilelor artificiale care se obtin ulterior. Cantitatea de
informatie recuperata dinacesta variabila este de 0.994, urmata in aproape de ultima variabila care recupereaza
0.993 din informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.
Pentru a stabili numarul de componente principale necesare, se folosesc informatiile din tabelul Total
Variance Explained . Tabelul ne ofera informatii cu privire la valorile proprii ale matricei de corelatie, dar si
informatii referitoare la componentele principale si cantitate de informatie retinuta de acestea. O valoare proprie mai
6
mare decat 1, pentru o componenta, indica faptul ca acea componenta are o contributie mai mare decat a unei variabile
initiale, deci este indicat a fi extrasa.
Tabel nr. 6
In tabelul nr 6 observam ca valorile proprii i ponderea lor n varian a total arata ca sunt suficiente trei
componente principale care preiau din variabilitatea spaiului iniial 98,6%.
Pentru explicitarea norului de puncte pe 2 axe se procedeaza astfel:
- ajustand norul de puncte printr-o axa factoriala (adic acceptand doar un singur indicator sintetic) se explica
94,798% din totalul variatiei datelor.
- ajustand norul de puncte prin doua axe factoriale (adica acceptand doi indicatori sintetici), recuperam inca
2,380% din variatia totala, adica un total de 97,178% din aceast varian, ceea ce reprezinta un rezultat foate
bun pentru analiza noastra.
Tabelul nr. 7
Graficul scree plot se realizeaza astfel:

Se au in vedere diferentele semnificative existente intre valorile proprii;
Se traseaza o linie paralela cu abscisa deasupra ultimei diferente;
Numarul de valori proprii aflate deasupra paralelei reprezinta numarul de componente principale.
Pentru a stabili numarul de componente principale necesare se mai poatefolosi si metoda grafica. In Scree
Plot, pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe ordonata se afla valorile efective ale
acestora. Folosind criteriul pantei si reprezentarea grafica a valorilor proprii se poate determina numarul de
componente principale necesa rereprezentarii spatiului initial. In urma identificarii numarului de diferente
semnificative dintre valorile proprii reprezentare, deasupra ultimei diferente semnificative in reprezentarea
grafica se duce o paralela la abscisa, iar numarul devalori proprii ramase deasupra paralelei da numarul de
componente principale.
Tabelul nr 8
Pentru a caracteriza componentele astfel obtinute se determina coeficientul de corelatie intre

variabilele artificiale obtinute si variabilele originale luate in calcul,datele fiind disponibile in Component
Matrix. Cu ajutorul tabelului se poate da o interpretare variabilelor in spatiul transformat, aceasta continand
coeficientii corelatiilor dintre componentele principale si valorile initiale.
Tabelul nr. 9
Component Plot in Rotated Space ofera o reprezentare grafica tridimensionala a celor 2
componente principale. Fiecare variabila este reprezentata in functie de corelatia cu fiecare componenta.
Este un mod grafic de a prezenta aceeasi informatia ca in tabelul Rotated Component Matrix.
10
11
Tabel nr. 10
Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu versorii noului
spatiu redus . Acesti versori sunt dati de vectorii proprii corespunzatori valorilor proprii mai mari decat 1. Tabelul
Component Score Coefficient Matrix (Tabel nr 10) reprezinta matricea versorilor, continand vectorii proprii
corespunzatori valorilor proprii retinute.
In continuare apelam Graphs Scatter/Dot Alegem Simple Scatter:
12
In acest grafic putem observa un grup destul de compact ce par a avea un comportament asemanator in raport cu
noii indicatori, dar i un grup de varsta care se detaseaza.
III
Analiza cluster:
In continuare, tot pentru aceiasi matrice a datelor standardizate vom aplica tehnici de clasificare bazate pe
algoritmi ierarhici pentru a putea exemplifica atat gruparea firmelor cat si gruparea indicatorilor.
Analiza cluster este o tehnica de clasificare caracterizat prin faptul c afectarea formelor sau obiectelor in
clustere sau grupe se face progresiv i fara a cunoate aprioric numarul de clase, in functie de verificarea a doua
criterii fundamentale:
a. obiectele sau formele clasificate n fiecare clas sa fie cat mai similare din punct de vedere al anumitor
caracteristici;
b. obiectele clasificate ntr-o clasa si se diferentieze cat mai mult de obiectele clasificate in oricare din celelalte clase.
In vederea aplicrii tehnicii de clasificare in SPSS vom parcurge urmatorii pasi:
Pas 1 avem matricea de date standardizate in SPSS
Pas 2 apelam Analyse Classify Hierarchical Cluster
13
Va fi calculata matricea de proximitatea in care care fiecare element al ei este reprezentat de distanta
euclidiana intre firmele corespunzatoare, distanta calculat in funcie de toti cei 6 indicatori observati (folosind
distanta euclidiana ca masura a disimilaritatii). Aceasta matrice fiind prezentata in urmatorul tabel:
14
Dupa care pentru exemplificarea agregarii firmelor prezentm n tabelul urmtor etapele de constituire a
claselor, in care se poate observa modul de formare a uni grup precum i nivelul de agregare corespunzator pentru
fiecare algoritm in parte, astfel:
Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se numeste arborele
clasificarii sau dendrograma clasificarii. Pentru a identifica numarul de clase trebuie sa identificam o partitie cu un
numar redus de grupe si o partitie cu un numar mare de grupe. Apoi ducem o paralela cu axa oy iar numarul de puncte
care intersecteaza dreapta ne da numarul de clase.
15
16
Figura de mai sus reprezinta dendrograma orizontala a indicatorilor.

Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se numeste arborele
clasificarii sau dendrograma clasificarii
Astfel, pentru un prag de distanta de 20 se vor obtine 2 grupe: prima grupa este formata din judetul
Bucuresti, iar a doua grupa este formata din restul judetelor. Daca pragul de distanta este 3 atunci putem considera
urmatoarele grupe: prima grupa este formata din judetul Bucuresti, a doua grupa din judetul Iasi, a treia grupa din
judetul Prahova, a patra grupa formata din restul judetelor.
Astfel putem deduce ca Bucuresti are cea mai mare populatie medie din grupurile de varsta, pe cand Vaslui,
Covasna si Salaj au printre cele mai mici populatii.
In concluzie, analiza componentelor principale ne-a permis sa realizam o sintetizare informationala si sa
caracterizam un sir de observatii prin 2 caracteristici in loc de 18. Astfel, am putut realiza comparatii intre observatii.
Bibliografie:
Ruxanda, Gheorghe,Analiza multidimensional a datelor, suport de curs pentru coala Doctoral, ASE,
Bucureti,2009.
Suport de curs: Analiza Multidimensionala a Datelor
http://statistici.insse.ro/
17

Proiect Analiza Datelor

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Proiect Analiza Datelor

Încărcat de

Drepturi de autor:

Formate disponibile

Proiect Analiza Datelor

Tabel 1- Populatia rezidenta, Anul 2014, pe grupe de varsta si judete

Populatia rezidenta reprezinta totalitatea persoanelor cu cetatenie romana, straini si

Populatia rezidenta a Romaniei (la 1 ianuarie si 1 iulie)

Sursa datelor o constituie cercetarea statistica privind populatia rezidenta a Romaniei.

Analiza componentelor principale:

Graficul scree plot se realizeaza astfel:

Pentru a caracteriza componentele astfel obtinute se determina coeficientul de corelatie intre

Figura de mai sus reprezinta dendrograma orizontala a indicatorilor.

S-ar putea să vă placă și