Documente Academic
Documente Profesional
Documente Cultură
Student:
Munteanu Ana-Maria
Facultate: Academia de Studii Economice
Specializare: Informatica Economica
An III, Sem I, Grupa 1096
I.
Introducere:
In cadrul acestui proiect este prezentata repartizarea populatiei (categorizata pe grupe de varsta) pe judete, iar
scopul acestei analize este de a avea in vedere factorii care influenteaza diferitele modificari in cadrul populatiei.
Obiectele reprezinta 42 de judete ale Romaniei. Acestea sunt caracterizate de urmatorul set de variabile luate
pentru anul 2014:
Definitie
Periodicitate
Anuala
Surse de date
Metodologie
Sursa: http://statistici.insse.ro/
II.
Dupa incarcarea matricei de date (Tabel nr. 1) in SPSS, vom incepe analiza datelor. Remarcam faptul ca toti
indicatorii (grupurile de varste) sunt variabile continue, scara lor de masura fiind usor de identificat. Prin urmare
pentru fiecare variabila in parte, pentru inceput, vom calcula indicatorii de centrare i de imprastiere cum ar fi media,
valoarea minima, valoarea maxima, precum si abaterea standard in Tabelul nr. 2.
Semnificaia coloanelor tabelului este urmtoarea:
N= numarul de variabile
Minimum= valoarea minima pentru fiecare variabila
Maximum= valoarea maxima pentru fiecare variabila
Mean= media unei variabile
Std.Deviation= abaterea medie patratica
2
Descriptive Statistics
N
Minimum
Maximum
Mean
Std. Deviation
0- 4 ani
42
9690.0
91741.0
22935.119
13576.2933
5- 9 ani
42
11595.0
82716.0
25352.810
12459.7041
10-14 ani
42
12047.0
64943.0
25393.238
10592.2009
15-19 ani
42
11368.0
62478.0
25891.095
10321.4204
20-24 ani
42
9790.0
119180.0
28406.238
19507.2038
25-29 ani
42
12447.0
178560.0
33152.619
26707.3733
30-34 ani
42
13158.0
173403.0
33150.619
25349.0481
35-39 ani
42
16154.0
174381.0
37806.333
24983.2233
40-44 ani
42
16521.0
136440.0
36994.286
19715.8151
45-49 ani
42
13582.0
134195.0
33483.905
19228.9555
50-54 ani
42
11784.0
104946.0
27974.524
15054.8023
55-59 ani
42
14578.0
142270.0
34232.214
20443.0413
60-64 ani
42
13553.0
125160.0
31671.333
17910.9379
65-69 ani
42
9357.0
78213.0
22645.976
11219.1037
70-74 ani
42
8666.0
62579.0
19354.857
9112.8035
75-79 ani
42
6627.0
59038.0
17700.762
8724.4352
80-84 ani
42
4209.0
42666.0
11526.595
6163.6627
85 ani si peste
42
2537.0
32234.0
7263.452
4598.7616
Valid N (listwise)
42
Tabel nr. 2
Tabelul nr. 2 ne arata, dupa o scurta interpretare a rezultatelor, numarul minim si numarul maxim de persoane
din fiecare categorie de varsta, aceste date le putem lua din tabel, din coloanele minimum si maximum. Dupa cum
putem observa elementele matricei de date initiale ar necesita si o standardizare, deoarece abaterile standard ale
indicatorilor sunt destul de diferite.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecrei observatii cu o
noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei
variabile. Daca o variabila a fost standardizata, media ei este intotdeauna 0, iar varianta este 1.
Dupa ce ne-am detasat de scara de masurare a variabilelor, matricea coeficientilor de corelatii va fi
echivalent cu matricea de covarian si astfel vom incepe analiza compomentelor principale utilizand matricea de
date strandardizate.
Pe baza datelor standardizate, apelam Analyse -> Dimension Reduction ->Factor. In urma alegerii datelor
standardizate, in partea de jos a casutei de dialog avem mai multe optiuni ca: Descriptives, Extraction, Rotation,
Scores, Options; care vor fi prezentate in urmatoarele print screenuri:
Tabel nr. 3
Tabelul nr. 3 ne ofera informatii cu privire la media si abatarea standard a fiecarui indicator si avand in
vedere faptul ca media este 0 iar dispersia este 1, confirma faptul ca datele sunt standardizate.
Tabel nr. 4
Tabelul nr 4 ne arata daca indicatori calculati sunt independenti sau nu. Se poate observa c avem prezenti in
matrice coeficienti de corelatie mari si exista numai corelatii in sens prozitiv. Deoarece avem in matricea de mai sus
coeficienti de corelatie apropiati de 1, tragem concluzia ca putem renunta la anumiti indicatori. Ca urmare a acestor
constatari intervine problema pe care sa-i eliminam; pentru a elimina subiectivismul de decizie, vom folosi tehnicile
5
de analiza a componentelor principale implementate n SPSS, si ne propunem sa identificm doi indicatori sintetici cu
care ne-am mulumi in atingerea scopului propus.
Tabelul nr 5
Tabelul Communalities ne arata influenta variabilelor luate in studiu. Din acest tabel reiese faptul ca toate
variabilele folosite contribuie major la explicarea variabilelor artificiale obtinute ulterior. Din analiza acestuia se
observa ca variabila 4 are o contributie majora la explicarea variabilelor artificiale care se obtin ulterior. Cantitatea de
informatie recuperata dinacesta variabila este de 0.994, urmata in aproape de ultima variabila care recupereaza
0.993 din informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.
Pentru a stabili numarul de componente principale necesare, se folosesc informatiile din tabelul Total
Variance Explained . Tabelul ne ofera informatii cu privire la valorile proprii ale matricei de corelatie, dar si
informatii referitoare la componentele principale si cantitate de informatie retinuta de acestea. O valoare proprie mai
6
mare decat 1, pentru o componenta, indica faptul ca acea componenta are o contributie mai mare decat a unei variabile
initiale, deci este indicat a fi extrasa.
Tabel nr. 6
In tabelul nr 6 observam ca valorile proprii i ponderea lor n varian a total arata ca sunt suficiente trei
componente principale care preiau din variabilitatea spaiului iniial 98,6%.
Pentru explicitarea norului de puncte pe 2 axe se procedeaza astfel:
- ajustand norul de puncte printr-o axa factoriala (adic acceptand doar un singur indicator sintetic) se explica
94,798% din totalul variatiei datelor.
- ajustand norul de puncte prin doua axe factoriale (adica acceptand doi indicatori sintetici), recuperam inca
2,380% din variatia totala, adica un total de 97,178% din aceast varian, ceea ce reprezinta un rezultat foate
bun pentru analiza noastra.
Tabelul nr. 7
Pentru a stabili numarul de componente principale necesare se mai poatefolosi si metoda grafica. In Scree
Plot, pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe ordonata se afla valorile efective ale
acestora. Folosind criteriul pantei si reprezentarea grafica a valorilor proprii se poate determina numarul de
componente principale necesa rereprezentarii spatiului initial. In urma identificarii numarului de diferente
semnificative dintre valorile proprii reprezentare, deasupra ultimei diferente semnificative in reprezentarea
grafica se duce o paralela la abscisa, iar numarul devalori proprii ramase deasupra paralelei da numarul de
componente principale.
Tabelul nr 8
Tabelul nr. 9
Component Plot in Rotated Space ofera o reprezentare grafica tridimensionala a celor 2
componente principale. Fiecare variabila este reprezentata in functie de corelatia cu fiecare componenta.
Este un mod grafic de a prezenta aceeasi informatia ca in tabelul Rotated Component Matrix.
10
11
Tabel nr. 10
Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu versorii noului
spatiu redus . Acesti versori sunt dati de vectorii proprii corespunzatori valorilor proprii mai mari decat 1. Tabelul
Component Score Coefficient Matrix (Tabel nr 10) reprezinta matricea versorilor, continand vectorii proprii
corespunzatori valorilor proprii retinute.
In continuare apelam Graphs Scatter/Dot Alegem Simple Scatter:
12
In acest grafic putem observa un grup destul de compact ce par a avea un comportament asemanator in raport cu
noii indicatori, dar i un grup de varsta care se detaseaza.
III
Analiza cluster:
In continuare, tot pentru aceiasi matrice a datelor standardizate vom aplica tehnici de clasificare bazate pe
algoritmi ierarhici pentru a putea exemplifica atat gruparea firmelor cat si gruparea indicatorilor.
Analiza cluster este o tehnica de clasificare caracterizat prin faptul c afectarea formelor sau obiectelor in
clustere sau grupe se face progresiv i fara a cunoate aprioric numarul de clase, in functie de verificarea a doua
criterii fundamentale:
a. obiectele sau formele clasificate n fiecare clas sa fie cat mai similare din punct de vedere al anumitor
caracteristici;
b. obiectele clasificate ntr-o clasa si se diferentieze cat mai mult de obiectele clasificate in oricare din celelalte clase.
In vederea aplicrii tehnicii de clasificare in SPSS vom parcurge urmatorii pasi:
Pas 1 avem matricea de date standardizate in SPSS
Pas 2 apelam Analyse Classify Hierarchical Cluster
13
Va fi calculata matricea de proximitatea in care care fiecare element al ei este reprezentat de distanta
euclidiana intre firmele corespunzatoare, distanta calculat in funcie de toti cei 6 indicatori observati (folosind
distanta euclidiana ca masura a disimilaritatii). Aceasta matrice fiind prezentata in urmatorul tabel:
14
Dupa care pentru exemplificarea agregarii firmelor prezentm n tabelul urmtor etapele de constituire a
claselor, in care se poate observa modul de formare a uni grup precum i nivelul de agregare corespunzator pentru
fiecare algoritm in parte, astfel:
Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se numeste arborele
clasificarii sau dendrograma clasificarii. Pentru a identifica numarul de clase trebuie sa identificam o partitie cu un
numar redus de grupe si o partitie cu un numar mare de grupe. Apoi ducem o paralela cu axa oy iar numarul de puncte
care intersecteaza dreapta ne da numarul de clase.
15
16
17