Proiect Analiza Datelor

FACULTATEA DE CIBERNETICA,STATISTICA SI INFORMATICA ECONOMICA,BUCURESTI
PROIECT LA ANALIZA DATELOR
TRASCA ROXANA-MIHAELA
GRUPA 1048
SERIA INFORMATICA A
PROF COORDONATOR : ANDREEA MURARU
CUPRINS
PREZENTAREA DATELOR
ANALIZA COMPONENTELOR PRINCIPALE
ANALIZA CLUSTER
ANALIZA DISCRIMINANTA
BLIBLIOGRAFIE
CONCLUZII
I.PREZENTAREA DATELOR
In vederea realizarii proiectului ,ceea ce implica utilizaea programelor Spss si Eviews

pentru analiza componentelor principale si respective,pentru tehinicile de clasificare ierarhica,a
fost consultat site-ul www.eurostat.ro ,de unde s-au extras un numar de 20 de tari pentru care
au fost selectati 6 indicatori si anume : PIB pe cap de locuitor,Export de bunuri si servicii,Import
de bunuri si servicii,Venit net national,Rata de crestere PIB si investitii.Anul de referinta este
anul 2009.
PIB-ul pe cap de locuitor este PIB-ul impartit la numarul locuitorilor.Acesta este adesea
dat ca ajustat,insemnand ca este astfel calculate incat nivelurile diferitelor preturi sunt mscate in
diferite tari.Astfel poate fi comparata eficienta diferitelor tari.
Exportul este o operatie cu caracter commercial prin care o parte din marfurile
produse,prelucrate,completate sau reparate intr-o tara se vand pe piata altor tari.
Importul constituie totalitatea operatiilor cu caracter commercial prin care se introdus
intr-o tara marfuri/produse cumparate din alte tari.
Venitul national reprezinta exprimarea in preturile factorilor a produsului national net si
exprima suma veniturilor obtinute de proprietarii factorilor de productie.
Rata reala de crestere a PIB-ului exprima cresterea economica a unei tari si reprezinta
rata de crestere a produsului intern brut ajustata cu inflatia.
Investitiile reprezinta plasarea de capitaluri in intreprinderi industriale, agricole,
comerciale etc cu scopul obtinerii de profituri.
II.ANALIZA COMPONENTELOR PRINCIPALE(ACP)
Analiza componentelor principale reprezinta o analiza multidimensionala care are ca

scop sinetizarea informatiei continuta in variabilele initiale prin intermediul unor noi variabile in
numar mai mic ,care sunt correlate doua cate doua,fara ca aceasta forma sa contina
redundante informationale.Aceste componente exprima attribute noi si sunt construite in asa fel
incat sa fie necorelate intre ele,fiecare fiind o combinatie liniara de variabile originale.
Astfel,are loc reducerea dimensionalitatii spatiului causal initial si inlaturarea redundantei
informationale.Caracteristicile rezultate in urma transformarii caracteristicilor initiale se nume
component principale si sunt exprimate sub forma combinatiilor liniare de variabile originale
,ele ,de asemenea sunt caracterizate de o variablitate maxima.
Scopul acestei analize este ca pentru matricea noastra de date sa se identifice noi
variabile care sa exprime sintetic vechile variabile astfel incat cantitatea totala de informative sa
nu se piarda decat in mod controlat.
Astfel ,dupa incarcarea matricei de date in SPSS ,vom incepe analiza prin a remarca
faptul ca toate caracteristicile urmarite sunt variabile continue,scara lor de masura fiind usor de
identificat.Prin urmare pentru fiecare variabila in parte,pentru inceput,vom calcula indicatorii de
centrare si de imprastiere cum ar fi media,valoarea minima,valoarea maxima,precum si
abaterea standard.
Tabelul Descriptive Statistics contine informatii despre fiecare variabila analizata

independent.Din table aflam ca pentru variabila PIB pe cap de locuitor valoarea maxima este
247 ,iar cea medie este de 96.70 de unde putem concluziona ca in medie PIB-ul este destul de
ridicat.Gradul exportului de bunuri si servicii este destul de ridicat avand o valoare maxima de
168.2 ,precum si cel al importului de bunuri si servicii care are o valoare maxima de 135.3
destul de apropiata de cea a exportului.Venitul national net are o valoare maxima de 87.9,iar
investitiile au o valoare maxima de 33.6.Valoarea medie a ratei de crestere a PIB-ului a tarilor
analizate este de 1.56,aceasta variabila avand abaterea standard cea mai mica de 2.36,ceea ce
ne arata ca este si cea mai omogena variabila,dar si cea mai stabila.
Apoi pentru a vedea daca indicatorii calculate sunt independent sau nu vom analiza
matricea coeficientilor de corelatie din tabelul urmator :
La prima vedere putem afirma faptul ca in matricea coeficientilor de corelatie exista

corelatii atat in sens pozitiv,cat si in sens negativ.Astfel identificam in matricea de mai sus,un
coefficient foarte mare de corelatie apropiat de valoarea 1,si anume intre indicatorul Export de
bunuri si servicii si indicatorul Import de bunuri si servicii avand o valoare de 0.986.Totodata se
mai identifica coeficienti de corelatie destul de mari intre indicatorul PIB pe locuitor si Export de
bunuri si servicii avand o valoare de 0.656.
Ca urmare a acestor constatari am putea totusi sa eliminam unii indicatori,dar problema
este pe care sa-I eliminam;pentru a elimina subiectivismul decizie,vom folosi tehnicile de
analiza a componentelor principale implementate in SPSS,si ne propunem sa identificam doi
indicatori sintetici cu care ne-am multumi in atingerea scopului propus.
Din acest table reiese faptul ca toate variabilele folosite contribuie major la explicarea
variabilelor artificiale obtinute ulterior(cu exceptia variabilei 5 reprezentand rata de crestere a
PIB-ului,fiecare dintre ele,in rest,avand o cantitate de infomatie recuperate de peste 40% dupa
cum reiese din coloana Extraction.Din analiza acestuia se observa ca variabila 2 are o
contributie majora la explicarea varabilelor atificiale care se obtin ulterior.Cantitatea de
informative recuperate din aceasta varabila este de 0.969,urmata in aproape de a3-a variabila
care recupereaza 0.935 din informative,dupa cum reiese din coloana Extraction din tabelul de
mai sus.
Pentru a stabili numarul de component principale necesare se folosesc informatiile din
tabelul Total Variance Explained.Tabelul ne ofera informatii cu privire la valorile proprii ale
matricei de corelatie,dar si informatii referitoare la componentele principale si cantitatea de
informatie retinuta de acestea.O valoare proprie mai mare decat 1,pentru o component ,indica
faptul ca acea component are o contributie mai mare decat a unei variabile initiale,deci este
indicat a fi extrasa.
Pentru inceput vom afisa si datele obtinute cu ajutorul programului Eviews,care sunt
aceleasi cu cele obtinute in programul SPSS pentru analiza componentelor principale :
Output din SPSS:
Se observa ca pentru a recupera o cantitate cat mai mare de informative din datele
initiale avem nevoie de doua component principale.Acestea corespund valorilor proprii cele mai
mari,valori proprii peste 1,iar aceste valori reprezinta variantele corespunzatoare celor doua
component retinute .Cele doua valori proprii retinute cu valori de peste 1,se afla in coloana
Initial Eigenvalues si sunt,in oridine descrescatoare, 60.088 si 20.059.Utilizand doua component
principale,cantitatea de informative total recuperate este de 80.147% din informatia intiala,asa
cum se observa in coloana Cumulative%.Dintre cele doua componente principale ,prima
acopera 60.088% din varianta finala,iar a doua component 20.059%.
Pentru a stabili numarul de component principale necesare se mai poate folosi si
metoda grafica.In Scree Plot ,graficul descresterii,se observa doua diferente semnificative de
nivel intre segmentele ce indica reprezentarea grafica a valorilor proprii,cee ace ne idica
necesitatea unui numar de 2 componente principale.
Pe abscisa sunt reprezentate etichetele valorilor proprii,in timp ce pe ordonata se afla
valorile efective ale acestora.Folosind criterial pantei si reprezentarea grafica a valorilor proprii
se poate deterina numarul de component principale necesare reprezentarii spatiului initial.In
urma identificarii numarului de diferente semnificative dintre valorile proprii
reprezentate,deasupra ultimei diferente semnificative in reprezentarea grafica se duce o
paralela la abscisa,iar numarul de valori proprii ramase deasupra paralelei da numarul de
componente principale.
Prima componenta principala este puternic influentata de nivelul exportului si

importului de bunuri si servicii,dar si de PIB-ul pe cap de locuitor.Dupa o ordonare
descrescatoare se observa ca pe primul loc la nivelul exportului si importului de bunuri si servicii
se afla Luxemburg,urmata de Slovacia,Estonia,Belgia,Ungaria ,iar cele mai slabe sunt Franta si
Grecia.
A doua componenta principala este puternic influentata de Investii.Dupa o ordonare

descrescatoare pe primul loc la nivelul de investitii se afla Germania,iar pe ultima pozitie se afla
Bulgaria.
Tabelul Rotated Component Matrix foloseste tehnica rotirii axelor,tehnica Varimax,si

are drept scop obtinerea unor coeficienti de corelatie cat mai mici pe una din componentele
principale.In cazul nostrum interpretarea se poate face cu usurinta si pe prima matrice de
corelatie dintre variabilele originale si componentele principale.Se observa ca prin tehnica
Varimax obtinem aceeasi interpretare.Tehnica Varimax realizeaza o rotatie a axelor intiale
pentru a facilita interpretarea factorilor astfel obtinuti:
Tabelul Component Transformation Matrix indica corelatia componentelor inainte si

dupa rotatie.
Componenta Plot in Rotated Space ofera o reprezentare grafica a celor 2

componente principale.Fiecare variabila este reprezentata in functie de corelatia cu fiecare
component.Este un mod grafic de a prezenta aceeasi informative ca in tabelul Rotated
Component Matrix.
Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor

originale cu versorii noului spatiu redus.Acesti versori sunt dati de vectorii proprii corespunzatori
valorilor proprii mai mari decat 1.Tabelul Component Score Coefficient Matrix reprezinta
matricea versorilor,continand vectorii proprii corespunzatori valorilor proprii retinute.Datele sunt
in tabelul de mai jos:
Matricea Component Score Covariance Matrix demonstreaza faptul ca covarianta

dintre componentelor principale este 0,componentele fiind interpretate in functie de valori
diferite.
III.ANALIZA CLUSTER
Vor fi supuse procesului de clusterizare toate cele 20 de state,variabilele pe baza

carora se va face impartirea lor in clase fiind:
PIB pe cap de locuitor;

Export de bunuri si servicii;
Import de bunuri si servicii;
Venit net national;
Rata de crestere PIB;
Investitii;
Metodele de analiza cluster au ca scop gruparea indivizilor,identificati printr-o serie de

attribute,intr-un numar cat mai restrans de clase omogene.Aceste metode realizeaza o
analiza globala a indivizlor ce sunt studiati printr-un numar mare de variabile si ipoteze
cerute minime.Astfel se realizeaza clase in asa fel incat indivizii apartinand aceleiasi clase
sa fie cat mai asemanatori intre ei prin variabilele lor in timp ce clasele constituite sa fie cat
mai diferite.Clusterul reprezinta o submultime formata din obiecte care au proprietatea ca
gradul de dismilaritate dintre oricare doua obiecte apartinand clusterului este mai mic decat
gradul de disimilaritate dintre orice obiect care apartine clusterului si orice obiect care nu
apartine clusterului respective.
Analiza claselor ierarhice este o metoda de grupare ierarhica in care fiecare clasa
este in totalitate continuta in alta clasa.Clasele grupeaza indivizi cat mai asemanatori intre ei
prin valorile varibilelor lor,in timp ce clasele constituite sunt cat mai diferite.
Pentru a masura distanta am ales distanta euclidiana simpla,iar metodele pentru
care am optat sunt metoda celor mai apropiati vecini si metoda lui Ward,pentru a
determina care dintre cele doua duc la rezultate mai bune in cazul de fata. In ambele cazuri
s-au folosit variabile standardizate,unitatea de masura a variabilelor fiind diferita.
Distanta dintre doua clustere este masurata ca distanta intre cele mai apropiate doua
obiecte din cele doua clustere.Se bazeaza pe maximizarea gradului de omogenitate al
clusterului (minimizarea variabilitatii intre cluster)si maximizarea variabilitatii intercluster.
Rezultatele analizei cluster sunt diferite in functie de metoda aplicata,astfel,dupa cum
se va putea observa din cele doua dendograme precum si din schemele de
agregare,ordinea in care are loc gruparea obiectelor este diferita.
METODA CEI MAI APROPIATI VECINI
In primul pas se grupeaza tarile 4 si 15(clusterd combined) intre acestea existand

cea mai mica distanta.Acestora li se adauga in etapa 2(coloana Next Stage) o noua
tara(daca va uitati la pasul 2 vedeti ca se grupeaza 4 si 19).Logica gruparii este aceeasi si
pentru pasii urmatori.
Dendograma:
Cluster 1: Danemarca,Austria,Finalnda,Cipru,Franta,Italia,Germania,Portugalia,Belgia
Cluster 2: Olanda,Ungaria,Estonia,Slovenia,Bulgaria,Romania,Spania,Slovacia,Croatia
Cluster 3:Grecia
Cluster 4:Luxemburg
METODA LUI WARD

Metoda celor mai apropiati vecini nu ilustreaza foarte clar clustere de tari,motiv
pentru care metoda lui Ward este cea care va furniza numarul de clustere in care vom
imparti cele 20 de state.Dendograma sugereaza un numar mare de grupe.Schema de
grupare este diferita fata de cea din cazul precedent.
In primul pas se grupeaza tarile 4 si 15 ,iar etapa urmatoare este cea diferita si anume
va fi etapa 3 unde se vor grupa tarile 4 si 19.
Dendograma:
Cluster 1: Danemarca,Austria,Finlanda,Cipru,Franta,Italia,Germania,Olanda,Portugalia
Cluster 2:Belgia,Ungaria,Slovacia
Cluster 3:Grecia,Croatia,Estonia,Slovenia,Bulgaria,Romania,Spania
Cluster 4:Luxemburg
In cazul de fata metoda lui Ward a dus la obtinerea unor rezultate mai
bune,permitand o diferentiere mai clasa a clusterelor.Folosind principiul minimizarii variantei
in cadrul grupurilor,ilustreaza mai bine profilul tarilor.Pe de alta parte,metoda celor mai
apropiati vecini duce uneori la constiutuirea de grupuri eterogene,variant din cadrul
grupurilor putand inregistra valori mai ridicate.In analiza de fata,metoda lui Ward duce la
izolarea unui singur stat Luxemburg.
IV.ANALIZA DISCRIMINANTA
Analiza discriminanta face parte din metodele de recunoastere supervizata a

formelor.In cadrul acestor metode se cunoaste numarul de clase si apartenenta formelor
dintr-un esantion la clase,si se urmareste predictia apartenentei formelor din afara
esantionului la una dintre clase.
In acest scop se construieste un clasficiator,functie de variabilele dupa care se
face clasificarea.In functie de valoarea acestuia pentru fiecare obiect se stabileste daca el
apartine unei forme sau alteia.
Principala problema care trebuie rezolvata in cadrul analizei discriminante este
aceea a construirii criteriilor sau regulilor de clasificare,pe baza carora se pot face predictii
privind apartenenta unor forme noi,cu apartenenta initiala necunoscuta.Criteriile de
clasificare mai sunt cunoscute si sub numele de clasificatori,iar deducerea acestor criterii se
numeste formare a clasificatorului.
Pentru a determina analiza discriminanta,am aplicat algoritmul celor k-medii care
este cel mai utilizat algoritm de partitionare .
Analysis Case Processing Summary .Acest table rezuma setul de date de

analiza in ceea ce priveste cazurile valabile si excluse.Motivele prin care SPSS ar putea
exclude o observatie de analiza sunt listate aici,si sunt prezentate de numarul N si de
procentul de cazuri care se incadreaza in fiecare categorie.In acest exemplu,toate
observatiile din setul de date sunt valabile.
Group Statistics. Acest table prezinta distributia de observatii in cele trei

grupuri.Putem vedea numarul de observatii ce se incadreaza in fiecare dintre cele doua
grupuri.In acest exemplu,vom folosi greutatea implicita de 1 pentru fiecare observatie in
setul de date,astfel incat numarul ponderat de observatii din fiecare grup este egal cu
numarul neponderat de observatii din fiecare grup.
Eigen value . Acestea sunt valorile proprii ale matricei produsului inversului dintre
grupuri si sume de patrate si matrice intre produse si intre grupuri sume de patrate si
matricea indirecta a produsului. Aceste valori proprii sunt legate de corelatiile canonice si
descrie cat de mult discriminarea capacitatii are o functie.Marimile valorilor proprii sunt
informative de abilitati discriminatorii.
WilksLambda este o statistica multivariate calculate prin SPSS.In acest

exemplu,corelatia canonica este 0.974,astfel testarea WilksLambda este
(1- 0,721 2 ) * (1 0.974 2 ) = 0,52.
Primul cluster are valoarea -0.931 ,iar cel de-al doilea cluster are valoarea 17.694.Stim ca
scorurile functionale au o medie de la zero,si putem verifica acest lucru uitandu-ne la suma de grup ce
inseamna functia inmultita cu numarul de cazuri in fiecare grupa :
(19*-0.931)+(1*17.694)=0.
Structure Matrix . Aceasta este structura canonica a functiilor discriminante.Ea reprezinta

corelatiile dintre variabilele observate si dimensiunile create cu functiile discriminante neobservabile.
Classification Processing Summary. Acest lucru este similar cu rezumatul analiza dosarului
de prelucrare. In acest tabel transformate sunt observatiile care au fost clasificate cu success pe baza
analizei. Motivele pentru care o observatie nu a fost procesata sunt indicate aici. Putem vedea ca in
acest exemplu,toate observatiile din setul de date au fost clasificate cu success.
Prior Probabilities for Groups. Aceasta este distributia de observatii in grupurile

utilizate ca un punct de plecare in analiza. Distributia implicit prealabila este o alocare egala
in grupuri,asa cum se vede in acest exemplu. SPSS permite utilizatorlor sa specific diferite
antecedente.
V.BIBLIOGRAFIE
Gheorghe Ruxanda <<Analiza Multidimensionala a datelor>>
www.eurostat.ro
www.ats.ucla.edu/stat/spss/output/SPSS_discrim.htm
VI.CONCLUZII
Pe baza analizei efectuate asupra celor 20 de tari ,si asupra celor 6 factori de influenta
am putut sa concluzionam care sunt cele mai dezvoltate tari si ce caracteristici are fiecare.In
cadrul analizei efectuate pe acest esantion s-a putut observa ca unele variabile erau puternic
correlate intre ele astfel incat nu aduceau un plus de informative.
In concluzie,analiza componentelor principale ne-a permis sa realizam o sintetizare
informationala si sa caracterizam un sir de observatii .Astfel,am putut realiza compartii intre
observatii.
Metodele de analiza a datelor ne oferta tehnici foarte valoroase in contextual analizei
fenomenelor socio-economice actuale,ajustand la simplificarea modelelor matematice si
structurilor complexe ce incearca sa determine si sa clarifice relatiile dintre componentele
acestui system.

Proiect Analiza Datelor

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Proiect Analiza Datelor

Încărcat de

Drepturi de autor:

Formate disponibile

FACULTATEA DE CIBERNETICA,STATISTICA SI INFORMATICA ECONOMICA,BUCURESTI

PROIECT LA ANALIZA DATELOR

In vederea realizarii proiectului ,ceea ce implica utilizaea programelor Spss si Eviews

II.ANALIZA COMPONENTELOR PRINCIPALE(ACP)

Analiza componentelor principale reprezinta o analiza multidimensionala care are ca

Tabelul Descriptive Statistics contine informatii despre fiecare variabila analizata

La prima vedere putem afirma faptul ca in matricea coeficientilor de corelatie exista

Output din SPSS:

Prima componenta principala este puternic influentata de nivelul exportului si

A doua componenta principala este puternic influentata de Investii.Dupa o ordonare

Tabelul Rotated Component Matrix foloseste tehnica rotirii axelor,tehnica Varimax,si

Tabelul Component Transformation Matrix indica corelatia componentelor inainte si

Componenta Plot in Rotated Space ofera o reprezentare grafica a celor 2

Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor

Matricea Component Score Covariance Matrix demonstreaza faptul ca covarianta

Vor fi supuse procesului de clusterizare toate cele 20 de state,variabilele pe baza

PIB pe cap de locuitor;

Metodele de analiza cluster au ca scop gruparea indivizilor,identificati printr-o serie de

METODA CEI MAI APROPIATI VECINI

In primul pas se grupeaza tarile 4 si 15(clusterd combined) intre acestea existand

METODA LUI WARD

Analiza discriminanta face parte din metodele de recunoastere supervizata a

Analysis Case Processing Summary .Acest table rezuma setul de date de

Group Statistics. Acest table prezinta distributia de observatii in cele trei

WilksLambda este o statistica multivariate calculate prin SPSS.In acest

Structure Matrix . Aceasta este structura canonica a functiilor discriminante.Ea reprezinta

Prior Probabilities for Groups. Aceasta este distributia de observatii in grupurile

Gheorghe Ruxanda <<Analiza Multidimensionala a datelor>>

S-ar putea să vă placă și