Documente Academic
Documente Profesional
Documente Cultură
TRASCA ROXANA-MIHAELA
GRUPA 1048
SERIA INFORMATICA A
PROF COORDONATOR : ANDREEA MURARU
CUPRINS
PREZENTAREA DATELOR
ANALIZA COMPONENTELOR PRINCIPALE
ANALIZA CLUSTER
ANALIZA DISCRIMINANTA
BLIBLIOGRAFIE
CONCLUZII
I.PREZENTAREA DATELOR
PIB-ul pe cap de locuitor este PIB-ul impartit la numarul locuitorilor.Acesta este adesea
dat ca ajustat,insemnand ca este astfel calculate incat nivelurile diferitelor preturi sunt mscate in
diferite tari.Astfel poate fi comparata eficienta diferitelor tari.
Exportul este o operatie cu caracter commercial prin care o parte din marfurile
produse,prelucrate,completate sau reparate intr-o tara se vand pe piata altor tari.
Importul constituie totalitatea operatiilor cu caracter commercial prin care se introdus
intr-o tara marfuri/produse cumparate din alte tari.
Venitul national reprezinta exprimarea in preturile factorilor a produsului national net si
exprima suma veniturilor obtinute de proprietarii factorilor de productie.
Rata reala de crestere a PIB-ului exprima cresterea economica a unei tari si reprezinta
rata de crestere a produsului intern brut ajustata cu inflatia.
Investitiile reprezinta plasarea de capitaluri in intreprinderi industriale, agricole,
comerciale etc cu scopul obtinerii de profituri.
analizate este de 1.56,aceasta variabila avand abaterea standard cea mai mica de 2.36,ceea ce
ne arata ca este si cea mai omogena variabila,dar si cea mai stabila.
Apoi pentru a vedea daca indicatorii calculate sunt independent sau nu vom analiza
matricea coeficientilor de corelatie din tabelul urmator :
Din acest table reiese faptul ca toate variabilele folosite contribuie major la explicarea
variabilelor artificiale obtinute ulterior(cu exceptia variabilei 5 reprezentand rata de crestere a
PIB-ului,fiecare dintre ele,in rest,avand o cantitate de infomatie recuperate de peste 40% dupa
cum reiese din coloana Extraction.Din analiza acestuia se observa ca variabila 2 are o
contributie majora la explicarea varabilelor atificiale care se obtin ulterior.Cantitatea de
informative recuperate din aceasta varabila este de 0.969,urmata in aproape de a3-a variabila
care recupereaza 0.935 din informative,dupa cum reiese din coloana Extraction din tabelul de
mai sus.
Pentru a stabili numarul de component principale necesare se folosesc informatiile din
tabelul Total Variance Explained.Tabelul ne ofera informatii cu privire la valorile proprii ale
matricei de corelatie,dar si informatii referitoare la componentele principale si cantitatea de
informatie retinuta de acestea.O valoare proprie mai mare decat 1,pentru o component ,indica
faptul ca acea component are o contributie mai mare decat a unei variabile initiale,deci este
indicat a fi extrasa.
Pentru inceput vom afisa si datele obtinute cu ajutorul programului Eviews,care sunt
aceleasi cu cele obtinute in programul SPSS pentru analiza componentelor principale :
Se observa ca pentru a recupera o cantitate cat mai mare de informative din datele
initiale avem nevoie de doua component principale.Acestea corespund valorilor proprii cele mai
mari,valori proprii peste 1,iar aceste valori reprezinta variantele corespunzatoare celor doua
component retinute .Cele doua valori proprii retinute cu valori de peste 1,se afla in coloana
Initial Eigenvalues si sunt,in oridine descrescatoare, 60.088 si 20.059.Utilizand doua component
principale,cantitatea de informative total recuperate este de 80.147% din informatia intiala,asa
cum se observa in coloana Cumulative%.Dintre cele doua componente principale ,prima
acopera 60.088% din varianta finala,iar a doua component 20.059%.
Pentru a stabili numarul de component principale necesare se mai poate folosi si
metoda grafica.In Scree Plot ,graficul descresterii,se observa doua diferente semnificative de
nivel intre segmentele ce indica reprezentarea grafica a valorilor proprii,cee ace ne idica
necesitatea unui numar de 2 componente principale.
Pe abscisa sunt reprezentate etichetele valorilor proprii,in timp ce pe ordonata se afla
valorile efective ale acestora.Folosind criterial pantei si reprezentarea grafica a valorilor proprii
se poate deterina numarul de component principale necesare reprezentarii spatiului initial.In
urma identificarii numarului de diferente semnificative dintre valorile proprii
reprezentate,deasupra ultimei diferente semnificative in reprezentarea grafica se duce o
paralela la abscisa,iar numarul de valori proprii ramase deasupra paralelei da numarul de
componente principale.
III.ANALIZA CLUSTER
Dendograma:
Cluster 1: Danemarca,Austria,Finalnda,Cipru,Franta,Italia,Germania,Portugalia,Belgia
Cluster 2: Olanda,Ungaria,Estonia,Slovenia,Bulgaria,Romania,Spania,Slovacia,Croatia
Cluster 3:Grecia
Cluster 4:Luxemburg
In primul pas se grupeaza tarile 4 si 15 ,iar etapa urmatoare este cea diferita si anume
va fi etapa 3 unde se vor grupa tarile 4 si 19.
Dendograma:
Cluster 1: Danemarca,Austria,Finlanda,Cipru,Franta,Italia,Germania,Olanda,Portugalia
Cluster 2:Belgia,Ungaria,Slovacia
Cluster 3:Grecia,Croatia,Estonia,Slovenia,Bulgaria,Romania,Spania
Cluster 4:Luxemburg
In cazul de fata metoda lui Ward a dus la obtinerea unor rezultate mai
bune,permitand o diferentiere mai clasa a clusterelor.Folosind principiul minimizarii variantei
in cadrul grupurilor,ilustreaza mai bine profilul tarilor.Pe de alta parte,metoda celor mai
apropiati vecini duce uneori la constiutuirea de grupuri eterogene,variant din cadrul
grupurilor putand inregistra valori mai ridicate.In analiza de fata,metoda lui Ward duce la
izolarea unui singur stat Luxemburg.
IV.ANALIZA DISCRIMINANTA
Eigen value . Acestea sunt valorile proprii ale matricei produsului inversului dintre
grupuri si sume de patrate si matrice intre produse si intre grupuri sume de patrate si
matricea indirecta a produsului. Aceste valori proprii sunt legate de corelatiile canonice si
descrie cat de mult discriminarea capacitatii are o functie.Marimile valorilor proprii sunt
informative de abilitati discriminatorii.
Primul cluster are valoarea -0.931 ,iar cel de-al doilea cluster are valoarea 17.694.Stim ca
scorurile functionale au o medie de la zero,si putem verifica acest lucru uitandu-ne la suma de grup ce
inseamna functia inmultita cu numarul de cazuri in fiecare grupa :
(19*-0.931)+(1*17.694)=0.
Classification Processing Summary. Acest lucru este similar cu rezumatul analiza dosarului
de prelucrare. In acest tabel transformate sunt observatiile care au fost clasificate cu success pe baza
analizei. Motivele pentru care o observatie nu a fost procesata sunt indicate aici. Putem vedea ca in
acest exemplu,toate observatiile din setul de date au fost clasificate cu success.
V.BIBLIOGRAFIE
www.eurostat.ro
www.ats.ucla.edu/stat/spss/output/SPSS_discrim.htm
VI.CONCLUZII
Pe baza analizei efectuate asupra celor 20 de tari ,si asupra celor 6 factori de influenta
am putut sa concluzionam care sunt cele mai dezvoltate tari si ce caracteristici are fiecare.In
cadrul analizei efectuate pe acest esantion s-a putut observa ca unele variabile erau puternic
correlate intre ele astfel incat nu aduceau un plus de informative.
In concluzie,analiza componentelor principale ne-a permis sa realizam o sintetizare
informationala si sa caracterizam un sir de observatii .Astfel,am putut realiza compartii intre
observatii.
Metodele de analiza a datelor ne oferta tehnici foarte valoroase in contextual analizei
fenomenelor socio-economice actuale,ajustand la simplificarea modelelor matematice si
structurilor complexe ce incearca sa determine si sa clarifice relatiile dintre componentele
acestui system.