Sunteți pe pagina 1din 8

Proiect Analiza Datelor

I. Analiza Componentelor principale

Urmatoarea analiza incearca sa determine un indicator pentru gradul de cunoastere al


unei tari in ceea ce priveste tehnologia si cercetarea. Am ales sa fac aceasta analiza pentru a
vedea ce indicator este potrivit pentru a exprima gradul de cunoastere al unei tari.

In realizarea analizei am pornit de la un set de date referitoare la cheltuielile pentru


educatie din produsul inter brut (EDU), indicele dezvoltarii umane (IDU), cheltuieli de cercetare
si dezvoltare (% din PIB)(CD), procentul populatie care foloseste internetul (INTERNET), numarul
de cercetatori la un milion de locuitori (CER). Datele au fost preluate de pe site-ul Bancii
Mondiale si Eurostat, si au in vedere mare parte din statele Uniunii Europene. Pe baza acestor
date, dorim sa construim un indicator care sa ne arate gradul de cunoastere al unei tari.

Analiza componentelor principale asigura o descompunere exprimata printr-un numar


redus de componente si neredundanta a variabilitatii totale din spatiul cauzal initial. Analiza
componentelor principale este o tehnica de analiza multidimensionala care are ca scop
reducerea dimensionalitatii spatiului cauzal initial, in conditiile unor pierderi informationale
minime. Prin simplificarea spatiului cauzal se intelege reducerea dimensionalitatii acestuia,
astfel incat sa se obtina un spatiu cauzal de dimensiune mai mica si care sa permita o
reprezentare mai simpla si mai sugestiva a obiectelor.

Figura 1 - Distributia observatiilor intre perechi de variabile

Figura 1 ne arata faptul ca intre variabile exista o legatura directa. Acest lucru ne este
aratat si
de calculul coeficientilor de corelatie. Cea mai mica valoare inregistrata de acestia este
0.6480608, cea mai puternica fiind de 0.8912710.
Înainte de a aplica ACP, variabilele au fost standardizate, devenind astfel comparabile
din perspective valorii medii și a volatițității.

EDU IDU CD INTERNET CER


EDU 1.0000000 0.7568119 0.7921016 0.7803127 0.8766987
IDU 0.7568119 1.0000000 0.7337745 0.7949808 0.7523423
CD 0.7921016 0.7337745 1.0000000 0.6480608 0.8912710
INTERNET 0.7803127 0.7949808 0.6480608 1.0000000 0.7872411
CER 0.8766987 0.7523423 0.8912710 0.7872411 1.0000000

Din analiza coeficientilor de corelatie, nu sunt identificate grupe de variabile care sa fie
mai puternic corelate intre ele, ceea ce poate sugera faptul ca este retinuta o singura
componenta principala.

Importance of Components:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
Standard deviation 2.0319233 0.63265772 0.49611414 0.39702071 0.25937825
Proportion of Variance 0.8257425 0.08005116 0.04922585 0.03152509 0.01345542
Cumulative Proportion 0.8257425 0.90579365 0.95501950 0.98654458 1.00000000

Alegerea unei singure componente principala este justificata si de Screeplot, graficul


valoriilor proprii, care indica scaderea brusca a valoriilor proprii de la cea de-a doua
componenta. De altfel, valoarea primei valori proprii este mai mare decat media tuturor
componentelor retinute. Astfel, conform criteriului lui Kaiser o singura componenta este
retinuta. De asemenea, conform criteriului informational (criteriul informatiei detinute), prima
componenta retine aproximativ 83% din informatia totala. Aceasta cantitate este suficienta
pentru a considera ca intreg setul de observatii poate fi rezumat printr-o singura componenta
principala, nivelul din PIB alocat pentru educatie.
II Analiza Cluster – Identificare structurii de clase a statelor membre UE pornind
de la indicatori privind educatia, dezvoltarea si cercetarea.

Introducere
Aceasta analiza are ca scop crearea unor grupe in urma carora tarile din Europa pot fi
impartite pe baza similitudinii dintre ele, avand la baza informatia furnizata de 5 indicatori
referitori la educatie, dezvoltare,forta de munca in servicii si cercercetare. Astfel, prin aceasta
grupare se pot observa caractesticile majore pe care le au in comun tarile cuprinse in acelasi
grup.
Analiza Cluster are ca scop cautarea si identificare de clase, grupe sau clustere in cadrul
unei multime de obiecte sau forme, astfel incat elementele care apartin aceleasi clase sa fie cat
mai asemanatoare, iar elementele care apartin de clase diferite sa fie cat mai deosebite intre
ele. Analiza Cluster este o modolitate de examinare a similaritatilor si disimilaritatilor dintre
obiecte apartinand unei anumite multimi, in scopul gruparii acestor obiecte sub forma unor
clase dinstincte intre ele si omogene in interior.

Reprezentarea grafica a tuturor tarile in functie de variabila EDU (procentul cheltuielilor alocate
pentru Educatie din PIB) si IDU (Indicele dezvoltarii umane) sugereaza faptul ca tarile pot fi grupate in
trei clase(grafic).
Toate metodele de analiza ierarhica au la baza calculul distantei dintre variabile, in prima faza
unidu-se cele mai apropiate doua obiecte: in acest caz 26 si 7 (Danemarca si Suedia), si apoi 16 si 21
(Lituania si Portugalia).
Crearea unui grafic de tip heatmap, arata o reprezentare vizuala asupra modulului in care se vor
grupa variabilele prin analiza ierarhica, continand o grupare a obiectelor cat si a variabilelor.
Dendograma construita pe heatmap are la baza metoda agregarii complete, asa incat
prima modalitate de analiza ierarhica a fost aceasta.

Aplicarea analizei ierarhice de tip complete linkage, sugereaza un numar de 3 clustere


avand urmatoare componenta:
1. Luxemburg, Irlanda, Marea Britanie, Olanda, Finlanda, Danemarca, Suedia, Belgia, Franta,
Austria, Germania
2. Bulgaria, Romania
3. Slovenia, Polonia, Ungaria, Lituania, Portugalia, Croatia, Letonia, Spania, Grecia, Italia,
Slovacia, Cehia, Estonia
Metoda lui Ward

Centroizii:
EDU IDU CD OFS INTERNET
1 -1.8567587 -2.0243625 -1.2606801 -1.7778198 -1.9452256
2 -0.4927243 -0.4468232 -0.5123596 -0.4100972 -0.4164727
3 0.9199030 0.8961296 0.8347304 0.8079003 0.8458724
Concluzie:
Ambele clase de alrgoritmi au identificat un numar de 3 grupe. In urma aplicarii putem
concluziona ca tarile din grupa 1 sunt tarile cu nivelul intelectual cel mai ridicat, acestea fiind
tarile nordice(Findlanda, Suedia, Danemarca) si tari vestice dezvoltate (Luxemburg, Irlanda,
Olanda, Marea Britanie, Belgia, Franta, Austria, Germania). In a 2-a grupa sunt cele doua tari
codase ale Uniune Europene, care sunt slab dezvoltate, au putin peste jumatate din populatie
conectata la internet si in care sectorul de servicii nu este la fel de important in economie,
precum in celelalte tari ale Uniunii Europene. In cea de-a 3-a grupa fac parte tarile care au intrat
in anul 2004 in Uniunea Europeana(Slovacia, Cehia, Slovenia, Polonia, Ungaria, Estonia,
Lituania, Letonia- tari fost comuniste), dar si tari ale caror economie a fost zdruncinata in
perioada crizei (Grecia, Italia, Portugalia).

III Analiza Discriminanta


Scopul acestei analize este acela de a identifica funcțiile discriminant și de a realiza
clasificarea tărilor în grupele deja identificate prin aplicarea analizei cluster. Vom identifica
totodată puterea discriminatorie a variabilelor descriptor precum și procentul de clasificare
corectă a obiectelor în urma aplicării analizei.

Analiza discriminanta reprezinta procesul de utilizare a unei game variate de metode,


tehnici si algoritmi in scopul de a determina care dintre caracteristicile unor anumite obiecte au
cea mai mare relevana din punct de vedere al recunoasterii apartenentei acestor obiecte la
anumite clase aprioric definite si de a stabili apartenenta cea mai probabila a obiectelor la
diferite clase.
In cele ce urmează, vor fi analizate atât rezultatele aferente analizei discriminat cât și cele
referitoare la clasificarea obiectelor.
Probabilitatile apriorice arata faptul ca structura initiala a datelor acorda o probabilitate
de apartenenta la grupa 1 si grupa 3 de 0.46153846, numarul elementelor din fiecare grupa fiind
de 12. Probabilitatea de apartenenta la grupa 3 este de 0.07692308.

Mediile variabilelor la nivelul grupelor


EDU IDU CD OFS INTERNET CER
1 5.934167 0.9007500 2.402500 74.95833 87.76917 4984.497
2 3.310000 0.7875000 0.590000 53.65000 56.21000 1377.320
3 4.535833 0.8471667 1.141667 66.08333 74.32000 2621.269

Mediile variabilelor din prima grupa sunt cele mai ridicate in comparatie cu celelalte
doua grupe. Toate variabile au o capacitate discriminatorie ridicata, dar variabila ce cuprinde
numarul de cercetatori are puterea discriminatorie cea mai mare.

Coefficients of linear discriminants:


LD1 LD2
EDU -2.372557e+00 0.4152660387
IDU -4.333085e+01 6.2372014628
CD -8.691287e-01 -0.3913536832
OFS -8.713577e-03 0.0218168279
INTERNET -2.116958e-02 0.0882108598
CER 7.651574e-04 -0.0009764298

Proportion of trace:
LD1 LD2
0.9876 0.0124

1 2 3
1 12 0 0
2 0 2 0
3 0 0 12

S-ar putea să vă placă și