Sunteți pe pagina 1din 39

Academia de Studii Economice Bucuresti, Facultatea de Cibernetica, Statistica si

Informatica Economica

Proiect Analiza Datelor

Lupu Andreea
An III, Grupa 1035
Seria Cibernetica

1. Descrierea Datelor
Pe parcursul proiectului vom supune sub analiza urmatoarea matrice de date, realizata cu ajutorul mai multor
tabele statistice din anul 2012, preluate de pe site-ul eurostat.com.
Tari
Belgium
Bulgaria
Czech
Republic
Denmark
Germany
Estonia
Ireland
Greece
Spain

I1

I2

I3

I4

I5

I6

I7

I8

I9

I10

11094850.00
7327224.00
10505445.00

3071.72
513.98
2428.77

78.34
68.51
111.55

1109.61
48.84
239.75

410.22
99.09
152.61

2.16
6.01
0.17

3011.50
6933.10
6595.50

5.00
1236.00
0.00

0.33
60.40
15.70

0.70
5.30
2.40

5580516.00
81843743.00
1333788.00
4582707.00
11123034.00
46818219.00

4926.80
29703.46
665.09
5379.30
637.40
6089.03

300.00
2161.15
42.63
118.03
195.00
315.71

1603.70
5459.00
30.96
241.49
114.63
3466.32

148.80
1428.00
14.81
117.41
181.65
1384.24

9460.40
45396.60
991.20
2125.20
4068.70
16643.50

0.00
9223.00
0.00
0.00
2750.00
33396.70

65327724.00

24246.30

1928.98

1957.36

1709.00

68334.50

50757.00

Croatia
Italy

4275984.00
60820696.00

602.36
10597.57

31.63
1203.76

85.60
1620.72

61.30
1258.58

0.81
32.17

2686.50
17377.10

1278.00
42705.00

Cyprus
Latvia
Lithuania
Luxembour
g
Hungary
Malta
Netherlands
Austria
Poland
Portugal

862011.00
2044813.00
3003641.00
524853.00

153.50
718.36
1359.92
277.53

19.43
31.33
111.81
21.30

51.72
23.99
58.86
10.35

25.30
24.49
81.76
0.08

5.73
0.34
0.10
0.04

90.70
2124.50
4656.60
153.40

84.64
60.50
0.00
132.00

0.00
99.50
0.00
0.00
99.20
943.0
0
760.9
0
29.30
717.6
0
6.70
0.00
0.00
1.20

1.20
0.90
3.50
1.00
3.30
2.70

France

1.70
22.00
0.12
53.73
99.37
131.6
9
89.33

9931925.00
417546.00
16730348.00
8408121.00
38538447.00
10542398.00

1398.24
39.91
11675.40
2964.25
9857.66
1861.40

72.61
2.81
764.16
159.94
721.49
71.88

345.93
5.67
1331.73
529.76
1695.20
362.34

412.20
4.25
720.98
109.15
1548.80
292.16

0.23
0.10
14.60
8.37
0.70
10.63

10361.50
0.00
1826.00
4875.90
28543.80
991.10

2822.10
40.00
0.00
2783.10
0.00
5610.00

3.50
1.90
1.90
1.50
3.50
2.40

Romania

20095996.00

887.85

67.10

282.09

312.73

1.35

12773.30

4058.10

Slovenia
Slovakia
Finland
Sweden
United
Kingdom
Iceland
Switzerland

2055496.00
5404322.00
5401267.00
9482855.00
63495351.00

535.06
851.25
2254.04
2861.17
113590.70

17.61
32.10
102.32
101.16
357.20

21.03
54.16
192.82
232.97
824.64

58.66
77.66
107.41
116.31
1607.94

576.40
3035.80
3658.70
5070.60
19515.00

849.78
369.29
0.00
0.00
23.00

319575.00
7954662.00

112.95
3444.16

4.08
181.18

5.90
254.54
2

7.80
5.70

0.11
0.56
0.88
5.04
276.0
6
9.90
0.00

75.50
0.60
0.00
43.60
0.50
179.5
0
176.5
0
16.40
10.50
0.00
0.00
1.00

16.20
921.70

3.98
435.00

0.26
15.00

7.10
1.10

1.80
5.50
1.90
2.30
4.10
3.40
0.30

6.70
2.40
3.80
2.90
1.90
0.70

Turkey

74724269.00

7932.50

563.50

0.54

1700.00

201.0
0

32497.00

6930.00

462.0
0

9.40

Obiectele supuse studiului sunt tarile din uniunea europeana, si anume : Belgia, Bulgaria, Republica Ceha,
Danemarca, Germania, Estonia, Irlanda, Grecia, Spania, Franta, Croatia, Italia, Cipru, Letonia, Lituania,
Luxemburg, Ungaria, Malta, Olanda, Austria, Polonia, Portugalia, Romania, Slovenia, Slovacia, Finlanda,
Suedia, Marea Britanie, plus alte tari din afara uniunii europeene : Islanda, Elvetia si Turcia.
Cele 10 variabile cu ajutorul carora vom decrie aceste tari sunt :

I1 Populatia (numar persoane) - persoanele care locuiesc in tara respectiva, cu domiciliul sau
resedinta in tara la momentul respectiv.
I2 Colectarea de lapte de vaca (1000 tone) Datele se refera la laptele de vaca colectat in ferme de
catre fabricile de produse lactate aprobate. Ar trebui sa se faca o distinctie intre "laptele colectat de catre
fabricile de produse lactate" i "productia de lapte de la ferma". Colectarea laptelui este doar o parte din
utilizarea totala a productiei de lapte de la ferma. Cealalta parte include in general consumul intern,
vanzarea directa i hrana pentru animale.
I3 Productia de branza (1000 de tone) cuprinde cateva categorii de branza, acestea diferentiindu-se
prin gradul de umiditate pe care il contin. Datele prezentate in acest tabel fac referire la toate branzele,
insa statisticile europeene aduc informatii si asupra productiei a 7 tipuri de branza diferite.
I4 Productia de carne : porc (1000 de tone) - acest indicator exprima greutatea totala a carcaselor de
porcine sacrificate in abatoare si in ferme, a caror carne este declarata potrivita pentru consumul uman.
I5 Productia de carne : pasari de curte (1000 de tone) - greutatea totala a carcaselor de pasari
sacrificate, a caror carne este potrivita proprie consumului uman. Urmatoarele pasari de curte sunt
incluse in aceasta variabila : gaini, pui, rata, curcan, bibilici, gaste.
I6 Productia de carne : oi si capre (1000 de tone) acest indicator acopera greutatea carcaselor de oi,
incluzand si mieii, si caprele sacrificate in abatoare sau in alte parti si a caror carne este declarata proprie
consumului uman.
I7 Productia de cereale (1000 de tone) este reprezentata de productia colectata de cereale,
neincluzand pierderile produse in timpul colectarii. Cerealele luate in calcul sunt: grau, orz, porumb si
alte cereale.
I8 Productia de vin ( hl ) pentru anul 2012, productia de vin corespunde anului de Marketing 2011 si
mai exact pentru perioada 01/08/2011 pana la 31/07/2012.
I9 Productia de vita de vie (1000 de hectare) suprafata pe care s-a plantat vita de vie.
I10 Agricultura, valoarea adaugata (% din PIB) (procente) - este soldul contului de producie i se
msoar ca diferena dintre valoarea bunurilor i serviciilor produse (evaluate la preuri de baz) i
consumul intermediar (evaluat la preurile cumprtorului), reprezentnd deci valoarea nou creat n
procesul de producie. VAB este calculata nainte de a fi calculat consumul de capital fix.

2. Statistici Descriptive
Pentru calcularea mediei, abaterii standard, cuartilelor de ordin I, II si III, coeficientului de boltire si aplatizare,
coeficientului de asimetrie, dar si pentru a obtine diagramele Box-Plot, Histograma si densitatile de
probabilitate am utilizat R-ul.
3

Variabile

Media

Q1

Q2

Q3

363981
3
651.245

8408121

I2

1905070
4
8117.343

Abaterea
standard
2475520
7
20728.27

I1

Skewnes
s
1.43384
4.491454

I3

321.2355

534.4366

37.365

2254.04
0
102.320

1841317
2
5734.165
307.855

2.410964

I4

718.1361

1187.916

50.280

239.750

967.125

2.567369

I5

457.39

606.9196

59.98

117.41

566.59

1.181578

I6

31.45161

64.84534

0.285

2.160

18.300

2.544422

I7

10171.35

15218.03

1408.6

4068.7

11567.4

2.385557

I8
I9

5340.393
119.8448

12701.39
248.1589

0.0
0.13

132.0
10.50

2802.6
87.35

2.729603
2.314023

I10

2.935484

2.074054

1.65

2.4

3.5

1.33453

Kurtosis

Min

Max

3.53135
7
23.1535
3
7.98794
4
9.86054
1
2.66981
6
8.87689
8
8.64280
9
9.05079
7.02105
1
4.62749
6

31957
5
39.91

8184374
3
113590.7

2.81

2161.15

0.54

5459

0.08

1709

276.06

68334.5

0
0

50757
943

0.3

9.4

In anul 2012, media populatiei tarilor pe care le-am luat in calcul a fost de 19050704 de persoane, minimul
inregistrandu-se in Islanda, iar maximul in Germania. Studiind curatilele putem spune ca 50% din tari au o
populatie mai mare de 8408121, coeficientul de boltire este 3.531357 > 0 ceea ce ne indica o distributie
leptocurtica, valorile variabilei fiind concentrate in jurul indicatorilor tendintei central, iar coeficientul de
asimetrie este de 1.43384 > 0 ceea ce indica o asimetrie pozitiva, coada distributiei este mai alungita la dreapta,
in serie predominand valorile mici.
In ceea ce priveste colectarea de lapte de vaca, in medie s-au colectat 8117.343 mii de tone de lapte, minumul
inregistrandu-se in Malta, iar maximul in Marea Britanie. Studiind curatilele putem spune ca 75% din tari au
colectat peste 651.245 mii de tone de lapte pe parcursul anului 2012, coeficientul de boltire este 23.15353 > 0
ceea ce ne indica o distributie leptocurtica, valorile variabilei fiind concentrate in jurul indicatorilor tendintei
central, iar coeficientul de asimetrie este de 4.491454> 0 ceea ce indica o asimetrie pozitiva, coada distributiei
este mai alungita la dreapta, in serie predominand valorile mici.
In ceea ce priveste productia de branza, in medie s-au produs 321.2355 mii de tone de branza, minumul
inregistrandu-se in Malta, iar maximul in Germania. Studiind curatilele putem spune ca 25% din tari au produs
peste 307.855 mii de tone de branza pe parcursul anului 2012, coeficientul de boltire este 7.987944> 0 ceea ce
4

ne indica o distributie leptocurtica, valorile variabilei fiind concentrate in jurul indicatorilor tendintei central, iar
coeficientul de asimetrie este de 2.410964> 0 ceea ce indica o asimetrie pozitiva, coada distributiei este mai
alungita la dreapta, in serie predominand valorile mici.
In anul 2012, productia de carne de porc, in medie, a fost de 718.1361 mii tone, minimul inregistrandu-se in
Turcia, iar maximul in Germania. Studiind curatilele putem spune ca 50% din tari au avut o productie mai mare
de 239.750 mii tone de carne de porc, coeficientul de boltire este 9.860541> 0 ceea ce ne indica o distributie
leptocurtica, valorile variabilei fiind concentrate in jurul indicatorilor tendintei central, iar coeficientul de
asimetrie este de 2.567369> 0 ceea ce indica o asimetrie pozitiva, coada distributiei este mai alungita la dreapta,
in serie predominand valorile mici.
In ceea ce priveste productia de carne de pasari de curte, in medie s-au colectat 457.39 mii de tone, minumul
inregistrandu-se in Luxemburg, iar maximul in Franta. Studiind curatilele putem spune ca 25% din tari au
produs peste 566.59 mii de tone de carne de pasare pe parcursul anului 2012, coeficientul de boltire este
2.669816> 0 ceea ce ne indica o distributie leptocurtica, valorile variabilei fiind concentrate in jurul
indicatorilor tendintei central, iar coeficientul de asimetrie este de 1.181578> 0 ceea ce indica o asimetrie
pozitiva, coada distributiei este mai alungita la dreapta, in serie predominand valorile mici.
Luand in considerare productia de carne de oi si capre, in medie s-au colectat 31.45161mii de tone, minumul
inregistrandu-se in Elvetia, iar maximul in Marea Britanie. Studiind curatilele putem spune ca 75% din tari au
colectat peste 0.285mii de tone de carne pe parcursul anului 2012, coeficientul de boltire este 8.876898> 0 ceea
ce ne indica o distributie leptocurtica, valorile variabilei fiind concentrate in jurul indicatorilor tendintei central,
iar coeficientul de asimetrie este de 2.544422> 0 ceea ce indica o asimetrie pozitiva, coada distributiei este mai
alungita la dreapta, in serie predominand valorile mici.
Luand in considerare productia de cereale, in medie s-au colectat 10171.35 mii de tone, minumul inregistranduse in Malta, iar maximul in Franta. Studiind curatilele putem spune ca 75% din tari au colectat sub 11567.4mii
de tone de cereale pe parcursul anului 2012, coeficientul de boltire este 8.642809> 0 ceea ce ne indica o
distributie leptocurtica, valorile variabilei fiind concentrate in jurul indicatorilor tendintei central, iar
coeficientul de asimetrie este de 2.385557> 0 ceea ce indica o asimetrie pozitiva, coada distributiei este mai
alungita la dreapta, in serie predominand valorile mici.
In anul 2012, productia de vin, in medie, a fost de 5340.393 hectolitrii. Observam ca in 9 tari, dintre cele luate
in calcul, si anume Republica Ceha, Danemarca, Estonia, Irlanda, Lituania, Finlanda, Suedia, Polonia si Olanda,
se inregistrareaza valoarea 0, acesta fiind minimul, iar maximul in Franta. Studiind curatilele putem spune ca
50% din tari au avut o productie mai mare de 132.0 hectolitrii , coeficientul de boltire este 9.05079> 0 ceea ce
ne indica o distributie leptocurtica, valorile variabilei fiind concentrate in jurul indicatorilor tendintei central, iar
coeficientul de asimetrie este de 2.729603> 0 ceea ce indica o asimetrie pozitiva, coada distributiei este mai
alungita la dreapta, in serie predominand valorile mici.
In ceea ce priveste productia de vita de vie, in medie s-au cultivat 119.8448 mii de hectare, minumul
inregistrandu-se in Danemarca, Estonia, Irlanda, Letonia, Lituania, Olanda, Finlanda si Suedia, iar maximul in
Spania. Studiind curatilele putem spune ca 25% din tari au cultivat peste 0.13mii de hectare pe parcursul anului
2012, coeficientul de boltire este 7.021051> 0 ceea ce ne indica o distributie leptocurtica, valorile variabilei
5

fiind concentrate in jurul indicatorilor tendintei central, iar coeficientul de asimetrie este de 2.314023> 0 ceea ce
indica o asimetrie pozitiva, coada distributiei este mai alungita la dreapta, in serie predominand valorile mici.
In final, studiind valoarea adaugata in ceea de priveste agricultura, in medie valoarea acesteia ca procente din
PIB este de 2.935484, minimul inregistrandu-se in Luxemburg, iar maximul in Turcia. Observand curatilele
putem spune ca peste 50% din tari au aceasta valoarea a valorii adaugate peste 2.4, coeficientul de boltire este
4.627496> 0 ceea ce ne indica o distributie leptocurtica, valorile variabilei fiind concentrate in jurul
indicatorilor tendintei central, iar coeficientul de asimetrie este de 1.33453> 0 ceea ce indica o asimetrie
pozitiva, coada distributiei este mai alungita la dreapta, in serie predominand valorile mici.

I1 Populatia (numar persoane)


Boxplot I1

Histograma I1

Densitate de probabilitate I1

Analizand boxplot-ul putem observa ca avem 6 valori outliers, intalnite in Germania, Turcia, Franta, Marea
Britanie, Italia si Spania. De asemenea, aceasta variabila prezinta o amplitudine mare, mediana nefiind la
jumatatea distantei dintre cele doua cuartile.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie
pronuntata la dreapta, o asimetrie pozitiva, adica predomina valorile mai mici ale variabilei de interes, cu coada
mai lunga a distributiei spre valorile mari, care apar cu frecventa mai mica.

I2 Colectarea de lapte de vaca (1000 tone)


Boxplot I2

Histograma I2

Densitate de probabilitate I2
7

Analizand boxplot-ul putem observa ca avem 3 valori outliers, intalnite in Marea Britanie, Germania si Franta.
Dinstanta dintre Q3 si Q1 este foarte mica ceea ce semnifica faptul ca variabilele sunt concentrate in aceasta
zona, iar de asemenea diferenta dintre valoarea minima si valoarea maxima este una redusa, iar mediana este
mai apropiata de Q1.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca predomina valorile mai mici ale
variabilei de interes, dar ca in intervalul 40000 si 110000 nu exista nici o reprezentare grafica.

I3 Productia de branza (1000 de tone)


Boxplot I3

Histograma I3

Densitate de probabilitate I3

Analizand boxplot-ul putem observa ca avem 5 valori outliers, intalnite in Germania, Franta, Italia, Olanda si
Polonia. Dinstanta dintre Q3 si Q1 este relativ mica ceea ce semnifica faptul ca variabilele sunt concentrate in
aceasta zona, iar mediana este mai apropiata de Q1.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie pozitiva,
adica predomina valorile mai mici ale variabilei de interes, cu coada mai lunga a distributiei spre valorile mari,
care apar cu frecventa mai mica.

I4 Productia de carne : porc (1000 de tone)


9

Boxplot I4

Histograma I4

Densitate de probabilitate I4

Analizand boxplot-ul putem observa ca avem 2 valori outliers, intalnite in Germania si Spania. Dinstanta dintre
Q3 si Q1 este relativ mica ceea ce semnifica faptul ca variabilele sunt concentrate in aceasta zona, iar mediana
este mult mai apropiata de Q1.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie pozitiva,
adica predomina valorile mai mici ale variabilei de interes, cu coada mai lunga a distributiei spre valorile mari,
care apar cu frecventa mai mica.

I5 Productia de carne : pasari de curte (1000 de tone)


10

Boxplot I5

Histograma I5

Densitate de probabilitate I5

Analizand boxplot-ul putem observa ca avem 5 valori outliers, intalnite in Franta, Turcia, Marea Britanie,
Polonia si Germania. Dinstanta dintre Q3 si Q1 este mare ceea ce semnifica faptul ca valorile sunt destul de
imprastiate, insa mediana este mult mai apropiata de Q1.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie pozitiva,
adica predomina valorile mai mici ale variabilei de interes, cu coada mai lunga a distributiei spre valorile mari,
care apar cu frecventa mai mica.

I6 Productia de carne : oi si capre (1000 de tone)


11

Boxplot I6

Histograma I6

Densitate de probabilitate I6

Analizand boxplot-ul putem observa ca avem 6 valori outliers, intalnite in Marea Britanie, Turcia, Spania,
Grecia, Franta si Irlanda. Dinstanta dintre Q3 si Q1 este mica ceea ce semnifica faptul ca valorile sunt
concentrate in aceasta zona, insa mediana este foarte apropiata de Q1.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie pozitiva,
adica predomina valorile mai mici ale variabilei de interes, cu coada mai lunga a distributiei spre valorile mari,
care apar cu frecventa mai mica.

I7 Productia de cereale (1000 de tone)


12

Boxplot I7

Histograma I7

Densitate de probabilitate I7

Analizand boxplot-ul putem observa ca avem 4 valori outliers, intalnite in Franta, Germania, Turcia si Polonia.
Dinstanta dintre Q3 si Q1 este relativ mica ceea ce semnifica faptul ca variabilele sunt concentrate in aceasta
zona, iar mediana este mult mai apropiata de Q1.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie pozitiva,
adica predomina valorile mai mici ale variabilei de interes, cu coada mai lunga a distributiei spre valorile mari,
care apar cu frecventa mai mica.

I8 Productia de vin ( hl )
13

Boxplot I8

Histograma I8

Densitate de probabilitate I8

Analizand boxplot-ul putem observa ca avem 4 valori outliers, intalnite in Franta, Italia, Spania si Germania.
Dinstanta dintre Q3 si Q1 este foarte mica ceea ce semnifica faptul ca variabilele sunt concentrate in aceasta
zona, iar mediana este foarte apropiata de Q1.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie pozitiva,
adica predomina valorile mai mici ale variabilei de interes, cu coada mai lunga a distributiei spre valorile mari,
care apar cu frecventa mai mica.

I9 Productia de vita de vie (1000 de hectare)


14

Boxplot I9

Histograma I9

Densitate de probabilitate I9

Analizand boxplot-ul putem observa ca avem 4 valori outliers, intalnite in Spania, Franta, Italia si Turcia.
Dinstanta dintre Q3 si Q1 este foarte mica ceea ce semnifica faptul ca variabilele sunt concentrate in aceasta
zona, iar mediana este foarte apropiata de Q1.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie pozitiva,
adica predomina valorile mai mici ale variabilei de interes, cu coada mai lunga a distributiei spre valorile mari,
care apar cu frecventa mai mica.

I10 Agricultura, valoarea adaugata (% din PIB) (procente)


15

Boxplot I10

Histograma I10

Densitate de probabilitate I10

Analizand boxplot-ul putem observa ca avem 3 valori outliers, intalnite in Turcia, Islanda si Romania. De
asemenea, aceasta variabila prezinta o amplitudine mare, mediana fiind aproape de jumatatea distantei dintre
cele doua cuartile.
In ceea ce priveste, histograma si densitatea de probabilitate, putem spune ca este prezenta o asimetrie pozitiva,
adica predomina valorile mai mici ale variabilei de interes, cu coada mai lunga a distributiei spre valorile mari,
care apar cu frecventa mai mica.

3. Matricea de Corelatie
I1

I2

I3

I4

I5

16

I6

I7

I8

I9

I10

I1
I2
I3
I4
I5
I6
I7
I8
I9
I10

1
0.5724215
0.8098618
0.6819351
0.9498947
0.6585544
0.8497059
0.619309
0.6407402
0.0390404

1
0.3335533
0.2864496
0.5725766
0.7344102
0.3887763
0.114716
0.06042514
-0.2654036

1
0.7828876
0.7461085
0.2311838
0.8678594
0.651255
0.4973466
-0.1942248

1
0.6451843
0.1696991
0.6312649
0.4906332
0.4509736
-0.3236073

1
0.6689213
0.8327169
0.6103448
0.644776
0.0292472

1
0.425346
0.2862509
0.4278408
0.1036478

1
0.6643587
0.5863033
0.03082272

1
0.9254092
-0.0860082

1
0.1108836

Din matricea de corelatie putem observa faptul ca variabilele studiate sunt puternic corelate ceea ce ne indica
redundanta informationala, ceea ce ne determina sa aplicam analiza componentelor principale. Cel mai mare
coeficient de corelatie este intalnit intre variabilele I1 populatia si I5 productia de carne de pasare, lucru
justificat de faptul ca in ceea ce priveste variabila I5, toate tarile au o productie aproximativ direct proportional
cu numarul de locuitori. Cea mai slaba corelatie se gaseste intre variabilele I7- productia de cereale si I10
valoarea adugata pe agricultura din PIB. Matricea prezinta si valori negative, semnificand faptul ca avem
corelatii inverse(negative).
Aceastea sunt prezente intre variabile I10 si variabilele I2 - colectarea de lapte de vaca, I3 productia de
branza, I4 productia de carne de porc si I8- productia de vin. Se observa de asemenea ca variabila cea mai
putin corelata cu restul variabilelor este I10 - valoarea adugata pe agricultura din PIB.

4. Matricea de Covarianta
I1
I2
I3
I4
I5
I6
I7
I8
I9
I10

I1
6.128203e+14
2937280818
10714543671
20053745151
14271617238
1057150937
32010587628
5
19472651217
4
3936211538
2004476

I2

I3

I4

I5

I6

I7

429661008
3695085
7053377
7203237
987143.9
122636917

285622.5
497028.8
242007.8
8011.844
7058364

1411146
465158.4
13072.06
11411850

368351.4
26326.01
7691074

4204.919
419739

231588465

30202167

4420775

7402765

4704978

235763.6

128413960

161325209

310821
-11410.11

65960.7
-215.2885

132943.4
-797.3044

97111.33
36.8159

6884.793
13.93987

2214168
972.858

2916855
-2265.746

Matricea de covarianta contine pe diagonal principal variantele variabilelor studiate.

17

I8

I9

61582.84
57.07122

I10

4.30169
9

5. Analiza Componentelor Principale

Eigenvalues reprezinta valorile proprii:


1=5.71379023, 2=1.50343256, 3=1.35857757, 4=0.75056071,
5= 0.3207123, 6=
0.13228097 7= 0.09897240, 8=0.08605268, 9= 0.03132186, 10= 0.00429068.
Pentru alegerea numarului de componente principale retinute in analiza vom utiliza criteriul lui Kaiser,
conform acestuia numarul de componente principale retinute este dat de numarul componentelor principale care
au valorile proprii mai mari decat 1. In anliza noastra vom pastra doar primele trei componente care au valorile
proprii 1=5.71379023, 2=1.50343256 si 3=1.35857757. Aceste trei componente vor prelua 85,76% din
informatie.
18

Proportion semnifica cantitea de informatie preluata de catre fiecare componenta principala.

Prima componenta preia 57,14% din informatie.


Cea de doua componenta preia 15,03% din informatie.
Cea de a treia componenta preia 13,59% din informatie.
Cea de a patra componenta preia 7,51% din informatie.
Cea de a cincea componenta preia 3.21% din informatie.
Cea de a sasea componenta preia 1.32% din informatie.
Cea de a saptea componenta preia 0.99% din informatie.
Cea de a opta componenta preia 0.86% din informatie.
Cea de a noua componenta preia 0.31%
Cea de a zecea componenta preia 0.04% din informatie.

Cumulative determina cantiatea de informatie preluata impreuna de catre componentele nou create.

Primele doua componente preiu 72.17% din informatie.


Primele trei componente preiu 85.76% din informatie, iar in final, cele 10 componente principale vor
prelua toata informatia din variabilele analizate.

19

Primul vector propriu este:


= (0.401088 0.225472 0.359030 0.310284 0.394155 0.256736 0.375105 0.321268 0.311133 -.033467)t
Al doile vector propriu este:
= (0.103090 0.630895 -.181316 -.172085 0.121827 0.519450 -.083342 -.369649 -.314484 -.041227)t

20

21

In graficul Scree Plot sunt reprezentate valorile proprii corespunzatoare celor 10 componente
principale obtinute, iar cel de al doilea grafic semnifica procentele din informatia totala preluate
atat de fiecare componenta, cat si cele cumulative.
Pe primul grafic putem aplica criteriul pantei, care spune ca: numarul de componente principale
retinute in analiza se determina efectuand o taietura in grafic dupa o dreapta paralela cu ordonata
astfel incat la dreapta aceste taieturi sa ramana o portiune de grafic aproximativ paralela cu
abscisa. Numarul componentelor principale este dat de primul numar de ordine aflat la stanga
taieturii.
In urma analizei graficul de mai sus observam ca este necesar sa retinem in analiza doua
componente principale W1 si W2.

22

Pe diagonala principala sunt reprezentate histogramele componentelor principale. Histograma


reprezinta o impartire in intervale de clase.
In celelalte cadrane se afla graficele de tip scatter plot in care cele 31 de tari sunt reprezentate in
sisteme de tipul WiOWj.

23

Graficul prezinta corelatiile dintre variabilele initiale si componente principale.


Putem afirma faptul ca toate cele 10 variabile initiale sunt mai puternic corelate cu prima
componenta, mai putin I2 care este mai puternic corelata cu componenta 2, I6 care este lafel de
puternic corelata si cu componenta 2 si I10 care este mai puternic corelata cu componenta 3.

24

Acest grafic infatiseaza reprezentarea tarilor in raport cu primele doua componete principale.
Franta(10), in principal, dar si Germania(5), Spania(9), Italia(12), Turcia(31) si Polonia(21),
prezinta un comportament diferit, astfel acestea iau o valoare mare in raport cu W 1, spre
deosebire de restul tarilor care sunt concentrate intr-o anumita zona, putand forma un cluster,
datorita valorilor apropiate pe care le iau.
Putem afirma ca intre tarile Slovenia(24), Malta(18), Islanda(29) si Slovacia(25) exista un grad
mare de similaritate.

25

Acest grafic infatiseza reprezentarea variabilelor initiale in functie de corelatia lor cu primele
doua component principale. Astfel coordonata pe abscisa consta in valoarea coeficientului de
corelatie dintre variabila Vi si W1, iar coordonata pe ordonata in valoarea coeficientului de
corelatie dintre variabila Vi si W2.

26

Graficul este similar cu Component Scores, insa ia in considerare si o a treia dimensiune


reprezentata de cea de a treia componenta principala. Pe baza acestui grafic putem observa ca
Franta are o valoare mare in raport cu prima componenta principala, are o valoare apropiata de 0
in raport cu a treia component si o valoare negativa in raport cu W2. Totodata observam
aproximativ aceeasi reprezentare in raport cu cele 3 dimensiuni a tarilor Letonia(14)
Slovacia(25).
Mai observam ca Marea Britanie(28) este cea mai puternic corelata cu componenta principala 2
si ca Turcia(31) este cea mai puternic corelata cu componenta 3.

27

6. Analiza Cluster pe componentele principale


Matricea distantelor

28

29

a) Metoda lui Ward

n urma analizei dendrogramei putem observa ca primul cluster este format din tarile Ungaria si
Portugalia, iar urmtorele clustere sunt formate din tarile Malta si Islanda, apoi Cipru si
Luxemburg, apoi Finlanda si Elvetia si asa mai departe. Nivelul de agregare pentru primele
clustere este foarte apropiat de zero, pentru urmatoarele creste pana aproape de 10, iar pentru
ultimul cluster, care conine toate elementele studiate, avem un nivel de agregare de aproximativ
40. Conform dendrogramei vom efectua taietura acolo unde are loc cea mai mare variaie, cel
mai mare salt din grafic. Astfel, vom obine dou clustere. Primul cluster este format din tarile:
Belgia, Bulgaria, Republica Ceha, Danemarca, Estonia, Irlanda, Grecia, Croatia, Cipru, Letonia,
Lituania, Luxemburg, Ungaria, Malta, Olanda, Austria, Portugalia, Romania, Slovenia, Slovacia,
30

Finlanda, Suedia, Islanda si Elvetia. Cel de al doilea cluster conine urmtoarele tari: Germania,
Spania, Franta, Italia, Polonia, Marea Britanie si Turcia. Daca studiem compozitia clusterului
observam ca in cel de al doilea cluster se afla tarile cele mai dezvoltate.

31

Observam ca avem un coeficient Silhouette ( Average silhouette width ) egal cu 0.76, foarte
aproape de 1, ceea ce semnifica faptul ca tarile au fost bine repartizate in clustere. De asemenea
observam ca tara cu numarul 21, adica Polonia, are bara negativa in graficul silhouette ceea ce
inseamna ca era mai apropiata de cealalta clasa decat de cea in care a fost repartizata.

32

b) Metoda Centroidului

Spre deosebire de dendrograma obinut n urma aplicrii metodei Ward, n cadrul metodei
centroidului clasele se formeaz la un nivel de agregare mai mic, astfel nivelul de agregare dintre
elementele ultimei clase este aproximativ 6, spre deosebire de distana obinut anterior 40.
n urma analizrii dendrogramei vom efectua tietura n grafic acolo unde observm cel mai
mare salt, deci vom pstra trei clustere. Primul cluster este format din tarile: Belgia, Bulgaria,
Republica Ceha, Danemarca, Estonia, Irlanda, Grecia, Croatia, Cipru, Letonia, Lituania,
Luxemburg, Ungaria, Malta, Olanda, Austria, Portugalia, Romania, Slovenia, Slovacia, Finlanda,
33

Suedia, Islanda si Elvetia. Cel de al doilea cluster conine urmtoarele tari: Germania, Spania,
Franta, Italia, Polonia si Turcia, iar ultimul cluster conine doar Marea Britanie.

34

Observam ca avem un coeficient Silhouette ( Average silhouette width ) egal cu 0.77, foarte
aproape de 1, ceea ce semnifica faptul ca tarile au fost bine repartizate in clustere. De asemenea
observam ca tara cu numarul 21, adica Polonia, are bara negativa in graficul silhouette ceea ce
inseamna ca era mai apropiata de alta clasa decat de cea in care a fost repartizata, in timp ce tara
cu numarul 28, adica Marea Britanie poate fi considerata o variabila outlier.

35

7. Algoritmul K-means

Numarul de clase : k = 2

Dup rezolvarea algoritmului celor k medii am obinut urmtoarea mprire a tarilor, clasa 1
nglobeaz: Germania, Spania, Franta, Italia, Polonia, Marea Britanie si Turcia, iar cea de a doua
clas conine tarile: Belgia, Bulgaria, Republica Ceha, Danemarca, Estonia, Irlanda, Grecia,
Croatia, Cipru, Letonia, Lituania, Luxemburg, Ungaria, Malta, Olanda, Austria, Portugalia,

36

Romania, Slovenia, Slovacia, Finlanda, Suedia, Islanda si Elvetia. Observam ca avem aceeasi
clasificare ca si in urma utilizarii metodei ierarhice Ward.
In urma calculelor facute in R am obtinut urmatoarele rezultate in ceea ce priveste variabilitatea :

Variabilitatea intraclase pentru fiecare clasa : 59.37200 6.25318 ( aceasta trebuie sa fie
cat mai mica)
Variabilitatea interclase pentru fiecare clasa : 150.8915 ( aceasta trebuie sa fie cat mai
mare)
Variabilitatea totala : 216.5167
Variabilitatea totala intraclase : 65.62518

37

Numarul de clase : k = 3

Dup rezolvarea algoritmului celor k medii am obinut urmtoarea mprire a tarilor, clasa 1
nglobeaz: Germania, Spania, Franta, Italia, Marea Britanie si Turcia, cea de a doua clas
conine tarile: Bulgaria, Republica Ceha, Estonia, Irlanda, Croatia, Cipru, Letonia, Lituania,
Luxemburg, Malta, Austria, Slovenia, Slovacia, Finlanda, Suedia, Islanda si Evetia, iar cea de a
treia clasa contine tarile: Belgia, Danemarca, Grecia, Ungaria, Olanda, Polonia, Portugalia si
Romania. Desi avem acelasi numar de clase ca in cazul metodei centroidului, tarile sunt
repartizate altfel in acest caz.
38

In urma calculelor facute in R am obtinut urmatoarele rezultate in ceea ce priveste variabilitatea :

Variabilitatea intraclase pentru fiecare clasa : 52.182822 1.323646 5.390329


Variabilitatea interclase pentru fiecare clasa : 157.6199
Variabilitatea totala : 216.5167
Variabilitatea totala intraclase : 58.8968

Observam ca in cazul in care alegem k=3, variabilitatea intraclase este mai mica decat in celalalt
caz, iar variabilitatea interclase este mai mare, ceea ce ne indica faptul ca e mai bine sa alegem
cazul cand k=3, deoarece avem o repartizare a tarilor mult mai bine facuta.

39