Documente Academic
Documente Profesional
Documente Cultură
Analiza Datelor Proiect Final
Analiza Datelor Proiect Final
pentru identificarea unor structuri cauzale ce apar peste tot in jurul nostru, mai ales in mediul
economic.
Procesul de analiza a datelor apare ca fiind un proces specific de transformare
informationala, proces care are ca intrari datele primare, iar ca iesiri informatii sintetizatoare.
Conceptul cel mai important si cel mai frecvent intalnit in analiza datelor, care, de fapt, intra
si in alcatuirea numelui acestui tip de activitate stiintifica, este reprezentat de data. Datele reprezinta
expresii cantitative si calitative ale unor fenomene si procese din realitatea inconjuratoare.
Proiectul de fata isi propune sa analizeze anumiti indicatori financiari ai firmelor cotate pe
Bursa de Valori Bucuresti, cu scopul de a defini indicatorii cei mai reprezentativi care ilustreaza
performanta financiara a companiilor listate.
Datele folosite pentru analiza au preluate de pe site-ului Bursei de Valori Bucuresti si de pe
site-ul www.ktd.ro, pentru anul 2008 si privesc 34 de companii listate pe bursa la una din cele 2
categorii. Variabilele (indicatorii financiari ai firmelor) luate in considerare au fost (pentru fiecare
firma):
- Cifra de afaceri
- Nr. de salariati
- Profit net
- Indice de lichiditate
- Rentabilitatea economica
- Indicele PER (Price Earning Ratio);
- Indicele EPS (Earning per Share);
Valorile initiale ale datelor folosite in analiza sunt prezentate in tabelul de mai jos:
Cifra de
afaceri (mii
Nr.
Profit net
Rentabilitate
Indicator RON)
salariati (mii RON) Lichiditate economica (%)PER EPS (RON)
Companii
Simbol
1Aerostar Bacau ARS
152697.74
1609
9503.72
2.34
0.0622 7.03
0.0811
2Alro Slatina
ALR
1968015.55
3908 247226.96
1.42
0.1256 3.64
0.3464
3Amonil Slobozia AMO
216879.37
859
6927.94
1.11
0.0319 2.23
0.0062
4Antibiotice Iasi
ATB
215805.95
1523 10572.76
1.82
0.049 15.49
0.0232
Azomures
5
Tg. Mures
AZO
1144100.22
2494 50540.75
3.35
0.0442 1.61
0.0961
6Bermas Suceava BRM
Casa de
Bucovina Club de
7 Munte
BCM
CNTEE
Transelectrica
8 Bucuresti
9Comelf Bistrita
Compa S. A.
10 Sibiu
11Condmag SA
12Contor Group SA
Dafora SA
13 Medias
23072.06
258
917.52
1.49
0.0398
7.94
0.0426
4689.44
76
650.19
1.71
0.1386 14.41
0.0039
TEL
CMF
2924508.22
125959.06
2188
1096
41943.08
2086.94
1.28
1.02
0.0143 19.22
0.0166 53.29
0.5722
0.0891
CMP
COMI
CGC
310818.16
145313.19
44533.91
1840
917
376
439.64
8890.13
981.91
1.35
2.02
1.19
0.0014 47.28
0.0612 4.59
0.022 15.38
0.002
0.0514
0.0063
DAFR
269018.68
1112
2736.32
1.38
0.0102 13.91
0.0028
Energopetrol
14 Campina
ENP
Flamingo
International
15 Bucuresti
FLA
Impact Developer
16 & Contractor S.A. IMP
Mechel
17 Targoviste
COS
18Mefin Sinaia
MEF
Oil Terminal
19 Constanta
OIL
20Petrom
SNP
Prodplast
21 Bucuresti
PPL
Santierul Naval
22 Orsova
SNO
23Sinteza Oradea STZ
24Siretul Pascani SRT
SNTGN
25 TRANSGAZ SA TGN
26Socep Constanta SOCP
27Teraplast SA
TRP
28TITAN S.A.
MPN
Transilvania
Constructii SA
29 Cluj
COTR
Turism Felix S.A.
30 Baile Felix
TUFE
Turism, hoteluri,
restaurante
31 Marea Neagra
EFO
32UCM Resita
UCM
Vae Apcarom
33 Buzau
APC
34Vrancart Adjud VNC
23928.02
241
103.58
1.19
0.0043 31.28
0.0512
1057166.76
249
402.7
1.17
0.0004 58.04
0.0005
151688.18
160
8258.69
2.91
0.0544
0.76
0.0413
1107164.18
27405.43
3513 106330.96
611
165
1.64
2.26
0.096 1.17
0.006 36.57
1.5444
0.0312
134573.36
16750726.46
1273
1025.68
29861 1022387.5
0.86
1.48
0.0076 90.86
0.061 10.03
0.0018
0.018
66132.79
279
5151.06
7.59
0.0779 24.25
0.1361
125966.96
12287.24
14224.37
778
108
373
15404.01
52.47
310.18
1.87
7.16
3.67
0.1223 2.94
0.0043 327.58
0.0218 15.56
1.3485
0.0008
0.002
4918 239007.09
626
7613.71
540 19322.14
964
9794.49
1.72
10.79
2.12
0.63
0.2135 6.01
0.1294 7.22
0.0991 6.17
0.0333 15.85
20.2998
0.0222
0.0649
0.024
1119389.99
58818.01
194916.1
294472.57
58939.83
347
5532.68
2.16
0.0939
3.85
7.7978
55448.04
844
9639.95
1.08
0.1739
8.75
0.0194
39232.58
146012.01
589
2298
11811.75
1095.44
8.07
0.85
0.3011 9.48
0.0075 19.36
0.0612
0.0116
87390.13
115072.96
243
989
2137.55
5743.1
1.92
1.32
0.0245 15.19
0.0499 6.43
0.029
0.0083
Inainte de a fi utilizate in analiza, datele initiale au fost normalizate prin raportarea diferentei
dintre fiecare variabila si media sa la varianta acesteia. Valorile normalizate care au fost preluate in
SAS sunt prezentate in tabelul de mai jos:
Firma
Cifra_afaceri Nr_salariati
Profit_net
ARS
ALR
AMO
ATB
AZO
BRM
-35.08206
BCM
-31.481985
EPS
-15.825 -8.91123
TEL
-9.123442838 -13.03410958
-10.02288 -35.171414
CMF
CMP
COMI
CGC
DAFR
ENP
FLA
IMP
COS
MEF
OIL
-32.286382
-14.345 -8.93281
SNP
-31.499664
-15.772
PPL
-31.250684
-15.521 -8.89627
SNO
STZ
SRT
TGN
-29.25295
SOCP
TRP
MPN
COTR
TUFE
EFO
UCM
APC
VNC
-15.843 -3.41079
-8.9284
Empiric, am observat existenta anumitor legaturi intre variabilele analizate, insa gradul
corelatiei poate fi mai bine identificat prin calculul urmatorilor indicatori:
- coeficientul de corelatie Pearson;
- covarianta.
Corelatia dintre variabile conduce la redundanta informationala, lucru care poate distorsiona
analiza, precum si concluziile acesteia. Unul dintre obiectivele analizei multidimensionale a datelor
este tocmai reducerea acestei redundante. In cazul corelarii variabilelor, reprezentarea geometrica a
acestora nu este una ortogonala iar interpretarea distantelor dintre obiecte in acest spatiu este
alterata.
Output-ul obtinut prin rularea programului in SAS este dupa cum urmeaza:
The CORR Procedure
3 Partial Variables: Nr_salariati PER EPS
4 Variables:
Simple Statistics
Variable
Mean
Std Dev
Sum
Minimum
Maximum
Partial
Variance
Partial
Std Dev
Label
Nr_salariati
34
-13.07096
1.00000
-444.41264
-13.45201
-7.55845
Nr_salariati
PER
34
-15.48001
1.00000
-526.32025
-15.93568
-10.16564
PER
EPS
34
-8.67055
1.00000
-294.79873
-8.93316
-3.41079
EPS
Cifra_afaceri_
34
-9.84121
1.00000
-334.60103
-10.13780
-4.32018
0.03174
0.17815
Cifra_afaceri
Profit_net
34
-9.95317
1.00000
-338.40793
-10.25450
-4.60195
0.02863
0.16921
Profit_net
Rentab_econ
34
-31.44546
1.00000
-1069
-32.39246
-27.96238
0.84299
0.91814
Rentab_econ
Lichiditate
34
-34.66558
1.00000
-1179
-35.44799
-31.12496
1.00658
1.00328
Lichiditate
In tabloul Simple Statistic, se calculeaza pentru fiecare din cele 7 variabile media,
abaterea standard, valoarea minima si maxima, varianta partiala si abaterea standard partiala.
Se remarca ca pentru toate variabilele valoare STDEV=1, deoarece variabilele modelului au
fost normalizate initial.
Profit_net
1.00000
0.23804
Profit_net
Lichiditate
Lichiditate
0.23804
-0.10003
0.00521
0.1972
0.5924
0.9778
1.00000
0.36157
0.15657
0.0457
0.4003
1.00000
0.55914
0.1972
Rentab_econ
Rentab_econ
-0.10003
0.36157
0.5924
0.0457
0.00521
0.15657
0.55914
0.9778
0.4003
0.0011
0.0011
1.00000
Din analiza matricea de corelatii Pearson din tabloul Pearson Partial Correlation
Coefficients observam ca variabilele sunt putin corelate intre ele, singura corelatie mai
puternica fiind intre Rentab_econ si Lichiditate. Pentru aceste 2 variabile coefientul de
corelatie Pearson are valoarea de 55.91%, cu p-value de 0.0011.
34
Variables
Media si varianta pentru fiecare dintre cele 7 variabile sunt redate in tabelul de mai jos:
Simple Statistics
Cifra_afaceri
Nr_salariati
Profit_net
Lichiditate
Rentab_econ
PER
EPS
Mean
-9.841206729
-13.07096000
-9.953174291
-34.66557540
-31.44545654
-15.48000741
-8.670550923
StD
1.000000000
1.00000000
1.000000000
1.00000000
1.00000000
1.00000000
1.000000000
Matricea de covarianta este redata in tabelul de mai jos. Se remarca ca varianta totala este
egala cu numarul de variabile, respectiv 7.
Covariance Matrix
Cifra_afaceri
Nr_salariati
Profit_net
Lichiditate
Rentab_econ
PER
EPS
Cifra_afaceri
1.000000000
0.982417621
0.966643680
-0.116063880
-0.005245987
-0.075948423
-0.000776150
Nr_salariati
0.982417621
0.999999999
0.983599602
-0.126512001
0.044432509
-0.095456419
0.077070303
Profit_net
0.966643680
0.983599602
1.000000000
-0.105090675
0.127585829
-0.101241468
0.156207488
Lichiditate
-0.116063880
-0.126512001
-0.105090675
0.999999999
0.372595168
0.270928644
-0.069740490
Covariance Matrix
Cifra_afaceri
Nr_salariati
Profit_net
Lichiditate
Rentab_econ
-0.005245987
0.044432509
0.127585829
0.372595168
1.000000002
-0.296137974
0.409586392
PER
-0.075948423
-0.095456419
-0.101241468
0.270928644
-0.296137974
1.000000000
-0.099927176
EPS
-0.000776150
0.077070303
0.156207488
-0.069740490
0.409586392
-0.099927176
1.000000000
Total Variance
Rentab_econ
PER
EPS
7.0000000007
Difference
Proportion
Cumulative
3.01094821
1.43669959
0.4301
0.4301
1.57424862
0.31404618
0.2249
0.6550
1.26020244
0.41331133
0.1800
0.8351
0.84689111
0.56796502
0.1210
0.9560
0.27892609
0.26094675
0.0398
0.9959
0.01797933
0.00717513
0.0026
0.9985
0.01080421
0.0015
1.0000
Prin2
Prin3
Prin4
Prin5
Prin6
Prin7
Cifra_afaceri
0.562514
-.112034
0.101713
-.057534
-.031154
0.774654
-.237299
Nr_salariati
0.570073
-.060575
0.079807
-.009543
-.024649
-.192276
0.792029
Profit_net
0.570573
0.011273
0.084071
0.031533
0.020160
-.592460
-.561107
Lichiditate
-.103893
0.297098
0.738088
-.274478
-.529524
-.020699
-.001682
Rentab_econ
0.061213
0.724416
0.112382
-.188650
0.646097
0.068067
0.034380
PER
-.104376
-.302446
0.620077
0.586885
0.410268
0.014679
0.012916
EPS
0.087210
0.528330
-.185251
0.735013
-.363123
0.081577
0.013662
10
Dupa al doilea punct de pe grafic ce simbolizeaza cea de-a doua componenta, panta se
reduce si forma graficului se aplatizeaza.
Graficul de mai jos reprezinta graficul primelor 2 componente principale si poate fi utilizat
pentru a determina anumite trenduri urmate de variabile. Se remarca ca SNP este in extrema dreapta
a graficului inregistrand valori ridicate pentru cifra de afaceri si profitul net, in timp de DAFR se
afla in extrema stanga cu valori mult mai reduse pentru cifra de afaceri si profitul net. Admitand ca
primele doua componente principale sunt dintr-o distributie normala, graficul sugereaza ca punctele
de extrem (SNP, TGN, EFO) ar putea fi eliminate din analiza.
11
Analiza factoriala
Analiza factoriala isi propune identificarea unor factori ascunsi, necuantificabili, care sa
explice variabilele considerate initial.
Intr-o prima varianta, toate variabilele explicative sunt supuse testului de identificare a
factorilor comuni.
The FACTOR Procedure
Initial Factor Method: Principal Factors
Prior Communality Estimates: SMC
Cifra_afaceri_
0.97417168
Profit_net
0.97949979
Rentab_econ
Lichiditate
Nr_salariati
PER
EPS
0.55562171
0.37898420
0.98339848
0.28796072
0.41353694
Difference
Proportion
Cumulative
2.97532151
1.91088706
0.6506
0.6506
1.06443445
0.44231353
0.2328
0.8834
0.62212092
0.39413530
0.1360
1.0194
0.22798562
0.23569428
0.0499
1.0692
-.00770866
0.01065775
-0.0017
1.0676
-.01836641
0.27224750
-0.0040
1.0635
-.29061391
-0.0635
1.0000
12
13
Forma initiala a matricii factor este redata in tabelul Factor Pattern, iar varianta explicata
de fiecare din factori este redata in tabelul Variance Explained by Each Factor. Tabelul Final
Communality Estimates exprima proportia variantei variabilelor retinute de factorii comuni.
Factor Pattern
Factor1
Factor2
Factor3
Factor4
Cifra_afaceri_
Cifra_afaceri
0.97791
-0.12563
0.08414
-0.06941
Profit_net
Profit_net
0.99023
0.05942
0.03561
0.06637
Rentab_econ
Rentab_econ
0.08173
0.79116
0.07485
-0.12148
Lichiditate
Lichiditate
-0.13668
0.29927
0.59842
-0.06439
Nr_salariati
Nr_salariati
0.99220
-0.04956
0.04011
0.00168
PER
PER
-0.12712
-0.25272
0.44477
0.28780
EPS
EPS
0.11168
0.51312
-0.22501
0.34209
Factor2
Factor3
Factor4
2.9753215
1.0644344
0.6221209
0.2279856
Profit_net
0.98976186
Rentab_econ
Lichiditate
Nr_salariati
PER
EPS
0.65297735
0.47049895
0.98851977
0.36068147
0.44342455
14
Difference
Proportion
Cumulative
3.01094821
1.43669959
0.4301
0.4301
1.57424862
0.31404618
0.2249
0.6550
1.26020244
0.41331133
0.1800
0.8351
0.84689111
0.56796502
0.1210
0.9560
0.27892609
0.26094675
0.0398
0.9959
0.01797933
0.00717513
0.0026
0.9985
0.01080421
0.0015
1.0000
Factor2
Cifra_afaceri_
Cifra_afaceri
0.97608
-0.14057
Profit_net
Profit_net
0.99006
0.01414
Rentab_econ
Rentab_econ
0.10622
0.90892
Lichiditate
Lichiditate
-0.18028
0.37277
Nr_salariati
Nr_salariati
0.98920
-0.07600
PER
PER
-0.18111
-0.37948
15
Factor Pattern
Factor1
EPS
EPS
0.15133
Factor2
0.66289
Factor2
3.0109482
1.5742486
Profit_net
0.98042493
Rentab_econ
Lichiditate
Nr_salariati
PER
EPS
0.83741291
0.17145413
0.98428469
0.17680472
0.46232462
0.99287
0.11924
-0.11924
0.99287
Factor2
Cifra_afaceri_
Cifra_afaceri
0.98588
-0.02317
Profit_net
Profit_net
0.98131
0.13210
Rentab_econ
Rentab_econ
-0.00292
0.91510
Lichiditate
Lichiditate
-0.22344
0.34861
Nr_salariati
Nr_salariati
0.99120
0.04249
16
Factor2
PER
PER
-0.13457
-0.39837
EPS
EPS
0.07120
0.67621
Factor2
2.9905202
1.5946767
Profit_net
0.98042493
Rentab_econ
Lichiditate
Nr_salariati
PER
EPS
0.83741291
0.17145413
0.98428469
0.17680472
0.46232462
17
|
0+
AA
|
A A
|
AAB
A
|
AA
|
AAA A
|
BAA
|
A
-1 +
B
|
|
|
A
|
|
|
-2 +
|
--+-----------+-----------+-----------+-----------+-----------+-----------+-----------+-1
0
1
2
3
4
5
6
Factor1
Analiza Cluster:
Clusterizarea este, alaturi de clasificare si discriminare, o metoda de recunoastere a
formelor, avand ca scop identificarea unor niveluri de structurare naturala, latenta, a obiectelor pe
anumite grupe, sau clase. Dezvoltarea acestor metode de-a lungul timpului si diversificarea se
datoreaza necesitatii ce caracterizeaza multe domenii de activitate pentru: tipologii, modele
predictive de incadrare intr-o clasa, esentializare a unui volum mare de informatie , etc.
Apartenenta unui obiect la o anumita clasa se realizeaza prin prisma caracteristicilor sale,
date prin variabile explicative cu o putere de discriminare mare. In functie de conditiile in care se
realizeaza aceasta clasificare se disting metode supervizate, sau controlate, si nesupervizate
(necontrolate). Diferenta consta in cunoasterea, sau nu, apriorica, a apartenentei obiectelor din
esantionul considerat la una din starile naturii (clase posibile).
Analiza cluster urmareste organizarea datelor sub forma unor structuri informationale
semnificative, relevante. Aceasta este folosita atat pentru clasificarea variabilelor, cat si pentru cea a
obiectelor si este o metoda exploratorie, deoarece input-ul acestei analize nu include setul complet
de invatare (informatii despre apartenenta la clase a obiectelor unui esantion). Ea grupeaza obiectele
in urma evaluarii dupa diferite metode a distantelor dintre ele,astfel incat sa se obtina o variabilitate
minima in fiecare clasa si o variabilitate maxima intre clasele construite.
In cazul de fata, clasificarea relevanta este cea a obiectelor, respectiv cea a firmelor listate la
bursa. Metoda folosita initial in analiza este cea de clasificare ierarhica. In cazul clasificarii
ierarhice numarul de clustere nu este cunosc, iar algoritmul ne furnizeaza solutii multinivel ce difera
intre ele prin numar de clustere si grad de agregare. Alegerea numarului optim de clase se realizeaza
in functie de obiectivele cercetatorului si de rezultatele obtinute prin calcul statistic.
Intre metodele de clasificare ierarhica se face distinctia dintre:
18
Difference
Proportion
Cumulative
3.01094821
1.43669959
0.4301
0.4301
1.57424862
0.31404618
0.2249
0.6550
1.26020244
0.41331133
0.1800
0.8351
0.84689111
0.56796502
0.1210
0.9560
0.27892609
0.26094675
0.0398
0.9959
0.01797933
0.00717513
0.0026
0.9985
0.01080421
0.0015
1.0000
3.741657
19
Cluster History
NCL
Clusters Joined
FREQ
SPRSQ
RSQ
ERSQ
CCC
PSF
PST2
33
ARS
COMI
0.0001
1.00
366
32
BRM
VNC
0.0001
1.00
330
31
CGC
DAFR
0.0001
1.00
298
30
AMO
CL32
0.0002
.999
263
1.7
29
CMF
CMP
0.0002
.999
236
28
CL33
ATB
0.0003
.999
218
3.1
27
CL31
APC
0.0003
.999
206
2.0
26
CL30
MPN
0.0004
.998
183
2.9
25
ENP
MEF
0.0005
.998
168
24
CL29
FLA
0.0005
.997
158
2.2
23
SNO
TRP
0.0006
.997
151
22
CL28
IMP
0.0007
.996
143
3.9
21
CL27
UCM
0.0007
.995
137
3.5
20
BCM
CL23
0.0008
.994
133
1.4
19
CL21
CL25
0.0010
.994
128
2.4
18
AZO
SRT
0.0013
.992
120
17
CL24
OIL
0.0016
.991
113
4.2
16
ALR
COS
0.0022
.988
103
15
CL26
CL19
10
0.0024
.986
96.1
5.7
14
CL22
CL18
0.0025
.984
92.1
4.3
13
CL20
TUFE
0.0025
.981
90.6
3.7
12
CL15
TEL
11
0.0044
.977
83.8
6.8
11
PPL
SOCP
0.0055
.971
77.6
10
CL14
CL12
17
0.0087
.963
68.5
8.7
CL16
CL13
0.0094
.953
63.5
6.2
20
T
i
e
Cluster History
NCL
Clusters Joined
FREQ
SPRSQ
RSQ
ERSQ
CCC
PSF
PST2
CL10
CL17
21
0.0137
.939
57.6
10.0
CL9
COTR
0.0162
.923
54.1
5.2
CL11
EFO
0.0251
.898
.714
12.7
49.4
4.6
CL8
CL7
28
0.0520
.846
.667
10.3
39.9
19.0
CL6
STZ
0.1206
.725
.604
4.78
26.4
7.9
CL5
TGN
29
0.1551
.570
.507
1.82
20.6
33.9
CL3
CL4
33
0.1697
.401
.355
1.04
21.4
12.2
CL2
SNP
34
0.4007
.000
.000
0.00
21.4
T
i
e
Graficul urmator prezinta trei statistici pentru estimarea numarului de clustere. Varfurile
graficului CCC cu valori mai mari decat 2 sau 3 indica clustere bune. Valorile intre 0 si 2 indica
posibile clustere.
O alta metoda de stabilire a numarului de clustere este prin statistica pseudo F. Valorile
relativ mari indica un numar bun de clustere.
21
Dendograma este graficul care evidentiaza structura clusterelor, componenta lor si etapele
de agregare in urma carora au fost obtinute. Aceasta ne poate ajuta sa decidem asupra numarului
optim de clase ce trebuie retinute in analiza, prin aparitia unor gap-uri.
22
Un astfel de gap este evidentiat si in graficul urmator prin linia rosie: ea intersecteaza
dendograma in 6 puncte, ceea ce ne sugereaza formarea a sase clustere.
23
24
25