Sunteți pe pagina 1din 19

ACADEMIA DE STUDII ECONOMICE

Facultatea de Finane, Asigurri, Bnci i Burse de Valori

PROIECT ANALIZA DATELOR

Bucureti
21 iunie 2012

Cuprins

Introducere.............................................................................................................3
Analiza componentelor principale.........................................................................6
Analiza cluster.....................................................................................................11
Analiza discriminant..........................................................................................15
Concluzii.............................................................................................................18

Introducere
Prin intermediul acestui proiect, doresc s realizez o exemplificare i interpretarea a unor
rezultate economice prin utilizarea programului econometric SAS. Am fcut apel la
urmtoarele analize:
analiza componentelor principale
analiza cluster
analiza discriminant
Alegerea datelor financiare i standardizarea acestora
Pentru exemplificare, am ales un numr de 35 de companii listate la Bursa de Valori
Bucureti (criteriile dup care am ales aceste companii este volum de tranzacionare
comparativ cu totalitatea titlurilor, categoriile n care sunt ncadrate pentru tranzacionare,
etc). Pentru fiecare din aceste 35 de companii, am selectat un numar de 6 indicatori
economice aa cum au fost raportai de respectivele companii la 31 decembrie 2011. Sursa
datelor o reprezint www.bvb.ro i www.ktd.ro:
cifra de afaceri,
numr salariai
profit
indice de lichiditate
capitaluri proprii
EPS (earnings per share)
Nume Companii

Cifra de
afaceri

Aerostar Bacau

Azomures

158.402,22
1.625.577,2
0

Antibiotice

281.847,46

Biofarm

28.583,62

Bermas

C.N.T.E.E. Transelectrica

23.098,10
3.113.142,7
8

Carbochim

Calipso Oradea

Dafora

30.321,51
6.056,34
45.004,76

10

Eletromagnetica

495.195,62

11

Electroputere

199.082,32

12

ElectroArges

125.615,94

13

Farmaceutica Remedia

203.467,82

14

Electrocontact

6.817,99

Salariati
1.21
9
2.68
8
1.45
0
36
2

Profit

Lichiditate

11.618,30

4,70

365.196,44

Capitaluri
proprii

EPS
0,10

4,30

102.543,40
1.101.795,1
6

20.298,91

1,92

287.058,41

0,04

0,69

6.015,09

5,03

151.776,10

0,01

205

1.915,90

2,12

0,09

2.197
23
3
7
2
57
9
53
5
1.55
7
55
8
39
5
13
1

90.913,32

1,11

23.061,19
2.467.436,7
6

1.468,01

2,08

64.750,68

0,38

1.251,43

1,34

68.265,29

0,07

1.890,06

1,20

162.110,48

0,00

12.943,98

0,00

267.016,75

-48.063,97

1,01

20.898,02

0,02
0,14

7.310,57

1,89

26.260,09

0,12

4.077,45

1,05

39.835,32

0,04

-596,49

2,51

11.698,06

0,00

1,24

15

Impact Developet &


Contractor

16

Mecanica Ceahlau

2
13.540,40

31.578,54
1.099.750,7
1
1.533.016,1
9

0,11

-22.261,05

7,82

296.828,11

7.246,83

3,69

42.913,16

-133.495,50

0,50

7.246,83

-278.342,62

0,21

-826.884,43

545,42
3.685.607,2
3

0,63

0,00

1,10

345.226,81
18.890.892,
16

235,34

2,15

13.013,03

0,58

2.929,97

14,71

47.572,52

0,17

385.169,84

1,09

379.571,47

1,91

91.212,49
3.262.877,9
6

0,04
32,2
4

63.006,52

3,63

642.598,33

0,11

192.922,60

2,43

566.155,40

0,37

65.336,35

1,94

1.137.521,3
9

0,08

19
17
18

Mechel Targoviste
Oltchim

2.25
0
3.44
7

0,03
1,94
0,81

1.18
19

Oil Terminal

20

OMV Petrom

21

PetrolExportImport

22

Prodplast

53.828,30

23

Ropharm

24

SNTGN Transgaz

385.169,84
1.343.321,8
1

25

SIF Banat Crisana

141.752,17

26

SIF Moldova

336.996,16

5
22.05
2
1
9
15
1
75
6
4.95
1
7
8
7
8

27

SIF Muntenia

196.907,50

28

SIF Oltenia

133.228,30

72

83.442,67

0,80

652.841,78

0,14

29

SIF Transilvania

325.883,73

77

207.727,56

2,99

769.314,33

0,19

30

Socep

59.103,46

440

7.092,14

13,30

99.800,09

31

Turbomecanica

46.491,76

438

-19.411,42

0,61

67.520,49

0,02
0,05

32

Titan

348.039,35

881

8.242,13

0,00

134.882,94

33

Teraplat

209.359,98

449

-14.642,20

1,19

130.073,87

0,02
0,05

34

Vrancart

163.751,67

1.134

1.997,35

0,98

88.234,85

0,00

35

Zentiva

235.648,17

555

33.857,31

3,34

256.395,84

0,08

862.915,82
2.804.874,4
3

1.469

146.657,63

2,72

0,97

3.744

629.224,42

3,26

900.306,96
3.211.848,9
0

Mean
Standard deviation

115.773,80
16.565.465,
97
521.232,19

0,07

5,46

Datele sunt importate in SAS fie manual prin File, Import din meniul programului SAS, fie
prim urmtoarea procedur:
PROC IMPORT OUT= WORK.Companii
DATAFILE= "C:\Users\Anca\Desktop\AnalizaDatelor.xls"
DBMS=EXCEL REPLACE;
RANGE="Sheet1$";
GETNAMES=YES;
MIXED=NO;
SCANTEXT=YES;
USEDATE=YES;
SCANTIME=YES;
RUN;

Intrucat datele sunt extrase in forma lor brut, primar, am purces la procesul de
standardizare a acestora pentru a le asigura consistena, relevana i comparabilitate.
Operaia de standardizare a valorilor a constat n substituirea valorilor fiecrei observaii cu o
noua valoarea reprezentnd raportul dintre valoarea centrat a respectivei variabile i abaterea
standard a respectivei variabile

Am realizat procesul de standardizare a valorilor att n programul Excel, ct i n programul


SAS, rezultatele obinute fiind aceleai.
Dup realizarea importului datelor din Excel, standardizarea datelor s-a efectuat dup
urmtoarea procedur:
PROC STANDARD data=work.companii mean=0 std=1 out=work.companiist;
var cifra_de_afaceri Salariati profit lichiditate capitaluri_proprii eps;
RUN;

Analiza componentelor principale


Analiza componentelor principale este o metod de analiz multidimensional al crei scop
este descompunerea variabilitii totale din spaiul cauzal iniial la un numr redus de
componente cu eliminarea redundanei informaionale. Componentele principale reprezint
combinaii liniare ale variabilelor originale, astfel nct aceste variabile noi s fie caracterizate
de o variabiliate maxim.
Acest tip de analiz asupra datelor o vom realiza cu ajutorul procedurii princomp:
PROC PRINCOMP DATA=work.companiist STD out=Analiza n=6 outstat=rez_ACP;
var cifra_de_afaceri Salariati profit lichiditate capitaluri_proprii eps;
title 'Rezultate Analiza Componentelor Principale';
RUN;

Rezultat din SAS este urmtorul:

Dupa cum se poate observa, n tabelul Simple Statistics n cazul variabilelor standardizate,
media aritmetic este nul. Totodat, variabilele standardizate au proprietatea ca variana lor
este egal cu unitatea.
n continuare, n tabelul Correlation Matrix procedura a evideniat corelaia dintre
variabilele supuse analizei. Observm faptul c, cele mai puternic corelate variabile sunt cifra
de afaceri i numrul de salariai cu un grad de corelare de 0.9780, dar i capitalurile proprii i
numrul de salariai cu 0.9627. La polul opus, cele mai puternic necorelate variabile supuse
analizei sunt numrul de salariai i lichiditate cu un grad de corelare de -0,1443, n condiiile
n care valoarea 1 aduce cu sine variabile puternic correlate, iar valoarea -1, valori puternic
necorelate.
Tabelul Eigenvalues of the Correlation Matrix relev ordonarea componentelor principale
n ordine descresctoare a informaiei reinute, procent din variana total. Conform
Criteriului lui Kaiser (ntruct valorile au fost standardizate), numrul de componente
principale este dat de numrul valorilor proprii mai mari dect 1. Astfel putem observa faptul
c avem doar 2 componenete supraunitare, deci vom avea doar 2 componente principale. Din
acelai tabel observm ca primele dou componente rein cumulat 82.46% din informaia
coninut n spaiul iniial de puncte, fapt ce implic pierderea a 17.54% din informaie.
Prima component principal explic 65,64% din variana total; primele dou componente n
proporie de 82,46% iar primele trei n proportie de 98,66%. In cazul variabilelor
standardizate, covariantele sunt chiar coeficientii de corelaia Pearson.
Desigur, aceste componente principale pot fi scrise ca o combinaie liniar a celor 6 variabile,
fapt evideniat n ultimul tabel, cel al vectorilor proprii Eigenvectors:
Spre exemplu prima component principal se scrie sub forma:
Componenta 1 = 0.4980*Cifra _afaceri + 0.4947*Salariai + 0.4945* Profit +
(-0,0769*Lichiditate+0.50*capitaluri proprii + 0.0685*EPS
Componenta 2 = 0.0929*Cifra _afaceri + (-0.0167*Salariai) + 0.0922* Profit +
0,5936*Lichiditate+0.0329*Capitaluri proprii +(- 0.7931*EPS)
Un alt mod de determinare a componentelor principale este facilitat de calea grafic.
Astfel vom rula procedura general de generare a graficelor:
ods graphics on;
proc princomp plots=all;
var cifra_de_afaceri Salariati profit lichiditate capitaluri_proprii
eps;
run;
ods graphics off;

Aa cum rezult din unul din graficele rezultate, primul component explic intr-o proporie
foarte mare variana, de peste 60%. n al doilea grafic, observm variana explicat de ctre
fiecare dintre componentele principale. Legenda ne arat c linia continu reprezint
proporia n care fiecare component explic variana, iar linia punctat reprezint inluena
cumulativ a componentelor, mai exact, este o reprezentare grafic a coloanelor 3 i 4 din
tabelul valorilor proprii.

Graficul de mai sus prezint componena componentelor 1 i 2: observm faptul c prima


component este cel mai bine explicat cu ajutorul variabilelor profit, salariai, capitaluri
proprii i cifra de afaceri la natere. Cea de-a doua component se explic prin lichiditate i
cifra de afaceri, dar i prin EPS, pentru aceast din urm se poate remarca faptul c are valori
negative.
Transpuse n economie, o abordare de a interpretare cele 2 componente principale ar fi:
componenta 1 s fie vzut ca exprimnd dimensiunea companiilor (prin numrul salariailor,
prin mrimea cifrei de afaceri, a capitalurilor proprii), iar componenta 2 exprimnd
performana companiilor (prin lichiditate, prin EPS i prin mrimea cifrei de afaceri).
Proiectate pe cele dou componente principale care au rezultat n urma ACP-ului, cele 35 de
companii ar fi poziionate n felul urmtor:

Se poate remarca poziia distinctiv fa de restul companiilor a companiilor 35 (Zentiva),


care este foarte bine reprezentat pe componenta 1 - dimensiune i 34 (Vrancart), care este
reprezentat negativ pe axa componentei 2- performan.

10

Analiza cluster
Analiza cluster este o metod foarte rspandit n primul rnd datorit scopului cu care acesta
este aplicat dar i datorit uurinei n ceea ce const utilizarea ei. Scopul acesteia este
practic clasificarea obiectelor n custere, asigurndu-se o variabilitate mininm intracluster i
o variabilitate maxim intercluster. Mulimea de obiecte grupate ntr-un cluster au proprietatea
c gradul de disimilaritate dintre oricare dou dintre ele este mai mic dect gradul de
disimilaritate dintre oricare obiect al clusterului i un obiect al unui alt cluster. Cu alte cuvinte,
analiza multidimensional de clusterizare are rolul de a grupa obiecte ct mai asemntoare
ntre ele, iar obiectele din clase diferite s fie la rndul lor ct mai diferite ntre ele. Acest mod
de analiz a datelor ofer posibilitatea crerii de ipoteze asupra fenomenelor, explicnd
asemnarea dintre observaiile fcute pe acestea.
Pentru a realiza aceast analiz, vom folosi metoda Ward de evaluare a distanelor dintre
clustere ca sum a ptratelor abaterilor la nivelul configuraiei rezultat din comasarea celor
dou clustere pentru care se evalueaz distana.
Procedura n SAS este urmtoarea:
proc cluster method=ward standard data=work.companiist outtree=work.cluster
all;
id nume_companii;
run;
proc tree horizontal;
id nume_companii;
run;
proc tree data=work.cluster out=work.cluster_tree nclusters=5 haxis=axis1
horizontal;
height _rsq_;
copy cifra_de_afaceri salariati profit lichiditate capitaluri_proprii
eps;
id nume_companii;
title 'Arborele clasificarii - Dendrograma';
run;

Mai jos, putem observa istoricul clusterizrii realizate. Coloana FREQ arat cte obiecte sunt
cuprinse n fiecare cluster. O cretere semnificativ a lui SPRSQ indic o cretere a numrului
de clustere comasate la un moment dat. CCC arat criteriul cubic de clusterizare, o valoare
aproximat a lui R ateptat, n ipoteza nul. Faptul c acesta are valoarea 0 n cea mai mare
parte a analizei, ne arat faptul c dispunem de o clusterizare potenial, cu alte cuvinte
trebuie s avem mare grij n folosirea acestor clustere. Coloanele PSF i PST2 indic valorile

11

testelor pseudo F i respectiv t, teste ce la momentul apariiei unei variaii semnificative,


indic momentul de oprire i trecere la un alt nivel de grupare.
Dendrograma clasificrii arat reprezentarea claselor formate. Aceasta ne poate ajuta sa
decidem asupra numarului optim de clase ce trebuie retinute in analiza, prin aparitia unor gapuri. Fcnd o tietur imaginar pe dendrogram, putem afla numrul claselor. Poziia
tieturii depinde de analist, aceasta se face n funcie de distana dorit ntre clase.

12

13

Astfel, dup ce am trasat o linie, grupele ar arat sub forma urmtoare:


Grupa 1: Aerostar, Biofarm, Mecanica Ceahlau, Zentiva, SIF Banat Crisana, Bermas,
Carbochim, ElectroArges, Electrocontact, PetrolExportImport, SIF Moldova, SIF
Transilvania, SIF Muntenia, Impact, Azomures, Transelectrica
Grupa 2: Antibiotice, Electroputere, Oil Terminal, Vrancart, Calipso, Dafora, Farmaceutica
Remedia, Teraplat, Turbomecanica, SIF Oltenia, Electromagnetica, Titan, Ropharm, Mechel
Targoviste i Oltchim
Grupa 3: Socep i Prodplast
Grupa 4: SNTGN Transgaz
Grupa 5: OMV Petrom
Totodat, tabelul work.cluster_tree rezultat arat sub forma urmtoare, surpriznd componena
clusterelor, aa cum se vd i n dendograma:

14

Analiza discriminant
Acest tip de analiz este utilizat n special pentru a determina apartenea obiectelor supuse
analizei la anumite clase apriori cunoscute. Ea a fost denumit analiz discriminant deoarece
se bazeaz pe dereminarea unui set optimal de caracterisitci care s permit cea mai bun
discriminare ntre dou sau mai multe tipuri de obiecte. Pe baza acestui set de caracteristici, se
deduc anumite criterii de separare a populaiei supuse analizei, iar prin utilitarea acestor dou
instrumente (setul de caracteristici i criteriile de separare) se poate recurge la clasificare
obiectelor n clase, fenomen cunoscut sub numele de predicie. Variabilele din setul optimal
de caracteristici se numesc variabile descriptor.
Analiza discriminant const n cutarea unei variabile scor,
combinaie liniar a variabilelor

, care s fie adesea o

. Aceasta are putere discriminatorie maxim. Apoi se

caut o nou variabil, cu putere discriminatorie mai mic, dar maxim n cadrul celor rmase
i tot aa. Criteriile pe care se caut variabila discriminant se folosesc deopotriv n deducerea
funciei discriminant, denumit i funcie de clasificare sau funcie scor, care definete puncte,
curbe sau suprafee de separare a populaiei.
Procesul efectiv pornete de la un set de clase iniiale i se stabilete o modalitate eficient de
structurare a populaiei n clase de predicie. Aceast structurare nu este niciodat perfect,
deoarece clasele de predicie se obin prin trunchiere. Criteriile de clasificare a obiectelor n
clase se determin prin intermediul procesului de formare a clasificatorului.
Pentru determinarea clasificatorului vom folosi criteriul funciilor discriminant ale lui Fisher
care urmrete maximizarea variabilitii dintre grupe i minimizarea acesteia n cadrul
grupelor. Astfel, scorurile discriminate se determin prin trasarea de axe pe care gardul de
omogenitate al variabilelor s fie maxim, iar similaritatea ntre ele s fie minim.
In SAS, am pornit aadar de la rezultatele pe care le-am obinut n cadrul analizei cluster, i.e.
tabelul work.cluster_tree. Procedura pe care am utilizat-o a fost urmtoarea:
PROC DISCRIM data=work.cluster_tree LIST;
var cifra_de_afaceri salariati profit lichiditate capitaluri_proprii
eps;
CLASS cluster;
RUN;

n urma rulrii acesteia avem primele informaii legate de numrul de observaii, numrul
variabilelor cantitative incluse n analiz, numrul de clustere luate n calcul, precum i date
referitoare la clustere i la matricea de varian-covarian.

15

Astfel, pentru cele 35 de companii supuse analizei, avem 35-1=34 grade de libertate, ce au
fost mprite n 5 clase/grupe, n fiecare grup existnd deci, 30 de grade de libertate. De
asemenea, n tabelul Class level information, SAS ofer informaii asupra frecvenei
oservaiilor din fiecare clas, proporia acestora n fiecare clas. Probabiliti sunt egale pentru
toate cele 5 clase.

n urmtoarea imagine sunt prezentate ptratele distanelor dintre clustere i funcia


discriminant liniar. Find dat de asemenea clasificatorul Fisher pentru fiecare clas, putem
determina combinaia liniar discriminant a fiecrui cluster.

16

n cele ce urmeaz avem clasificarea celor 35 de companii supuse analizei n clase:

Astfel avem urmtoarea situaie:


15 companii au fost clasificate n primul cluster cu o probabilitate de 42.86%
16 companii au fost clasificate n al doilea cluster cu o probabilitate de 45.71%
2 companii au fost clasificate n al treilea cluster cu o probabilitate de 5.71%
1 companie a fost clasificat n al patrulea cluster cu o probabilitate de 2.86%
1 companie a fost clasificat n al patrulea cluster cu o probabilitate de 2.86%
Se constat c eroarea total este de 1,25%, clasificatorul obinut avnd o putere de
discriminare foarte mare.

17

Concluzii
n cadrul acestui proiect, am realizat o analiz a mai multor companii, listate la Bursa de
Valori Bucureti prin intermediul programului econometric SAS. Am pornit de la nite date
iniiale (disponibile pe www.bvb.ro i www.ktd.ro), pentru fiecare companie considernd cte
6 caracteristici (variabile): cifra de afaceri, profit, numr salariai, indicele de lichiditate,
capitaluri proprii i EPS (earnings per share). Aceste date au fost supuse procesului de
standardizare, pentru purificarea valorilor originale.
Pentru a simplifica spaiul iniial de cauzalitate am realizat analiza componentelor principale,
prin care am redus dimensionalitatea spaiului i am eliminat redundanele informaionale. n
acest fel am obinut 2 componente principale: Componenta 1 = dimensiunea companiilor
format din numrul salariailor, mrimea cifrei de afaceri i a capitalurilor proprii,
Componenta 2 = lichiditate, prin EPS i prin mrimea cifrei de afaceri
Pentru realizarea clasificrii obiectelor n clase prin analiza cluster am utilizat metoda Ward,
care exprim distanele din punct de vedere al minimizrii variabilitii intarcluster
(maximizarea variabilitii intercluster). Au rezultat 5 clustere, companiile fiind grupate dup
anumite caracteristici comune.
n cadrul analizei discriminante n care s-a evideniat criteriul de discriminare i modul de
alocare a obiectelor n clase.

18

19