Sunteți pe pagina 1din 11

Academia de Studii Economice din Bucuresti

Facultatea de Cibernetica, Statistica si Informatica Economica

Proiect Analiza Datelor


Determinarea trasaturilor economice ale firmelor din judeul
Prahova
Proiectul are ca scop determinarea caracteristicilor financiar-economice ale societatilor
comerciale din judetul Prahova. Pentru realizarea acestei analize au fost selectate 70 de firme,
pentru care s-au preluat informatii financiare referitoare la cifra de afaceri, profitul net, numarul
de salariati, total datorii/total active, rentabilitatea capitalului propriu dupa impozitare i viteza
de rotatie total active(nr. ori).

Datele preluate provin din rezultatele financiare ale firmelor din anul 2012. Sursa datelor
este reprezentat de site-ul http://doingbusiness.ro.

In urma aplicarii procedurii MEANS, s-au


stabilit urmatoarele valori referitoare la caracteristicile
implicate in analiz: cifra de afaceri medie este de 1
807 996,99 lei, profitul net mediu este de -277 552,02
lei, numarul mediu de salariati este de 10,78, raportul
total datorii la total afaceri are o medie de 351,58
unitati, rentabilitatea capitalului propriu dupa
impozitare are o valoare medie negativ de -2 774,26, iar valoarea de rotatie a activelor totale
este in medie de 352,13 ori.

Analiza componentelor principale


Deoarece datele au marimi i unitai de msur diferite, analiza componemtelor
principale se va aplica pe date standardizate. Pentru a standardiza datele este necesar sa scadem
din valorile fiecarei variabile media acesteia si apoi sa raportam la abaterea standard a variabilei.
Aceste operatii se pot face in Excel sau aplicand procedura STANDARD.

Analizam matricea de corelatie pentru a stabili ce variabile vor intra in analiza.

Observam ca
variabilele TD_TA si
VRTA au valori
aproximativ identice de
aceea vom elimina una
din variabile. De
asemenea corelatiile cu
celelalte variabile sunt foarte mici. Deci, alegem sa eliminam ambele variabile. Totodata, RCPDI
are corelatii foarte mici cu celelalte variabile si vom alege sa nu o includem in analiza. Astfel,
vom efectuam analiza componentelor principale pe baza CA, PN si NS.
Aplicam procedura PRINCOMP pentru a realiza analiza componentelor principale.

Dupa cum se observa din tabelul alaturat, datele


sunt standardizate (au media 0 si abaterea standard 1).
Putem lucra astfel atat pe matricea de corelatie, cat si pe
cea de covarianta prezentata in tabel. Matricea de
covarianta este simetrica, iar elementele ei reprezint
corelaiile dintre variabile.

Varianta totala a variabilelor este 3. Valorile


proprii ale matricii de covarianta si vectorii proprii
asociati acestora sunt prezentati n tabelul urmtor.

Pentru a determina numarul de componente


principale retinute in analiza se foloseste criteriul Kaiser.
Conform acestui criteriu retinem in analiza doar
componentele principale care au o valoare mai mare sau
egala cu 1. Astfel, vom alege prima componenta
principala. Prima componenta preia 86.5% din informatia
initiala, procent suficient pentru analiza componentelor
principale.

Forma primei componente principale este urmatoarea:

W1=0.589728*CA-0.559716*PN+0.582185*NS

De asemenea, numarul optim de componente principale poate fi dterminat si din graficul


urmator: se observa aplatizare graficului incepand cu cea de-a doua componenta principala, deci
numarul de componente principale optim va fi 1.
Rezultate Analiza Componentelor Principale

Plot of Prin2*Prin1$Denumire. Symbol used is '*'.

Prin2

4

* S.C ABC PRESS S.R.L
* S.C GLOBAL TRADE S.R.L
3



2 * S.C. ACAPULCO DUPLEX S.R.L
S.C. ABAFIL PROD 2005 S.R.L.
* S.C. ABB* RO CONS S.R.L.
S.C. ABITAT CONSTRUZIONI S.R.L S.C. ANDROMEDE DCOR S.R.L. *
1 S.C.ABICOR BINZE* ROMANIA S.R..L
SS.S.C.R-IDEPRO*TMAVSRRS.R.L
S.C.S.C.LIAG****AS.C..PARISGOLD S.R.L.
SS.S.CG2IIO**IO.CMISBASRRLALEXANDRESCRU S.R.L.
0 S.C.MABAE***G*Y*NRMCR.LAL.A.VAL TRUST S.R.L
.CA&ABCON**BS.C.SSURS.R.LETLANCNTITYTSI.NAL.DEVELOPMENT S.R.L
NSNLTAPTDERADARTM.ETLGNRSTR.L..L

-1



-2
* S.C. SCHOMBURG ROMNIA S.R.L.

* S.C. GENESY IMOBILIAR S.R.L.
-3



-4
S.C. BAUMIX S.R.L *


-5

-1 0 1 2 3 4 5 6

Prin1

NOTE: 46 obs hidden. 878 label characters hidden.

Graficul de mai sus reprezinta imorastierea firmelor din punct de vedere al primei
componente principale.
Primul plan principal

Se observa din grafic prezenta unor observatii de tip outlier, care difera fata de celelalte
observatii prin valorile pe care le au cele trei atribute introdese in analiza componentelor
principale: cifra de afaceri, profitul net si numarul de salariati. Aceste observatii outlier sunt S.C.
BAUMIX S.R.L. si S.C. ANDROMEDE DECOR S.R.L.

Matricea scorurilor

Pe baza matricii scorurilor, prezentata mai sus, se poate calcula cate un scor aferent
fiecarei obervatii din setul de date initial. De exempu, daca dorim sa aflam scorul principal
corespunzator observatiei 5, reprezentata de firma S.C. PARISGOLD S.R.L. acesta va avea
urmatoarea valoare:

W1(5)=-0.2795*(-0.387587471)+(-0.27852)*0.1200627931+(-0.29064)*(-0.265317947)=
0.1083306981445-0.0334399+0.077112=0.152
Analiza cluster
Pentru gruparea firmelor in clase in functie de gradul de asemanare dintre ele vom utiliza
analiza cluster. Criteriul general de clasificare se determin astfel nct acesta sa asigure o
variabilitate minim n interiorul claselor i una maxima ntre clase. Metoda Ward evalueaz
distana dintre doua clustere ca sum total a ptratelor abaterilor la nivelul configuraiei cluster
rezultate din comasarea celor 2 clustere pentru care se evalueaz distana. Rulam procedura
CLUSTER si obinem urmtoarele rezultate:

Cu cat valoarea lui R2 se apropie de 1,


cu att numrul de clustere crete
Pentru valorile lui CCC de 0 si 0,56,
numarul de clustere (egal cu 1, respectiv 2) este
acceptabil
Pentru toate celelalte valori ale
coeficientului CCC, ce depaesc valoarea 4, se
observ prezena unui outlier.
Din punct de vedere al coeficientului
Pseudo t2 numarul optim de clustere este 1
(diferenta 76.5 38.1 este cea mai mare, deci
numarul optim va fi regasit in greptul valorii 38.1)
Din perspectiva coeficientului PseudoF
determinam numarul optim de clustere ca fiind 2
(se observa o valoare mare corespunzatoare, fata
de valoarea pentru un cluster, egala cu 0)
Concluzionand, numarul optim de clustere va fi 1.
Vrem sa obtinem in continuare trei clase de observatii, deci apelam procedura TREE
pntru un numar de trei clase si obtinem urmatoarea dendograma. Se observa grafic ca numarul
optim de clustere in acest caz este trei prin trasarea unei drepte orizontale la nivelul ramificatiei
corespunzatoare celei mai mari distante intre doua ramificatii succesive.
Recalculm componentele principale, pentru a putea desena primul plan principal,
vizualiznd cele 3 clase calculate mai nainte.

Analiza discriminant
Analiza discriminant este utilizata pentru a clasifica anumite obiecte in diverse clase pe
baza analizei unui set de variabile predictoare. Este necesar a se cunoaste a prori clasele, pentru a
forma setul de antrenament, pe baza carora se formeaza functiile discriminant.
Pentru asta, inainte de aplicarea procedurii DISCRIM vom efectua din noua anliza cluster
asupra datelor, impartindu-le de aceasta data in 3 clustere. Aplicam procedura DISCRIM si
ajungem la urmatoarele rezultate:
Procedura a fost aplicata pe 70 de
observatii, care apartineau celor 3 clase determinate
anterior. S-a determinat numarul de observatii
apartinand fiecarui cluster (67, 2, 1), procentul
reprezentat la nivelul intregului si probabilitatile
apriorice corescunzatoare(0.33).
In primul tabel sunt precizate distantele dintre
clustere, iar in cel de-al doilea functiile discriminant
liniare de tip Fisher, utilizate pentru determinarea
regiunilor de separare.
Urmatorul table este un instrument de masurare
si evaluare a performantelor modelului contruit. Se
observa un numar de 67 de observatii ce apartin clasei
reale 1 ce au fost predictate corect, 2 observatii apartinand
clasei reale 2 predictate corect si o obsservatie din clasa
reala 3 predictata corect. In clasa reala 1 exista 67 de
observatii, in clasa 2 2 observatii si in clasa 3 o singura
observatie. Se observa ca numarul formelor predicatate ca
apartinand acestor clase este egal cu numarul efectiv de
forme care a apartin claselor, deci acuratetea modelului
este de 100%.

Clasificatorul este dat de trei functii discriminant, care au urmatoarele forme:

D1(X)=-0.20690+1.121E-8*CA-4.3084E-7*PN+0.03539*NS-0.01561*TD_TA-9.6984E-6
*RCPDI+0.02003*VRTA

D2(X)=-208.44574-3.2372E-6*CA-0.0000392*PN+1.22087*NS+0.40296*TD_TA-6.3299E-6
*RCDPI-0.35507*VRTA

D3(X)=-5642-0.0000418*CA-0.0001169*PN+6.8131*NS-7.74837*TD_TA-0.0003968 *RCDPI
-2.45556*VRTA

Variabilele descriptor sunt: toate variabilele initiale. Variabilele discriminant: cifra de


afaceri, profitul net si numarul de salariati.
Pentru a determina apartenenta unei forme noi la o clasa trebuie sa calculam pentru
respective forma toate cele trei functii discriminant, apoi vom incadra forma in clasa
corespunzatoare celei mai amri valori a functiei discriminant.

Consideram firma S.C. A S.R.L. cu urmatoarele caracteristici:

CA 1555623
PN 26952
NR 3 D1(X)=64.6
TD_TA 13.52
RCPDI -11.75 D2(X)=315902.707
VRTA 13.52 D3(X)=9199747.3

Rezulta ca firma S.C. A S.R.L. va fi incadrata clasei 3.

Concluzie finala:

Prin aplicarea celor trei analize asupra setului de date reprezentand caracteristicile
economice a 70 de firme din judetul Prahova, s-a constatat ca acestea sunt asemanatoare din
punct de vedere al cifrei de afaceri, profitului net si a numarului de salariati, de aceea, numarul
de clustere optimal este 1.