Sunteți pe pagina 1din 41

Academia de Studii Economice din București

Facultatea de Cibernetică, Statistică și Informatică Economică

Cibernetică Economică

PROIECT ANALIZA DATELOR

Profesor coordonator: Student:

Prof. Univ. Ionela Zamfir Grigoras Ionela-Georgiana


Introducere

Analiza datelor se referă la procesul de transformare a datelor inițiale în informații


relevante pentru domeniul de interes analizat. Aceasta se aplică într-o gamă variată de domenii,
de la cel financiar, la inginerie și chiar medicină.

În prezent, sunt cunoscute numeroase metode de analiză ce se aplică pe un volum din


ce în ce mai mare de date. Tehnicile oferite de analiza datelor sunt unele necesare pentru
sintetizarea informației care devine utilă și relevantă doar atunci când este prezentată într-un
mod cât mai succint și specific domeniului la care face referire. ”Metodele și tehnicile reprezintă
un set de reguli, principii și proceduri de analiză, prelucrare și interpretare a datelor. În analiza
datelor, metodele și tehnicile se referă la cuantificare, evaluare, estimare și testare, și sunt
reprezentate de o mulțime extinsă și variată de proceduri și instrumente statistico-matematice.”
(Ruxanda, 2013)

În cele ce urmează voi aborda trei tehnici principale din analiza datelor: sinteza
informațională, recunoașterea nesupervizată a formelor, recunoașterea supervizată a formelor
și metodele corespunzătoarea acestora.

Sinteza informațională
Analiza Componentelor Principale (ACP) presupune reducerea dimensionalității problemei
analizate prin trecerea de la un spațiu vectorial n-dimensional al variabilelor inițiale la un spațiu
k-dimensional al componentelor principale, k fiind un număr mult mai mic decât n.
Componentele principale astfel obținute pot fi ierarhizate și nu prezintă redundanță
informațională. De asemenea, ele sunt mai stabile în raport cu erorile în comparație cu variabilele
inițiale care pot suferi modificări mai puternice.

Recunoașterea nesupervizată a formelor


Analiza cluster presupune asemenea analizei componentelor principale reducerea
dimensionalității datelor însă nu din perspectiva variabilelor, ci din perspectiva observațiilor, care
sunt comasate în mai multe grupări pe principiul maximizării variabilității interclasă și minimizării
variabilității intraclasă, fapt care poate fi înteles prin maximizarea similarității intraclasa și
minimizarea similarității interclasă. Analiza cluster este o metodă de recunoaștere a datelor
nesupervizată, ceea ce înseamnă că analistul nu cunoaște numarul de clase și nici apartenența
obiectelor la clasă. Analiza cluster este un proces subiectiv care oferă mai multe soluții date sub
forma unor posibile modalității de grupare a observațiilor, soluția optimă fiind aleasă de analist
în funcție de specificul problemei.
Recunoșterea supervizată a formelor
Analiza discriminant este o metodă de recunoaștere a formelor supervizată care încearcă la
fel ca și analiza cluster să stabilească apartenența unui set de observații la anumite clase.
Deosebirea dintre cele două este că la analiza discriminant se cunoaște numărul de clase și
apartenența unui set de obiecte numit set de formare/testare folosit pentru a oferi informațiile
necesare predictării apartenenței unor noi obiecte de clasă necunoscută. În acest fel se poate
afirma despre analiza discriminant că are natură predictivă și că desi implică un grad de
complexitate mai mare decât analiza cluster de multe ori analiza discriminant este realizată pe
baza informațiilor furnizate de aceasta.

Definirea obiectivelor. Descrierea datelor


Unul dintre obiectivele acestui proiect este reprezentat de aplicarea diferitelor tehnici de
analiză a datelor pe o bază de date ce se referă la 325 de companii ce fac obiectul codului CAEN
9602- Coafura si alte activitǎţi de infrumusetare din Romania. Scopul acestei analize este de a
vedea care este contextual creat de aceasta industrie in Romania si daca firmele din acest
spatiu au un grad de profitabilitate ridicat.

Am ales acest cod CAEN din cauza faptului ca in ultima perioada sunt tot mai cautate
saloanele de infrumusetare. Am vrut sa descopar prin prisma altor firme de profil cu experienta
si istoric daca este rentabil sa deschizi o astfel de afacere si cu ce probleme te poti confrunta.

Date statistice

Cod caen: 9602 - Coafura si alte activitati de infrumusetare

Numar agenti economici

6.478 agenti economici

0,34% din totalul agentilor economici din Romania

Cifra de afaceri

662 milioane lei (150,5 milioane euro)

0,05% din cifra de afaceri a Romaniei

Numar angajati

21.441 angajati

0,53% din totalul de angajati din Romaniei


Profit

69,2 milioane lei (15,7 milioane euro)

0,08% din profitul net realizat in Romania

Cercetarea se efectueaza pe datele firmelor din anul 2015. Aceste date au fost culese de
pe site-ul www.topfirme.com.

Pentru a definitive si studia aceste obiective baza de date aleasa cuprinde un numar de 16
indicatori dupa cum urmeaza:
𝑃𝑟𝑜𝑓𝑖𝑡 𝑛𝑒𝑡
1. RC ( rentabilitatea comerciala) = 𝐶𝑖𝑓𝑟𝑎 𝑑𝑒 𝑎𝑓𝑎𝑐𝑒𝑟𝑖 × 100

𝑃𝑟𝑜𝑓𝑖𝑡 𝑛𝑒𝑡
2. ROE (rentabilitatea financiara) = × 100
𝐶𝑎𝑝𝑖𝑡𝑎𝑙𝑢𝑟𝑖 𝑝𝑟𝑜𝑝𝑟𝑖𝑖

𝑃𝑟𝑜𝑓𝑖𝑡 𝑛𝑒𝑡
3. ROA (rentabilitatea economica) = 𝐴𝑐𝑡𝑖𝑣𝑢𝑙 𝑡𝑜𝑡𝑎𝑙 × 100

𝐴𝑐𝑡𝑖𝑣𝑒 𝑐𝑖𝑟𝑐𝑢𝑙𝑎𝑛𝑡𝑒−𝑆𝑡𝑜𝑐𝑢𝑟𝑖
4. LC (lichiditatea economica) = 𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑐𝑢𝑟𝑒𝑛𝑡𝑒

𝑇𝑟𝑒𝑧𝑜𝑟𝑒𝑟𝑖𝑒
5. LI (lichiditatea imediata) =𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑐𝑢𝑟𝑒𝑛𝑡𝑒

𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑡𝑜𝑡𝑎𝑙𝑒
6. GIG (grad de indatorare general) = 𝐴𝑐𝑡𝑖𝑣𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 × 100

𝐴𝑐𝑡𝑖𝑣𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
7. SG (solvabilitate generala) =𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑡𝑜𝑡𝑎𝑙𝑒

𝐶𝑎𝑝𝑖𝑡𝑎𝑙𝑢𝑟𝑖 𝑝𝑟𝑜𝑝𝑟𝑖𝑖
8. SP (solvabilitatea patrimoniala) = 𝐴𝑐𝑡𝑖𝑣𝑒 𝑡𝑜𝑡𝑎𝑙𝑒

𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑝𝑒 𝑡𝑒𝑟𝑚𝑒𝑛 𝑙𝑢𝑛𝑔


9. AFT (autonomie financiara la termen) = 𝐶𝑎𝑝𝑖𝑡𝑎𝑙𝑢𝑟𝑖 𝑝𝑟𝑜𝑝𝑟𝑖𝑖

𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑝𝑒 𝑡𝑒𝑟𝑚𝑒𝑛 𝑙𝑢𝑛𝑔


10. SF (stabilitatea financiara) = 𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑝𝑒 𝑡𝑒𝑟𝑚𝑒𝑛 𝑙𝑢𝑛𝑔+𝐶𝑎𝑝𝑖𝑡𝑎𝑙𝑢𝑟𝑖 𝑝𝑟𝑜𝑝𝑟𝑖𝑖

11. STOC (stocurile)

12. DAT (datoriile)

13. CR (creantele)

14. VAV (venituri in avans)

15. DAV (cheltuieli in avans)

16. ANG (numarul de angajati)


Dupa calcularea fiecarui indicator, am decis sa elimin outliarii. Procesul de eliminare a datelor a
fost aplicat pe baza de date inițială, folosind funcții din Excel. Pentru fiecare variabila au fost
calculate urmatorii indicatori: media si abaterea standard.

μ σ μ-3σ μ+3σ
RC 984388936 3.5E+09 -9523365836 11492143708
ROE 23.6537771 31.36512 -70.44159542 117.7491496
ROA 4369016262 2.07E+10 -57671761939 66409794462
LC 5.97526154 19.53674 -52.63494541 64.58546849
LI 28.6523385 14.455 -14.71264768 72.0173246
GIG 1477266437 4.75E+09 -12759768088 15714300962
SG 720097919 2.52E+09 -6851738407 8291934246
SP 704799520 2.29E+09 -6157446917 7567045957
AFT 71406214.8 4.3E+08 -1220044938 1362857368
SF 5.18224615 34.24933 -97.56573545 107.9302278
STOC 90498476.7 7E+08 -2008931552 2189928506
DAT 4.55735385 47.6571 -138.4139316 147.5286393
CR 4.32430769 9.971901 -25.59139432 34.24000971
VAV 0.004 0.012838 -0.034514067 0.042514067
CAV 1.31298462 0.341433 0.28868533 2.337283901
ANG 5912.38154 12670.74 -32099.83565 43924.59873

O valoare din seria corespunzătoare este outlier pentru seria sa dacă aceasta nu este
cuprinsă în intervalul [μ-3σ, μ+3σ], unde μ=media seriei de timp, iar σ=abaterea standard. În
Figura 1 este reprezentată grafic distribuția normală de medie 0 și abatere standard 1.

Figure 1 Distributie normala


Pentru a identifica outlierii am utilizat formule și opțiuni din Excel. Spre exemplu, pentru
RC, am aplicat următorul algoritm:

Pas 1: Selectarea tuturor câmpurilor cu valori de pe coloana RC.

Pas 2: Home -> Conditional Formatting -> Highlight Cells Rules -> More Rules -> Format only cells
that contain -> Cell value - > Not Between -> field mean-3std -> field mean+3std -> Format ->
Background Color -> Red.

După efectuarea pasului 2 am obținut toți outlierii de pe coloana variabilei RC.Am


repetat acest algoritm pentru toate celelalte 15 variabile. La final, am selectat Home ->
Fill Color -> Yellow pentru a marca toți outlierii corespunzători tuturor celor 16 variabile.

În urma tuturor acestor operații am obținut un număr de 35 de outlieri ce vor fi eliminați


din baza de date inițială. Outlierii sunt reprezentați in ANEXA.

După eliminarea tuturor outlierilor, pentru a facilita prelucrarea datelor a fost creat
fișierul atașat acestui proiect firme.xls. Acesta conține un număr de 325 – 35 = 290 de obiecte
reprezentate de firme.

Statistici descriptive
Primul pas în analiza bazei de date este reprezentat de analiza statistică. Pentru
aceasta am utilizat comanda summary() din R.

Figure 2 Statistici descriptive


Indicatorul STOC:

Stocul la sfârșitul exercițiului financiar se încadrează pentru toate firmele analizate între
valoarea minimă de -186 363 872 lei (pierdere ) și valoarea maxima de 870 275 308 dolari .

Mean: Valoarea medie a stocului firmelor este de 30 590 420 lei la sfârșitul unui exercițiu
financiar.

Q1 (quartile 1): 25% dintre firmele analizate au un stoc mai mic de 4 930 672 lei, în timp ce restul
de 75% dintre acestea au un stoc mai mare decât această sumă.

Q2 (quartile 2/median): 50% dintre firmele analizate au un stoc mai mic de 14 740 957 lei, în timp
ce cealaltă jumătate din firme au un stoc mai mare decât această sumă.

Q3 (quartile 3): 75% dintre firmele analizate au un stoc mai mic de 33 081 179 lei, în timp ce restul
de 25% dintre acestea au un stoc mai mare decât această sumă.

Tipul de distribuție a seriilor de date poate fi analizat prin intermediul coeficienților de


asimetrie și de aplatizare reprezentați de funcțiile skewness() și kurtosis() din R.

Figure 3 Coeficientii de asimetrie – Skewness

Skewness - indicator folosit în analiza distribuției unei serii de date pentru a indica deviația distribuției
empirice în raport cu o distribuție simetrică in jurul mediei.

Interpretare:

Skewness > 0 - distributia este inclinata spre stanga, avand mai multe valori extreme spre dreapta.

Skewness < 0 - distributia este inclinata spre dreapta, avand mai multe valori extreme spre stanga.

Skewness = 0 - media = mediana, distributia este simetrica in jurul mediei.

Indicatorii skewness pentru RC, ROA, LC, GIG, SG, SP, AFT, STOC și ANG iau valorile 6.88,
5.06, 7.47, 4.12, 4.93, 3.75, 5.58, 6.53, respective 3.51 ceea ce determină o asimetrie puternică
la dreapta a distribuțiilor acestora.
Variabilele ROE, LI, CR și VAV au o distribuție ușor asimetrică la dreapta, în timp ce
indicatorul DAV are o distribuție aproape de cea normal (skewness(DAV)=0.05).

Pe de altă parte, indicatorii SF și DAT au o distribuție ușor asimetrică la stânga, ceea ce


însemnă că în aceste serii de timp valorile mai mici decât media sunt mai multe.

Figure 4 Coeficientii de aplatizare- Kurtosis

Kurtosis - indicator folosit in analiza distributiei unei serii de date pentru a indica gradul de aplatizare sau de
ascutire a unei distributii.

Kurtosis > 3 - distributie leptokurtica, mai ascutita decat o distibutie normala; avand mai multe valori
concentrate in jurul mediei si cozi mai groase ceeea ce inseamna probabilitati ridicate pentru valorile
extreme.

Kurtosis < 3 - distributie platikurtica, mai plata decat o distibutie normal avand valori dispersate pe un
interval mai mare in jurul mediei. Probabilitatea pentru valori extreme este mai mica decat in cazul unei
distributii normale.

Kurtosis = 3 - distributie mezokurtica - exemplu distributia normal.

Distribuțiile indicatorilor LI, VAV și DAV sunt mezocurtice, kurtosis luând valori
aproximativ egale cu 3: 3.31, 3.9, 3.09. Pentru ceilalți 13 indicatori, distribuțiile sunt mai mult sau
mai puțin leptocurtice.

Coeficientul de variație reprezintă ponderea abaterii standard în medie. Pentru ca media


să fie semnificativă din punct de vedere statistic acest coeficient trebuie să ia o valoare mai mica
de 0.3 – 0.35 ( 30 % - 35%).

Figure 5 Coeficientul de variatie


Din outputul din R se poate observa că doar pentru DAV media este semnificativă din
punct de vedere statistic deoarece are o valoare de 21.43%.

Standard deviation (Abaterea standard) reprezintă distanța de la media seriei de timp


până la cea mai îndepărtată valoare în raport cu aceasta.

Coeficientul de corelație descrie existența unei relații între două serii de timp. El poate
lua valori în intervalul ( -1 , 1 ). Valorile de -1 și 1 simbolizează o relație perfecta între două serii
de timp, în timp ce valoarea 0 arată lipsa unei legături. Legătura direct proportional sau direct
este evidențiată prin semnul +, iar cea inversă prin semnul -.

Figure 6 Matricea de corelatie

Între indicatorii CR și DAT există o legătură puternică direct proporțională deoarece


coeficientul de corelație are valoarea de 0.86.

Figure 7 Matricea de covarianta

Matricea de covarianță arată gradul de împrăștiere a observațiilor și legăturile dintre


acestea.
Analiza corelațiilor dintre variabile este descrisă în figurile 8,9 și 10.

Figure 8 Corelatia Stoc-Datorii

Cele mai multe companii se află în porțiunea de grafic cu stoc =0 și DAT în intervalul 0-
20%. Se observă o legătură de intensitate medie și directă între cele două variabile. Conform
acestei figuri, există și cateva valori ce se situează în afara norului de puncte. Una dintre firme
este Esaproro SRL cu un stoc de de 87027530 lei și o datorie de de 30483 lei. Firma cu datoria cea
mai mare în valoare de 7183596 lei este Carrion și are un stoc negative de 2074507.00 lei.

Figure 9 Corelatie RC - ANG

Cele mai multe companii au un venit mic și un număr de angajați mic, de unde rezultă o
corelație directă puternică între cele două variabile. O firmă care are un profit mai mare va avea
implicit și un număr de angajați mai mare. Legătura puternică dintre cele două variabile,
rentabilitatea comerciala și numărul de angajați al acesteia, reiese și din exemplul firmei Droma
care are o rentabilitate comerciala de 10815084987 lei și un număr de 26711 angajați.
Reprezentarea grafică a densităților de probabilitate și a histogramelor pentru doi dintre
indicatori:

Figure 10 Histograma Rentabilitate comerciala

Histograma rentabilitatii comerciale prezintă o distribuție asimetrică la dreapta deoarece


în aceasta predomină valorile foarte mici. Distribuția este una leptocurtică. Aceste afirmații sunt
susținute și de valorile coeficienților de asimetrie și de aplatizare: skewness și kurtosis.

Standardizarea datelor

Pentru a putea aplica tehnicile de analiză datele inițiale trebuie să fie standardizate, adică
să fie de medie = 0 și dispersie = 1. Cu acest scop am folosit programul R și am obținut după
standardizare următoarele outputuri din figurile 13 și 14 care confirmă standardizarea datelor
originale (fără outlieri).

Figure 11 Media datelor standardizate

Figure 12 Abaterea standard a datelor standardizate


După standardizare, s-au rulat funcțiile cov() și cor() pentru setul de date standardizate și
s-a constatat că matricea de covarianță, respectiv cea de corelație sunt identice.
Sinteza informationala. Analiza componentelor principale (ACP)
Analiza componentelor principale este o tehnică de sintetizare a informației. Se pornește
de la un set de date inițial cu n variabile X1, X2, ... , Xn și se ajunge la un set de k componente
principale W1, W2, ... , Wk reținute în analiză, k fiind un număr mult mai mic decât n. Pe lângă
sinteza informațională, ACP are ca scop și eliminarea redundanței informaționale, în sensul că
dacă variabilele inițiale pot fi corelate, componentele principale sunt necorelate între ele două
câte două. Prin necorelarea componentelor principale Wi și Wj, oricare i diferit de j, se obține
reducerea erorilor.
Componentele principale sunt acei agregați care prin construcția lor preiau maxim de
informație din cele n variabile astfel încât sunt corelați doi câte doi. De asemenea, acești agregați
sunt mai puțin redundanți decât variabilele inițiale, mai robuști în raport cu erorile și pot fi
ierarhizați în funcție de conținutul lor informațional.

Proprietățile componentelor principale pot fi enumerate în cele ce urmează:

1. Sunt distribuite după legea normală de probabilitate deoarece reprezintă combinații


liniare de variabile originale ce au o distribuție normală.
2. Conservă varianța totală:
VT(X)=VT(W)
∑ ( ) ∑ ( )

∑ ∑

3. Conservă varianța generalizată:


VG(X)=VG(W)
4. Depind de unitățile de măsură a variabilelor originale.

În urma analizei componentelor principale pentru baza de date descrisă anterior se vor
obține 4 componente principale cu un conținut informațional diferit. Componentele
principale au următoarele proprietăți: păstrează în totalitate varianța variabilelor inițiale,
sunt necorelate două câte două și au varianță maximă descrescătoare.

Principii de alegere a numarul de componente principale

1. Criteriul lui Kaiser - Cunoscând că dispesia variabilelor inițiale după standardizare


devine 1, se vor pastra doar acele componente principale care conțin o cantitate informațională
mai mare, deci acele componente care au valoarea disperiei mai mare decât 1.

În acest caz exista patru componente principale cu disperia mai mare decât 1, motiv
pentru care doar acestea patru vor fi păstrate
2. Criteriul procentului de acoperire presupune păstrarea doar a acelor componente
principale a căror varianța cumulată reprezintă mai mult de 70-80% din varianța totală.

pi =

În acest caz:

p1=(α1)/(α1+...+α16)=0,36

p2=(α1+α2)/(α1+...+α16)=0,55

p3=(α1+α2 + α3 )/(α1+...+α16)=0,63

p4=(α1+α2 + α3 + α4)/(α1+...+α16)=0,70

Deci, conform criteriului procentului de acoperire se vor păstra 4 componente


principale.

3. Criteriul pantei presupune că din reprezentarea grafică a valorilor proprii se alege un


număr de componente principale egal cu numărul valorilor proprii aflate pe segmentul cu panta
cea mai mare.

Figure 13 Graficul criteriului pantei


Din cele trei criterii prezentate mai sus reiese că din cele 16 componente principale
generate vor fi pastrate doar 4.

Matricea vectorilor proprii este utilă nu doar în construirea matricea scorurilor principale,
ci și în determinarea semnificației componentelor principale păstrate. Acest fapt poate fi realizat
doar când variabilele sunt standardizate iar varianța variabilelor este egală cu unitate

Figure 14 Valori proprii si procente de


acoperire

În următoarea figură sunt prezentate valorile proprii ale matricei de corelație care
reprezintă dispersia componentelor principale. Varianța descrește pentru fiecare component
principală, ceea ce înseamnă că prima componentă conține cea mai mare cantitate
informațională, de aproximativ 36% din cantitatea totală, fiind urmată de cea de-a doua care
conține 19%, apoi de a treia care explică 8% din variant totală și de a patra cu 7%.

Din valorile proprii ale matricei de covarianță de mai sus se obțin vectorii proprii, pe baza
cărora sunt calculate scorurile componentelor principale.

Figure 15 Vectori proprii


Forma componentelor principale reținute în analiză este următoare:

W1=-0.28x1-0.15x2-0.34x3-0.06x4+0.007x5-0.34x6-0.29x7-0.35x8-0.35x9-0.14x10-
0.35x11-0.17x12-0.18x13-0.08x14+0.17x15-0.26x16

W2=-0.28x1-0.22x2-0.07x3-0.12x4-0.07x5+0.26x6+0.32x7+0.12x8-0.13x9-0.40x10-
0.13x11-0.40x12-0.45x13-0.14x14-0.04x15+0.25x16

W3=0.17x1+0.19x2-0.17x3+0.59x4+0.48x5+0.08x6+0.16x7-0.06x8-
0.03x9+0.06x10-0.12x11+0.03x12+0.005x13-0.27x14+0.41x15+0.09x16

W4=0.13x1+0.31x2-0.08x3-0.07x4+0.30x5-0.02x6+0.10x7-0.20x8-0.25x9-
0.01x10-0.26x11+0.01x12+0.04x13+0.66x14-0.26x15+0.26x16
Matricea scorurilor principale, W se calculează astfel:

() () ()

() () ()

W=( ) ( )

() () ()

( )

unde: A este matricea vectorilor proprii și X matricea variabilelelor inițiale.

Figure 16 Scorurile principale


Matricea Ω este o matrice foarte importantă pentru analiza componentelor principale
wi este cunoscută sub numele de matrice factor. Modalitatea detaliată în care această matrice
poate fi calculată este definită de relația:

Figure 17 Relatia de definitie a matricei factor

Figure 18 Forma matricei factor

Figure 19 Forma elementului matricei factor

Elementele matricii Ω factor se numesc intensitățiale factorilor și au ca interpretare legătura


dintre variabilele originale x1,x2,…,xn și componentele principale w1,w2,…,wn. Astfel, elementul

care se găsește la intersecția liniei i cu coloana j în matricea factor Ω, adică| elementul ω ij=λj1/2

αi(j)/σi reprezintă coeficientul de corelație dintre cea de-a i-a variabilă standardizată xi cea de-a

j-a componentă principală wj


Figure 20 Matricea de corelatie factoriala/Matricea factor

Pe baza matricei de corelație factorială se determina denumirile componentelor


principale păstrate în analiză.

Profitabilitate (Comp 1): Pentru prima componentă principală, legătura dintre indicatorii
cu influență puternică și foarte puternică (valori mai mari de 0.50 sau -0.50) este invers
proportională, adică orice creștere a valorilor variabilelor originale va produce o scădere a
valorilor componentelor principale. Astfel, există o legătură foarte puternică între valorile
indicatorilor RC, ROE, GIG, SG, SP, AFT, STOC și ANGAJATI exprimată de valorile -0.68, -0.82, -0.82,
-0.70, -0.84, -0.85, -0.85, respectiv, -0.64.

Rentabilitate (Comp 2): Cea de a doua componentă principală este influențată foarte
puternic în mod indirect de indicatorii SF, DAT, CR (-0.70, -0.70, -0.79) și puternic indirect de ROA
(-0.40). De asemenea, variabilele RC, GIG, SG și ANG au o influență puternică direct asupra
acesteia (0.49, 0.46, 0.56, 0.43).

Risc (Comp 3): A treia componentă păstrată în analiză este influențată în mod direct,
puternic de indicatorii LC, LI, DAV (0.66, 0.54, 0.47).

Performanță (Comp 4): Ultima componentă principală păstrată în analiză este influențată
foarte puternic direct de indicatorul VAV (0.70) și slab, tot în mod direct proporțional de ROA, LI,
ANG (0.33, 0.32, 0.28).

Cercul corelatiilor evidențiază legăturile dintre variabilele originale și componentele


principale reținute în analiză. Din figura următoare reiese faptul că rentabilitatea companiilor
este corelată invers cu solvabilitatea patrimoniala și cu creantele și datoriile. De asemenea, între
profitabilitate și rentabilitatea economica, gradul de indatorare general, solvabilitatea generala
și numarul angajatilor există o legătură directă puternică. Din cercul corelației se observă că
lichiditatea imediata este aproape necorelată cu rentabilitatea și profitabilitatea companiilor.
Figure 21 Cercul corelatiilor: Profitabilitate-Rentabilitate

Prin reprezentarea grafică în planul profitabilitate – rentabilitate se evidențiază faptul că


majoritatea companiilor au valori ai acestor indicatori pozitive, însă există și companii ce
înregistrează valori foarte mici. Spre exemplu, compania cu codul 82, are cel mai scăzut nivel al
profitabilității și al rentabilității, având pentru acești indicatori cele mai mici valori pentru setul
de date analizate. Companiile cu codurile 46 ,57 și 218, au valori mici pentru profitabilitate, însă
au valori crescute petru rentabilitate, ceea ce înseamnă că se află într-o situație de creștere
economică – companiile au contractat credite pentru investiții pentru a se dezvolta. La polul
opus, companiile cu codurile 289, 233 și 307 înregistrează valori foarte mari atât pentru
profitabilitate, cât și pentru rentabilitate, deci pentru un investitor este recomandat să adauge în
portofoliul său acțiuni ale acestor firme.

Figure 22 Legatura dintre profitabilitate si rentabilitate


Figure 23 Importanta companiilor

Figure 24 Contributia companiilor

Recunoasterea nesupervizata a formelor. Analiza Cluster (AC)


Analiza cluster este o metodă de recunoștere a formelor nesupervizată. Are o natură
explorativă datorită faptului că se dă un numar n de forme care trebuie grupate în clustere fără
a cunoaște însă apartenența acestora și numărul de clustere.

Analiza cluster se realizează ținând cont de criteriul general al clasificării care impune ca
variabilitatea intraclasă să fie minimă și cea interclasă să fie maximă, ceea ce înseamnă că se
caută clase cât mai omogene în interior și cât mai eterogene în exterior

Analiza cluster se poate realiza fie prin metode ierarhice, fie folosind algoritmi de
partiționare. Prin urmare pentru a putea exemplifica fiecăre metodă, în R analiza cluster va fi
rezolvată atât prin două metode de tip ierarhic ascendant, cât și prin algoritmului celor k medii
(k - means).

În cele ce urmează se pot descrie câteva problem majore ce țin de logica clasificării.
1. Evaluarea similarităților / disimilarităților dintre forme
Similaritățile se măsoară prin distanțe:

1.1. distanța euclidiană


de(x,y) = (∑(xi-yi)2)1/2 i=1,…,n
1.2. distanța Manhattan
dM(x,y) = ∑│xi-yi│ i=1,…,n

1.3. distanța Mahalanobis

- distanța dintre două puncte depinde de densitatea mediului ce se exprimă


prin matricea de covarianță)

- x,y vectori de observații

- ∑ matricea de covarianță

dMah(x,y) = (x-y)t∑-1(x-y)

1.4. distanța euclidiană ponderată

- elimină sau atenuează diferențele generate de unitățile de măsură ale


caracteristicilor obiectelor
dep(x,y) = (∑wi(xi-yi)2)1/2 i=1,..,n

∑ wi = 1

2. Evaluarea distanțelor dintre clase

2.1. Agrregare simplă – Metoda celor mai apropiați


vecini d(ωi,ωj) = min d(x,y), x din ωi, y din ωj

2.2. Agregare completă – Metoda celor mai îndepărtați


vecini d(ωi,ωj) = max d(x,y), x din ωi, y din ωj

2.3. Agregare medie – Metoda distanței medii între perechi

d(ωi,ωj) = 1/TiTj ∑d(x,y), x din ωi, y din ωj, Ti numărul de forme din ωi, Tj numărul
de forme din ωj
2.4. Metoda centroidului ωi
(i) (j) (i) (j)

d(ωi,ωj) = d( ̅
, ̅) , unde ̅ este centroidul clasei ωi , ̅ este centroidul clasei

ωj

Metoda
2.5. Ward

d(ωi, ωj) = Vwt+1 - Vwt

3. Criteriul general al clasificării

Clasificarea trebuie să se realizeze astfel încât variabilitatea intraclasă să fie cât mai
mică și variabilitatea interclasă să fie maximă.

4. Evaluarea puterii de discriminare a variabilelor

Puterea de discriminare a variabilelor se referă la contribuția caracteristicilor la


împărțirea pe clase a formelor. Există două metode de determinare a acesteia.

4.1. Calculul mediilor variabilelor în fiecare clasă și reprezentarea grafică a acestor


medii.Variabilitatea intraclasă este mai mare cu cât mediile unei caracteristici
sunt mai diferite între ele.

4.2. Prin calculul raportului R


R = SPAB/SPAW

SPAB = suma pătratelor abaterilor interclase


SPAW = suma pătratelor abaterilor intraclasă

1. Metoda ierarhică de tip ascendent

Analiza cluster rezolvată prin metoda de tip ierarhic ascendent presupune că la începutul
analizei numarul de clustere este egal cu numărul de observații, iar ulterior prin grupare numărul
acestora se reduce până când, în cadrul celei din urmă etape să existe doar un singur cluster.
Gruparea clusterelor se face folosind metoda Ward, considerată a fi cea mai eficientă. Metoda
Ward comasează clasele ωi și ωj a căror distanță d(ωi, ωj) este minimă:

d(ωi, ωj) = Vw* - Vw


unde: Vw* este variabilitatea intraclasa a clasei ipotetice construită prin comasarea clasele de
comparație ωi și ωj

Vw este variabilitatea intraclasa a claselor ωi și ωj

Am aplicat această metodă pe setul de date inițial standardizat, cât și utilizând


componentele principale menținute în analiză.

Metoda Ward (.D2) aplicata variabilelor originale standardizate:

Figure 25 Matricea distantelor-Metoda Ward- Variabile originale standardizate

În urma aplicării acestei metode, se constată că numărul optim de clase în care pot fi
împărțite observațiile inițiale este 3. Apartenența la clase a formelor poate fi vizualizată în

Figure 26 Dendograma-Metoda Ward-Variabile originale standardizate


dendrograma din figura 26. Tăietura în grafic s-a realizat acolo unde distanța dintre doi pași de
clusterizare a fost cea mai mare.

Prima etapă de clasificare utilizând această metodă poate fi descrisă astfel: Primul cluster s-a
format la distanța de 0.5143 și a reunit firmele Avcon și Exxomobil. Clusterul 10 s-a format la
distanța de 0.7732 și cuprinde companiile Plimbo si Sunshine.

Figure 27 Etapa de clasificare 1- Metoda ward- variabile originale standardizate

Cea de al doilea pas de clusterizare rezultat din aplicarea metodei Ward(.D2) asupra
variabilelor originale standardizate este reprezentată în figura 27. Valorile cu minus reprezintă
forme, în timp ce valorile cu plus reprezintă clase deja formate la un pas anterior. Cea mai mica
distanță de la acest pas se regăsește între companiile cu codurile 218 si 260 ce formează un nou
cluster. Cel de-al 9-lea cluster format în cadrul acestei etape este compus din compania cu codul
171 și din clusterul 1 format la primul pas.

Figure 28 Etapa de clasificare2-Metoda Ward-Variabile originale standardizate


Metoda Ward(.D2) aplicata componentelor principale pastrate in analiza:

Figure 29 Matricea distantelor- Metoda Ward_ componente principale

Utilizând metoda Ward(.D2) pe setul de date ce cuprinde componentele principale


păstrate în analiză se constată că numărul optim de clase este de 3. Apartenența formelor la clase
poate fi vizualizată în dendrograma din figura 30.

Figure 30 Dendograma-Metoda Ward-componente principale

Pentru prima etapă de clusterizare, s-au obținut următoarele rezultate: clusterul 6


s-a format la distanța de 0.226 din companiile Telena Co și Unilumin. La distanța de 0.2978 s-a
format clusterul 19 din firmele Systems Ltd și Digiwin .
Pentru cea de a doua etapă de clasificare au fost alcătuite următoarele clustere: prima
clasă din firmele cu codurile 205 și 226, cea de a doua clasă din firmele cu indicativele 166 și 242.

Figure 31 Etapa de clasificare 2- Metoda Ward- componente principale

O altă metodă de clasificare ierarhică este reprezentată de metoda centroidului. De


asemenea, aceasta a fost aplicată atât pe setul de date ce cuprinde variabilele originale
standardizate, cât și pe cel al componentelor principale reținute în analiză. Aceasta are
interpretări similar cu metoda Ward(.D2)

Metoda centroidului aplicata pe variabilele originale standardizate:

Figure 32 Matricea distantelor- Metoda centroidului- variabile originale standardizate


Figure 34Dendograma- Metoda centroidului- variabile originale standardizate

Figure 35 Etapa 1 de clasificare - Metoda centroidului- Variabile originale standardizate

Figure 36 Etapa 2 de clasificare - Metoda centroidului- Variabile originale standardizate


Metoda centroidului aplicata componentelor principale pastrate in analiza:

Figure 37 Matricea distantelor - Metoda centroidului - Componente principale pastrate in analiza

Figure 38 Dendograma- Metoda centroidului- Componente principale

După aplicarea metodei centroidului asupra setului de date am constatat că aceasta nu


oferă rezultate la fel de bune ca metoda Ward(.D2) atât pentru variabilele originale
standardizate, cât și pentru componentele principale păstrate în analiză, numărul de clase în care
ar trebui să fie împărțite observațiile nefiind vizibil la nivelul dendrogramei.
2. Algoritmul de partiționare al celor k – medii
Rezolvarea analizei cluster prin algoritmul de partiționare al celor k medii oferă
performanțe mai mari decât metodele ierarhice, însa au ca dezavantaj în fața acestora că necesită
cunoașterea în prealabil a numărului de clase, urmând a se afla doar apartența formelor la clase.
Numărul de clase poate fi intuit sau poate fi obținut prin realizarea unei analize cluster de alt tip.
În acest caz am demostrat deja ca obiectele reprezentate de state pot fi împarțite în doua sau în
trei clustere, atât din punct de vedere intuitiv cât și prin aplicarea unei metode de tip ierarhic
ascendent motiv pentru care algoritmul celor k medii va fi încercat pentru ambele varinate.
Algoritmul celor k medii presupune alegerea unui număr k (egal cu numărul de clustere) de
inițializatori iar pe baza criteriului de distanță minimă se arondează cele t - k forme rămase la cele
k clase; ulterior se calculează centroizii claselor formate și se arondează din nou cele t forme la
clusterele cele mai apropiate de ele; în cele din urmă procesul se oprește când distanțele dintre
centrozii claselor și cele ale tutoror formelor sunt mai mici decât un prag ε.

Algoritmul k-means pentru variabile originale standardizate:

Figure 39 Algoritmul k-means- Variabile originale standardizate (spatiul AFT-LC)

Legătura dintre variabilele originale Autonomie financiara la termen si Lichiditate curenta


descrie cele 3 clase analizate astfel: Prima clasă conține grupate companii cu autonomie
financiare la termen mare și lichiditate curenta mica (reprezentată cu roșu în grafic), cea de a
doua companii cu un nivel mic al autonomiei financiare la termen, însă cu lichiditatea curenta
mica și medie, în timp ce cea de a treia clasă cuprinde firme cu o autonomie financiara la termen
negative , iar nivelul lichiditatii curente este unul scăzut.
La nivelul modelului, criteriul general al clasificării ce presupune maximizarea variabilității
interclasă și minimizarea variabilității intraclasă este verificat cu ajutorul statisticii R. În cazul
variabilelor originale, modelul verifică în proporție de 47.56% cerințele criteriului general al
clasificării.

R = SPAB/SPAW

Figure 40 Descompunerea variabilitatii- variabile originale standardizate

În figura de mai jos este prezentată împărțirea pe clase a companiilor astfel:


primele 4 (DRAMIH, KHASIM, ZENIT și INSPUR) companii din setul de date analizat aparțin
clusterului 3, următoarele 2 (AXIAX, ALDACO) aparțin clasei a doua.

Figure 41 Algoritmul k-means- Variabile originale standardizate

Figure 42 Centroizii claselor- Algoritmul de partitionare k-means- Variabilele originale standardizate

O a doua metodă pentru calculul puterii de discriminare a variabilelor este reprezentată


de calcului statisticii R = SPAB/SPAW. Cu cât valoarea statisticii R este mai mare, cu atât variabilele
au o putere de discriminare mai ridicată.

Figure 43 Puterea de discriminare - Variabile originale


standardizate
Algoritmul k-means pentru componentele principale pastrate in analiza:
În spațiul componentelor principale (Profitabilitate – Rentabilitate) reprezentarea claselor
este descrisă în figura de mai jos. Astfel, clusterul reprezentat cu albastru in figura 44 cuprinde
companii cu un nivel al profitabilității și al rentabilității ridicat, clusterul ce cuprinde companiile
reprezentate cu roșu conține companii cu un nivel scăzut pentru ambii indicatori, în timp ce
firmele din clasa reprezentată cu verde au un nivel al profitabilității scăzut, însă o rentabilitate
ridicată.

Figure 44 Reprezentarea celor 3 clase- Algoritmul k-means- Componente principale (Profitabilitate-Rentabilitate)

Prin calculul statisticii R la nivelul modelului ce include componentele principale incluse


în analiză s-a obținut rezultatul ce arată respectarea principiilor criteriului general al clasificării în
proporție de 83.55%, ceea ce înseamnă că modelul ce utilizează componentele principale este cu
mult mai performant decât cel aplicat pe variabilele originale.

Figure 45 Descompunerea variabilitatii - Componente principale

Figure 46 Centroizii claselor- Algoritmul de partitionare k-means - Componente principale


Atât pe baza reprezentării grafice a centroizilor claselor, cât și prin calculul
efectiv utilizând suma pătratelor abaterilor pentru fiecare component principal, s-a obținut
următoarea ierarhie:

Figure 47 Puterea de discriminare a componentelor principale - centroizii

Figure 48 Puterea de discriminare - Componentele principale

Pe baza puterii de discriminare a componentelor principale se pot atribui denumiri celor


3 clase din analiză.

Clusterul 1 – Grad de oportunitate al investiției mediu

Clusterul 1 înregistrează cele mai mici valori ale centroizilor pentru rentabilitate și
profitabilitate, dar cele mai mari valori pentru risc și performanța investiției. Deci, prin
achiziționarea acțiunilor din această grupă investitorul își asumă un risc mare și este supus unor
pierderi destul de semnificative.

Clusterul 2 – Grad de oportunitate al investiției ridicat

Valoarea centroidului clusterului 2 pentru rentabilitate este cea mai mare pentru
componenta rentabilitate și înregistrează valori medii pentru profitabilitate, risc și performanță.
Clusterul 3 – Grad de oportunitate al investiției scăzut

Cel de al treilea cluster cuprinde companii cu rentabilitate foarte scăzută însă un grad
mare de profitabilitate. De asemenea, riscul investiției este cel mai mic, iar performanța acțiunii
medie.

Recunoașterea supervizată a formelor. Analiza Discriminantă (AD)

Analiza discriminantă este o metodă de recunoaștere supervizată care permite


predictarea unei observații la o anumită clasă. În cadrul analizei discriminante se cunoaște
numărul de clase și apartenența la acestea a unui set de observații numit set de formare. Numărul
de clustere este stabilit fie de specificul problemei, fie prin aplicarea unei analize cluster asupra
setului de formare Pe baza acestor informații se construiește un sistem de clasificatori care
permite recunoașterea apartenenței unui noi observații la una dintre cele k clase.

Scopul acestei metode este de a efectua predicții privind apartenența unor forme noi la
clasele determinate anterior. Pentru a efectua acest lucru se folosesc sisteme de ecuații de
modele matematice. Datele utilizate în recunoașterea supervizată a formelor sunt structurate în
forma unei matrici de observații existinsă. Pe setul de învățare se formează clasificatorii. Acesta
cuprinde variabilele originale si coloana cu apartenența formelor la clasă.

Spațiul discriminant este format dintr-o axă α – suprafață de separarea și cea de a doua
axă β – vectorul care este ortogonal pe suprafața de separare. Coordonatele formelor din clase
în raport cu suprafața de separare au proprietatea că se ”aglomerează” în zone distincte și rezultă
faptul că variabilitatea intraclasă este minimă și variabilitatea interclasă este maximă.
Analiza discriminant aplicata outlierilor – caracteristici originale standardizate

Figure 49 Functii discriminante- Variabile originale standardizate

Forma funcțiilor discriminant este următoarea:

D1(x) = 0.38x1+0.21x2-0.11x3-0.11x4+0.07x5-3.22x6+2.34x7+2.46x8+1.91x9-0.07x10-
1.78x11-0.07x12+0.75x13+0.43x14+0.13x15+0.15x16

D2(x) = -0.07x1+0.50x2+0.14x3+0.05x4+0.11x5+1.18x6-0.84x7-0.71x8-0.16x9+0.12x10-
0.58x11-0.17x12+1.05x13+0.41x14-0.03x15-0.26x16

Pe baza funcțiilor discriminant au fost calculate scorurile discriminante pentru


observațiile din setul de învățare. Astfel, primele două firme au fost clasificate în clusterul 3, cea
de a treia firmă în clusterul 2 etc. De asemenea, au fost calculate și probabilitățile a-posteriori
pentru acest set de date ce exprimă probabilitatea cu care fiecare companie este clasificată în
una din cele 3 clase. De exemplu, pentru prima firmă din setul de învățare probabilitatea ca
aceasta să aparțină primului cluster este de 0.155, celui de al doilea cluster 0 și ultimului cluster
0.845, deci aceasta a fost asignată celei de a treia clasă.

Figure 50 Scoruri discriminante - Variabile originale standardizate


Figure 51 Clasificare - set de invatare - Variabile originale standardizate

Pentru a cuantifica eficiența clasificatorului linear se calculează gradul de clasificare


corectă pe baza matricii corectitudinii clasificării. 95.17% din companiile din setul de date
învățare au fost corect clasificate. Din cele 152 de companii din prima clasă, 147 au fost clasificate
corect, iar 5 eronat astfel: o companie în clusterul 2 și 4 companii în clusterul 3. Din cele 22 de
companii din cea de a doua clasă, 20 au fost repartizate corect, în timp ce 2 au fost clasificate
eronat ca aparținând clusterului al treilea. 7 din cele 116 companii din clusterul al treilea au fost
clasificate incorrect ca aparținând primei clase, restul fiind clasficate corect.

Figure 52 Probabilitati a-posteriori - set invatare- Variabile originale standardizate


Figure 53 Matricea de corectitudine a clasificarii- Variabile originale standardizate
Abilitatea predictive se calculeaza pornind de la procentul obiectelor correct clasificate:

Pc = (147+20+109)/(147+20+109+7+1+4)= 0,95 => 95 %

Procentul obiectelor incorrect clasificate:

Pi = 1- Pc => 1-0.95 = 0.05 => 5 %

Figure 54 Clasificare - set testare- Variabile originale standardizate

Utilizând clasificatorul linear pe setul de date de testare (setul de outlieri) s-a realizat
clasificarea acestora în cele trei clase. Spre exemplu, compania FASTER se află în grupul firmelor
pentru care investitorul are un grad de oportunitate al investiției mediu (clusterul 1). De
asemenea, au fost calculate probabilitățile a-posteriori pentru setul de outlieri.
Figure 55 Probabilitati a-posteriori- Set testare - Outlieri- Variabile originale standardizate

Analiza discriminant aplicata outlierilor – componente principale pastrate in


analiza
Forma funcțiilor discriminant pentru clasificatorul liniar aplicat modelului ce conține
cele 4 componente principale reținute în analiză este următoarea:

D1(x) = -0.72x1-0.01x2+0.16x3+0.30x4

D2(x) = 0.06x1-0.69x2+0.09x3+0.64x4

Figure 56 Functii discriminante


Figure 57 Clasificare -set invatare- Componente principale

Pe baza scorurilor discriminant și a probabilităților a-priori companiile din setul de învățare au


fost clasificate în cele 3 clase rezultate în urma analizei cluster. Astfel, compania Integral Construct
aparține clasei a doua, comaniile Anemone Comert,Domar si Servmin sunt cuprinse în cel de al
treilea cluster, iar firma Winner Explomin aparține primei clase.

Clasificatorul liniar aplicat pe modelul ce cuprinde componentele principale are un grad


de clasificare corectă egal cu 0.9448, ceea ce înseamnă că 94.48% din firme au fost clasificate în
mod corect în cele trei clase. 2 din cele 20 de companii ce aparțin primei clase au fost clasificate
în cea de a treia clasă. Din cele 155 de firme ce aparțin clusterului 2, 5 dintre ele au fost clasificate
eronat ca aparținând ultimului cluste. Din cele 115 observații din cea de a treia clasă, 106 au fost
clasificate corect, iar 9 eronat ca aparținând clusterului al doilea.

Figure 58 Matricea corectitudinii clasificarii

Abilitatea predictive se calculeaza pornind de la procentul obiectelor correct clasificate:

Pc = (18+150+106)/(18+150+106+9+2+5)=0,94 => 94% dintre date au fost clasificate correct

Procentul obiectelor incorect clasificate:

Pi = 1 – Pc => 1-0.94 => 0.06 => 6% din date au fost clasificate incorect.
Figure 59 Clasificare - set testare- Outlieri - Componente principale

Figure 60 Probabilitati a-posteriori- set testare- Outlieri- Componente principale

Pe baza calcului scorurilor discriminat pentru setul de outlieri și a probabilităților a-


posteriori, firmele din noul set de date au fost clasificate în prima clasă, clasa cu
următoarea caracteristică: gradul de oportunitate al investiției în acțiuni este mediu.
Bibliografie

Ruxanda, G. (2013). Data Mining. București, București, România.

Ruxanda, G. (2016-2017). Analiza datelor - Note de curs. București, România.

Zamfir, C. (2016). Analiza datelor. Suport seminar. ASE București.

S-ar putea să vă placă și