Documente Academic
Documente Profesional
Documente Cultură
Cibernetică Economică
În cele ce urmează voi aborda trei tehnici principale din analiza datelor: sinteza
informațională, recunoașterea nesupervizată a formelor, recunoașterea supervizată a formelor
și metodele corespunzătoarea acestora.
Sinteza informațională
Analiza Componentelor Principale (ACP) presupune reducerea dimensionalității problemei
analizate prin trecerea de la un spațiu vectorial n-dimensional al variabilelor inițiale la un spațiu
k-dimensional al componentelor principale, k fiind un număr mult mai mic decât n.
Componentele principale astfel obținute pot fi ierarhizate și nu prezintă redundanță
informațională. De asemenea, ele sunt mai stabile în raport cu erorile în comparație cu variabilele
inițiale care pot suferi modificări mai puternice.
Am ales acest cod CAEN din cauza faptului ca in ultima perioada sunt tot mai cautate
saloanele de infrumusetare. Am vrut sa descopar prin prisma altor firme de profil cu experienta
si istoric daca este rentabil sa deschizi o astfel de afacere si cu ce probleme te poti confrunta.
Date statistice
Cifra de afaceri
Numar angajati
21.441 angajati
Cercetarea se efectueaza pe datele firmelor din anul 2015. Aceste date au fost culese de
pe site-ul www.topfirme.com.
Pentru a definitive si studia aceste obiective baza de date aleasa cuprinde un numar de 16
indicatori dupa cum urmeaza:
𝑃𝑟𝑜𝑓𝑖𝑡 𝑛𝑒𝑡
1. RC ( rentabilitatea comerciala) = 𝐶𝑖𝑓𝑟𝑎 𝑑𝑒 𝑎𝑓𝑎𝑐𝑒𝑟𝑖 × 100
𝑃𝑟𝑜𝑓𝑖𝑡 𝑛𝑒𝑡
2. ROE (rentabilitatea financiara) = × 100
𝐶𝑎𝑝𝑖𝑡𝑎𝑙𝑢𝑟𝑖 𝑝𝑟𝑜𝑝𝑟𝑖𝑖
𝑃𝑟𝑜𝑓𝑖𝑡 𝑛𝑒𝑡
3. ROA (rentabilitatea economica) = 𝐴𝑐𝑡𝑖𝑣𝑢𝑙 𝑡𝑜𝑡𝑎𝑙 × 100
𝐴𝑐𝑡𝑖𝑣𝑒 𝑐𝑖𝑟𝑐𝑢𝑙𝑎𝑛𝑡𝑒−𝑆𝑡𝑜𝑐𝑢𝑟𝑖
4. LC (lichiditatea economica) = 𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑐𝑢𝑟𝑒𝑛𝑡𝑒
𝑇𝑟𝑒𝑧𝑜𝑟𝑒𝑟𝑖𝑒
5. LI (lichiditatea imediata) =𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑐𝑢𝑟𝑒𝑛𝑡𝑒
𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑡𝑜𝑡𝑎𝑙𝑒
6. GIG (grad de indatorare general) = 𝐴𝑐𝑡𝑖𝑣𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 × 100
𝐴𝑐𝑡𝑖𝑣𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
7. SG (solvabilitate generala) =𝐷𝑎𝑡𝑜𝑟𝑖𝑖 𝑡𝑜𝑡𝑎𝑙𝑒
𝐶𝑎𝑝𝑖𝑡𝑎𝑙𝑢𝑟𝑖 𝑝𝑟𝑜𝑝𝑟𝑖𝑖
8. SP (solvabilitatea patrimoniala) = 𝐴𝑐𝑡𝑖𝑣𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
13. CR (creantele)
μ σ μ-3σ μ+3σ
RC 984388936 3.5E+09 -9523365836 11492143708
ROE 23.6537771 31.36512 -70.44159542 117.7491496
ROA 4369016262 2.07E+10 -57671761939 66409794462
LC 5.97526154 19.53674 -52.63494541 64.58546849
LI 28.6523385 14.455 -14.71264768 72.0173246
GIG 1477266437 4.75E+09 -12759768088 15714300962
SG 720097919 2.52E+09 -6851738407 8291934246
SP 704799520 2.29E+09 -6157446917 7567045957
AFT 71406214.8 4.3E+08 -1220044938 1362857368
SF 5.18224615 34.24933 -97.56573545 107.9302278
STOC 90498476.7 7E+08 -2008931552 2189928506
DAT 4.55735385 47.6571 -138.4139316 147.5286393
CR 4.32430769 9.971901 -25.59139432 34.24000971
VAV 0.004 0.012838 -0.034514067 0.042514067
CAV 1.31298462 0.341433 0.28868533 2.337283901
ANG 5912.38154 12670.74 -32099.83565 43924.59873
O valoare din seria corespunzătoare este outlier pentru seria sa dacă aceasta nu este
cuprinsă în intervalul [μ-3σ, μ+3σ], unde μ=media seriei de timp, iar σ=abaterea standard. În
Figura 1 este reprezentată grafic distribuția normală de medie 0 și abatere standard 1.
Pas 2: Home -> Conditional Formatting -> Highlight Cells Rules -> More Rules -> Format only cells
that contain -> Cell value - > Not Between -> field mean-3std -> field mean+3std -> Format ->
Background Color -> Red.
După eliminarea tuturor outlierilor, pentru a facilita prelucrarea datelor a fost creat
fișierul atașat acestui proiect firme.xls. Acesta conține un număr de 325 – 35 = 290 de obiecte
reprezentate de firme.
Statistici descriptive
Primul pas în analiza bazei de date este reprezentat de analiza statistică. Pentru
aceasta am utilizat comanda summary() din R.
Stocul la sfârșitul exercițiului financiar se încadrează pentru toate firmele analizate între
valoarea minimă de -186 363 872 lei (pierdere ) și valoarea maxima de 870 275 308 dolari .
Mean: Valoarea medie a stocului firmelor este de 30 590 420 lei la sfârșitul unui exercițiu
financiar.
Q1 (quartile 1): 25% dintre firmele analizate au un stoc mai mic de 4 930 672 lei, în timp ce restul
de 75% dintre acestea au un stoc mai mare decât această sumă.
Q2 (quartile 2/median): 50% dintre firmele analizate au un stoc mai mic de 14 740 957 lei, în timp
ce cealaltă jumătate din firme au un stoc mai mare decât această sumă.
Q3 (quartile 3): 75% dintre firmele analizate au un stoc mai mic de 33 081 179 lei, în timp ce restul
de 25% dintre acestea au un stoc mai mare decât această sumă.
Skewness - indicator folosit în analiza distribuției unei serii de date pentru a indica deviația distribuției
empirice în raport cu o distribuție simetrică in jurul mediei.
Interpretare:
Skewness > 0 - distributia este inclinata spre stanga, avand mai multe valori extreme spre dreapta.
Skewness < 0 - distributia este inclinata spre dreapta, avand mai multe valori extreme spre stanga.
Indicatorii skewness pentru RC, ROA, LC, GIG, SG, SP, AFT, STOC și ANG iau valorile 6.88,
5.06, 7.47, 4.12, 4.93, 3.75, 5.58, 6.53, respective 3.51 ceea ce determină o asimetrie puternică
la dreapta a distribuțiilor acestora.
Variabilele ROE, LI, CR și VAV au o distribuție ușor asimetrică la dreapta, în timp ce
indicatorul DAV are o distribuție aproape de cea normal (skewness(DAV)=0.05).
Kurtosis - indicator folosit in analiza distributiei unei serii de date pentru a indica gradul de aplatizare sau de
ascutire a unei distributii.
Kurtosis > 3 - distributie leptokurtica, mai ascutita decat o distibutie normala; avand mai multe valori
concentrate in jurul mediei si cozi mai groase ceeea ce inseamna probabilitati ridicate pentru valorile
extreme.
Kurtosis < 3 - distributie platikurtica, mai plata decat o distibutie normal avand valori dispersate pe un
interval mai mare in jurul mediei. Probabilitatea pentru valori extreme este mai mica decat in cazul unei
distributii normale.
Distribuțiile indicatorilor LI, VAV și DAV sunt mezocurtice, kurtosis luând valori
aproximativ egale cu 3: 3.31, 3.9, 3.09. Pentru ceilalți 13 indicatori, distribuțiile sunt mai mult sau
mai puțin leptocurtice.
Coeficientul de corelație descrie existența unei relații între două serii de timp. El poate
lua valori în intervalul ( -1 , 1 ). Valorile de -1 și 1 simbolizează o relație perfecta între două serii
de timp, în timp ce valoarea 0 arată lipsa unei legături. Legătura direct proportional sau direct
este evidențiată prin semnul +, iar cea inversă prin semnul -.
Cele mai multe companii se află în porțiunea de grafic cu stoc =0 și DAT în intervalul 0-
20%. Se observă o legătură de intensitate medie și directă între cele două variabile. Conform
acestei figuri, există și cateva valori ce se situează în afara norului de puncte. Una dintre firme
este Esaproro SRL cu un stoc de de 87027530 lei și o datorie de de 30483 lei. Firma cu datoria cea
mai mare în valoare de 7183596 lei este Carrion și are un stoc negative de 2074507.00 lei.
Cele mai multe companii au un venit mic și un număr de angajați mic, de unde rezultă o
corelație directă puternică între cele două variabile. O firmă care are un profit mai mare va avea
implicit și un număr de angajați mai mare. Legătura puternică dintre cele două variabile,
rentabilitatea comerciala și numărul de angajați al acesteia, reiese și din exemplul firmei Droma
care are o rentabilitate comerciala de 10815084987 lei și un număr de 26711 angajați.
Reprezentarea grafică a densităților de probabilitate și a histogramelor pentru doi dintre
indicatori:
Standardizarea datelor
Pentru a putea aplica tehnicile de analiză datele inițiale trebuie să fie standardizate, adică
să fie de medie = 0 și dispersie = 1. Cu acest scop am folosit programul R și am obținut după
standardizare următoarele outputuri din figurile 13 și 14 care confirmă standardizarea datelor
originale (fără outlieri).
∑ ∑
În urma analizei componentelor principale pentru baza de date descrisă anterior se vor
obține 4 componente principale cu un conținut informațional diferit. Componentele
principale au următoarele proprietăți: păstrează în totalitate varianța variabilelor inițiale,
sunt necorelate două câte două și au varianță maximă descrescătoare.
În acest caz exista patru componente principale cu disperia mai mare decât 1, motiv
pentru care doar acestea patru vor fi păstrate
2. Criteriul procentului de acoperire presupune păstrarea doar a acelor componente
principale a căror varianța cumulată reprezintă mai mult de 70-80% din varianța totală.
pi =
În acest caz:
p1=(α1)/(α1+...+α16)=0,36
p2=(α1+α2)/(α1+...+α16)=0,55
p3=(α1+α2 + α3 )/(α1+...+α16)=0,63
p4=(α1+α2 + α3 + α4)/(α1+...+α16)=0,70
Matricea vectorilor proprii este utilă nu doar în construirea matricea scorurilor principale,
ci și în determinarea semnificației componentelor principale păstrate. Acest fapt poate fi realizat
doar când variabilele sunt standardizate iar varianța variabilelor este egală cu unitate
În următoarea figură sunt prezentate valorile proprii ale matricei de corelație care
reprezintă dispersia componentelor principale. Varianța descrește pentru fiecare component
principală, ceea ce înseamnă că prima componentă conține cea mai mare cantitate
informațională, de aproximativ 36% din cantitatea totală, fiind urmată de cea de-a doua care
conține 19%, apoi de a treia care explică 8% din variant totală și de a patra cu 7%.
Din valorile proprii ale matricei de covarianță de mai sus se obțin vectorii proprii, pe baza
cărora sunt calculate scorurile componentelor principale.
W1=-0.28x1-0.15x2-0.34x3-0.06x4+0.007x5-0.34x6-0.29x7-0.35x8-0.35x9-0.14x10-
0.35x11-0.17x12-0.18x13-0.08x14+0.17x15-0.26x16
W2=-0.28x1-0.22x2-0.07x3-0.12x4-0.07x5+0.26x6+0.32x7+0.12x8-0.13x9-0.40x10-
0.13x11-0.40x12-0.45x13-0.14x14-0.04x15+0.25x16
W3=0.17x1+0.19x2-0.17x3+0.59x4+0.48x5+0.08x6+0.16x7-0.06x8-
0.03x9+0.06x10-0.12x11+0.03x12+0.005x13-0.27x14+0.41x15+0.09x16
W4=0.13x1+0.31x2-0.08x3-0.07x4+0.30x5-0.02x6+0.10x7-0.20x8-0.25x9-
0.01x10-0.26x11+0.01x12+0.04x13+0.66x14-0.26x15+0.26x16
Matricea scorurilor principale, W se calculează astfel:
() () ()
() () ()
W=( ) ( )
() () ()
( )
care se găsește la intersecția liniei i cu coloana j în matricea factor Ω, adică| elementul ω ij=λj1/2
αi(j)/σi reprezintă coeficientul de corelație dintre cea de-a i-a variabilă standardizată xi cea de-a
Profitabilitate (Comp 1): Pentru prima componentă principală, legătura dintre indicatorii
cu influență puternică și foarte puternică (valori mai mari de 0.50 sau -0.50) este invers
proportională, adică orice creștere a valorilor variabilelor originale va produce o scădere a
valorilor componentelor principale. Astfel, există o legătură foarte puternică între valorile
indicatorilor RC, ROE, GIG, SG, SP, AFT, STOC și ANGAJATI exprimată de valorile -0.68, -0.82, -0.82,
-0.70, -0.84, -0.85, -0.85, respectiv, -0.64.
Rentabilitate (Comp 2): Cea de a doua componentă principală este influențată foarte
puternic în mod indirect de indicatorii SF, DAT, CR (-0.70, -0.70, -0.79) și puternic indirect de ROA
(-0.40). De asemenea, variabilele RC, GIG, SG și ANG au o influență puternică direct asupra
acesteia (0.49, 0.46, 0.56, 0.43).
Risc (Comp 3): A treia componentă păstrată în analiză este influențată în mod direct,
puternic de indicatorii LC, LI, DAV (0.66, 0.54, 0.47).
Performanță (Comp 4): Ultima componentă principală păstrată în analiză este influențată
foarte puternic direct de indicatorul VAV (0.70) și slab, tot în mod direct proporțional de ROA, LI,
ANG (0.33, 0.32, 0.28).
Analiza cluster se realizează ținând cont de criteriul general al clasificării care impune ca
variabilitatea intraclasă să fie minimă și cea interclasă să fie maximă, ceea ce înseamnă că se
caută clase cât mai omogene în interior și cât mai eterogene în exterior
Analiza cluster se poate realiza fie prin metode ierarhice, fie folosind algoritmi de
partiționare. Prin urmare pentru a putea exemplifica fiecăre metodă, în R analiza cluster va fi
rezolvată atât prin două metode de tip ierarhic ascendant, cât și prin algoritmului celor k medii
(k - means).
În cele ce urmează se pot descrie câteva problem majore ce țin de logica clasificării.
1. Evaluarea similarităților / disimilarităților dintre forme
Similaritățile se măsoară prin distanțe:
- ∑ matricea de covarianță
dMah(x,y) = (x-y)t∑-1(x-y)
∑ wi = 1
d(ωi,ωj) = 1/TiTj ∑d(x,y), x din ωi, y din ωj, Ti numărul de forme din ωi, Tj numărul
de forme din ωj
2.4. Metoda centroidului ωi
(i) (j) (i) (j)
d(ωi,ωj) = d( ̅
, ̅) , unde ̅ este centroidul clasei ωi , ̅ este centroidul clasei
ωj
Metoda
2.5. Ward
Clasificarea trebuie să se realizeze astfel încât variabilitatea intraclasă să fie cât mai
mică și variabilitatea interclasă să fie maximă.
Analiza cluster rezolvată prin metoda de tip ierarhic ascendent presupune că la începutul
analizei numarul de clustere este egal cu numărul de observații, iar ulterior prin grupare numărul
acestora se reduce până când, în cadrul celei din urmă etape să existe doar un singur cluster.
Gruparea clusterelor se face folosind metoda Ward, considerată a fi cea mai eficientă. Metoda
Ward comasează clasele ωi și ωj a căror distanță d(ωi, ωj) este minimă:
În urma aplicării acestei metode, se constată că numărul optim de clase în care pot fi
împărțite observațiile inițiale este 3. Apartenența la clase a formelor poate fi vizualizată în
Prima etapă de clasificare utilizând această metodă poate fi descrisă astfel: Primul cluster s-a
format la distanța de 0.5143 și a reunit firmele Avcon și Exxomobil. Clusterul 10 s-a format la
distanța de 0.7732 și cuprinde companiile Plimbo si Sunshine.
Cea de al doilea pas de clusterizare rezultat din aplicarea metodei Ward(.D2) asupra
variabilelor originale standardizate este reprezentată în figura 27. Valorile cu minus reprezintă
forme, în timp ce valorile cu plus reprezintă clase deja formate la un pas anterior. Cea mai mica
distanță de la acest pas se regăsește între companiile cu codurile 218 si 260 ce formează un nou
cluster. Cel de-al 9-lea cluster format în cadrul acestei etape este compus din compania cu codul
171 și din clusterul 1 format la primul pas.
R = SPAB/SPAW
Clusterul 1 înregistrează cele mai mici valori ale centroizilor pentru rentabilitate și
profitabilitate, dar cele mai mari valori pentru risc și performanța investiției. Deci, prin
achiziționarea acțiunilor din această grupă investitorul își asumă un risc mare și este supus unor
pierderi destul de semnificative.
Valoarea centroidului clusterului 2 pentru rentabilitate este cea mai mare pentru
componenta rentabilitate și înregistrează valori medii pentru profitabilitate, risc și performanță.
Clusterul 3 – Grad de oportunitate al investiției scăzut
Cel de al treilea cluster cuprinde companii cu rentabilitate foarte scăzută însă un grad
mare de profitabilitate. De asemenea, riscul investiției este cel mai mic, iar performanța acțiunii
medie.
Scopul acestei metode este de a efectua predicții privind apartenența unor forme noi la
clasele determinate anterior. Pentru a efectua acest lucru se folosesc sisteme de ecuații de
modele matematice. Datele utilizate în recunoașterea supervizată a formelor sunt structurate în
forma unei matrici de observații existinsă. Pe setul de învățare se formează clasificatorii. Acesta
cuprinde variabilele originale si coloana cu apartenența formelor la clasă.
Spațiul discriminant este format dintr-o axă α – suprafață de separarea și cea de a doua
axă β – vectorul care este ortogonal pe suprafața de separare. Coordonatele formelor din clase
în raport cu suprafața de separare au proprietatea că se ”aglomerează” în zone distincte și rezultă
faptul că variabilitatea intraclasă este minimă și variabilitatea interclasă este maximă.
Analiza discriminant aplicata outlierilor – caracteristici originale standardizate
D1(x) = 0.38x1+0.21x2-0.11x3-0.11x4+0.07x5-3.22x6+2.34x7+2.46x8+1.91x9-0.07x10-
1.78x11-0.07x12+0.75x13+0.43x14+0.13x15+0.15x16
D2(x) = -0.07x1+0.50x2+0.14x3+0.05x4+0.11x5+1.18x6-0.84x7-0.71x8-0.16x9+0.12x10-
0.58x11-0.17x12+1.05x13+0.41x14-0.03x15-0.26x16
Utilizând clasificatorul linear pe setul de date de testare (setul de outlieri) s-a realizat
clasificarea acestora în cele trei clase. Spre exemplu, compania FASTER se află în grupul firmelor
pentru care investitorul are un grad de oportunitate al investiției mediu (clusterul 1). De
asemenea, au fost calculate probabilitățile a-posteriori pentru setul de outlieri.
Figure 55 Probabilitati a-posteriori- Set testare - Outlieri- Variabile originale standardizate
D1(x) = -0.72x1-0.01x2+0.16x3+0.30x4
D2(x) = 0.06x1-0.69x2+0.09x3+0.64x4
Pi = 1 – Pc => 1-0.94 => 0.06 => 6% din date au fost clasificate incorect.
Figure 59 Clasificare - set testare- Outlieri - Componente principale