Documente Academic
Documente Profesional
Documente Cultură
2. Indicatori utilizați:
Formula de calcul a
Notație Denumire indicator
indicatorului
RC rentabilitatea comercială
ROE rentabilitate financiară
ROA rentabilitatea economică
LC lichiditatea curentă
GIG grad de îndatorare general
A1 indicator de activitate cifra de afaceri/active
A2 indicator de activitate furnizori/cifra de afaceri
A3 indicator de activitate clienți/datorii totale
SP solvabilitate patrimonială
AFT autonomia financiară la termen
SF stabilitate financiară
D. Prelucrarea datelor, importul datelor, statistici descriptive și reprezentări grafice
2. Se importă datele în R.
Output:
Fiecare companie din setul de date este reprezentată pe câte o linie, alături de valorile înregistrate
de indicatorii selectați, valori corespunzătoare anului 2013.
3. Statistici descriptive în R
a). Se utilizează funcția summary. Să se interpreteze următorul output:
Prin aplicarea funcției summary vom obține o imagine de ansamblu asupra setului de date utilizat
în cadrul analizei noastre. Obținem astfel informații cu privire la indicatorii incluși în setul de date,
mai exact cu privire la valorile maxime, respectiv minime, media valorilor, mediana, precum și
cuartilele. Diferența dintre valoarea maximă și valoarea minimă ne poate ajuta să înțelegem cât de
variat este setul nostru de date. Considerând setul de date importat, constatăm că rentabilitatea
financiară a celor 34 de companii înregistrează o medie de -0.8118 %. Cea mai scăzută rentabilitate
financiară înregistrată în eșantion este egală cu -27.1067 %, în timp ce maximul atinge 11.7013 %.
Dacă ne concentrăm asupra medianei (Median), remarcăm faptul că jumătate dintre întreprinderile
analizate au o rentabilitate mai mică de 0.7349 %, în timp ce restul companiilor au o rentabilitate
superioară pragului de 0.7349 %.
Din punct de vedere al rentabilității economice, întreprinderile analizate au înregistrat, în medie,
la nivelul anului 2013 o rentabilitate economică de -0.4475 %.
Funcția describe aplicată setului de date va furniza informații privind media, minimul, maximul,
intervalul în care variază valorile fiecărui indicator, precum și asimetria sau aplatizarea
distribuțiilor. Având ca reper indicatorul rentabilitate financiară (ROE) observăm că media
înregistrată este de -0.81%, valoarea fiind practic aceeași cu cea calculată anterior, prin utilizarea
funcției summary. Valorile minime, respectiv maxime ale indicatorului sunt de -27.11%, respectiv
11.7%. Indicatorul skewness (sau coeficientul de asimetrie, așa cum îl regăsim în bazele statisticii)
măsoară cât de mult distribuția de probabilitate a unei variabile aleatoare se abate de la distribuția
normală. În cazul de față avem de a face cu o asimetrie la stânga, având în vedere coeficientul
negativ (-1.27).
c). Se utilizează funcțiile: cv, sd, var și mean pentru toate variabilele. Să se interpreteze
următoarele rezultate:
cv:
sd:
var:
mean:
Funcția mean determină valoarea medie înregistrată de cei 11 indicatori pentru cele 34 de
întreprinderi, valoare corespunzătoare anului 2013.
Histograma ROA – indică prezența asimetriei la stânga, tradusă prin existența unor întreprinderi
în eșantion pentru care rentabilitatea economică este mai scăzută comparativ cu rentabilitatea
înregistrată de majoritatea companiilor.
Histograma GIG – indică prezența asimetriei la dreapta, ceea ce semnalează existența unor
companii pentru care gradul de îndatorare general este mai pronunțat prin comparație cu gradul de
îndatorare al majorității întreprinderilor.
S2 - Utilizarea R pentru operații cu vectori și matrici
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ
A. Prelucrarea datelor
mean:
Ce observați?
4. Construiți o funcție care transformă variabilele din matricea datelor prin împărțirea fiecărei
variabile la media sa. Aplicați funcția contruită anterior pentru variabila ROA, apoi pentru toată
matricea de date.
Output (variabila ROA):
5. Calculați matricea de corelație pentru matricea de date, și matricea de corelație pentru matricea
obținută prin aplicarea funcției de la pct. 4. Ce observați?
R: Atât matricea de corelație a datelor, cât și matricea obținută prin aplicarea funcției sunt
simetrice. În plus, valorile calculate ale celor două matrici coincid, cu excepții însă în ceea ce
privește semnul coeficienților.
6. Calculați matricea produselor încrucișate pentru matricea de date. Ce fel de matrice este?
Output (round=2 zecimale):
R: Matrice simetrică
7. Generați (funcția rnorm) 6000 de valori dintr-o distribuție normală de medie 3 și abatere
standard 0.2. Transformați valorile generate într-o matrice de date cu 1000 de linii și 6 coloane.
Calculați matricea de covarianță a variabilelor centrate și matricea produselor încrucișate pentru
variabile centrate. Ce observați? Output:
Observație: când eșantionul este mare, cele 2 matrici sunt egale.
$vectors
Care este norma primului vector din matricea de mai sus? Dar norma celui de-al doilea vector?
R: 1, atât pentru primul vector, cât și pentru cel de-al doilea vector.
2. Construiți o combinație liniară între datele standardizate și primul vector propriu din matricea
de mai sus. Calculați varianța acestei combinații liniare. Ce observați? Output:
Combinația liniară este de forma:
I1 = 0.120*RC+0.046*ROE+0.042*ROA-0.274*LC+0.478*GIG+0.068*A1+0.115*A2-0.243*A3-
0.473*SP+0.430*AFT+0.438*SF
3. Construiți o combinație liniară între datele standardizate și al doilea vector propriu (ca ponderi)
din matricea de mai sus. Calculați varianța acestei combinații liniare. Ce observați?
Output:
4. Matricea transpusă a matricei care conține vectorii proprii de mai sus – funcția t. Output:
Observație: pe diagonala principală a matricei de mai sus sunt valorile proprii ale matricei de
covarianță, restul elementelor fiind 0.
S3 - Utilizarea R pentru analiza corelațiilor. Grafice pentru sintetizarea analizei
corelațiilor.
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ
Matricea de date este cea utilizată în seminariile anterioare.
1. Calculați matricea de corelație (funcția cor) a variabilelor din setul de date și interpretați
rezultatele obținute. Output:
R. Output-ul expune valorile coeficienților de corelație calculați pentru cei unsprezece indicatori
economici și financiari corespunzători întreprinderilor din eșantion. În plus, funcția rcorr indică și
semnificația statistică a corelațiilor dintre variabile. Legături semnificative se stabilesc între
indicatori precum ROA și ROE, RC și ROA, RC și ROE, dar și între solvabilitatea patrimonială și
lichiditatea curentă. Lipsa semnificației statistice caracterizează legătura dintre lichiditatea curentă
și rentabilitatea comercială.
3. Funcția corrplot
Interpretați rezultatele obținute.
R. Legăturile stabilite pe baza matricei de corelație se confirmă și prin graficul din figura
de mai sus, unde acestea sunt exprimate în funcție de intensitatea culorii. Pe diagonala principală
observăm culoarea albastru închis, corespunzătoare corelației unei variabile cu ea însăși. Nuanțele
de roșu indică legăturile opuse, în timp ce nuanțele de albastru redau legăturile directe dintre
indicatori.
R. Output-ul funcției indică coeficienții de corelație dintre indicatorii incluși în setul de date. Sunt
prezentate totodată histogramele asociate indicatorilor. Corelațiile semnificative sunt marcate pe
grafic prin intermediul simbolului asterisc, pragul de semnificație fiind indicat de numărul acestor
simboluri, pentru fiecare pereche de indicatori.
Analiza componentelor principale
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ
Matricea de date este cea utilizată în seminariile anterioare.
1. Utilizați funcțiile cor și cov pentru a analiza matricile de covarianță și corelație pentru
variabilele standardizate. Output:
3. Utilizați funcția prcomp pentru date standardizate și apoi funcția plot pentru a genera următorul
output:
4. Pe baza rezultatelor de la pct. 2 și 3 de mai sus, aplicați criteriile cunoscute pentru a identifica
numărul de componente principale reținute în analiză.
6. Extrageți (eigen) vectorii proprii și valorile proprii ale matricei de covarianță și comparați
output-ul cu rezultatele de mai sus.
R. Comparând outputul de mai jos cu rezultatele prezentate la punctul anterior, remarcăm faptul
că elementele vectorilor proprii coincid.
7. Scoruri principale (primele 10 observații):
R.
Componentele principale reprezintă combinații liniare ale variabilelor originale.
Componentele principale sunt ortogonale.
Componentele principale conservă varianța totală (acestea preiau în totalitate variabilitatea
conţinută în variabilele originale).
8. Matricea de corelație între variabile originale și componente principale
*Care este interpretarea componentelor principale?
Prima componentă principală se corelează puternic cu indicatorii grad de îndatorare general
(GIG), SP (solvabilitate patrimonială), dar și cu variabilele AFT și SF. Putem interpreta această
componentă drept o componentă ce ne oferă informații cu privire la solvabilitatea întreprinderilor
din eșantion, a capacității acestora de a face față tuturor scadențelor, atât pe termen scurt, cât și pe
termen lung.
Cea de-a doua componentă se corelează puternic cu variabilele rentabilitate comercială,
rentabilitate financiară și rentabilitate economică. Vom interpreta această componentă drept
componenta rentabilității întreprinderilor.
Legături moderate semnalăm între cea de-a treia componentă și indicatorii lichiditate
curentă (-0.641) și indicatorul de activitate A3 (-0.677).
9. Cercul corelațiilor
10. Reprezentarea observațiilor în planul principal
*ggplot
*plot
11. Biplot
Se observă că, indiferent de metoda folosită pentru calcul, coeficienții de corelație parțială sunt
egali.
În figura de mai sus se observă descrierea indicatorilor din setul de date. Se observă pe coloana n
că valorile diferă de la o variabilă la alta, ceea ce înseamnă că există valori lipsă.
După eliminarea valorilor lipsă (cu funcția na.omit), se poate observa că au rămas acele observații
din setul de date pentru care sunt completate cu valori toate variabilele considerate. Astfel, sunt
2436 de observații în setul de date care va fi folosit în continuare.
* indicele KMO
Valoarea indicelui KMO este 0.84, ceea ce arată că există o bună factoriabilitate în setul de date.
Semnificația indicelui KMO: [0.90,1.00] - foarte bună factoriabilitate; [0.80, 0.9) - bună
factoriabilitate; [0.70 ,0.8) - medie; [0.60, 0.7) - mediocră; [0.50, 0.6) - slabă; [0.00, 0.5) - fără
factori comuni
* testul Bartlett
Utilizând funcțiile disponibile din pachetul rela, se observă că valorile obținute sunt egale cu
rezultatele de mai sus.
Figurile de mai sus prezintă rezultatele obținute prin metoda “principal axes - pa”, comparație între
opțiunile “rotate=none” și “rotate=varimax”. Se observă o îmbunătățire a soluției obținută prin
rotația axelor în ceea ce privește structura factorilor.
În figurile de mai sus se observă cei 5 factori obținuți anterior.
În figurile de mai sus se observă indicele de complexitate, valorile pentru “loadings” pentru
fiecare variabilă, comunalitățile și unicitățile fiecărei variabile din model. De asemenea, este
prezentată și varianța explicată de factori, în figura din partea dreaptă.
* rotate="none",fm="ml" * rotate="Varimax",fm="ml"
Figurile de mai sus prezintă rezultatele analizei factoriale utilizând metoda “maximum likelihood” ca metodă de
extragere a factorilor.
Se observă că structura factorilor rămâne aceeași și prin a doua metodă utilizată.
Analiza corespondențelor
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ
Set de date: housetasks
1. Testul de independență 𝝌𝟐
* matricea distanțelor
2. Metode ierarhice
* etapele clusterizării
*dendrograma
*alegerea numărului de clase
Graficul Elbow
*Numărul optim de clustere sugerat de aplicarea metodei grafice de mai sus este egal cu 4.
*Funcția NbClust se bazează pe 30 de indici pentru determinarea numărului optim de clustere și propune
utilizatorului cea mai bună schemă de clusterizare. Conform output-ului anterior, numărul optim de clustere
în situația de față este egal cu 4. Același număr a fost sugerat și de metoda grafică.
*Acuratețea soluției de clusterizare poate fi apreciată prin prisma graficului siluetei medii. În
cazul de față, silueta medie globală atinge o valoare de 0.37. Se observă, de asemenea,
apartenența obiectelor (întreprinderilor) la cele 4 clustere. 8 întreprinderi au fost repartizate în
primul cluster, 19 în cel de-al doilea cluster, 3 în cel de-al treilea cluster și patru în ultimul cluster.
*centroizii claselor
*Distanța dintre două clustere este reprezentată de distanța minimă dintre obiectele celor două
clustere.
2.2.2. Metoda agregării complete
*Distanța dintre două clustere este distanța maximă dintre membrii celor două clustere. Clusterele
rezultate tind să fie mai compacte.
1. Soluția obținută
*În figura de mai sus este reprezentată soluția de clusterizare a algortimului k-means, pentru un
număr prestabilit de 4 clustere. Sunt evidențiate mediile fiecărui indicator la nivelul fiecărei clase
în parte. Companiile situate în primul cluster sunt caracterizate de cele mai însemnate valori ale
indicatorilor de rentabilitate (RC=0.91, ROE=0.66, ROA=0.90). Valorile medii ale indicatorilor
LC și SP sunt, de asemenea, cele mai ridicate.
Totodată, se observă repartizarea întreprinderilor în cele patru clase. De exemplu, companii
precum AGQR, ACBU ISCO sau HEPI se regăsesc în cel de-al patrulea cluster. Companiile
GALV, BUCU și DONO s-au grupat în primul cluster. Primul cluster este format din 3 obiecte,
cel de-al doilea cluster este alcătuit din 4 obiecte, în timp ce al treilea cluster cuprinde 5 obiecte.
Cele mai multe întreprinderi, în număr de 22, se regăsesc în cel de-al patrulea cluster.
Reprezentarea celor patru clase în funcție
de indicatorii ROE și GIG
Reprezentarea grafică a
soluției cluster furnizată de algoritmul k-means
Variabilele cu puterea de discriminare cea mai mare sunt acelea care au centroizii cat mai diferiti
de la o clasa la alta. Centroizii sunt evidențiați în figura precedentă.
*Constatăm că toate cele nouă variabile au capacitatea de a contribui la diferențierea obiectelor
pe clase, deoarece au o probabilitate asociată testului F mai mică decât 0.05.
Variabilele standardizate
Soluția algoritmului k-means
Set de antrenare
Set de testare
*naiveBayes
Probabilități condiționate
*Cum se determină probabilitățile apriorice?