Sunteți pe pagina 1din 55

S1 – Introducere și elemente recapitulative

Prof. Dr. Stelian STANCU


Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ

A. Aspecte organizatorice: structura seminarului, evaluare, bibliografie, etc.


B. Introducere în analiza datelor și elemente recapitulative: tipuri de date, surse de date etc.

C. Informații despre datele utilizate la seminar


1. Detalii despre setul de date:
11 variabile, 40 de observații inițial, 34 de observații după eliminarea outlyer-elor.
Anul pentru care s-au analizat datele: 2013; Sursa datelor: BVB
Obiect de activitate al companiilor: comerțul cu ridicata și cu amănuntul, repararea
autovehiculelor, motocicletelor și a bunurilor de uz gospodăresc.

2. Indicatori utilizați:
Formula de calcul a
Notație Denumire indicator
indicatorului
RC rentabilitatea comercială
ROE rentabilitate financiară
ROA rentabilitatea economică
LC lichiditatea curentă
GIG grad de îndatorare general
A1 indicator de activitate cifra de afaceri/active
A2 indicator de activitate furnizori/cifra de afaceri
A3 indicator de activitate clienți/datorii totale
SP solvabilitate patrimonială
AFT autonomia financiară la termen
SF stabilitate financiară
D. Prelucrarea datelor, importul datelor, statistici descriptive și reprezentări grafice

1. Prelucrarea datelor (gestionarea datelor lipsă, eliminarea outlier-ilor, etc.)

2. Se importă datele în R.

Output:

Fiecare companie din setul de date este reprezentată pe câte o linie, alături de valorile înregistrate
de indicatorii selectați, valori corespunzătoare anului 2013.

3. Statistici descriptive în R
a). Se utilizează funcția summary. Să se interpreteze următorul output:
Prin aplicarea funcției summary vom obține o imagine de ansamblu asupra setului de date utilizat
în cadrul analizei noastre. Obținem astfel informații cu privire la indicatorii incluși în setul de date,
mai exact cu privire la valorile maxime, respectiv minime, media valorilor, mediana, precum și
cuartilele. Diferența dintre valoarea maximă și valoarea minimă ne poate ajuta să înțelegem cât de
variat este setul nostru de date. Considerând setul de date importat, constatăm că rentabilitatea
financiară a celor 34 de companii înregistrează o medie de -0.8118 %. Cea mai scăzută rentabilitate
financiară înregistrată în eșantion este egală cu -27.1067 %, în timp ce maximul atinge 11.7013 %.
Dacă ne concentrăm asupra medianei (Median), remarcăm faptul că jumătate dintre întreprinderile
analizate au o rentabilitate mai mică de 0.7349 %, în timp ce restul companiilor au o rentabilitate
superioară pragului de 0.7349 %.
Din punct de vedere al rentabilității economice, întreprinderile analizate au înregistrat, în medie,
la nivelul anului 2013 o rentabilitate economică de -0.4475 %.

*** Interpretări similare pentru ceilalalți indicatori

b). Se utilizează funcția describe. Să se interpreteze următorul output:

Funcția describe aplicată setului de date va furniza informații privind media, minimul, maximul,
intervalul în care variază valorile fiecărui indicator, precum și asimetria sau aplatizarea
distribuțiilor. Având ca reper indicatorul rentabilitate financiară (ROE) observăm că media
înregistrată este de -0.81%, valoarea fiind practic aceeași cu cea calculată anterior, prin utilizarea
funcției summary. Valorile minime, respectiv maxime ale indicatorului sunt de -27.11%, respectiv
11.7%. Indicatorul skewness (sau coeficientul de asimetrie, așa cum îl regăsim în bazele statisticii)
măsoară cât de mult distribuția de probabilitate a unei variabile aleatoare se abate de la distribuția
normală. În cazul de față avem de a face cu o asimetrie la stânga, având în vedere coeficientul
negativ (-1.27).  

*** Interpretări similare pentru ceilalalți indicatori

c). Se utilizează funcțiile: cv, sd, var și mean pentru toate variabilele. Să se interpreteze
următoarele rezultate:
cv:
sd:

Abaterea standard reprezintă o măsură a împrăștierii valorilor indicatorilor în raport cu media


acestora. Valori scăzute ale abaterii standard relevă o concentrare a datelor în jurul valorii medii,
în timp ce valorile ridicate ale abaterii standard indică faptul că datele sunt mai răspândite. Pentru
setul de date considerat, remarcăm valori ridicate ale abaterii standard pentru rentabilitatea
comercială, pentru gradul de îndatorare general, precum și pentru lichiditatea curentă.

var:

mean:

Funcția mean determină valoarea medie înregistrată de cei 11 indicatori pentru cele 34 de
întreprinderi, valoare corespunzătoare anului 2013.

d). Se utilizează funcția boxplot. Output:

Graficul Boxplot indică faptul că nu avem de a face cu valori aberante (outliers).


Acestea au fost eliminate anterior efectuării importului în RStudio.
4. Reprezentări grafice

a). Funcția plot (și funcția abline). Output-uri:s

plot: Reprezentarea celor 34 de întreprinderi prin coordonatele date de valorile


indicatorilor rentabilitate comercială (axa OX) și rentabilitate financiară (OY).

abline: Model liniar. Reprezentarea dependenței dintre rentabilitatea economică și


rentabilitatea comercială și adăugarea dreptei de regresie.

b). Se utilizează funcția ggplot. Output:


Reprezentarea celor 34 de întreprinderi prin coordonatele date de valorile indicatorilor
rentabilitate financiară (axa OX) și rentabilitate economică (OY), de această dată cu ajutorul
pachetului de grafică ggplot.
c). Histograma și densitatea de probabilitate. Se utilizează funcțiile hist și lines. Output:

Histograma ROA – indică prezența asimetriei la stânga, tradusă prin existența unor întreprinderi
în eșantion pentru care rentabilitatea economică este mai scăzută comparativ cu rentabilitatea
înregistrată de majoritatea companiilor.

Histograma GIG – indică prezența asimetriei la dreapta, ceea ce semnalează existența unor
companii pentru care gradul de îndatorare general este mai pronunțat prin comparație cu gradul de
îndatorare al majorității întreprinderilor.

   
 
S2 - Utilizarea R pentru operații cu vectori și matrici
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ

Matricea de date este cea utilizată în seminarul anterior.

A. Prelucrarea datelor

1. Utilizarea funcției scale pentru standardizarea variabilelor. Output:

2. Utilizarea funcțiilor sd și mean pentru variabile standardizate. Output:


sd:

mean:

3. Matricea de corelație și matricea de covarianță a variabilelor standardizate (funcțiile cor și cov).


Output:

Ce observați?

R: Matricea de corelație și matricea de covarianță a variabilelor standardizate coincid.

4. Construiți o funcție care transformă variabilele din matricea datelor prin împărțirea fiecărei
variabile la media sa. Aplicați funcția contruită anterior pentru variabila ROA, apoi pentru toată
matricea de date.
Output (variabila ROA):
5. Calculați matricea de corelație pentru matricea de date, și matricea de corelație pentru matricea
obținută prin aplicarea funcției de la pct. 4. Ce observați?

R: Atât matricea de corelație a datelor, cât și matricea obținută prin aplicarea funcției sunt
simetrice. În plus, valorile calculate ale celor două matrici coincid, cu excepții însă în ceea ce
privește semnul coeficienților.

* Există aceeași relație și între matricile de covarianță?


R: În cazul matricilor de covarianță această relație nu mai este valabilă.

6. Calculați matricea produselor încrucișate pentru matricea de date. Ce fel de matrice este?
Output (round=2 zecimale):

R: Matrice simetrică

7. Generați (funcția rnorm) 6000 de valori dintr-o distribuție normală de medie 3 și abatere
standard 0.2. Transformați valorile generate într-o matrice de date cu 1000 de linii și 6 coloane.
Calculați matricea de covarianță a variabilelor centrate și matricea produselor încrucișate pentru
variabile centrate. Ce observați? Output:
Observație: când eșantionul este mare, cele 2 matrici sunt egale.

R: Matricea de covarianță a variabilelor centrate coincide cu matricea produselor încrucișate


pentru variabilele centrate.

B. Vectori, valori proprii și combinații liniare

1. Funcția eigen aplicată matricii de covarianță a datelor standardizate. Output:


$values

$vectors

Care este norma primului vector din matricea de mai sus? Dar norma celui de-al doilea vector?

R: 1, atât pentru primul vector, cât și pentru cel de-al doilea vector.

2. Construiți o combinație liniară între datele standardizate și primul vector propriu din matricea
de mai sus. Calculați varianța acestei combinații liniare. Ce observați? Output:
Combinația liniară este de forma:
I1 = 0.120*RC+0.046*ROE+0.042*ROA-0.274*LC+0.478*GIG+0.068*A1+0.115*A2-0.243*A3-
0.473*SP+0.430*AFT+0.438*SF

3. Construiți o combinație liniară între datele standardizate și al doilea vector propriu (ca ponderi)
din matricea de mai sus. Calculați varianța acestei combinații liniare. Ce observați?
Output:

Combinația liniară este de forma:


I2 = -0.493*RC-0.527*ROE-0.538*ROA-0.257*LC+0.087*GIG+0.085*A1+0.156*A2-0.208*A3-
0.073*SP-0.147*AFT-0.118*SF

4. Matricea transpusă a matricei care conține vectorii proprii de mai sus – funcția t. Output:

5. Înmulțirea a 3 matrici: matricea transpusă a vectorilor proprii * matricea de covarianță a datelor


standardizate * matricea vectorilor proprii. Output:

Observație: pe diagonala principală a matricei de mai sus sunt valorile proprii ale matricei de
covarianță, restul elementelor fiind 0.
 
S3 - Utilizarea R pentru analiza corelațiilor. Grafice pentru sintetizarea analizei
corelațiilor.
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ
Matricea de date este cea utilizată în seminariile anterioare.

1. Calculați matricea de corelație (funcția cor) a variabilelor din setul de date și interpretați
rezultatele obținute. Output:

R. Se observă existența unei corelații puternice între rentabilitatea economică și rentabilitatea


financiară a întreprinderilor din eșantionul considerat. Coeficientul de corelație înregistrează o
valoare de 0.883. Coeficientul pozitiv indică totodată faptul că legătura dintre cele două tipuri de
rentabilități este una directă. Existența unei legături puternice, directe este specifică și indicatorilor
autonomie financiară la termen și stabilitate financiară (coeficientul de corelație calculat atinge
valoarea 0.972). Absența corelației sau corelația slabă este redată prin intermediul coeficienților
cu valori scăzute (Rentabilitate comercială și grad de îndatorare general, rentabilitate comercială
și stabilitate financiară). Legături puternice, însă opuse, caracterizează indicatori precum
solvabilitatea patrimonială și gradul de îndatorare general.

2. Funcția rcorr (pachetul Hmisc).

R. Output-ul expune valorile coeficienților de corelație calculați pentru cei unsprezece indicatori
economici și financiari corespunzători întreprinderilor din eșantion. În plus, funcția rcorr indică și
semnificația statistică a corelațiilor dintre variabile. Legături semnificative se stabilesc între
indicatori precum ROA și ROE, RC și ROA, RC și ROE, dar și între solvabilitatea patrimonială și
lichiditatea curentă. Lipsa semnificației statistice caracterizează legătura dintre lichiditatea curentă
și rentabilitatea comercială.
3. Funcția corrplot
Interpretați rezultatele obținute.

R. Legăturile stabilite pe baza matricei de corelație se confirmă și prin graficul din figura
de mai sus, unde acestea sunt exprimate în funcție de intensitatea culorii. Pe diagonala principală
observăm culoarea albastru închis, corespunzătoare corelației unei variabile cu ea însăși. Nuanțele
de roșu indică legăturile opuse, în timp ce nuanțele de albastru redau legăturile directe dintre
indicatori.

4. Funcția chart.Correlation din pachetul PerformanceAnalytics. Interpretați rezultatele obținute


în următorul output:

R. Output-ul funcției indică coeficienții de corelație dintre indicatorii incluși în setul de date. Sunt
prezentate totodată histogramele asociate indicatorilor. Corelațiile semnificative sunt marcate pe
grafic prin intermediul simbolului asterisc, pragul de semnificație fiind indicat de numărul acestor
simboluri, pentru fiecare pereche de indicatori.
 
Analiza componentelor principale
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ
Matricea de date este cea utilizată în seminariile anterioare.

1. Utilizați funcțiile cor și cov pentru a analiza matricile de covarianță și corelație pentru
variabilele standardizate. Output:

2. Utilizați funcția princomp pentru extragerea componentelor principale și realizați următorul


output:

*Interpretați rezultatul de mai sus.

R. Output-ul expus anterior a rezultat în urma determinării valorilor proprii, 𝜆 corespunzătoare


matricii de covarianţă a datelor. Valorile proprii reprezintă cantitatea de informaţie extrasă de
fiecare componentă principală. Numărul componentelor principale extrase prin aplicarea funcției
princomp este egal cu numărul indicatorilor din setul de dat. La nivelul fiecărei componente sunt
calculate abaterea standard, valoarea proprie, procentul informațional reținut, precum și procentul
cumulat al informației. Spre exemplu, procentul informațional reținut de prima componentă
principală este de 36.86% din informația totală. Cea de-a două componentă principală reține
30.46% din totalul informației, în timp ce a treia componentă principală sintetizează 14.39% din
informația totală. Primele trei componente principale rețin 81.72% din informația totală.

3. Utilizați funcția prcomp pentru date standardizate și apoi funcția plot pentru a genera următorul
output:

4. Pe baza rezultatelor de la pct. 2 și 3 de mai sus, aplicați criteriile cunoscute pentru a identifica
numărul de componente principale reținute în analiză.

* Care sunt criteriile de alegere a numărului de componente principale?

R. Alegerea numărului potrivit de componente principale se bazează pe trei criterii, și anume:


 Criteriul procentului de acoperire
 Criteriul lui Kaiser (punctul 2)
Analizând output-ul prezentat la punctul al doilea, remarcăm faptul că există trei valori
proprii calculate, mai mari decât unu (𝜆 3.31, 𝜆 2.7, 𝜆 1.29). Prin urmare,
conform criteriului lui Kaiser, ar trebui să alegem trei componente principale.
 Criteriul pantei (punctul 3)
Acest criteriu se referă la efectuarea unei tăieturi în grafic după o paralelă cu axa Oy astfel
încât la dreapta tăieturii să rămână o porțiune de grafic cu panta apropiată de 0. Pentru a
respecta condiția anterior enunțată, pe graficul prezentat la punctul al treilea, tăietura ar
trebui realizată între componentele 4 și 5. Așadar, conform criteriului pantei, 4 este
numărul componentelor principale ce ar trebui reținute în analiză.

5. Vectorii proprii ai matricei de covarianță

Forma generală a componentelor principale:


W1=0.160*RC+0.082*ROE+0.077*ROA-0.253*LC+0.467*GIG-0.229*A3-0.457*SP+0.455*AFT+0.460*SF
W2=0.484*RC+0.539*ROE+0.554*ROA+0.282*LC-0.122*GIG+0.235*A3+0.095*SP+0.083*AFT+0.053*SF
W3=0.198*RC+0.197*ROE+0.225*ROA-0.563*LC-0.079*GIG-0.595*A3+0.051*SP-0.308*AFT-0.311*SF

6. Extrageți (eigen) vectorii proprii și valorile proprii ale matricei de covarianță și comparați
output-ul cu rezultatele de mai sus.
R. Comparând outputul de mai jos cu rezultatele prezentate la punctul anterior, remarcăm faptul
că elementele vectorilor proprii coincid.
7. Scoruri principale (primele 10 observații):

*Cum au fost calculate scorurile principale?

R. Scorurile componentelor principale reprezintă coordonatele companiilor în noile axe. Scorurile


au fost determinate prin înlocuirea în fiecare dintre cele trei relații de mai sus a valorilor fiecărui
indicator asociat întreprinderilor din eșantion.

*Care sunt proprietățile componentelor principale?

R.
 Componentele principale reprezintă combinații liniare ale variabilelor originale.
 Componentele principale sunt ortogonale.
 Componentele principale conservă varianța totală (acestea preiau în totalitate variabilitatea
conţinută în variabilele originale).
8. Matricea de corelație între variabile originale și componente principale

                                   
*Care este interpretarea componentelor principale?
Prima componentă principală se corelează puternic cu indicatorii grad de îndatorare general
(GIG), SP (solvabilitate patrimonială), dar și cu variabilele AFT și SF. Putem interpreta această
componentă drept o componentă ce ne oferă informații cu privire la solvabilitatea întreprinderilor
din eșantion, a capacității acestora de a face față tuturor scadențelor, atât pe termen scurt, cât și pe
termen lung.
Cea de-a doua componentă se corelează puternic cu variabilele rentabilitate comercială,
rentabilitate financiară și rentabilitate economică. Vom interpreta această componentă drept
componenta rentabilității întreprinderilor.
Legături moderate semnalăm între cea de-a treia componentă și indicatorii lichiditate
curentă (-0.641) și indicatorul de activitate A3 (-0.677).

9. Cercul corelațiilor
10. Reprezentarea observațiilor în planul principal

*ggplot

*plot

 
11. Biplot

12. Extragerea componentelor principale folosind funcția PCA (pachetul FactoMineR)


*Calculați contribuția variabilei RC la construirea componentei W2.

Contribuția variabilei RC la construirea componentei W2 este de 23.4% (valoarea indicatorului ctr


corespunzătoare lui Dim.2)

ctr = RC.cos2 * 100 / (total cos2 pentru componenta respectivă)


ctr = (0.642 * 100 ) / (0.642+0.795+0.842+…+0.008)

13. Grafice – pachetul factoextra


Analiza factorială
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Asist. Drd. Denisa BĂLĂ
1. Coeficienți de corelație parțială
Metoda 1 Metoda 2 Metoda 3
eliminarea influenței formulă inversa matricii
variabilei z de corelație

Se observă că, indiferent de metoda folosită pentru calcul, coeficienții de corelație parțială sunt
egali.

2. Aplicație – Big Five

2.1. Prezentarea datelor

În figura de mai sus se observă descrierea indicatorilor din setul de date. Se observă pe coloana n
că valorile diferă de la o variabilă la alta, ceea ce înseamnă că există valori lipsă.
După eliminarea valorilor lipsă (cu funcția na.omit), se poate observa că au rămas acele observații
din setul de date pentru care sunt completate cu valori toate variabilele considerate. Astfel, sunt
2436 de observații în setul de date care va fi folosit în continuare.

2.2. Indicele KMO și testul Bartlett

* indicele KMO

Valoarea indicelui KMO este 0.84, ceea ce arată că există o bună factoriabilitate în setul de date.
Semnificația indicelui KMO: [0.90,1.00] - foarte bună factoriabilitate; [0.80, 0.9) - bună
factoriabilitate; [0.70 ,0.8) - medie; [0.60, 0.7) - mediocră; [0.50, 0.6) - slabă; [0.00, 0.5) - fără
factori comuni

* testul Bartlett

Ipotezele testului de sfericitate Bartlett:


H0: Nu există factori comuni;
H1: Există cel puțin un factor comun.
Rezultatele obținute mai sus indică respingerea ipotezei nule, și acceptarea ipotezei conform căreia
există cel puțin un factor comun.

* funcție din pachetul rela

Utilizând funcțiile disponibile din pachetul rela, se observă că valorile obținute sunt egale cu
rezultatele de mai sus.

2.3. Interpretarea rezultatelor


* rotate="none",fm="pa" * rotate="Varimax",fm="pa"

            
Figurile de mai sus prezintă rezultatele obținute prin metoda “principal axes - pa”, comparație între
opțiunile “rotate=none” și “rotate=varimax”. Se observă o îmbunătățire a soluției obținută prin
rotația axelor în ceea ce privește structura factorilor.
                   
În figurile de mai sus se observă cei 5 factori obținuți anterior.

       
În figurile de mai sus se observă indicele de complexitate, valorile pentru “loadings” pentru
fiecare variabilă, comunalitățile și unicitățile fiecărei variabile din model. De asemenea, este
prezentată și varianța explicată de factori, în figura din partea dreaptă.
* rotate="none",fm="ml" * rotate="Varimax",fm="ml"

                            
Figurile de mai sus prezintă rezultatele analizei factoriale utilizând metoda “maximum likelihood” ca metodă de
extragere a factorilor.

                       
  

 
Se observă că structura factorilor rămâne aceeași și prin a doua metodă utilizată.
Analiza corespondențelor
Prof. Dr. Stelian STANCU
Lect.dr. Cătălina ZAMFIR
Drd. Denisa BĂLĂ
Set de date: housetasks

1. Testul de independență 𝝌𝟐

*Cum au fost determinate valorile așteptate și valoarea pentru 𝜒 ?


Statistica chi pătrat reprezintă statistica pe baza căreia se testează semnificația asocierii dintre
categoriile reprezentate pe coloane și cele reprezentate pe linii.
Ipoteza nulă (H0): variabilele de pe rândurile și de pe coloanele tabelului de contingență sunt
independente.
Ipoteza alternativă (H1): Există asociere între variabilele de pe rândurile și de pe coloanele
tabelului de contingență
2. Interpretarea rezultatelor

Numărul de dimensiuni pastrate în analiză se va determina examinând outputul funcției CA. În


cazul de față, analiza cuprinde trei dimensiuni. O altă metodă de alegere a dimensiunilor se bazează
pe graficul screeplot, în care dimensiunile sunt ordonate descrescător în funcție de cantitatea de
inerție explicată.
***Output-ul anterior expune coordonatele varibilelor de pe coloane, asociate fiecărei
dimensiuni. Totodată, evidențiază contribuția variabilelor exprimate pe coloane la
formarea celor trei dimensiuni.
*** Contribuția coloanelor la formarea primelor două dimensiuni: Cea mai mare contribuție
o deține activitățile întreprinse de soț, de soție, precum și cele întreprinse împreună.
*** O contribuție semnificativă la formarea celei de-a treia dimensiuni corespunde
activităților realizate alternativ de către cei doi soți.

***Output-ul anterior expune coordonatele varibilelor exprimate pe linii, asociate fiecărei


dimensiuni.
***De asemenea, observăm contribuția acestor variabile la formarea celor trei dimensiuni.
Reparațiile, spălătoria și pregătirea felului principal de mâncare contribuie majoritar la formarea
primei dimensiui. Realizarea pregătirilor de sărbători contribuie în proporție de 42.45% la
formarea celei de-a doua dimensiuni.
*** La formarea primelor două dimensiuni contribuie majoritar activitățile de reparații, pregătirile
de sărbători, spălătoria, pregătirea felului principal și șofatul.
***O reprezentare grafică standard în analiza corespondențelor se poate realiza prin intermediul
unui biplot simetric în care atât variabilele exprimate pe rânduri (punctele albastre) cât și
variabilele exprimate pe coloane (triunghiurile roșii) sunt prezentate în același spațiu folosind
coordonatele principale. Remarcăm că soția este în principiu responsabilă de pregătirea mesei
(asociere cu variabilele Breakfast & Dinner), în timp ce soțul se ocupă de activități precum șofatul
și reparațiile (asociere cu variabilele Driving & Repairs). Împreună, soții sunt responsabili de
activități precum gestionarea finanțelor și asigurărilor, dar și de pregătirile specifice sărbătorilor.
*** Intrepretarea figurii de mai sus se realizează și în funcție de unghiul format de 2 săgeți: dacă
este ascuțit, atunci este o asociere puternică între categoria de pe linie și cea de pe coloană. De
exemplu, se poate spune că există asociere între Repairs și Husband, Holidays și Jointly, Laundry
și Wife.
Analiza cluster
Prof. Dr. Stelian STANCU  
Lect.dr. Cătălina ZAMFIR  
Drd. Denisa BĂLĂ
Set de date: date_firme.txt

1. Evaluarea distanțelor între forme

* matricea distanțelor

*cum a fost calculată distanța euclidiană dintre primele 2 obiecte?

R. Cu ajutorul formulei pentru distanța euclidiană:


𝑅𝐶1 𝑅𝐶2 𝑅𝑂𝐸1 𝑅𝑂𝐸2 𝑅𝑂𝐴1 𝑅𝑂𝐴2 𝐿𝐶1 𝐿𝐶2 𝐺𝐼𝐺1 𝐺𝐼𝐺2 ⋯ 𝑆𝐹1 𝑆𝐹2
1 – indicele companiei AGQR
2 – indicele companiei ACBU
*Reprezentarea grafică a distanțelor dintre entități, distanțe ce pot fi interpretate pe baza intensității
culorilor.

2. Metode ierarhice

2.1. Metoda Ward

* etapele clusterizării
*dendrograma
*alegerea numărului de clase

 
Graficul Elbow
*Numărul optim de clustere sugerat de aplicarea metodei grafice de mai sus este egal cu 4.
*Funcția NbClust se bazează pe 30 de indici pentru determinarea numărului optim de clustere și propune
utilizatorului cea mai bună schemă de clusterizare. Conform output-ului anterior, numărul optim de clustere
în situația de față este egal cu 4. Același număr a fost sugerat și de metoda grafică.

*Acuratețea soluției de clusterizare poate fi apreciată prin prisma graficului siluetei medii. În
cazul de față, silueta medie globală atinge o valoare de 0.37. Se observă, de asemenea,
apartenența obiectelor (întreprinderilor) la cele 4 clustere. 8 întreprinderi au fost repartizate în
primul cluster, 19 în cel de-al doilea cluster, 3 în cel de-al treilea cluster și patru în ultimul cluster.
*centroizii claselor

*Gruparea celor 34 de întreprinderi în cele patru clustere. Majoritatea entităților se regăsesc în


cel de-al doilea cluster (19 întreprinderi), în timp ce doar 3 obiecte formează cel de-al treilea
cluster.

2.2. Alte metode de clusterizare ierarhică

2.2.1. Metoda agregării simple

*Distanța dintre două clustere este reprezentată de distanța minimă dintre obiectele celor două
clustere.
2.2.2. Metoda agregării complete
*Distanța dintre două clustere este distanța maximă dintre membrii celor două clustere. Clusterele
rezultate tind să fie mai compacte.

2.2.3. Metoda agregării medii


*Acestă metodă de clusterizare consideră că distanța dintre două clustere este reprezentată de
media tuturor distanțelor dintre membrii celor două clustere.
2.2.4. Metoda centroidului
*Acestă metodă de clusterizare consideră că distanța dintre două clustere este reprezentată de
distanța dintre centroizii acestora.
Algoritmul K-means. Compararea soluțiilor de clusterizare

1. Soluția obținută

*În figura de mai sus este reprezentată soluția de clusterizare a algortimului k-means, pentru un
număr prestabilit de 4 clustere. Sunt evidențiate mediile fiecărui indicator la nivelul fiecărei clase
în parte. Companiile situate în primul cluster sunt caracterizate de cele mai însemnate valori ale
indicatorilor de rentabilitate (RC=0.91, ROE=0.66, ROA=0.90). Valorile medii ale indicatorilor
LC și SP sunt, de asemenea, cele mai ridicate.
Totodată, se observă repartizarea întreprinderilor în cele patru clase. De exemplu, companii
precum AGQR, ACBU ISCO sau HEPI se regăsesc în cel de-al patrulea cluster. Companiile
GALV, BUCU și DONO s-au grupat în primul cluster. Primul cluster este format din 3 obiecte,
cel de-al doilea cluster este alcătuit din 4 obiecte, în timp ce al treilea cluster cuprinde 5 obiecte.
Cele mai multe întreprinderi, în număr de 22, se regăsesc în cel de-al patrulea cluster.
Reprezentarea celor patru clase în funcție
de indicatorii ROE și GIG
Reprezentarea grafică a
soluției cluster furnizată de algoritmul k-means

2. Evaluarea variabilității intraclasă și interclase

*Ce reprezintă și cum au fost calculate valorile de mai sus?


R: Variabilitatea totală, variabilitatea totală intra-clasă, variabilitatea inter-clasă și raportul
variabilitate intra-clasă și total variabilitate inter-clasă

3. Evaluarea puterii de discriminare a variabilelor

Variabilele cu puterea de discriminare cea mai mare sunt acelea care au centroizii cat mai diferiti
de la o clasa la alta. Centroizii sunt evidențiați în figura precedentă.
*Constatăm că toate cele nouă variabile au capacitatea de a contribui la diferențierea obiectelor
pe clase, deoarece au o probabilitate asociată testului F mai mică decât 0.05.

4. Compararea soluțiilor de clusterizare


*Comparați rezultatele obținute mai sus.
Recunoașterea supervizată a formelor

Set de date: date_firme.txt

Variabilele standardizate
Soluția algoritmului k-means

Set de antrenare
Set de testare

*naiveBayes

Probabilități condiționate
*Cum se determină probabilitățile apriorice?

Probabilități aposteriorice Set de antrenare

Rezultate pentru setul de testare

*Care este gradul de clasificare corectă?


*K-NN

Seturile de antrenare și de testare

Rezultatele metodei K-NN (cu K=4 și K=5)

Gradul de clasificare corectă

S-ar putea să vă placă și