Sunteți pe pagina 1din 1

Aplicații finale

(Analiza discriminant și Analiza cluster în R)

1. Pentru un eșantion de persoane, se înregistrează venitul și următoarele categorii de


cheltuieli realizate într-un an: cheltuieli alimentare (X1, sute euro), cheltuieli pentru servicii
(X2, sute euro), venitul (X3, mii euro) și nivelul economiilor (X4, sute euro). În funcție de
aceste caracteristici, se cunoaște gradul de îndatorare al acestora (1 – grad redus; 2 - grad
mediu; 3 - grad ridicat). Tabelul de date este prezentat în fișierul ex_final_AD.csv.

După aplicarea analizei discriminant în R, se cere să se răspundă la următoarele cerințe:


a) să se testeze ipoteza de egalitate a mediilor pe cele trei grupe de îndatorare, considerând un
risc de 5%.
b) să se precizeze numărul maxim de funcții discriminant. Explicați.
c) să se testeze semnificația funcțiilor discriminant, considerând un risc de 5%.
d) să se precizeze care sunt cei mai importanți factori de influență asupra gradului de
îndatorare al persoanelor.
e) să se evalueze caracterul predictiv al funcției discriminant.
f) să se scrie ecuațiile de clasificare a unor noi indivizi într-una dintre cele trei grupe. Să se
precizeze care este algoritmul de clasificare a unui nou individ într-una dintre grupe.
g) să se estimeze gradul de îndatorare al unei persoane care cheltuie într-un an cu alimentele
25 sute euro și pentru servicii 19 sute euro, are un venit de 35 mii euro și economisește 11
sute euro.

2. Pentru datele din fișierul ex_final_AD.csv., se cere :


a) să se calculeze distanțele euclidiene dintre unitățile statistice.
b) să se aplice clasificarea ierarhică, folosind criteriul Complete Linkage. Să se precizeze în ce
constă acest criteriu.
c) să se reprezinte dendograma și să se aleagă numărul de clustere în care se grupează
unitățile statistice.
d) să se precizeze numărul de clustere în care se pot grupa datele, folosind media
coeficienților Silhouette.
e) să se precizeze componența clusterelor alese.
f) să se caracterizeze clusterele formate, precizând care sunt variabilele cantitative și
calitative care au cea mai mare influență asupra grupării.

3. Pentru datele din fișierul ex_final_AD.csv., să se aplice analiza K-Means cluster, iar pentru
rezultatele obținute se cere:
a) să se compare valoarea mediilor pe clustere.
b) să se caracterizeze clusterele, introducând și variabila calitativă “Gradul de îndatorare”.

4. Pentru datele din fișierul ex_final_AD.csv., să se aplice analiza Two-Step Cluster, iar pentru
rezultatele obținute se cere:
a) să se precizeze numărul de clustere formate și să se precizeze dacă soluția de clasificare
obținută este acceptabilă din punct de vedere statistic (folosind coeficientul Silhouette).
Explicați.
b) să se precizeze ierarhia importanței variabilelor asupra clasificării.
c) să se caracterizeze clusterele formate.