Sunteți pe pagina 1din 5

Graficul Silhouette se realizeaza ulterior dendogramei pentru a decide mai clar asupra numarului de clustere pastrate in

analiza.

Din graficul din stanga putem trage urmatoarele concluzi:

• Daca obiectele analizate se impart in doua 3 clase, repartizarea pe primele doua clase este una corecta, neexistand
coeficienti silhouette negative. Totusi, daca vorbim despre a treia clasa, se observa ca exista valori negative, cee
ace evidentiaza o repartitie eronata a obiectelor in respective clasa.
• Media coeficientilor Silhouette este 0.51, cee ace sugereaza cautarea unei solutii alternative mai potrivite.

Din graficul din partea dreapta se pot trage urmatoarele concluzii:

• Nu exista coeficienti silhouette negative, cee ace semnifica faptul ca toate obiectele supuse clasificarii au fost
repartizare correct in cele doua clase.
• Dupa cum se poate observa, de asemenea, nu exista coeficienti silhouette cu valori mici, cee ace inseamna ca cele
doua clase sunt bine delimitate, niciun obiect neaflandu-se la granita.
• Media coef. Silhouette este 0.68, cee ace sugereaza ca solutia pare a fi cea potrivita.

Dintre cele doua variante, a doua ii este superioara primeia. Vom allege repartizarea in doua clustere.

Analiza corespondentelor reprezinta o tehnica/metoda de reducere a dimensionalitatii in seturile de variabile categoriale,


fiind considerate echivalentul analizei componentelor principale pentru varianbile categoriale. Daca in situatia ACP analiza se
bazeaza pe matricea de corelatie, in cazul analizei corespondentelor se pleaca de la tabelul de contingenta. Un exemplu
concret in acest sens este reprezentat de analiza raspunsurilor indivizilor din 5 tari (A;B;C;D;E) cu privier la succesul tinerilor
din tarile respective la concursuri internationale. Practic, se va analiza pozitia respondentilor fata de afirmatia „Cand citesc
sau aud ca un copil de nationalitatea mea a castigat o olimpiada internationala, sunt mandru sa fiu...(nationalitatea).” Fiecare
respondent poate alege un indicativ de la 1 la 5 (1 = acord total, 5 – dezcord total) in functie de cat de mult se identifica cu
acea afirmatie. Datele se centreaza si normalizeaza, inregistrandu-se intr-o matrice. Solutia se construieste prin
descompunerea acestei matrici cu ajutorul vectorilor si valorilor proprii sau cu ajutorul tehnicii SVD. Intertia explicata
reprezinta corespondentul in AC a valorilor proprii din ACP. Datele se inregistreaza, astfel in tabelul de contingenta de unde
putem calcula frecventele relative. In functie de valoarea lui chi-patrat, de valoarea inertiei totale si de cat preiau primele
doua dimensiuni, decidem sa evidentiem rezultatul prin prisma celor doua dimensiuni (Dim1, Dim2) => Harta simetrica.
RES este o variabila care indica daca respondentul a ales profilul prezentat pe linia respective. Vriabila STR este o combinatie
intre codul de identificare al respondentului si numarul intrebarii plasate pe linia respective. Analiza la baza careia sta modelul
de mai sus are ca scop identidicarea acelor atribute importante pentru masurarea preferintelor consumatorilor. Daca plecam
de la premisa faptului ca acei coeficienti estimate ar fi semnificativi statistic (p-value < 0.05), o astfel de analiza ar conduce la
observarea modului in care o anumita caracteristica/atribut influenteaza intr-un sens sau altul variabila dependenta.

Aceasta este rezultatul validarii incrucisate, o etapa imediat ulterioara construirii arborelui, ce are ca scop deciderea asupra
dimensiunii potrivite a arbirelui. La baza acestei etape este o tehnica de validare utilizata pentru evaluarea performantelor
modelelor estimate, denumita validare incrucisata.

Principiul este urmatorul: unitatile disponibile in esantionul pe care se efectueaza analiza sunt impartite in doua
subesantioane. Primul subesantion este utilizat pentru estimarea modelului, iar al doilea pentru testarea acestuia. In
contextual arborelui de clasificare, tehnica validarii inrucisate faciliteaza determinarea valorii optime a parametrului de
complexitate. Linia incrucisata care ilustreaza rezultatul validarii incrucisate reprezinta valoarea care indica punctul de minim
al curbei, plus o abatere standard. In acest caz, arborele initial este format din 9 noduri. Dupa utilizarea tehnicii de validare
incrucisata, se vor mentine in analiza tot 8 noduri, deci dimensiunea arborelui in acest caz nu s-a redus.
Figura de mai sus prerezinta un arbore de clasificare. Pentru cazul prezentat, pe ramura in care prima variabila categoriala,
respective A14, ia valoarea NU

Scopul metodelor contrafactuale este acela de a estima efectul net pe care un anumit ”tratament” îl are în medie asupra unor
caracteristici ale entităţilor analizate. Pentru a valida rezultatele prezentate de aplicarea metodelor contrafactuale, trebuie
să demonstrăm că pentru toate variabilele utilizate în procesul de asociere, diferenţele dintre distribuţiile acestora observate
pentru setul de control și respectiv cel de tratament înainte de matching s-au redus semnificativ după matching. Funcția
MatchBalance() din pachetul Matching ne oferă statisticile necesare testării semnificației diferențelor dintre cele două
distribuții.Aceste informații sunt grupate în 4 secțiuni diferite: diferențele mediilor între cele două grupuri, statistici care
sintetizează diferențele observate prin intermediul graficelor de tip QQ (cuantilele unei distributii versus cuantilele celeilalte
distribuții), statistici care cuantifică diferențele dintre funcțiile de repartiție, teste statistice precum testul t şi testul
Kolmogorov Smirnov (KS). Probabilitatea p-value asociată acestui test se obține prin reeșantionare bootstrap. Raportul
varianțelor celor două grupuri este o altă statistică prezentată în a patra secțiune și ar trebui comparat cu valoarea 1, valoare
caracteristică unui echilibru perfect între cele două distribuții.

eCDF diff = statistici care cuantifică diferențele dintre funcțiile de repartiție => Se observa ca dupa matrching diferentele intre
functiile de repartitie au scazut semnificativ.

In baza valorii testului t putem spune ca diferențele dintre distribuția variabilei V1 observată pentru setul de control nu diferă
semnificativ de cea observată pentru grupul de tratament => OK!

Outputl de mai sus este generat de utilizare random forest pentru a construe un clasificator. Cei de sus conteaza cel mai mult.

S-ar putea să vă placă și