Documente Academic
Documente Profesional
Documente Cultură
analiza.
• Daca obiectele analizate se impart in doua 3 clase, repartizarea pe primele doua clase este una corecta, neexistand
coeficienti silhouette negative. Totusi, daca vorbim despre a treia clasa, se observa ca exista valori negative, cee
ace evidentiaza o repartitie eronata a obiectelor in respective clasa.
• Media coeficientilor Silhouette este 0.51, cee ace sugereaza cautarea unei solutii alternative mai potrivite.
• Nu exista coeficienti silhouette negative, cee ace semnifica faptul ca toate obiectele supuse clasificarii au fost
repartizare correct in cele doua clase.
• Dupa cum se poate observa, de asemenea, nu exista coeficienti silhouette cu valori mici, cee ace inseamna ca cele
doua clase sunt bine delimitate, niciun obiect neaflandu-se la granita.
• Media coef. Silhouette este 0.68, cee ace sugereaza ca solutia pare a fi cea potrivita.
Dintre cele doua variante, a doua ii este superioara primeia. Vom allege repartizarea in doua clustere.
Aceasta este rezultatul validarii incrucisate, o etapa imediat ulterioara construirii arborelui, ce are ca scop deciderea asupra
dimensiunii potrivite a arbirelui. La baza acestei etape este o tehnica de validare utilizata pentru evaluarea performantelor
modelelor estimate, denumita validare incrucisata.
Principiul este urmatorul: unitatile disponibile in esantionul pe care se efectueaza analiza sunt impartite in doua
subesantioane. Primul subesantion este utilizat pentru estimarea modelului, iar al doilea pentru testarea acestuia. In
contextual arborelui de clasificare, tehnica validarii inrucisate faciliteaza determinarea valorii optime a parametrului de
complexitate. Linia incrucisata care ilustreaza rezultatul validarii incrucisate reprezinta valoarea care indica punctul de minim
al curbei, plus o abatere standard. In acest caz, arborele initial este format din 9 noduri. Dupa utilizarea tehnicii de validare
incrucisata, se vor mentine in analiza tot 8 noduri, deci dimensiunea arborelui in acest caz nu s-a redus.
Figura de mai sus prerezinta un arbore de clasificare. Pentru cazul prezentat, pe ramura in care prima variabila categoriala,
respective A14, ia valoarea NU
Scopul metodelor contrafactuale este acela de a estima efectul net pe care un anumit ”tratament” îl are în medie asupra unor
caracteristici ale entităţilor analizate. Pentru a valida rezultatele prezentate de aplicarea metodelor contrafactuale, trebuie
să demonstrăm că pentru toate variabilele utilizate în procesul de asociere, diferenţele dintre distribuţiile acestora observate
pentru setul de control și respectiv cel de tratament înainte de matching s-au redus semnificativ după matching. Funcția
MatchBalance() din pachetul Matching ne oferă statisticile necesare testării semnificației diferențelor dintre cele două
distribuții.Aceste informații sunt grupate în 4 secțiuni diferite: diferențele mediilor între cele două grupuri, statistici care
sintetizează diferențele observate prin intermediul graficelor de tip QQ (cuantilele unei distributii versus cuantilele celeilalte
distribuții), statistici care cuantifică diferențele dintre funcțiile de repartiție, teste statistice precum testul t şi testul
Kolmogorov Smirnov (KS). Probabilitatea p-value asociată acestui test se obține prin reeșantionare bootstrap. Raportul
varianțelor celor două grupuri este o altă statistică prezentată în a patra secțiune și ar trebui comparat cu valoarea 1, valoare
caracteristică unui echilibru perfect între cele două distribuții.
eCDF diff = statistici care cuantifică diferențele dintre funcțiile de repartiție => Se observa ca dupa matrching diferentele intre
functiile de repartitie au scazut semnificativ.
In baza valorii testului t putem spune ca diferențele dintre distribuția variabilei V1 observată pentru setul de control nu diferă
semnificativ de cea observată pentru grupul de tratament => OK!
Outputl de mai sus este generat de utilizare random forest pentru a construe un clasificator. Cei de sus conteaza cel mai mult.