Sunteți pe pagina 1din 2

Clasificare in persoane cu probleme de inapoiere imprumut la banca

fisier: bankloan.csv

- 150 clienti fara probleme

Pas2: Replicare rezultate


Transform - Randon number generater
- Compute variable : 2*rv.bernoulli(0.7)-1 => 2 variabile (doar
training si holdout)
Output:
Case P Summary - nr unitati folosite pentru testare si pentru holdout +
valori excluse (150 care nu au luat inca credit)

Network Info - nr straturi: intrare (factori, covariate, 12 nr de neuroni


(7 + 5 categorii din Level of education)),
ascuns(1 strat ascuns cu 6 neuroni),
iesire (o variabila dependenta Previously
defaulted - cu 2 categorii)

Diagrama retelei neurale (neuroni de intrare pe fiecare categorie -


dreptunghi albastru drept)

Model summary - informatii despre subsetul de antrenare si holdout


- indicator de eroare (cross entropy error) - numar care
poate fi comparat cu alta retea neurala
- nr predictii incorecte 11,7% - destul de mic (mai mic decat
in subsetul de invatare) => generalizare duce la inrautarire (24,6 > 11,7)
- reteaua s-a oprit din antrenare dupa 0,35 de secunde in 100
de epoci (poate fi crescut nr de epoci ca sa antreneze mai mult;
!! regula de oprire nu ar trebui sa fie numarul
maxim de epoci, ci nereusirea micsorarii erorii 146.257 dupa o etapa de antrenare)

Parameter Estimater - ponderile neuronilor


- neuronul ed=1(/2/3../12) transmite 6 semnale
catre fiecare neuron de pe stratul ascuns de neuroni (Input layer -> Hidden layer)
- neuronul H(1:1(/1:2/...)) transmite 2 semnale pe
Output layer

Classification - diag training si holdout -> valori clasif corect (344 si


88)
- se compara 88.3 cu 75.4
- regula de oprire nu a fost cea mai potrivita => corectii:

Arhitectura custom,

tipul de training (mini-batch),

options: marim nr de epoci si micsoram eroare de antrenare


+
adaugare set de testare => schimbare partitions (partition-rv.bernoulli(0.2) + if
condition: partition >0) => 20% din valori vor fi 0 din setul de antrenare
=>
Model summary: s-a schimbat stopping rule (diferente mai mici intre procente =>
putere de generalizare mai mare)
=>
Classification: 82.4 > 75.4 - s-a imbunatatit =>

- procentele predictiilor corecte in cele 3 seturi de date (training, testing,


holdout) se situeaza in jurul valorii de 80% > 75.8% (holdout)

- pragul de clasificare este de 0.5% pt variabila pseudo-probability (>0.5 =>


yes(default); <0.5 => no)

Predicted pseudo-probability (chart) - cu prag de clasif 0.5


- primul boxplot(albastru): cazurile din categoria 'No' (observate) pt
care s-au calculat pseudo-prob categ 'No' (SPPS a clasificat-o ca fiind 'No') =>
se obs ca sub 0.5 se afla o mica parte din cazuri
- al doilea boxplot(verde): cazurile din categoria 'No' (observate) pt
care s-au calculat pseudo-prob categ 'Yes' (SPPS a clasificat-o ca fiind 'Yes') =>
se obs ca sub 0.5 sunt multe valori (primul si al doilea =>
simetrie)
- al treilea boxplot(albastru): cazurile din categoria 'Yes'
(observate) pt care s-au calculat pseudo-prob categ 'No' (SPPS a clasificat-o ca
fiind 'No') =>4
jumatate clasificate corect si jumatate incorect
- al patrulea boxplot(verde): cazurile din categoria 'Yes' (observate)
pt care s-au calculat pseudo-prob categ 'Yes' (SPPS a clasificat-o ca fiind 'Yes')
=>
jumatate clasificate corect si jumatate incorect

- la 'No' reteaua clasifica mai bine (prob > 0.5 clasificate corect)
decat la 'Yes' (jumatate clasificate corect si jumatate incorect)

ROC Curve
- la categ 'No': pentru un client bun platnic(no) exista o prob de
0.862 (0.907 in exemplul meu) sa fie clasificat corect
- la categ 'Yes': pentru un client rau platnic(yes) exista o prob de
0.862 (0.907 in exemplul meu) sa fie clasificat corect

Gain (chart)
-curba verde: primul punct((10, 30) - coordonate aprox) de pe curba
'yes': primele 10% din cazurile ordonate dupa pseudo-prob 'yes' vor contine in
medie 30% din cazurile observate cu 'yes' => ne ajuta pentru determinarea pragului
de clasif

Lift (chart)
- derivat din Gain
- (pt exemplul de mai sus cu pct de coordonate (10, 30)) => aprox 3
- punct de inflexiune aprox la 30% => un prag de pseudo-prob ce 0.3 ar
putea sa ne dea o clasificare mai buna a rezultatelor (refacere variabila: >0.3 =>
yes)

Independent Variable Importance (importanta normalizata)


- var cu importanta cea mai mare este Credit card (0.168 normalizata la
100%)

S-ar putea să vă placă și