Lab 5

Clasificare in persoane cu probleme de inapoiere imprumut la banca
fisier: bankloan.csv
- 150 clienti fara probleme
Pas2: Replicare rezultate

Transform - Randon number generater
- Compute variable : 2*rv.bernoulli(0.7)-1 => 2 variabile (doar
training si holdout)
Output:
Case P Summary - nr unitati folosite pentru testare si pentru holdout +
valori excluse (150 care nu au luat inca credit)
Network Info - nr straturi: intrare (factori, covariate, 12 nr de neuroni

(7 + 5 categorii din Level of education)),
ascuns(1 strat ascuns cu 6 neuroni),
iesire (o variabila dependenta Previously
defaulted - cu 2 categorii)
Diagrama retelei neurale (neuroni de intrare pe fiecare categorie -

dreptunghi albastru drept)
Model summary - informatii despre subsetul de antrenare si holdout

- indicator de eroare (cross entropy error) - numar care
poate fi comparat cu alta retea neurala
- nr predictii incorecte 11,7% - destul de mic (mai mic decat
in subsetul de invatare) => generalizare duce la inrautarire (24,6 > 11,7)
- reteaua s-a oprit din antrenare dupa 0,35 de secunde in 100
de epoci (poate fi crescut nr de epoci ca sa antreneze mai mult;
!! regula de oprire nu ar trebui sa fie numarul
maxim de epoci, ci nereusirea micsorarii erorii 146.257 dupa o etapa de antrenare)
Parameter Estimater - ponderile neuronilor

- neuronul ed=1(/2/3../12) transmite 6 semnale
catre fiecare neuron de pe stratul ascuns de neuroni (Input layer -> Hidden layer)
- neuronul H(1:1(/1:2/...)) transmite 2 semnale pe
Output layer
Classification - diag training si holdout -> valori clasif corect (344 si

88)
- se compara 88.3 cu 75.4
- regula de oprire nu a fost cea mai potrivita => corectii:
Arhitectura custom,
tipul de training (mini-batch),
options: marim nr de epoci si micsoram eroare de antrenare

+
adaugare set de testare => schimbare partitions (partition-rv.bernoulli(0.2) + if
condition: partition >0) => 20% din valori vor fi 0 din setul de antrenare
=>
Model summary: s-a schimbat stopping rule (diferente mai mici intre procente =>
putere de generalizare mai mare)
=>
Classification: 82.4 > 75.4 - s-a imbunatatit =>
- procentele predictiilor corecte in cele 3 seturi de date (training, testing,

holdout) se situeaza in jurul valorii de 80% > 75.8% (holdout)
- pragul de clasificare este de 0.5% pt variabila pseudo-probability (>0.5 =>

yes(default); <0.5 => no)
Predicted pseudo-probability (chart) - cu prag de clasif 0.5

- primul boxplot(albastru): cazurile din categoria 'No' (observate) pt
care s-au calculat pseudo-prob categ 'No' (SPPS a clasificat-o ca fiind 'No') =>
se obs ca sub 0.5 se afla o mica parte din cazuri
- al doilea boxplot(verde): cazurile din categoria 'No' (observate) pt
care s-au calculat pseudo-prob categ 'Yes' (SPPS a clasificat-o ca fiind 'Yes') =>
se obs ca sub 0.5 sunt multe valori (primul si al doilea =>
simetrie)
- al treilea boxplot(albastru): cazurile din categoria 'Yes'
(observate) pt care s-au calculat pseudo-prob categ 'No' (SPPS a clasificat-o ca
fiind 'No') =>4
jumatate clasificate corect si jumatate incorect
- al patrulea boxplot(verde): cazurile din categoria 'Yes' (observate)
pt care s-au calculat pseudo-prob categ 'Yes' (SPPS a clasificat-o ca fiind 'Yes')
=>
jumatate clasificate corect si jumatate incorect
- la 'No' reteaua clasifica mai bine (prob > 0.5 clasificate corect)
decat la 'Yes' (jumatate clasificate corect si jumatate incorect)
ROC Curve
- la categ 'No': pentru un client bun platnic(no) exista o prob de
0.862 (0.907 in exemplul meu) sa fie clasificat corect
- la categ 'Yes': pentru un client rau platnic(yes) exista o prob de
0.862 (0.907 in exemplul meu) sa fie clasificat corect
Gain (chart)
-curba verde: primul punct((10, 30) - coordonate aprox) de pe curba
'yes': primele 10% din cazurile ordonate dupa pseudo-prob 'yes' vor contine in
medie 30% din cazurile observate cu 'yes' => ne ajuta pentru determinarea pragului
de clasif
Lift (chart)
- derivat din Gain
- (pt exemplul de mai sus cu pct de coordonate (10, 30)) => aprox 3
- punct de inflexiune aprox la 30% => un prag de pseudo-prob ce 0.3 ar
putea sa ne dea o clasificare mai buna a rezultatelor (refacere variabila: >0.3 =>
yes)
Independent Variable Importance (importanta normalizata)

- var cu importanta cea mai mare este Credit card (0.168 normalizata la
100%)

Lab 5

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Lab 5

Încărcat de

Drepturi de autor:

Formate disponibile

Clasificare in persoane cu probleme de inapoiere imprumut la banca

- 150 clienti fara probleme

Pas2: Replicare rezultate

Network Info - nr straturi: intrare (factori, covariate, 12 nr de neuroni

Diagrama retelei neurale (neuroni de intrare pe fiecare categorie -

Model summary - informatii despre subsetul de antrenare si holdout

Parameter Estimater - ponderile neuronilor

Classification - diag training si holdout -> valori clasif corect (344 si

tipul de training (mini-batch),

options: marim nr de epoci si micsoram eroare de antrenare

- procentele predictiilor corecte in cele 3 seturi de date (training, testing,

- pragul de clasificare este de 0.5% pt variabila pseudo-probability (>0.5 =>

Predicted pseudo-probability (chart) - cu prag de clasif 0.5

Independent Variable Importance (importanta normalizata)

S-ar putea să vă placă și