Documente Academic
Documente Profesional
Documente Cultură
DE
DATE
PENTRU
AFACERI
Exemple:
– Dacă p = 0,6 atunci 1 – p = 0,4 și odds = 0,6/0,4 = 1,5. Probabilitatea de succes
(p) este de 1,5 ori mai mare decât probabilitatea de eșec (1 – p).
– Dacă p = 0,99, atunci 1 – p = 0,01 iar odds = 0,99/0,01 = 99. Probabilitatea de
succes este de 99 de ori mai mare decât probabilitatea de eșec.
Regresia logistică
𝑝
– Dacă logaritmăm obținem: 𝛽 +𝛽 1 ∗𝑥 sau 𝑜𝑑𝑑 = 𝑒 𝛽 0 +𝛽 1 ∗𝑥
1−𝑝 = 𝑒 0
Variabila dependentă (y) arată decizia băncii și este modelată printr-o variabilă de
tip dummy astfel: 0 = dosarul a fost respins; 1 = dosarul a fost acceptat.
0 1
688 312
Concluzie:
– Am determinat așadar probabilitatea ca un dosar să fie acceptat.
– Dând valori scorului putem stabili pentru fiecare scor în parte dacă este mai
probabil ca dosarul să fie acceptat sau să fie respins.
– Se poate observa o îmbunătățire semnificativă a acestui rezultat față de cel din
modelul de decizie precedent.
– Spre deosebire de acel model, în acest caz știm dacă dosarul este acceptat sau
nu în funcție de scorul acestuia pe când în modelul precedent spuneam că este
mai probabil ca dosarul să fie respins decât acceptat.
Ce îmbunătățire a șanselor aduce o creștere cu 1
punct a scorului?
– Modelul de bază:
0 1
0.63925 0.36075
– Din acest model determinăm că evenimentul cu cea mai mare probabilitate este
cel de a accepta suma pe loc. Totuși, acest model greșește în aproape 36% din
cazuri, atunci când oamenii au preferat să amâne recompensa. Așadar
acuratețea modelului este de numai 64%.
– Modelul de bază pune în evidență doar rezultatul sau ceea ce observăm ca și
comportament final dar nu ne ajută să înțelegem care sunt factorii care
influențează o decizie sau alta.
Aplicatie
Deviance Residuals:
Min 1Q Median 3Q Max
-2.3930 -0.7040 -0.3194 0.6712 2.8014
Aplicatie
0 1
–Acuratețea modelului
0.77375
False Positive Rate: când observăm că acceptă suma pe loc, cât de des estimăm că amână
FP/actual no = 88/511 = 0.172211
True Negative Rate: când observăm că acceptă suma pe loc, în câte cazuri estimăm că așa este
TN/actual no = 423/511 = 0.8278
Echivalent = 1 – False Positive Rate
Cunoscută ca "Specificitate"
Precizia: Când estimăm că amână, în câte cazuri este și corect?
TP/”amână”, valori estimate = 196/284 = 0.69014
Relevanța: Cât de des apare în eșantion răspunsul că amână recompensa?
”amână”, valori observate/total = 289/800 = 0.36125
Aplicatie
– Ca un ultim pas al analizei, vom construi curba ROC și vom calcula AUC (area
under the curve) elemente ce reprezintă măsuri ale performanței modelului
binomial.
– Curba ROC va fi obținută prin reprezentarea ”true positive rate” în funcție de
”false positive rate” iar AUC reprezintă aria de sub curba ROC.
– Ca o regulă general, modelul cu o predictibilitate bună ar trebui să aibă AUC
mai
apropiat de 1 decât de 0,5.
Aplicatie