R

Pasul 1.
Introduceti urmatorul cod in Rstudio (aveti grija ca datele să fie citite iar librăriile instalate sa fie bifate):
#Suma_datorata:
Suma_datorata20p=quantile(data$Suma_datorata, probs=seq(0,1,0.20), na.rm=TRUE)
Suma_datorata20p.Breaks=as.vector(Suma_datorata20p)
Cuts.Suma_datorata20p=Suma_datorata20p.Breaks[2:(length(Suma_datorata20p.Breaks)-1)]
result_Suma_datorata=smbinning.custom(df=data,y="Status_Bun",x="Suma_datorata",cuts=Cuts.Suma_datorata20p)
View(result_Suma_datorata$ivtable)
#Se va obtine urmatorul output:
#Atunci cand ordonăm suma datorată crescător si o împărțim pe cinci cuantile aproximativ egale (a se vedea numarul de observatii de pe
#coloana 2) obtinem o valoare informațională egală cu 0.0934.
Pasul 2. Introduceti urmatorul cod in Rstudio:
Suma_datorata5p=quantile(data$Suma_datorata, probs=seq(0,1,0.05), na.rm=TRUE)
Suma_datorata5p.Breaks=as.vector(Suma_datorata5p)
Cuts.Suma_datorata5p=Suma_datorata5p.Breaks[2:(length(Suma_datorata5p.Breaks)-1)]
result1_Suma_datorata=smbinning.custom(df=data,y="Status_Bun",x="Suma_datorata",cuts=Cuts.Suma_datorata5p)
View(result1_Suma_datorata$ivtable)
#Atunci cand ordonăm suma datorată crescător si o împărțim pe douăzeci de cuantile aproximativ egale (a se vedea numarul de
#observatii de pe #coloana 2) obtinem o valoare informațională egală cu 0.2002 care este aproape dublă față de prima situație. Deci
#puterea de discriminare a acestei variabile crește pe măsură ce gradul de segmentare crește. Totuși, din punct de vedere al performanței
#posibilelor estimații, acest lucru este un neajuns major.
#Tema dumneavoastră este se impărțiți suma datorată in 4-5 intervale (nu trebuie să fie egale, pot avea de exemplu 7%, 18% etc din
#observații) astfel încat să maximizați valoarea informațională a sumei datorate. Va trebui să vă folosiți de următorul cod:
data$Suma_datorata<-as.factor(
ifelse(data$Suma_datorata<=1370,'0-1370',
ifelse(data$Suma_datorata<=9162,'5970-9162','9163+')))))
result0.Suma_datorata=smbinning.factor(df=data,y="Status_Bun",x="Suma_datorata")
View(result0.Suma_datorata$ivtable) 0,1590
#Ca să concluzionez, va trebui să modificați limitele intervalelor de mai sus astfel încat șă obșineti o valoare informațională cat mai
#apropiată de 0.2002. Cine obține cea mai mare valoare obține nota 10. Ca și recomndare, incercați sa nu uniți grapări cu WoE de semne
#contrare si care au o valoare informațională peste medie.
Succes,
Cosmin Cepoi
data$Suma_datorata<-as.factor(
ifelse(data$Suma_datorata<=9162,'3973-9162','9163+')))))
result0.Suma_datorata=smbinning.factor(df=data,y="Status_Bun",x="Suma_datorata")
View(result0.Suma_datorata$ivtable)
data$Varsta<-as.factor(
ifelse(data$Varsta<=25,'0-25',
ifelse(data$Varsta<=51,'36-50','51+')))))
result0.Varsta=smbinning.factor(df=data,y="Status_Bun",x="Varsta")
View(result0.Varsta$ivtable)
Varsta5p=quantile(data$Varsta, probs=seq(0,1,0.05), na.rm=TRUE)
Varsta5p.Breaks=as.vector(Varsta5p)
Cuts.Varsta5p=Varsta5p.Breaks[2:(length(Varsta5p.Breaks)-1)]
result1_Varsta=smbinning.custom(df=data,y="Status_Bun",x="Varsta",cuts=Cuts.Varsta5p)
View(result1_Varsta$ivtable)
Varsta20p=quantile(data$Varsta, probs=seq(0,1,0.20), na.rm=TRUE)
Varsta20p.Breaks=as.vector(Varsta20p)
Cuts.Varsta20p=Varsta20p.Breaks[2:(length(Varsta20p.Breaks)-1)]
result_Varsta=smbinning.custom(df=data,y="Status_Bun",x="Varsta",cuts=Cuts.Varsta20p)
View(result_Varsta$ivtable)
levels(data$Suma_datorata)<-c("_1","_3","_2","_0","_4")
data$ Suma_datorata=factor(data$Suma_datorata,levels=c("_0","_1","_2","_3","_4"))
result.Suma_datorata=smbinning.factor(df=data,y="Status_Bun",x="Suma_datorata")
View(result.Suma_datorata$ivtable)

R

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

R

Încărcat de

Drepturi de autor:

Formate disponibile

Pasul 1.

Suma_datorata20p=quantile(data$Suma_datorata, probs=seq(0,1,0.20), na.rm=TRUE)

#Se va obtine urmatorul output:

Suma_datorata5p=quantile(data$Suma_datorata, probs=seq(0,1,0.05), na.rm=TRUE)

Varsta20p=quantile(data$Varsta, probs=seq(0,1,0.20), na.rm=TRUE)

S-ar putea să vă placă și