Sunteți pe pagina 1din 7

1.

Estimați un model de regresie logistică folosind "cumpărător" ca variabilă dependentă


și următoarea ca variabilă predictoare
#1
bbbSfemale <- ifelse(bbbsgender = "F", 1, 0)
bbblogit <- glm(cumpărător ~ ultima + total + femeie +
copil + tânăr + bucătar + do_it + referință + artă + geog, family=binomial(link='logit'), data = bbb)
BBB $ purch_prob < - prezice. glm(bbblogit, bbb, type = "răspuns")
Summa Ry(BBBLOGIT)

Coeficienţii:
Estimare Std. Eroare z valoare Pr(>l zl)
(Interceptare) -1.6001096 0.0520980 -30.713 < 2e-16 ***
ultim -0.0947124 0.0027924 -33.918 < 2e-16 ***
total_ 0.0011160 0.0001982 5.6301.80E-08 ***
feminin -0.7607204 0.0357608 -21.272 < 2e-16 ***
copil -0.1862162 0.0172824 -10.775 < 2e-16 ***
tinerețe -0.1129745 0.0261087 -4.3271.51E-05 ***
găti -0.2703210 0.0171283 -15.782 < 2e-16 ***
do_it -0.5391648 0.0269657 -19.994 < 2e-16 ***
Referință 0.2346876 0.0265583 8.837 < 2e-16 ***
artă 1.1555840 0.0221439 52.185 < 2e-16 ***
Geog 0.5742763 0.0186311 30.824 < 2e-16 ***
Semnificație. Coduri: 0
(***' 0.001 6**’ 0.01 6*1 0.05 .’ 0.1 ‘ ’ 1

2. Creați și interpretați raportul cotelor pentru fiecare dintre predictori. Rezumați și


interpretați rezultatele (astfel încât un manager de marketing să le poată înțelege). Ce
variabile sunt semnificative? Care par a fi "importante"?
#2
exp(bbblogit$coef)
> exp(bbblogit$coef)
(Interceptare) Ultimul total_ Copil de sex feminin Tineret Cook do_it refernce artă Geog
0.2018744 0.9096345 1.0011167 0.4673296 0.8300941 0.8931734 0.7631345 0.5832352 1.2645136 3.1758776 1.7758448

Pentru fiecare creștere în luna de la ultima achiziție, șansele de a face o achiziție scad cu
9,04%. Pentru fiecare creștere a valorii totale a dolarilor cheltuiți, șansele de a face o achiziție
cresc cu 0,11%. Pentru femei, scade șansele de cumpărare cu 52,33%. Pentru fiecare creștere
a numărului total de cărți pentru copii achiziționate, scade șansele de cumpărare cu 17%. Pentru
fiecare creștere a numărului total de cărți pentru tineri achiziționate, scade șansele de
cumpărare cu 10,7%. Pentru fiecare creștere a numărului total de cărți de bucate achiziționate,
scade șansele de cumpărare cu 23,7%. Pentru fiecare creștere a numărului total de cărți de
bricolaj achiziționate, scade șansele de cumpărare cu 41,7%. Pentru fiecare creștere a
numărului total de cărți de referință achiziționate, crește șansele de cumpărare cu 26,5%. Pentru
fiecare creștere a numărului total de cărți de artă achiziționate, crește șansele de cumpărare cu
217,6%. Pentru fiecare creștere a numărului total de cărți de geografie achiziționate, crește
șansele de cumpărare cu 77,5%. După efectuarea unui model de regresie logistică, toate
variabilele sunt semnificative statistic, deoarece valorile p sunt sub 0,05. Variabilele do_it, artă și
geog par a fi importante, deoarece creșterea sau scăderea șanselor de cumpărare este mai
mare de 25% și au un efect mai mare decât alte variabile asupra achiziției. Total_ sau dolarii
totali cheltuiți pot fi, de asemenea, importanți, chiar dacă procentul este mic, deoarece, logic, o
creștere de o unitate în dolari este o unitate foarte mică de măsurat. Prin urmare, o creștere mai
mare a numărului de dolari cheltuiți va crește șansele de cumpărare.

3. Alocați fiecărui client o decilă pe baza probabilității sale estimate de cumpărare. Sugestie:
"Probabilitatea estimată de cumpărare" este variabila "purch_prob" care a rezultat din regresia
logistică după ce ați emis comanda "predict.glm". Acesta reprezintă cea mai bună predicție a
modelului logit despre cât de probabil este un client să cumpere "Istoria artei din Florența".
#3
bbb$prezice<-11 ntile(bbb$purch_prob,10)

4. Creați o diagramă cu bare care să reprezinte rata de răspuns după decile (așa cum tocmai a
fost definită mai sus).
Sugestie: "Rata de răspuns" nu este aceeași care a cumpărat "Istoria artei din Florența".
#4
ggplot(bbb)+geom_bar(aes(x-predict, y=cumpărător),stat " rezumat", fun.y "mediu")

5. Generați un raport care arată numărul de clienți, numărul de cumpărători ai "Istoria artei din
Florența" și rata de răspuns la ofertă pe decile pentru eșantionul aleatoriu (adică cei 50.000) de
clienți din setul de date.
#5
bbb%>%group_by(bbb$predict)%>%summarize(count=length(acctnum) , buyers=sum(buyer), responserate=sum(buyer)/ sumcount))
bbb$predict count buyerrate de răspuns
<dbl> <int> <int> <dbl>
1 1 5000 1935 0.387
2 2 5000 836 0.167
3 3 5000 511 0.102
4 4 5000 368 0.0736
5 5 5000 284 0.0568
6 6 5000 196 0.0392
7 7 5000 139 0.0278
8 8 5000 121 0.0242
9 9 5000 90 0.018
10 10 5000 42 0.0084

6. Pentru cei 50.000 de clienți din setul de date, rulați un model de regresie logistică în care
preziceți răspunsul numai pe baza variabilei "copil". De ce este diferit raportul cotelor pentru
"copil" față de regresia logistică din partea I? Vă rugăm să fiți specifici și să investigați dincolo de
simpla afirmare a problemei statistice.
bbbSpurch_prob < prezice. glm(bbblogit, bbb, type = "răspuns") rezumat(bbbSpurch_prob)

bbb.child < - glm(cumpărător copil, familie-binom(link-'logit'), date = bbb) bbbSpurch_prob. copil <- prezice. GLM(BBB. copil, bbb, tip = "răspuns")

Eu (Interceptare) copil
0.09306608 1.07686752
Raportul cotelor este semnificativ diferit de partea 1, deoarece nu ia în considerare efectele
reziduale ale celorlalte variabile de predicție. În schimb, izolează variabila copil și generează o
regresie logistică împotriva probabilității de a cumpăra "Istoria artei din Florența". În esență,
arată că, atunci când se ia în considerare doar efectul cumpărării unei cărți pentru copii asupra
cumpărării "Artei din Florența", șansele de cumpărare cresc, comparativ cu luarea în
considerare a altor variabile, așa cum s-a arătat mai sus, în care șansele de cumpărare sunt în
scădere. Prin prezicerea răspunsului folosind doar o singură variabilă, acesta este cântărit
incorect fără a lua în considerare celelalte variabile.

7. Utilizați informațiile din raportul de la întrebarea 5 de mai sus pentru a crea un tabel care să
arate ascensorul și ascensorul cumulat pentru fiecare decilă. Poate doriți să utilizați Excel pentru
aceste calcule.
Num.
Decila de Num. Cum. num. Cum. % Cum. num. Rata de Cum. Cum.
cumpărăt Ascenso
vechime clienți clienți clienți cumpărători răspuns r resp.rate ridicare
ori

1 5000 5000 10% 1935 1935 38.70% 4.28 38.70% 4.28


2 5000 10000 20% 836 2771 16.72% 1.85 27.71% 3.06
3 5000 15000 30% 511 3282 10.22% 1.13 21.88% 2.42
4 5000 20000 40% 368 3650 7.36% 0.81 18.25% 2.02
5 5000 25000 50% 284 3934 5.68% 0.63 15.74% 1.74
6 5000 30000 60% 196 4130 3.92% 0.43 13.77% 1.52
7 5000 35000 70% 139 4269 2.78% 0.31 12.20% 1.35
8 5000 40000 80% 121 4390 2.42% 0.27 10.98% 1.21
9 5000 45000 90% 90 4480 1.80% 0.20 9.96% 1.10
10 5000 50000 100% 42 4522 0.84% 0.09 9.04% 1.00
Total 50000 4522 9.04%

8. Creați o diagramă care să afișeze ridicarea cumulativă după decilă, împreună cu o linie de
referință corespunzătoare liniei de bază "fără model".

9. Utilizați informațiile din raportul de la întrebarea 5 de mai sus pentru a crea un tabel care să
arate câștigurile și câștigurile cumulate pentru fiecare decilă. Poate doriți să utilizați Excel pentru
aceste calcule.
Num. Cum.
Decila de Cum. num. Cum. % Cum. num.
Num. clienți cumpărăt Câştiguril
vechime clienți clienți cumpărători Câştigurile
ori e
0 0 0 0 0 0 0 0
1 5000 5000 10% 1935 1935 42.8% 42.8%
2 5000 10000 20% 836 2771 18.5% 61.3%
3 5000 15000 30% 511 3282 11.3% 72.6%
4 5000 20000 40% 368 3650 8.1% 80.7%
5 5000 25000 50% 284 3934 6.3% 87.0%
6 5000 30000 60% 196 4130 4.3% 91.3%
7 5000 35000 70% 139 4269 3.1% 94.4%
8 5000 40000 80% 121 4390 2.7% 97.1%
9 5000 45000 90% 90 4480 2.0% 99.1%
10 5000 50000 100% 42 4522 0.9% 100.0%
Total 50000 4522

10. Creați un grafic care să arate câștigurile cumulate pe decile împreună cu o linie de referință
corespunzătoare "fără model".

Partea IV
Utilizați următoarele informații despre costuri pentru a evalua rentabilitatea utilizării regresiei
logistice pentru a determina care dintre cei 500.000 de clienți rămași ar trebui să primească o
ofertă specifică:

Costul trimiterii prin poștă a fiecărei oferte: $0.50


Prețul de vânzare al fiecărei cărți, inclusiv transportul: $18.00
Prețul cu ridicata plătit de BookBinders editorului: $9.00
Costurile de expediere plătite de BookBinders: $3.00

11. Care este rata de răspuns la pragul de rentabilitate?


8.33% #11
breakeven<-.5/(18-9-3)
rentabilitate

12. Pentru clienții din setul de date, creați o nouă variabilă (denumiți-o "țintă") cu valoarea 1
dacă probabilitatea estimată a clientului este mai mare decât rata de răspuns la pragul de
rentabilitate și 0 în caz contrar.
#12
bbb$target<-ifelse(bbb$purch_prob>rentabilitate >1,0)

13. Să presupunem că BookBinders trimite prin poștă oferta de a cumpăra "Istoria artei din
Florența" numai clienților țintă (adică celor a căror probabilitate estimată de cumpărare este mai
mare sau egală cu rata de rentabilitate).
a. Care este numărul așteptat de cumpărători din această corespondență?
3323
mailingcustomers<-sum (bbb $ target)
mailingbuyingprob<- mean(subset(bbb, target ==1)$buyer) mai li ngbuyi ng prob*mailing customers
b. Care este rata de răspuns așteptată de la această corespondență?
0.2133072
#13b
medie(subset(bbb, țintă - 1)$purch_prob)

c. Care este profitul așteptat (în dolari) din această corespondență?


$12,158
((18-9-3) * mailingbuyingprob * mailingcustomers)-( . 5*mailingcustomers)

d. Care este rentabilitatea așteptată a cheltuielilor de marketing din această


corespondență?
156.27%
profit<-((18-9-3)*mailingbuyingprob*mailingcustomers)-(. 5 * profitul mailingcustomers / (.5 * mailingcustomers)
Partea V: Prezicerea cheltuielilor totale (5 puncte)
Un alt manager de la BookBinders dorește să utilizeze acest set de date pentru un scop diferit:
pentru a înțelege ce factori pot explica cât cheltuiește un client în timp. Mai exact, ea ar dori să
înțeleagă modul în care cheltuielile totale pentru fiecare client (variabila "total_") pot fi explicate
prin următoarele variabile:
e. Numărul de luni de la prima achiziție a clientului (prima variabilă)
f. Numărul total de cărți de geografie pe care le-au achiziționat (variabila "geog")
g. Numărul total de cărți de artă pe care le-au achiziționat (variabila "artă")
h. Numărul total de cărți de bucate pe care le-au achiziționat (variabila "bucătar")
14. Ce fel de metodă statistică ar fi cea mai bună pentru a răspunde la această întrebare?
Efectuați analiza adecvată, arătați rezultatele și explicați modul în care fiecare dintre cele 4
variabile de mai sus afectează cheltuielile totale.
Ați utiliza o regresie liniară pentru a afla modul în care variabilele menționate afectează
cheltuielile totale pentru fiecare client. O creștere cu o unitate a numărului de luni de la prima
achiziție (prima) va crește cheltuielile totale pentru fiecare client cu 1,23 USD. Pentru fiecare
creștere unitară a numărului de cărți de geografie cumpărate per client, cheltuielile totale pentru
fiecare client vor crește cu 14,71 USD. Pentru fiecare creștere a numărului de cărți de artă
cumpărate per client, cheltuielile totale pentru fiecare client vor crește cu 14,19 USD. Pentru
fiecare creștere cu o unitate a numărului de cărți de bucate cumpărate per client, cheltuielile
totale pentru fiecare client vor crește cu 15,26 USD.
#14
liniar<-lm(total_~first+geog+art+cook, data bbb) summa ry(li near)

Chema:
lm(formula = total ~ primul + geog + artă + bucătar, date = bbb)

Reziduale:
IQ minim Mediana 3Q Max
-218.005 -75.068 -0.188 75.676 251.108
Coeficienţii
Estimare Std. Valoarea t a erorii Pr(>I 11)
(Interceptare) 148.88678 0.68719 216.66 <2e-16 ***
prim 1.23163 0.03134 39.30 <2e-16 ***
Geog 14.70989 0.54360 27.06 <2e-16 ***
artă 14.18890 0.64856 21.88 <2e-16 ***
găti 15.26323 0.41741 36.57 <2e-16 ***
Semnificație. Coduri: 0 "***' 0.001 "**' 0.01 0.05 0.1 ‘ ‛ 1
Eroare standard reziduală: 89,4 la 49995 grade de libertate
R multiplu la pătrat: 0,222, R-pătrat ajustat: 0,2219
F-statistică: 3567 pe 4 și 49995 DF, valoare-p: < 2.2e-16

S-ar putea să vă placă și