Documente Academic
Documente Profesional
Documente Cultură
Credeți că această afirmație este justificată? Utilizați un test t cu un eșantion pentru a trage
concluzia.
Da, soldul mediu al cardurilor lor de credit este de 500 USD. Prin urmare, afirmația
este justificată. Se concluzionează pe baza testului t pentru un singur eșantion.
Explicatie:
Ipoteza nulă: soldul mediu al cardului de credit este de 500 USD
Ipoteza alternativă: soldul mediu al cardului de credit nu este de 500 USD
Echilibru
Rău 520.015
Varianta 211378.2253
Observatii 400
Medie ipotezată 500
df 399
t Stat 0.870673781
P(T<=t) cu o singură
coadă 0.192227914
t Critic o coadă 1.648681534
P(T<=t) cu două cozi 0.384455827
t Critic cu două cozi 1.965927296
Deoarece valoarea P a unui test de coadă este mai mare decât nivelul nostru de
semnificație 0,05, ipoteza nulă nu poate fi respinsă, adică soldul mediu al cardului de
credit este de 500 USD.
2. Există o diferență între bărbați și femei în ceea ce privește echilibrul mediu? Utilizați un
test t cu două mostre pentru a trage concluzia.
Nu există nicio diferență semnificativă între bărbați și femei în ceea ce privește
echilibrul mediu.
Explicatie:
Ipoteza nulă: soldul mediu al cardului de credit pentru bărbați și femei nu are nicio diferență.
Ipoteza alternativă: soldul mediu al cardului de credit pentru bărbați și femei este diferit.
Men Women
Mean 509.8031088 529.5362
Variance 213554.5652 210187.1
Observations 193 207
Hypothesized Mean Difference 0
df 396
t Stat -0.42838443
P(T<=t) one-tail 0.334302083
t Critical one-tail 1.648710601
P(T<=t) two-tail 0.668604165
t Critical two-tail 1.965972608
3. Există o diferență între studenți și non-studenti în ceea ce privește soldul mediu? Utilizați
un test t cu două mostre pentru a trage concluzia.
4. În general, se presupune că dacă există mai multe carduri de credit, atunci soldul cardurilor
va fi mai mare. Pe baza acestui set de date, credeți că este adevărat? Calculați un coeficient
de corelație și afișați un grafic de dispersie pentru a susține răspunsul dvs.
Nu, acest lucru nu este adevărat. Nu există nicio corelație între ele. Coeficientul de
corelație este foarte mic .
Coeficient de corelație:
Cards Balance
Cards 1
Balance 0.086456 1
Coeficientul de corelație este aproape egal cu zero, ceea ce înseamnă că nu există nicio relație
între numărul de cărți și soldul cărților.
Graficul de dispersie:
Valorile cad împrăștiate și nu urmează linia de tendință, corelația este foarte mică.
5. Examinați dacă următoarele variabile demografice influențează echilibrul: (a) vârsta, (b)
ani de studii, (c) starea civilă. Pentru vârsta și anii de educație, utilizați diagrame de dispersie
pentru a reprezenta relația lor cu echilibrul și pentru a calcula coeficientul de corelație. Pentru
relația dintre starea civilă și echilibru, utilizați un test t cu două mostre pentru a trage
concluzia
Variabilele demografice vârsta, anii de educație, starea marțială nu influențează soldul
creditului.
5a și 5b
Coeficient de corelație:
Age Education Balance
Age 1
Education 0.003619 1
Balance 0.001835 -0.00806 1
Coeficientul de corelație este aproape egal cu zero, ceea ce înseamnă că nu există nicio
relație între vârstă și educație pe soldul creditului.
Graficul de dispersie:
Este clar că tendința nu arată nicio corelație, astfel încât soldul creditului nu depinde de
aceste variabile.
5c.
Ipoteza nulă: soldul mediu al cardului de credit pentru cei singuri și căsătoriți este
același.
Ipoteza alternativă: soldul mediu al cardului de credit pentru cei singuri și cei căsătoriți
este diferit.
Single Married
Mean 523.2903226 517.9429
Variance 221735.0385 205696.7
Observations 155 245
Hypothesized Mean Difference
0
df 319
t Stat 0.112233601
P(T<=t) one-tail0.455354389
t Critical one-tail
1.649644319
P(T<=t) two-tail0.910708777
t Critical two-tail
1.967428387
Valoarea P este mai mare, deci ipoteza nulă, deci nu poate fi respinsă, ceea ce înseamnă
că nu există modificări semnificative cauzate de starea civilă
6 . Etnia titularului cardului nu contează în ceea ce privește echilibrul.” Efectuați o analiză a
varianței (ANOVA) și discutați dacă această afirmație este susținută de date sau nu
Ipoteza nulă: etnia titularului cardului nu contează în măsura în care un echilibru, adică
același
Ipoteza alternativă: etnia deținătorului cardului contează în ceea ce privește soldul
Pe baza ANOVA, este clar că valoarea P este mai mare de 0,05. Deci, etnia nu are impact
asupra echilibrului.
SUMMARY
Groups Count Sum Average Variance
African American 99 52569 531 235839.2
Asian 102 52256 512.3137 231748.3
Caucasian 199 103181 518.4975 190922.4
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 18454.20047 2 9227.1 0.043443 0.957492 3.018452
Within Groups 84321457.71 397 212396.6
7. Un principiu general pe care companiile de carduri de credit îl urmează adesea este acela
de a atribui o limită de credit mai mare persoanelor cu un rating de credit mai mare. Datele
arată că se respectă acest principiu?
Da, acest principiu este respectat.
Coeficient de corelație:
Limit Rating
Limit 1
Rating 0.99688 1
8. Rulați o regresie liniară simplă a soldului asupra limitei de credit. (Aici limita de credit este
X, iar soldul este Y). Raportați coeficienții și R-pătratul. Afișați un grafic de dispersie.
Regression Statistics
Multiple R 0.861697
R Square 0.742522
Adjusted R Square 0.741875
Standard Error 233.585
Observations 400
ANOVA
df SS MS F Significance F
Regression 1 62624255 62624255 1147.764 2.5E-119
Residual 398 21715657 54561.95
Total 399 84339912
Coefficients
Standard Error t Stat P-value Lower 95%Upper 95%Lower 95.0%
Upper 95.0%
Intercept -292.79 26.68341 -10.9728 1.18E-24 -345.249 -240.332 -345.249 -240.332
Credit Limit 0.171637 0.005066 33.87867 2.5E-119 0.161677 0.181597 0.161677 0.181597
Graficul de dispersie:
Limita de credit este un predictor semnificativ. Are o corelație decentă, adică R 2 = 0,74
9. Rulați o regresie liniară simplă a soldului (Y) pe ratingul de credit (X). Raportați
coeficienții și R-pătratul. Afișați un grafic de dispersie
Regresie liniară simplă:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.863625161
R Square 0.745848418
Adjusted R Square 0.745209846
Standard Error 232.0713048
Observations 400
ANOVA
df SS MS F Significance F
Regression 1 62904789.88 62904790 1167.994581 1.8989E-120
Residual 398 21435122.03 53857.09
Total 399 84339911.91
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0%Upper 95.0%
Intercept -390.8463418 29.06851463 -13.4457 3.07318E-34 -447.993365 -333.6993186 -447.993365 -333.699
Credit Rating(X) 2.566240327 0.075089102 34.17594 1.8989E-120 2.418619483 2.713861171 2.418619483 2.713861
Graficul de dispersie:
10. Luați în considerare constatările dvs. de la întrebările 8-9. Discutați despre mecanismele
de afaceri pentru a crește sau a reduce soldul cardurilor de credit. Încercați să cuantificați
răspunsurile dvs.
Este clar că ratingul cardului de credit și limita de credit au un impact semnificativ
asupra soldului cardului de credit. Ambele au o corelație bună. Ambele sunt un
predictor semnificativ al soldului cardului de credit. Soldul este mare pentru cei care
au rating de credit și limita de credit ridicată. Atât ratingul, cât și limita sunt
predictorii semnificativi de echilibru.
Evaluarea mai mare și soldul persoanelor cu limită de credit mai mare pot fi mărite, în
timp ce soldul persoanelor cu rating mai mic și cu limită de credit mai mică trebuie să
fie redus. (pe baza acestei analize)
11. Limita de credit este furnizată ca sumă consolidată pentru toate cardurile de credit pe care
le deține titularul cardului. Rulați o regresie liniară multiplă a Soldului (Y) pe Limită și
Carduri ca două variabile X. Raportați coeficienții. Discutați efectul asupra soldului (a)
creșterii limitei de credit pentru același număr de carduri și (b) creșterii numărului de carduri
fără a modifica limita totală de credit.
Regresie liniară multiplă:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.865188295
R Square 0.748550786
Adjusted R Square 0.74728404
Standard Error 231.1247525
Observations 400
ANOVA
df SS MS F Significance F
Regression 2 63132707.37 31566354 590.9238 9.8E-120
Residual 397 21207204.54 53418.65
Total 399 84339911.91
Limita de credit și numărul de carduri este un predictor semnificativ pentru soldul creditului,
ambele au un impact mai mare asupra soldului.
Coeficient de corelație = 0,865 și R-pătrat = 0,748
Creșterea unei singure unități ($) a limitei de credit cu același card va crește cu 0,17 din sold.
(Limita de credit este măsurată la o scară mai largă în comparație cu cardurile, are 34,2 ca
eroare standard).
Creșterea unui card va crește cu 26,03 în sold, adică creșterea cardului crește soldul
12. Rulați o ecuație de regresie liniară simplă cu Venitul ca X și Soldul ca Y. Raportați
coeficienții. Este coeficientul de venit semnificativ diferit de zero? Ce spune aceasta despre
efectul venitului asupra echilibrului?
2000
SUMMARY OUTPUT
1500
Regression Statistics
Multiple R 0.463656457
1000
R Square 0.21497731
Adjusted R Square 0.213004891
500
Standard Error 407.8647195
Observations 400
0
0 50 100 150 200
ANOVA
df SS MS F Significance F
Regression 1 18131167.4 18131167 108.9917152 1.03089E-22
Residual 398 66208744.51 166353.6
Total 399 84339911.91
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 246.5147506 33.19934735 7.425289 6.90344E-13 181.2467485 311.7827527 181.2467485 311.7827527
Income 6.048363409 0.579350163 10.43991 1.03089E-22 4.909394402 7.187332415 4.909394402 7.187332415
13.Pe baza ecuației derivate la întrebarea 12, care este soldul estimat pentru o persoană cu un
venit de 100.000 USD pe an?
Balance(y)
2500
2000
1500
f(x) = 6.04836340853157 x + 246.514750591403
R² = 0.214977310132406
1000
500
0
0 20 40 60 80 100 120 140 160 180 200
14.Pe baza setului de date, explorați relația dintre soldul cardului de credit (Y) și (a) Venit (b)
Vârstă (c) Educație (c) Limită și (d) Evaluare ca variabile X? Estimați un model de regresie
liniară multiplă și raportați semnificația statistică a fiecăreia dintre aceste variabile.
Regression Statistics
Multiple R 0.936702578
R Square 0.87741172
Adjusted R Square
0.875856031
Standard Error
161.9917647
Observations 400
ANOVA
df SS MS F Significance F
Regression 5 74000827.17 14800165.43 564.0020686 4.5908E-177
Residual 394 10339084.74 26241.33183
Total 399 84339911.91
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Lower 95.0%
Upper 95.0%
Intercept -473.2514026 55.10833546 -8.587655545 2.08837E-16 -581.5945666 -364.908 -581.595 -364.908
Income -7.608832003 0.381931562 -19.92197755 1.37077E-61 -8.359710677 -6.85795 -8.35971 -6.85795
Limit 0.07901642 0.044791005 1.764113581 0.078487737 -0.009042839 0.167076 -0.00904 0.167076
Rating 2.773843725 0.667079559 4.158190261 3.93909E-05 1.462363177 4.085324 1.462363 4.085324
Age -0.860030445 0.478700493 -1.796594023 0.073165937 -1.801157147 0.081096 -1.80116 0.081096
Education 1.967791521 2.605290902 0.755305874 0.450516748 -3.154218733 7.089802 -3.15422 7.089802
Regression Statistics
Multiple R 0.93547739
R Square 0.875117948
Adjusted R Square 0.874488819
Standard Error 162.8813393
Observations 400
ANOVA
df SS MS F Significance F
Regression 2 73807370.62 36903685.31 1390.999823 4.5212E-180
Residual 397 10532541.29 26530.33071
Total 399 84339911.91
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept -534.8121502 21.60269845 -24.75672896 1.66359E-82 -577.2821357 -492.3421648 -577.282136 -492.3421648
Income -7.672124366 0.378462026 -20.2718472 3.1071E-63 -8.416164597 -6.928084134 -8.4161646 -6.928084134
Rating 3.949264832 0.086209035 45.81033566 1.4482E-160 3.77978154 4.118748125 3.77978154 4.118748125
Explicatie:
Pe baza analizei de regresie multiplă, este clar că venitul și ratingul sunt cei doi
predictori semnificativi statistic bazați pe valoarea p.
Toate aceste variabile, adică venitul, educația, vârsta, limita și ratingul împreună au
contribuit la 87,7% din variația soldului cardului de credit.
Dar pentru a înțelege dacă și aceste variabile au contribuit și doar unele au contribuit
la variația echilibrului, se rețin analiza cu valorile P acceptabile.
Așadar, reținând X-urile cu valoare p scăzută, adică să spunem doar cu venit și rating ,
analiza de regresie a fost făcută din nou.
În această regresie, analiza cu aceste două variabile a arătat o variație de 87,5% a
soldului cardului de credit.
Care este aproape aceeași valoare r-pătrat ca anterioară.
Pe baza acestui fapt, este foarte clar că, Venitul și ratingul sunt cei doi predictori
semnificativi .
De asemenea, se studiază erorile (reziduurile) și modelul.
În ceea ce privește concentrarea reziduurilor de venit, se observă că mai multe valori
sunt pe partea negativă și în special mai multe grupuri cu venituri mai mici și că linia
de potrivire nu este, de asemenea, liniară.
Reziduurile de rating au arătat o latură pozitivă pentru evaluarea mai mică și mai
mare, unde a arătat o evaluare negativă pentru alte evaluări tipice, unde linia de
potrivire a evaluărilor este decentă.
Concluzii finale,
Venitul și ratingul sunt cele două variabile importante care contribuie la
modificarea echilibrului, în timp ce limita, vârsta și educația nu reprezintă o
variabilă semnificativă pentru sold.