Sunteți pe pagina 1din 15

1. Un manager de companie spune că soldul mediu al cărților de credit este de 500 USD.

Credeți că această afirmație este justificată? Utilizați un test t cu un eșantion pentru a trage
concluzia.

Da, soldul mediu al cardurilor lor de credit este de 500 USD. Prin urmare, afirmația
este justificată. Se concluzionează pe baza testului t pentru un singur eșantion.

Explicatie:
Ipoteza nulă: soldul mediu al cardului de credit este de 500 USD
Ipoteza alternativă: soldul mediu al cardului de credit nu este de 500 USD

Testul t: două eșantioane presupunând


variații inegale

Echilibru
Rău 520.015
Varianta 211378.2253
Observatii 400
Medie ipotezată 500
df 399
t Stat 0.870673781
P(T<=t) cu o singură
coadă 0.192227914
t Critic o coadă 1.648681534
P(T<=t) cu două cozi 0.384455827
t Critic cu două cozi 1.965927296

Deoarece valoarea P a unui test de coadă este mai mare decât nivelul nostru de
semnificație 0,05, ipoteza nulă nu poate fi respinsă, adică soldul mediu al cardului de
credit este de 500 USD.

2. Există o diferență între bărbați și femei în ceea ce privește echilibrul mediu? Utilizați un
test t cu două mostre pentru a trage concluzia.
Nu există nicio diferență semnificativă între bărbați și femei în ceea ce privește
echilibrul mediu.
Explicatie:
Ipoteza nulă: soldul mediu al cardului de credit pentru bărbați și femei nu are nicio diferență.
Ipoteza alternativă: soldul mediu al cardului de credit pentru bărbați și femei este diferit.

t-Test: Two-Sample Assuming Unequal Variances

Men Women
Mean 509.8031088 529.5362
Variance 213554.5652 210187.1
Observations 193 207
Hypothesized Mean Difference 0
df 396
t Stat -0.42838443
P(T<=t) one-tail 0.334302083
t Critical one-tail 1.648710601
P(T<=t) two-tail 0.668604165
t Critical two-tail 1.965972608

Nu se poate respinge ipoteza nulă µ1 este egal cu µ2


Prin urmare, echilibrul mediu al bărbaților și femeilor nu are diferențe semnificative,
adică același.

3. Există o diferență între studenți și non-studenti în ceea ce privește soldul mediu? Utilizați
un test t cu două mostre pentru a trage concluzia.

Da, există o diferență semnificativă între studenți și non-studenti în ceea ce privește


soldul mediu.
Explicatie:
Ipoteza nulă: soldul mediu al cardului de credit pentru studenți și non-studenti nu are nicio
diferență.
Ipoteza alternativă: soldul mediu al cardului de credit pentru studenți și non-studenti este
diferit.
Deoarece valoarea P a testului cu două cozi este mai mică decât nivelul nostru de
semnificație 0,05, ipoteza nulă poate fi respinsă, adică soldul mediu al cardului de credit este
diferit pentru studenți și non-studenti.

4. În general, se presupune că dacă există mai multe carduri de credit, atunci soldul cardurilor
va fi mai mare. Pe baza acestui set de date, credeți că este adevărat? Calculați un coeficient
de corelație și afișați un grafic de dispersie pentru a susține răspunsul dvs.
Nu, acest lucru nu este adevărat. Nu există nicio corelație între ele. Coeficientul de
corelație este foarte mic .

Coeficient de corelație:
Cards Balance
Cards 1
Balance 0.086456 1

Coeficientul de corelație este aproape egal cu zero, ceea ce înseamnă că nu există nicio relație
între numărul de cărți și soldul cărților.
Graficul de dispersie:
Valorile cad împrăștiate și nu urmează linia de tendință, corelația este foarte mică.

5. Examinați dacă următoarele variabile demografice influențează echilibrul: (a) vârsta, (b)
ani de studii, (c) starea civilă. Pentru vârsta și anii de educație, utilizați diagrame de dispersie
pentru a reprezenta relația lor cu echilibrul și pentru a calcula coeficientul de corelație. Pentru
relația dintre starea civilă și echilibru, utilizați un test t cu două mostre pentru a trage
concluzia
Variabilele demografice vârsta, anii de educație, starea marțială nu influențează soldul
creditului.
5a și 5b
Coeficient de corelație:
Age Education Balance
Age 1
Education 0.003619 1
Balance 0.001835 -0.00806 1

Coeficientul de corelație este aproape egal cu zero, ceea ce înseamnă că nu există nicio
relație între vârstă și educație pe soldul creditului.

Graficul de dispersie:
Este clar că tendința nu arată nicio corelație, astfel încât soldul creditului nu depinde de
aceste variabile.

5c.
Ipoteza nulă: soldul mediu al cardului de credit pentru cei singuri și căsătoriți este
același.
Ipoteza alternativă: soldul mediu al cardului de credit pentru cei singuri și cei căsătoriți
este diferit.

t-Test: Two-Sample Assuming Unequal Variances

Single Married
Mean 523.2903226 517.9429
Variance 221735.0385 205696.7
Observations 155 245
Hypothesized Mean Difference
0
df 319
t Stat 0.112233601
P(T<=t) one-tail0.455354389
t Critical one-tail
1.649644319
P(T<=t) two-tail0.910708777
t Critical two-tail
1.967428387

Valoarea P este mai mare, deci ipoteza nulă, deci nu poate fi respinsă, ceea ce înseamnă
că nu există modificări semnificative cauzate de starea civilă
6 . Etnia titularului cardului nu contează în ceea ce privește echilibrul.” Efectuați o analiză a
varianței (ANOVA) și discutați dacă această afirmație este susținută de date sau nu
Ipoteza nulă: etnia titularului cardului nu contează în măsura în care un echilibru, adică
același
Ipoteza alternativă: etnia deținătorului cardului contează în ceea ce privește soldul

Pe baza ANOVA, este clar că valoarea P este mai mare de 0,05. Deci, etnia nu are impact
asupra echilibrului.

Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
African American 99 52569 531 235839.2
Asian 102 52256 512.3137 231748.3
Caucasian 199 103181 518.4975 190922.4

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 18454.20047 2 9227.1 0.043443 0.957492 3.018452
Within Groups 84321457.71 397 212396.6

Total 84339911.91 399

7. Un principiu general pe care companiile de carduri de credit îl urmează adesea este acela
de a atribui o limită de credit mai mare persoanelor cu un rating de credit mai mare. Datele
arată că se respectă acest principiu?
Da, acest principiu este respectat.

Coeficient de corelație:
Limit Rating
Limit 1
Rating 0.99688 1

Are un acord bun.


Graficul de dispersie:

Companiile de carduri de credit urmăresc adesea să atribuie o limită de credit mai


mare persoanelor cu un rating de credit mai mare este adevărat în cazul nostru. Se
justifică pe baza corelației.

8. Rulați o regresie liniară simplă a soldului asupra limitei de credit. (Aici limita de credit este
X, iar soldul este Y). Raportați coeficienții și R-pătratul. Afișați un grafic de dispersie.

Regresie liniară simplă:


SUMMARY OUTPUT

Regression Statistics
Multiple R 0.861697
R Square 0.742522
Adjusted R Square 0.741875
Standard Error 233.585
Observations 400

ANOVA
df SS MS F Significance F
Regression 1 62624255 62624255 1147.764 2.5E-119
Residual 398 21715657 54561.95
Total 399 84339912

Coefficients
Standard Error t Stat P-value Lower 95%Upper 95%Lower 95.0%
Upper 95.0%
Intercept -292.79 26.68341 -10.9728 1.18E-24 -345.249 -240.332 -345.249 -240.332
Credit Limit 0.171637 0.005066 33.87867 2.5E-119 0.161677 0.181597 0.161677 0.181597

Graficul de dispersie:

Limita de credit este un predictor semnificativ. Are o corelație decentă, adică R 2 = 0,74
9. Rulați o regresie liniară simplă a soldului (Y) pe ratingul de credit (X). Raportați
coeficienții și R-pătratul. Afișați un grafic de dispersie
Regresie liniară simplă:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.863625161
R Square 0.745848418
Adjusted R Square 0.745209846
Standard Error 232.0713048
Observations 400

ANOVA
df SS MS F Significance F
Regression 1 62904789.88 62904790 1167.994581 1.8989E-120
Residual 398 21435122.03 53857.09
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0%Upper 95.0%
Intercept -390.8463418 29.06851463 -13.4457 3.07318E-34 -447.993365 -333.6993186 -447.993365 -333.699
Credit Rating(X) 2.566240327 0.075089102 34.17594 1.8989E-120 2.418619483 2.713861171 2.418619483 2.713861

Graficul de dispersie:

Da, ratingul de credit influențează soldul creditului. Are o corelație decentă.

10. Luați în considerare constatările dvs. de la întrebările 8-9. Discutați despre mecanismele
de afaceri pentru a crește sau a reduce soldul cardurilor de credit. Încercați să cuantificați
răspunsurile dvs.
 Este clar că ratingul cardului de credit și limita de credit au un impact semnificativ
asupra soldului cardului de credit. Ambele au o corelație bună. Ambele sunt un
predictor semnificativ al soldului cardului de credit. Soldul este mare pentru cei care
au rating de credit și limita de credit ridicată. Atât ratingul, cât și limita sunt
predictorii semnificativi de echilibru.

 Evaluarea mai mare și soldul persoanelor cu limită de credit mai mare pot fi mărite, în
timp ce soldul persoanelor cu rating mai mic și cu limită de credit mai mică trebuie să
fie redus. (pe baza acestei analize)

11. Limita de credit este furnizată ca sumă consolidată pentru toate cardurile de credit pe care
le deține titularul cardului. Rulați o regresie liniară multiplă a Soldului (Y) pe Limită și
Carduri ca două variabile X. Raportați coeficienții. Discutați efectul asupra soldului (a)
creșterii limitei de credit pentru același număr de carduri și (b) creșterii numărului de carduri
fără a modifica limita totală de credit.
Regresie liniară multiplă:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.865188295
R Square 0.748550786
Adjusted R Square 0.74728404
Standard Error 231.1247525
Observations 400

ANOVA
df SS MS F Significance F
Regression 2 63132707.37 31566354 590.9238 9.8E-120
Residual 397 21207204.54 53418.65
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95%Upper 95%Lower 95.0%


Upper 95.0%
Intercept -369.0359554 36.16414657 -10.2045 7.23E-22 -440.133 -297.939 -440.133 -297.939
Credit Limit 0.171479037 0.005013136 34.20594 2E-120 0.161623 0.181335 0.161623 0.181335
Cards 26.03375427 8.438363509 3.085166 0.002177 9.444291 42.62322 9.444291 42.62322

Limita de credit și numărul de carduri este un predictor semnificativ pentru soldul creditului,
ambele au un impact mai mare asupra soldului.
Coeficient de corelație = 0,865 și R-pătrat = 0,748
Creșterea unei singure unități ($) a limitei de credit cu același card va crește cu 0,17 din sold.
(Limita de credit este măsurată la o scară mai largă în comparație cu cardurile, are 34,2 ca
eroare standard).
Creșterea unui card va crește cu 26,03 în sold, adică creșterea cardului crește soldul
12. Rulați o ecuație de regresie liniară simplă cu Venitul ca X și Soldul ca Y. Raportați
coeficienții. Este coeficientul de venit semnificativ diferit de zero? Ce spune aceasta despre
efectul venitului asupra echilibrului?

Balance(y) y = 6.0484x + 246.51


R² = 0.215
2500

2000
SUMMARY OUTPUT
1500
Regression Statistics
Multiple R 0.463656457
1000
R Square 0.21497731
Adjusted R Square 0.213004891
500
Standard Error 407.8647195
Observations 400
0
0 50 100 150 200
ANOVA
df SS MS F Significance F
Regression 1 18131167.4 18131167 108.9917152 1.03089E-22
Residual 398 66208744.51 166353.6
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 246.5147506 33.19934735 7.425289 6.90344E-13 181.2467485 311.7827527 181.2467485 311.7827527
Income 6.048363409 0.579350163 10.43991 1.03089E-22 4.909394402 7.187332415 4.909394402 7.187332415

Sursa de Sold (y)


venit
Sursa de venit 1
Sold (y) 0.46365645 1
7

Coeficient de corelație pentru cele două variabile =0,46


Pe baza coeficientului de regresie al venitului este 6.048. Da; este departe de zero, ia valoarea
de la 4,90 la 7,18. Adăugarea unei unități de venit va crește soldul cu 6,04 mai mult și este
un predictor semnificativ. Bazat pe scară, văzându-l t - stat este o eroare standard de 10,4
distanță de zero.

13.Pe baza ecuației derivate la întrebarea 12, care este soldul estimat pentru o persoană cu un
venit de 100.000 USD pe an?
Balance(y)
2500

2000

1500
f(x) = 6.04836340853157 x + 246.514750591403
R² = 0.214977310132406
1000

500

0
0 20 40 60 80 100 120 140 160 180 200

Pe baza ecuației derivate Y = 6,0484 (X)+246,51


X= Venituri
Y = 6,0484(100) + 246,51
Sold estimat pentru o persoană cu un venit de 100.000 USD pe an = 851,35 USD.

14.Pe baza setului de date, explorați relația dintre soldul cardului de credit (Y) și (a) Venit (b)
Vârstă (c) Educație (c) Limită și (d) Evaluare ca variabile X? Estimați un model de regresie
liniară multiplă și raportați semnificația statistică a fiecăreia dintre aceste variabile.

Model de regresie multiplă:


SUMMARY OUTPUT

Regression Statistics
Multiple R 0.936702578
R Square 0.87741172
Adjusted R Square
0.875856031
Standard Error
161.9917647
Observations 400

ANOVA
df SS MS F Significance F
Regression 5 74000827.17 14800165.43 564.0020686 4.5908E-177
Residual 394 10339084.74 26241.33183
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Lower 95.0%
Upper 95.0%
Intercept -473.2514026 55.10833546 -8.587655545 2.08837E-16 -581.5945666 -364.908 -581.595 -364.908
Income -7.608832003 0.381931562 -19.92197755 1.37077E-61 -8.359710677 -6.85795 -8.35971 -6.85795
Limit 0.07901642 0.044791005 1.764113581 0.078487737 -0.009042839 0.167076 -0.00904 0.167076
Rating 2.773843725 0.667079559 4.158190261 3.93909E-05 1.462363177 4.085324 1.462363 4.085324
Age -0.860030445 0.478700493 -1.796594023 0.073165937 -1.801157147 0.081096 -1.80116 0.081096
Education 1.967791521 2.605290902 0.755305874 0.450516748 -3.154218733 7.089802 -3.15422 7.089802

Income Limit Rating Age Education Balance


Income 1
Limit 0.792088 1
Rating 0.791378 0.99688 1
Age 0.175338 0.100888 0.103165 1
Education -0.02769 -0.02355 -0.03014 0.003619 1
Balance 0.463656 0.861697 0.863625 0.001835 -0.00806 1
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.93547739
R Square 0.875117948
Adjusted R Square 0.874488819
Standard Error 162.8813393
Observations 400

ANOVA
df SS MS F Significance F
Regression 2 73807370.62 36903685.31 1390.999823 4.5212E-180
Residual 397 10532541.29 26530.33071
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept -534.8121502 21.60269845 -24.75672896 1.66359E-82 -577.2821357 -492.3421648 -577.282136 -492.3421648
Income -7.672124366 0.378462026 -20.2718472 3.1071E-63 -8.416164597 -6.928084134 -8.4161646 -6.928084134
Rating 3.949264832 0.086209035 45.81033566 1.4482E-160 3.77978154 4.118748125 3.77978154 4.118748125

Explicatie:
 Pe baza analizei de regresie multiplă, este clar că venitul și ratingul sunt cei doi
predictori semnificativi statistic bazați pe valoarea p.
 Toate aceste variabile, adică venitul, educația, vârsta, limita și ratingul împreună au
contribuit la 87,7% din variația soldului cardului de credit.
 Dar pentru a înțelege dacă și aceste variabile au contribuit și doar unele au contribuit
la variația echilibrului, se rețin analiza cu valorile P acceptabile.
 Așadar, reținând X-urile cu valoare p scăzută, adică să spunem doar cu venit și rating ,
analiza de regresie a fost făcută din nou.
 În această regresie, analiza cu aceste două variabile a arătat o variație de 87,5% a
soldului cardului de credit.
 Care este aproape aceeași valoare r-pătrat ca anterioară.
 Pe baza acestui fapt, este foarte clar că, Venitul și ratingul sunt cei doi predictori
semnificativi .
 De asemenea, se studiază erorile (reziduurile) și modelul.
 În ceea ce privește concentrarea reziduurilor de venit, se observă că mai multe valori
sunt pe partea negativă și în special mai multe grupuri cu venituri mai mici și că linia
de potrivire nu este, de asemenea, liniară.
 Reziduurile de rating au arătat o latură pozitivă pentru evaluarea mai mică și mai
mare, unde a arătat o evaluare negativă pentru alte evaluări tipice, unde linia de
potrivire a evaluărilor este decentă.
Concluzii finale,
 Venitul și ratingul sunt cele două variabile importante care contribuie la
modificarea echilibrului, în timp ce limita, vârsta și educația nu reprezintă o
variabilă semnificativă pentru sold.

S-ar putea să vă placă și