Sunteți pe pagina 1din 12

APLICAȚIE_REGRESIE BIFACTORIALĂ

Un analist de credite din cadrul unei bănci studiază nivelul datoriei clienţilor băncii
pe credit-card (lei), în funcţie de vechimea la locul de muncă (ani) şi de venitul
gospodăriei din care aceştia fac parte (lei). Pentru 30 de clienţi ai băncii, selectaţi
aleator s-au înregistrat următoarele date:

Vechime loc de muncă actual (ani) X1 Venit gospodărie (lei) X2 Datorie pe Credit-card (lei) Y
17 29920 1931,2
10 5270 231,2
15 9350 146,2
15 20400 452,2
2 4760 304,3
5 4250 66,3
20 11390 651,1
12 6460 22,1
3 3230 231,2
0 4250 472,6
0 2720 30,6
4 3910 42,5
24 10880 668,1
6 4930 292,4
22 17000 629
9 8330 139,4
13 6970 496,4
23 12240 200,6
6 10370 95,2
0 4420 17
22 8840 195,5
17 7310 100,3
3 4420 73,1
8 4590 68
1 2720 40,8
0 5440 363,8
9 11730 120,7
25 10880 161,5
12 9860 523,6
2 6290 34
În ipoteza unei dependenţe liniare între cele trei variabile, se cere:
a. Identificaţi modelul de regresie în eşantion şi interpretaţi valorile coeficienţilor de
regresie parţială;
b. Stabiliți intervalele de încredere pentru parametrii pantă ai modelului de regresie
determinat (nivel de semnificație α = 0,05);
c. Testaţi semnificaţia parametrilor pantă ai modelului de regresie pentru un nivel de
semnificație α = 0,05
d. Decideţi dacă modelul este valid, pentru o probabilitate garantare a rezultatelor de
95%. (nivel de semnificație α = 0,05)
e. Apreciaţi intensitatea legăturii dintre cele trei variabile, folosind un indicator
adecvat şi testaţi semnificaţia acestuia.
f. Determinaţi influenţa procentuală a vechimii la locul de muncă şi a venitului
gospodăriei asupra variaţiei datoriei pe credit-card.
g. Interpretarea coeficienților de corelație din matricea de corelație determinată
h. Verificaţi dacă sunt îndeplinite ipotezele modelului de regresie liniară bifactorială:
h.1. Normalitatea erorilor;
h.2. Homoscedasticitatea erorilor;
h.3. Non-autocorelarea erorilor;
h.4. Multicoliniaritatea variabilelor exogene.
Utilizarea funcției Regression: Data- Data Analysis - Regression
Utilizarea funcției Regression: etape

Output – cerințe a-g


Output – cerințe h (h.1.-h.4.)
Cerințe g (g.1.-g.4.)

Normal Probability Plot


2500
Datorie Credit-card (lei) Y

2000
1500
1000
500
0
0 20 40 60 80 100 120
Sample Percentile

Vechime (ani) X1 Residual Venit (lei) X2 Residual


Plot Plot
1000 1000

500 500
Residuals

Residuals

0 0
0 5 10 15 20 25 30 0 10000 20000 30000 40000
-500 -500

-1000 -1000
Vechime (ani) X1 Venit (lei) X2

Vechime (ani) X1 Line Fit Venit (lei) X2 Line Fit Plot


Plot 2500,00
Datorie Credit-card (lei) Y

2500,00 2000,00
Datorie Credit-card (lei) Y

2000,00
1500,00
Datorie Credit-
1500,00
Datorie Credit- 1000,00 card (lei) Y
1000,00 card (lei) Y
Predicted Datorie
500,00 Predicted Datorie 500,00 Credit-card (lei) Y
Credit-card (lei) Y
0,00 0,00
0 10 20 30 0 20000 40000
Vechime (ani) X1 Venit (lei) X2
REZOLVARE

Formule de Excel Valoare critică Sig / P-value


Test Student =T.INV.2T (α; n-k-1) =T.DIST.2T (|tc|; n-k-1)
Test Fisher =F.INV.RT (α; k; n-k-1) =F.DIST.RT (Fc; k; n-k-1)

Volumul eșantionului: n = 30 clienți


yi = variabila rezultativă/dependentă = Datorie pe credit-card (lei)
x1i = variabilă factorială / independentă = Vechime (ani)
x2i = variabilă factorială / independentă = Venit (lei)
k = 2 (numărul factorilor = 2 factori = două variabile independente = Vechime, Venit)

yi  f  x1i , x2i   alti factori


Datorie Credit Card = f ( Vechime, Venit ) + alți factori( erori/reziduuri)
(lei) (ani) (lei)

a. Identificaţi modelul de regresie în eşantion şi interpretaţi valorile


coeficienţilor de regresie parţială;
Standard P- Lower Upper
Coefficients t Stat
Error value 95% 95%
Intercept b0 -103.55 78.21 -1.32 0.197 -264.02 56.92
Vechime (ani) b1 -8.03 6.69 -1.20 0.241 -21.75 5.70
Venit (lei) b2 0.06 0.01 6.02 2E-06 0.04 0.08

Ecuația / funcția de regresie de regresie teoretică: yˆi  b0  b1x1i  b2 x2i


Modelul teoretic de regresie bifactorială (multiplă): yi  b0  b1x1i  b2 x2i  ei

Ecuația / funcția de regresie de regresie a aplicației : yˆi  103,55  8,03x1i  0,06 x2i
Modelul de regresie bifactorială (multiplă) al aplicației: yi  103,55  8,03x1i  0,06 x2i  ei
Datorie Credit Card = f ( Vechime, Venit ) + alți factori( erori/reziduuri)
(lei) (ani) (lei)

b0 =-103,55 – intercept – valoarea medie a datoriei în condițiile în care factorii


(vechime,venit) sunt nuli
b1 = - 8,03 – este estimator coeficient de regresie parțial care arată că, între vechime și
datorie există o legătură indirectă (b1 < 0), a.î. creșterea vechimii cu un an determină o
scădere a datoriei, în medie, cu 8,03 lei, în condițiile în care venitul rămâne constant
(nu se modifică);
b2 = + 0,06 – este estimator coeficient de regresie parțial care arată că, între venit și
datorie există o legătură directă (b2 > 0), a.î. creșterea venitului cu un leu determină o
creștere a datoriei, în medie, cu 0,06 lei, în condițiile în care vechimea rămâne
constantă (nu se modifică);
b. Stabiliți intervalele de încredere pentru parametrii pantă ai modelului de
regresie determinat (nivel de semnificație α = 0,05);

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -103.55 78.21 -1.32 0.197 -264.02 56.92

Vechime (ani) X1 b1 -8.03 sb1 6.69 -1.20 0.241


…… -21,75 …… 5,70

Venit (lei) X2 b2 0.06 sb2 0.01 6.02 2E-06


…… 0,04 …. 0,08

Intervale de încredere
Parametrul pantă β1 Parametrul pantă β2
Lb1  1  U b1 Lb2  2  U b2
b1  tcrit  sb1  1  b1  tcrit  sb1 b2  tcrit  sb2  2  b2  tcrit  sb2
 8,03  2,052  6,69  1   8,03  2,052  6,69 0,06  2,052  0,01  2  0,06  2,052  0,01
 21,75  1  5,70 0,04  2  0,08
Pentru o probabilitate de garantare a rezultatelor de 95% (nivel de semnificație α= 0,05)

tcrit.  t  t 0, 05  tbilateral0, 05; 27  2,052


; n  k 1 ; 30 2 1
2 2

=T.INV.2T (0,05; 27) are ca rezultat 2,052


c. Testaţi semnificaţia parametrilor pantă ai modelului de regresie pentru un
nivel de semnificație α = 0,05
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept b0 -103,55 sb0 78,21 tb0 -1,32 Pvb0 0,20 Lb0 -264,02 U b0 56,92

Vechime (ani) b1 -8,03 sb1 6,69 tb1 -1,20 Pvb1 0,24 Lb1 -21,75 U b1 5,70

Venit (lei) b2 0,06 sb2 0,01 tb2 6,02 Pvb2 2E-06 Lb2 0,04 U b2 0,08

Testarea semnificației
Parametrului 1 Parametrului  2
Ipoteze: Ipoteze:
H0:β1= 0, parametrul β1 nu este semnificativ sts H0:β2= 0, parametrul β2 nu este semnificativ sts
H1: β1 0,parametrul β1 este semnificativ sts H1: β2 0,parametrul β2 este semnificativ sts
Criteriul 1 – Test Student
 valoarea critică:  valoarea critică:
tcrit = ± tα/2; 30-2-1=± t 0,05Bilateral;27 = ± 2,052 tcrit = ± tα/2; 30-2-1=± t 0,05Bilateral;27 = ± 2,052

 Statistica testului:  Statistica testului:


b  8,03 b2 0,06
t c  t calc  t b1  1   1,20 tc  tcalc  tb2    6,02
sb1 6,69 sb2 0,01

Decizia:  tcrit. (2,052)  tc (1,20)  tcrit. (2,052) Decizia: Deoarece tb2 (6,02)  tcrit (2,052)  H 0 se
 H 0 se acceptă, deci parametrul pantă 1 respinge, deci H 1 este adevărată  parametrul  2
NU este semnificativ statistic pentru α=0,05 ESTE semnificativ statistic  modelul este valid
pentru α=0,05
Criteriul 2 – Compararea lui P-value ( Pvb j ) cu nivelul de semnificație 
Pvb1 (0,24) > α (0,05) parametrul pantă 1 NU Pvb2 (0,000002) < α (0,05) parametrul  2 ESTE
este semnificativ statistic pentru α=0,05 semnificativ statistic  modelul este valid pentru
(H0 se acceptă) α=0,05 (H0 se respinge, H1 se acceptă)
Pvb2=T.DIST.2T(|tb2|;n-k-1)=T.DIST.2T(6,02; 27)
Criteriul 3 – Compararea semnelor limitelor intervalului de încredere Lb j   j  U b j
Deoarece Lb1 (21,75)  1  Ub1 (5,70)  Deoarece Lb2 (0,04)   2  U b2 (0,08)  aceleași
semne diferite parametrul  parametrul pantă 1 semn (+)  parametrul  2 ESTE semnificativ
NU este semnificativ statistic pentru α=0,05 statistic  modelul este valid pentru α=0,05
Probabilitatea maximă pentru care putem susține că
--------------------------------------- parametrul  2 este semnificativ statistic:
100-Pvb2% = 100 – 0,0002 = 99,9998% > 95%
d. Decideţi dacă modelul este valid, pentru o probabilitate garantare a
rezultatelor de 95%. (nivel de semnificație α = 0,05)
Tabel 2 - ANOVA df SS MS F Sig. F*
1256151.12
2 2512302.24 SSR
Regression ( R ) df R  k SSR MSR 
df R
54326.07371 23.12 1,41E-06
Residual - erori 27 1466803.99 MSR =
SSE Fc 
(E) df E  n  k  1 SSE MSE  MSE 0,00000141
df E
29 3979106.23
Total dfT  n  1 SST  SSR  SSE
dfT  df R  df E

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistic
 Valoarea critică:
Vcrit = Fcrit=Fα;k;n-k-1=F0,05;2;30-2-1=F0,05;2;27=3,35
=F.INV.RT(0,05; 2;27)

 Valoare calculată (Statistica testului) adică F  Fcalculat  Fc are la bază relaţia:


SSR SSR 2512302,24
MSR df R k 2 1256151,12
Fc       23,12
MSE SSE SSE 1466803,99 54326,07
df E n  k 1 27

 Decizia: Deoarece Fc (23,12)  Fcrit. (3,35)  H 0 se respinge, deci H 1 este adevărată  modelul este
valid pentru un nivel de semnificație α=0,05

Decizia modelului este confirmată prin valoarea Sig F = 1,41E-06 (0,00000141) care se determină cu
formula:=F.DIST.RT (Fc, k, n-k-1)
=F.DIST.RT (23,12; 2; 27) din care rezultă 1,41E-06 (0,00000141)
Deoarece Signifiance F (0,00000414) < α (0,05)  H 0 se respinge, deci H 1 este adevărată  modelul este
valid pentru un nivel de semnificație α=0,05

Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100-Sig F% = 100 – 0,000141 = 99,999859% > 95%
e. Apreciaţi intensitatea legăturii dintre cele trei variabile, folosind un indicator
adecvat şi testaţi semnificaţia acestuia (α = 0,05).
Regression Statistics
Multiple R 0.79
R Square 0.63
Adjusted R Square 0.60
Standard Error 233.08
Observations 30

Datorie Credit Card = f ( Vechime, Venit ) + alți factori( erori/reziduuri)


(lei) (ani) (lei)
Interpretarea intensității legăturii dintre variabilele yi și xi:
Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

Interpretare:
Raportul de corelație (Multiple R) = R=0,79 arată că, legătura dintre datorie și cei doi factori de
influență (vechime și venit) este puternică deoarece R  0,75 ; 0,95

Testarea semnificației Raportului de corelație


 Ipoteze
H0: R*  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
H1: R*  0 Raportul de corelație este semnificativ statistic (modelul este valid)

 Valoarea critică: Fcrit=Fα;k;n-k-1=F0,05;2;30-2-1=F0,05;2;27=3,35


=F.INV.RT(0,05; 2;27)

 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
R2 n  k 1 0,792 30  2  1 0,63 27
Fc        22,95  23
1 R 2
k 1  0,79 2
2 1  0,63 2

 Decizia: deoarece Fc 23  Fcrit 3,35  H 0 se respinge, deci H 1 este adevărată  Raportul de
corelație este semnificativ statistic (modelul este valid) pentru un nivel de semnificație α=0,05
f. Determinaţi influenţa procentuală a vechimii la locul de muncă şi a venitului
gospodăriei asupra variaţiei datoriei pe credit-card.
Regression Statistics
Multiple R 0.79
R Square 0.63
Adjusted R Square 0.60
Standard Error 233.08
Observations 30

Coeficientul de determinație (R Square = R2) cu valoarea de 0,63 arată că, 63% reprezintă
influența conjugată a celor doi factori (vechime și venit) = influența modelului de regresie, în
variația datoriei credit-card.

g. Interpretarea coeficienților de corelație din matricea de corelație determinată


Interpretarea DIRECȚIEI legăturii dintre variabilele yi și xi (SEMNULUI coeficientului r):
Indirectă Directă
r < 0 adică r ϵ (-1; 0) r > 0 adică r ϵ (0; 1)

Interpretarea INTENSITĂȚII legăturii dintre variabilele yi și xi (VALORII coeficientului r) :


Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

Matricea de corelație multiplă:


Vechimea la locul Venitul Datoria pe
de muncă actual gospodăriei Credit-card
(ani) X1 (lei) X2 (lei) Y
Vechimea la locul de muncă actual (ani) X1 1
Venitul gospodăriei (lei) X2 0,61 1
Datoria pe Credit-card (lei) Y 0,37 0,78 1
Interpretare coeficienți de corelație parțiali:
rX1,X2 = + 0,61
Între vechime și venit există o legătură directă de intensitate medie (r > 0 și r ϵ [0,5; 0,75] )
rX1,Y = + 0,37
Între vechime și datoria pe credit-card există o legătură directă slabă (r > 0 și r ϵ [0,2; 0,5] )
rX2,Y = + 0,78
Între vechime și datoria pe credit-card există o legătură directă puternică (r > 0 și r ϵ [0,75; 0,95] )

S-ar putea să vă placă și