Sunteți pe pagina 1din 13

APLICAȚIE_REGRESIE BIFACTORIALĂ

Un analist de credite din cadrul unei bănci studiază nivelul datoriei clienţilor băncii
pe credit-card (lei), în funcţie de vechimea la locul de muncă (ani) şi de venitul
gospodăriei din care aceştia fac parte (lei). Pentru 30 de clienţi ai băncii, selectaţi
aleator s-au înregistrat următoarele date:
Vechime loc de muncă actual (ani)
X1 Venit gospodărie (lei) X2 Datorie pe Credit-card (lei) Y
17 29920 1931,2
10 5270 231,2
15 9350 146,2
15 20400 452,2
2 4760 304,3
5 4250 66,3
20 11390 651,1
12 6460 22,1
3 3230 231,2
0 4250 472,6
0 2720 30,6
4 3910 42,5
24 10880 668,1
6 4930 292,4
22 17000 629
9 8330 139,4
13 6970 496,4
23 12240 200,6
6 10370 95,2
0 4420 17
22 8840 195,5
17 7310 100,3
3 4420 73,1
8 4590 68
1 2720 40,8
0 5440 363,8
9 11730 120,7
25 10880 161,5
12 9860 523,6
2 6290 34

În ipoteza unei dependenţe liniare între cele trei variabile, se cere:


a. Identificaţi modelul de regresie în eşantion şi interpretaţi valorile coeficienţilor de
regresie parţială;
b. Stabiliți intervalele de încredere pentru parametrii pantă ai modelului de regresie
determinat (nivel de semnificație α = 0,05);
c. Testaţi semnificaţia parametrilor pantă ai modelului de regresie pentru un nivel de
semnificație α = 0,05
d. Decideţi dacă modelul este valid, pentru o probabilitate garantare a rezultatelor de
95%. (nivel de semnificație α = 0,05)
e. Apreciaţi intensitatea legăturii dintre cele trei variabile, folosind un indicator
adecvat şi testaţi semnificaţia acestuia.
f. Determinaţi influenţa procentuală a vechimii la locul de muncă şi a venitului
gospodăriei asupra variaţiei datoriei pe credit-card.
g. Interpretarea coeficienților de corelație din matricea de corelație determinată
h. Verificaţi dacă sunt îndeplinite ipotezele modelului de regresie liniară bifactorială:
h.1. Normalitatea erorilor;
h.2. Homoscedasticitatea erorilor;
h.3. Non-autocorelarea erorilor;
h.4. Multicoliniaritatea variabilelor exogene .
Utilizarea funcției Regression: Data- Data Analysis - Regression
Utilizarea funcției Regression: etape

Output – cerințe a-g


Output – cerințe h (h.1.-h.4.)
Cerințe g (g.1.-g.4.)
Datorie Credit-card (lei) Y
Normal Probability Plot
2500
2000
1500
1000
500
0
0 20 40 60 80 100 120
Sample Percentile

Vechime (ani) X1 Residual Venit (lei) X2 Residual


Plot Plot
600 600
400 400

Residuals
Residuals

200 200
0 0
-200 0 5 10 15 20 25 30 -200 0
00 0 00 0 00 0 00 00 00 00
-400 -400 50 10 15 20 25
0
30
0
35
0
-600 -600
Vechime (ani) X1 Venit (lei) X2

Vechime (ani) X1 Line Fit Venit (lei) X2 Line Fit Plot


Plot 2500.00
Datorie Credit-card (lei) Y

2500.00 2000.00
Datorie Credit-card (lei) Y

2000.00 Datorie Credit-card Datorie Credit-


1500.00
1500.00 (lei) Y card (lei) Y
Predicted Datorie 1000.00 Predicted Datorie
1000.00 Credit-card (lei) Y Credit-card (lei) Y
500.00 500.00

0.00 0.00
0 5 10 15 20 25 30 0 20000 40000
Vechime (ani) X1 Venit (lei) X2

REZOLVARE
Formule de Excel Valoare critică Sig / P-value
Test Student =T.INV.2T (α; n-k-1) =T.DIST.2T (|tc|; n-k-1)
Test Fisher =F.INV.RT (α; k; n-k-1) =F.DIST.RT (Fc; k; n-k-1)

Volumul eșantionului: n = 30 clienți


yi = variabila rezultativă/dependentă = Datorie pe credit-card (lei)
x1i = variabilă factorială / independentă = Vechime (ani)
x2i = variabilă factorială / independentă = Venit (lei)
k = 2 (numărul factorilor = 2 factori = două variabile independente = Vechime, Venit)

yi = f ( x 1i , x 2i ) + alti factori
Datorie Credit Card = f ( Vechime, Venit ) + alți factori( erori/reziduuri)
(lei) (ani) (lei)

a. Identificaţi modelul de regresie în eşantion şi interpretaţi valorile


coeficienţilor de regresie parţială;
Coefficient Standard P- Lower Upper
t Stat
s Error value 95% 95%

Intercept
b0 -103.55 78.21 -1.32 0.197 -264.02 56.92
Vechime (ani)
b1 -8.03 6.69 -1.20 0.241 -21.75 5.70
Venit (lei)
b2 0.06 0.01 6.02 2E-06 0.04 0.08

Ecuația / funcția de regresie de regresie teoretică:


^y i=b0 +b1 x 1i +b 2 x 2i
Modelul teoretic de regresie bifactorială (multiplă):
y i=b0 +b1 x 1i +b 2 x 2i +e i

Ecuația / funcția de regresie de regresie a aplicației :


^y i=−103,55−8,03x 1 i +0,06 x 2i
Modelul de regresie bifactorială (multiplă) al aplicației:
y i=−103,55−8,03 x 1 i +0,06 x 2i +e i
Datorie Credit Card = f ( Vechime, Venit ) + alți factori( erori/reziduuri)
(lei) (ani) (lei)

b0 =-103,55 – intercept – valoarea medie a datoriei în condițiile în care factorii


(vechime,venit) sunt nuli
b1 = - 8,03 – este estimator coeficient de regresie parțial care arată că, între vechime și
datorie există o legătură indirectă (b 1 < 0), a.î. creșterea vechimii cu un an determină o
scădere a datoriei, în medie, cu 8,03 lei, în condițiile în care venitul rămâne constant
(nu se modifică);
b2 = + 0,06 – este estimator coeficient de regresie parțial care arată că, între venit și
datorie există o legătură directă (b2 > 0), a.î. creșterea venitului cu un leu determină o
creștere a datoriei, în medie, cu 0,06 lei, în condițiile în care vechimea rămâne
constantă (nu se modifică);
b. Stabiliți intervalele de încredere pentru parametrii pantă ai modelului de
regresie determinat (nivel de semnificație α = 0,05);

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -103.55 78.21 -1.32 0.197 -264.02 56.92

Vechime (ani) X1 b1 -8.03 sb …… -21,75 …… 5,70


1 6.69 -1.20 0.241

Venit (lei) X2 b2 0.06 sb …… 0,04 …. 0,08


2 0.01 6.02 2E-06

Intervale de încredere
Parametrul pantă β1 Parametrul pantă β2
Lb ≤ β1 ≤ U b1 L b ≤ β2 ≤ U b 2
1 2

b1 −t crit⋅s b ≤ β1 ≤ b 1 +t crit ¿ s b b2 −t crit⋅s b ≤ β 2 ≤ b 2 +t crit ¿ s b


1 1 2 2

−8 , 03−2 , 052⋅6 , 69≤ β1 ≤ −8 ,03+2, 052⋅6 ,69 0 , 06−2, 052⋅0 ,01≤ β 2 ≤ 0 , 06+2 , 052⋅0 , 01
−21 ,75≤ β1 ≤ 5 ,70 0 , 04≤ β2 ≤ 0 , 08

Pentru o probabilitate de garantare a rezultatelor de 95% (nivel de semnificație α= 0,05)

t crit .=±t α =±t 0 , 05 =±t bilateral 0 , 05 ; 27 =±2 ,052


; n−k −1 ; 30−2−1
2 2

=T.INV.2T (0,05; 27) are ca rezultat 2,052


c. Testaţi semnificaţia parametrilor pantă ai modelului de regresie pentru un
nivel de semnificație α = 0,05
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept b0 -103,55
sb tb Pvb
0,20
Lb
-264,02
Ub
56,92
0 78,21 0 -1,32 0 0 0

Vechime (ani) b1 -8,03


sb tb Pvb
0,24
Lb
-21,75
Ub
5,70
1 6,69 1 -1,20 1 1 1

Venit (lei) b2 0,06


sb tb Pvb
2E-06
Lb
0,04
Ub
0,08
2 0,01 2 6,02 2 2 2

Testarea semnificației
Parametrului
β1 Parametrului β 2
Ipoteze: Ipoteze:
H0:β1= 0, parametrul β1 nu este semnificativ sts H0:β2= 0, parametrul β2 nu este semnificativ sts
H1: β1 0,parametrul β1 este semnificativ sts H1: β2 0,parametrul β2 este semnificativ sts
Criteriul 1 – Test Student
 valoarea critică:  valoarea critică:
tcrit = ± tα/2; 30-2-1=± t 0,05Bilateral;27 = ± 2,052 tcrit = ± tα/2; 30-2-1=± t 0,05Bilateral;27 = ± 2,052

 Statistica testului:  Statistica testului:


b1 − 8 , 03 b2 0 ,06
t c=t calc =t b 1= = =−1 ,20 t c=t calc =t b = = ≃6 , 02
sb 6 ,69 2 sb 0 , 01
1
2

−t crit. (−2 ,052 )<t c (−1 ,20)<t crit .(2, 052)


Decizia: Deoarece b2
t (6 , 02 )> t crit (+ 2, 052 ) H
 0 se
Decizia:
H β respinge, deci H 1 este adevărată  parametrul β 2
 0 se acceptă, deci parametrul pantă 1
NU este semnificativ statistic pentru α=0,05 ESTE semnificativ statistic  modelul este valid
pentru α=0,05
Pvb
Criteriul 2 – Compararea lui P-value (
j ) cu nivelul de semnificație α

Pvb1 (0,24) > α (0,05) parametrul pantă 1 NU


β Pvb2 (0,000002) < α (0,05) parametrul β 2 ESTE
este semnificativ statistic pentru α=0,05 semnificativ statistic  modelul este valid pentru
(H0 se acceptă) α=0,05 (H0 se respinge, H1 se acceptă)
Pvb2=T.DIST.2T(|tb2|;n-k-1)=T.DIST.2T(6,02; 27)
bj j bj L ≤ β ≤U
Criteriul 3 – Compararea semnelor limitelor intervalului de încredere
L (−21 , 75)≤ β 1 ≤ U b1 (+5 , 70 ) L (+0 , 04 )≤ β 2 ≤ U b2 (+0 , 08 )
Deoarece b1  Deoarece b2  aceleași
semne diferite parametrul  parametrul pantă 1
β semn (+)  parametrul β 2 ESTE semnificativ
NU este semnificativ statistic pentru α=0,05 statistic  modelul este valid pentru α=0,05
--------------------------------------- Probabilitatea maximă pentru care putem susține că
parametrul β 2 este semnificativ statistic:
100-Pvb2% = 100 – 0,0002 = 99,9998% > 95%
d. Decideţi dacă modelul este valid, pentru o probabilitate garantare a
rezultatelor de 95%. (nivel de semnificație α = 0,05)
Tabel 2 - ANOVA df SS MS F Sig. F*
1256151.12
2 2512302.24 SSR
Regression ( R ) df R=k SSR MSR=
df R
23.12 1,41E-06
54326.07371  =
Residual - erori 27 1466803.99 SSE MSR
MSE= F c= 0,0000014
(E) df E=n−k −1 SSE
df E MSE 1
29 3979106.23
Total df T =n−1 SST =SSR+SSE
df T =df R+ df E

 Ipoteze
H0: MSR=MSE modelul nu este valid statistic
H1: MSR>MSE modelul este valid statistic
 Valoarea critică:
Vcrit = Fcrit=Fα;k;n-k-1=F0,05;2;30-2-1=F0,05;2;27=3,35
=F.INV.RT(0,05; 2;27)

 Valoare calculată (Statistica testului) adică calculat F=F =F c are la bază relaţia:
SSR SSR 2512302 ,24
MSR df k 2 1256151 ,12
F c= = R= = = ≃23 ,12
MSE SSE SSE 1466803 , 99 54326 , 07
df E n−k −1 27

F F
 Decizia: Deoarece c (23,12)  crit. (3,35) 
H 0 se respinge, deci H 1 este adevărată  modelul este
valid pentru un nivel de semnificație α=0,05

Decizia modelului este confirmată prin valoarea Sig F = 1,41E-06 (0,00000141) care se determină cu
formula:=F.DIST.RT (Fc, k, n-k-1)
=F.DIST.RT (23,12; 2; 27) din care rezultă 1,41E-06 (0,00000141)
Deoarece Signifiance F (0,00000414) < α (0,05) 
H 0 se respinge, deci H 1 este adevărată  modelul este
valid pentru un nivel de semnificație α=0,05

Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100-Sig F% = 100 – 0,000141 = 99,999859% > 95%

e. Apreciaţi intensitatea legăturii dintre cele trei variabile, folosind un indicator


adecvat şi testaţi semnificaţia acestuia (α = 0,05).
Regression Statistics
Multiple R 0.79
R Square 0.63
Adjusted R Square 0.60
Standard Error 233.08
Observations 30

Datorie Credit Card = f ( Vechime, Venit ) + alți factori( erori/reziduuri)


(lei) (ani) (lei)
Interpretarea intensității legăturii dintre variabilele yi și xi:
Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

Interpretare:
Raportul de corelație (Multiple R) = R=0,79 arată că, legătura dintre datorie și cei doi factori de
influență (vechime și venit) este puternică deoarece R ∈ [ 0,75 ; 0,95 ]

Testarea semnificației Raportului de corelație


 Ipoteze
H0: R∗¿ 0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
H1: R∗¿ 0 Raportul de corelație este semnificativ statistic (modelul este valid)

 Valoarea critică: Fcrit=Fα;k;n-k-1=F0,05;2;30-2-1=F0,05;2;27=3,35


=F.INV.RT(0,05; 2;27)

F calculat =F calc=F c are la bază relaţia:


 Valoare calculată (Statistica testului) adică
2 2
R n−k−1 0 , 79 30−2−1 0 , 63 27
F c= ⋅ = ⋅ = ⋅ ≃22 , 95≃23
1−R 2 k 1−0 ,79 2 2 1−0 , 63 2
 Decizia: deoarece c
F ( 23 )> F ( 3 ,35 )
crit H
 0 se respinge, deci H 1 este adevărată  Raportul de
corelație este semnificativ statistic (modelul este valid) pentru un nivel de semnificație α=0,05

f. Determinaţi influenţa procentuală a vechimii la locul de muncă şi a venitului


gospodăriei asupra variaţiei datoriei pe credit-card.
Regression Statistics
Multiple R 0.79
R Square 0.63
Adjusted R Square 0.60
Standard Error 233.08
Observations 30

Coeficientul de determinație (R Square = R 2) cu valoarea de 0,63 arată că, 63% reprezintă


influența conjugată a celor doi factori (vechime și venit) = influența modelului de regresie, în
variația datoriei credit-card.

g. Interpretarea coeficienților de corelație din matricea de corelație determinată


Interpretarea DIRECȚIEI legăturii dintre variabilele yi și xi (SEMNULUI coeficientului r):
Indirectă Directă
r < 0 adică r ϵ (-1; 0) r > 0 adică r ϵ (0; 1)

Interpretarea INTENSITĂȚII legăturii dintre variabilele yi și xi (VALORII coeficientului r) :


Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

Matricea de corelație multiplă:


Vechimea la locul Venitul Datoria pe
de muncă actual gospodăriei Credit-card
(ani) X1 (lei) X2 (lei) Y
Vechimea la locul de muncă actual (ani) X1 1
Venitul gospodăriei (lei) X2 0,61 1
Datoria pe Credit-card (lei) Y 0,37 0,78 1
Interpretare coeficienți de corelație parțiali:
rX ,X = + 0,61
1 2

Între vechime și venit există o legătură directă de intensitate medie (r > 0 și r ϵ [0,5; 0,75] )
rX ,Y = + 0,37
1

Între vechime și datoria pe credit-card există o legătură directă slabă (r > 0 și r ϵ [0,2; 0,5] )
rX ,Y = + 0,78
2

Între vechime și datoria pe credit-card există o legătură directă puternică (r > 0 și r ϵ [0,75; 0,95] )

S-ar putea să vă placă și