Sunteți pe pagina 1din 17

CURS 8 – 17.11.

2021 – APLICAȚII REGRESIA LINIARĂ SIMPLĂ ȘI


MULTIPLĂ
Problema 1. O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de
incendiul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru
aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt
înregistrate date referitoare la valoarea prejudiciului (mii Euro) şi distanţa dintre incendiu şi cea mai
apropiată staţie de pompieri (zeci km). In urma prelucrarii datelor cu programul EXCEL, s-au obtinut
urmatoarele rezultate (in ipoteza unei legaturi liniare intre variabile):

Regression Statistics
Multiple R ….
R Square ….
Adjusted R Square ….
Standard Error 2,3163
Observations n=15

ANOVA
df SS MS F Significance F
Regression … ….. …. …. 0,000000012
Residual … … …..
Total … 911,5173

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept ….. 1,4202 7,2365 0,000007 … …
Distanta
(X)
(zeci km) b1= 4,9193 0,3927 …. 0,000000012 … …

Alegeți afirmațiile adevărate sau completați spațiile goale:

a) Variabila independenta este ......................., iar cea dependenta este .............................

Răspuns:
Variabila independentă (sau variabila cauzală sau explicativă) (X) este distanța dintre locul incendiului
și cea mai apropiată stație de pompieri.
Variabila dependentă (sau variabila efect sau explicată) (Y) este valoarea prejudiciului.
Variabila X se gaseste intotdeauna sub cuvantul Intercept.

b) Volumul esantionului este .............


Răspuns:
Volumul eșantionului n = 15 (numărul de incendii selectate din populația totală de incendii) – Observations
din Tabelul 1 – Regression Statistics.

c) În cazul testării validității modelului de regresie, ipotezele sunt:


1. H0: MSR(P) = MSE(P) (modelul de regresie nu este valid); H1: MSR(P) > MSE(P)
(modelul de regresie este valid)
2. H0: MSR(P) < MSE(P) (modelul de regresie nu este valid); H1: MSR(P) > MSE(P)
(modelul de regresie este valid)
3. H0: MSR(P) ≠ MSE(P) (modelul de regresie nu este valid); H1: MSR(P) = MSE(P)
(modelul de regresie este valid)

Răspuns: afirmația 1. Este corectă.

d) Modelul de regresie ESTE / NU ESTE valid deoarece:


1. Fcalc ≤ Fcrit
2. Significance F ≥ α
3. Significance F < α
4. Fcalc > Fcrit

Răspuns:
Testarea validității modelului de regresie se poate face prin două metode:
1. Prin compararea valorii calculate a testului F (Fcalc) cu valoara critică (Fcrit):
- Dacă Fcalc > Fcrit , atunci se respinge ipoteza nulă H0, se acceptă ipoteza alternativă H1, și deci
modelul de regresie este valid.
- Dacă Fcalc ≤ Fcrit , atunci se acceptă ipoteza nulă H0, și deci modelul de regresie nu este valid.
2. Prin compararea valorii Significance F (Sig. F) cu nivelul de semnificație α=0.05:
- Dacă Significance F < α, se accepta H1, si deci modelul este valid.
- Dacă Significance F ≥ α, se accepta H0, si deci modelul nu este valid.

Se completează tabelul ANOVA, folosindu-ne și de Tabelul Regression Statistics:


Regression Statistics
Multiple R R=0.9609
R Square R^2=0.9235
Adjusted R Square 1-MSE/MST=….
Standard Error √𝑴𝑺𝑬 =2,3163
Observations n=15

ANOVA
df SS MS=SS/df F Significance F
0,000000012<0.05,
se accepta H1,
Regression k=1 SSR=841.7664 MSR=841.7664 Fcalc=156.8861 model valid
Residual n-k-1=13 SSE=69.7509 MSE=5.3654
Total n-1=14 SST=911,5173 1-alfa
= 0.95 (vezi Lower si Upper din tabelul 3)
Alfa = 0.05 (5%)
Coloana df:
k=1
n-k-1=15-1-1=13
n-1=14
Std. Error (Tabel 1) = 𝒔𝒆 = √𝑴𝑺𝑬 = 𝟐. 𝟑𝟏𝟔𝟑
MSE = (2.3163)^2= 5,3654
𝑆𝑆𝐸
𝑀𝑆𝐸 =
𝑛−𝑘−1

SSE = MSE * (n-k-1) = 5.3654 * 13 = 69,7509


SSR = SST - SSE = 911.5173 – 69.7509 = 841.7664

𝑆𝑆𝑅
𝑀𝑆𝑅 = = 841.7664
𝑘
𝑀𝑆𝑅 841.7664
𝐹𝑐𝑎𝑙𝑐 = = = 156,8861
𝑀𝑆𝐸 5.3654

Fcrit = 4.67 (=F.INV.RT(0.05,1,13))


Cum Fcalc = 156,8861, iar Fcrit = 4.67 rezultă că Fcalc > Fcrit , se respinge ipoteza nulă H0, se acceptă ipoteza
alternativă H1, și deci modelul de regresie este valid
Cum Significance F =0,000000012 < α =0.05, modelul de regresie este valid.
Afirmațiile 3 și 4 sunt corecte.

e) Probabilitatea maximă pentru care putem afirma că modelul este valid, la un nivel de semnificație de
5%, este .....................

Răspuns: Probabilitatea maxima pt. care putem sustine ca modelul este valid se determina cu relatia:
100-Significance F%= 100-0.000000012*100=100-0.0000012=99.9999988%>95%
F.DIST.RT(156.8861,1,13) – determinarea lui Significance F

f) Coeficientul de determinație are valoarea ........., arătând că ..............................................................


Răspuns:
𝑆𝑆𝑅
Coeficientul de determinaţie este 𝑅 2 = = 0,9235 şi arată că 92,35% (adică R2%) din variaţia totală
𝑆𝑆𝑇
a valorii prejudiciului cauzat de incendii este explicată de variaţia variabilei independente (distanţa între
locul incendiului şi staţia de pompieri) sau „este explicată de modelul de regresie). Indicatorul se gaseste în
primul tabel Excel, sub denumirea de „R Square”.
Restul până la 100% (adică 7,65%) arată cât la sută din variaţia totală a valorii prejudiciului cauzat de
incendii este explicată de variaţia altor factori de influenţă (factori aleatori), în afară de distanţa între locul
incendiului şi staţia de pompieri sau „cât la sută .... nu este explicată de modelul de regresie).

g) Raportul de corelație are valoarea ....................., și arată că ..................................................................

Răspuns:
Intensitatea legăturii dintre cele două variabile este măsurată cu ajutorul raportul de corelaţie.
R = 0,9609 (radical din R^2)
Indicatorul ia valori in intervalul [0;1] si se gaseste in primul tabel Excel sub denumirea de „Multiple R”.
Dacă R→ 1 legătura dintre cele două variabile este puternică
Dacă R→ 0 legătura dintre cele două variabile este slabă
Dacă R→ 0.5 legătura dintre cele două variabile este moderată
Intre 0 si 0.2 – nu exista legatura semnificativa
Intre 0.2 si 0.4 – legatura slaba
Intre 0.4 si 0.6 – legatura de intensitate medie
Intre 0.6 si 0.8 – legatura puternica
Intre 0.8 si 1.0 – legatura foarte puternica (de tip determinist)
În cazul nostru valoarea este foarte apropiată de 1, deci între variabile există o legătură foarte puternică.
h) Raportul de corelație la nivelul populației totale (R(P)) este/nu este semnificativ statistic deoarece:
1. Fcalc ≤ Fcrit
2. Significance F ≥ α
3. Significance F < α
4. Fcalc > Fcrit
Răspuns:
Semnificația statistică a raportului de corelație se testează în același mod ca și validitatea modelului:
Se formulează ipotezele:
H0: R(P) = 0 (R(P) nu este semnificativ statistic)
H1: R(P) > 0 (R(P) este semnificativ statistic)

Unde R(P) reprezintă raportul de corelaţie în populaţia totală, iar R este raportul de corelaţie în eşantion.

1. Prin compararea valorii calculate a testului F (Fcalc) cu valoara critică (Fcrit):


- Dacă Fcalc > Fcrit , atunci se respinge ipoteza nulă H0, se acceptă ipoteza alternativă H1, și deci R(P)
este semnificativ statistic.
- Dacă Fcalc ≤ Fcrit , atunci se acceptă ipoteza nulă H0, și deci R(P) nu este semnificativ statistic.
2. Prin compararea valorii Significance F (Sig. F) cu nivelul de semnificație α=0.05:
- Dacă Significance F < α, atunci R(P) este semnificativ statistic.
- Dacă Significance F ≥ α, atunci R(P) nu este semnificativ statistic.
Cum Fcalc = 156,8861, iar Fcrit = 4.67 rezultă că Fcalc > Fcrit , se respinge ipoteza nulă H0, se acceptă ipoteza
alternativă H1, și deci R(P) este semnificativ statistic.
Cum Significance F =0,000000012 < α =0.05, R(P) este semnificativ statistic.

Variantele 3 și 4 sunt corecte.

i) Completaţi următoarea matrice de corelaţie:

Distanţa (X) Valoarea prejudiciului (Y)


Distanţa (X) 1
Valoarea prejudiciului (Y) rxy=….. 1

unde rxy reprezintă coeficientul de corelaţie liniară Pearson în eşantion. În cazul legăturii liniare, raportul
de corelatie este egal cu coeficientul de corelatie liniara Pearson (în expresie absolută), adică
R = rxy
Cum R = 0,9609 şi b1>0 rezultă că rxy = +0,9609, indicând o legătură directă şi foarte puternică între
variabile.
Matricea devine, așadar:
Distanţa (X) Valoarea prejudiciului (Y)
Distanţa (X) 1
Valoarea prejudiciului (Y) 0,9609 1
j) Modelul de regresie liniara in esantion este:
c1. 𝑦̂𝑖 = 10,2779 + 4,9193 ⋅ 𝑥𝑖 , i = 1,15
c2. 𝑦̂𝑖 = 4,9193 + 10,2779 ⋅ 𝑥𝑖 , i = 1,15
c3. 𝑦̂𝑖 = 1.4202 + 0.3927 ⋅ 𝑥𝑖 , i = 1,15
c4. 𝑦̂𝑖 = −12,4376 + 4,9193 ⋅ 𝑥𝑖 , i = 1,15

Răspuns:
Standard P-value
Coefficients Error t Stat (Sig.) Lower 95% Upper 95%
Intercept b0 = 10.2779 𝑠𝑏0 =1,4202 7,2365 0,000007 … …
Distanta
(zeci km) b1 = 4,9193 𝑠𝑏1 =0,3927 …. 0,000000012 … …

Forma generală a ecuaţiei de regresie liniară la nivelul eșantionului este:

yˆi = b0 + b1  xi
unde b0 este estimatorul parametrului Intercepție (Intercept) 𝛽0
iar b1 este estimatorul parametrului Pantă (Slope) 𝛽1

Valorile celor doi estimatori se găsesc în coloana Coefficients a tabelului 3, rezultă că:
b0 =? și b1 = 4,9193

𝛽0
𝑏0 𝑏0
𝑡𝑐𝑎𝑙𝑐 = = = 7,2365
𝑠𝑏0 1,4202
𝑏0 = 10.2779

Prin urmare forma corectă a ecuației este 𝑦̂𝑖 = 10,2779 + 4,9193 ⋅ 𝑥𝑖

k) Valoarea estimatorului “pantă” a dreptei de regresie arata ca:


d1. La o crestere a distantei de la locul incendiului pana la statia de pompieri cu 1 zeci km, estimam ca
valoarea prejudiciului va creste in medie cu 4.9193 mii EUR.
d2. Exista o legatura liniara inversa intre cele doua variabile.
d3. Exista o legatura liniara directa intre variabile.
d4. Daca distanta de la locul incendiului pana la statia de pompieri creste cu 1 zeci km, atunci estimam
ca valoarea prejudiciului scade, in medie, cu 4.9193 mii EUR.

Estimatorul de tip Pantă (b1) se interpretează astfel:


- Semnul său arată direcția legăturii dintre cele două variabile: dacă b1>0 există o legătură directă
între variabile; dacă b1<0 există o legătură inversă între variabile; Afirmația d2. Este falsă, iar d3
este adevărată.
- Valoarea sa arată cu câte unități de măsură se modifică în medie Y dacă X se modifică cu 1 unitate
de măsură. Afirmația d1 este adevărată, legătura fiind directă valorile celor două variabile se
modifică în același sens, fie ambele cresc fie ambele scad. Afrimația d4 nu este adevărată.

l) Completati urmatoarea afirmatie:


“Daca distanta intre locul incendiului si statia de pompieri ar fi 0 zeci km (adica incendiul ar izbucni in
imediata apropiere a statiei de pompieri), atunci valoarea medie a prejudiciului ar fi de ..... mii EUR”.
Interpretarea estimatorului Intercept (𝛽0 ) este: 𝛽0 arată valoarea medie a lui Y, dacă X este 0.
Răspuns:
“Daca distanta intre locul incendiului si statia de pompieri ar fi 0 zeci km (adica incendiul ar izbucni in
imediata apropiere a statiei de pompieri), atunci valoarea medie a prejudiciului ar fi de 10,2779 mii EUR”.

m) Parametrul Intercept (𝛽0 ) este/nu este semnificativ statistic, la un nivel de semnificatie α = 0.05 (5%),
valoarea critica
deoarece:
f1. |𝑡𝑐𝑎𝑙𝑐 (𝛽0 )| > 𝑡𝑐𝑟𝑖𝑡
f2. |𝑡𝑐𝑎𝑙𝑐 (𝛽0 )| < 𝑡𝑐𝑟𝑖𝑡
f3. P-value(𝛽0 ) > 0.05
f4. P-value(𝛽0 ) < 0.05
f5. 𝐿𝑜𝑤𝑒𝑟(𝛽0 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽0 ) sunt pozitive, avand acelasi semn.
F6. 𝐿𝑜𝑤𝑒𝑟(𝛽0 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽0 ) au semne opuse.
Răspuns:
Testarea semnificației statistice a parametrului 𝜷𝟎 :
Ipotezele testate:
H0: 𝛽0 = 0 (parametrul 𝛽0 nu este semnificativ statistic);
H1: 𝛽0 ≠ 0 (parametrul 𝛽0 este semnificativ statistic);

Metode de testare a semnificației parametrului 𝛽0 :

1. Prin compararea valorii calculate a testului t (𝒕𝒄𝒂𝒍𝒄 (𝜷𝟎 )) cu valoarea critică (tcrit=2.16).
- Dacă |𝑡𝑐𝑎𝑙𝑐 (𝛽0 )| > 𝑡𝑐𝑟𝑖𝑡 , se respinge H0, se acceptă H1, deci parametrul 𝛽0 este semnificativ
statistic.
- Dacă |𝑡𝑐𝑎𝑙𝑐 (𝛽0 )| ≤ 𝑡𝑐𝑟𝑖𝑡 , se acceptă H0, deci parametrul 𝛽0 nu este semnificativ statistic.

2. Prin compararea valorii P-value(𝜷𝟎 ) cu nivelul de semnificație alfa (α = 0.05):


- Dacă P-value(𝛽0 ) < α, atunci parametrul 𝛽0 este semnificativ statistic.
- Dacă P-value(𝛽0 ) ≥ α, atunci parametrul 𝛽0 nu este semnificativ statistic

3. Prin analiza semnelor celor două limite ale intervalului de încredere pentru 𝜷𝟎 (𝐿𝑜𝑤𝑒𝑟(𝛽0 )
si 𝑈𝑝𝑝𝑒𝑟(𝛽0 ))

- Dacă limitele au semne opuse (una este negativă, cealaltă pozitivă) atunci intervalul îl cuprinde
pe 0, 𝛽0 = 0 și deci 𝛽0 nu este semnificativ statistic.
- Dacă limitele au același semn (ambele sunt negative sau ambele sunt pozitive) atunci intervalul
nu îl cuprinde pe 0, 𝛽0 ≠ 0 și deci 𝛽0 este semnificativ statistic

𝑡𝑐𝑎𝑙𝑐 (𝛽0 ) = 7,2365> tcrit =2,16 (T.INV.2T(0.05,13))


P-value(𝛽0 )= 0,000007<0.05
𝐿𝑜𝑤𝑒𝑟(𝛽0 ) =7,2096>0
𝑈𝑝𝑝𝑒𝑟(𝛽0 ) =13,3462>0
Având în vedere aceste trei metode de testare a semnificației parametrului 𝛽0 , rezultă că sunt îndeplinite
condițiile din afirmațiile f1, f4 și f5 , deci aceste afirmații sunt adevărate.

n) In cazul testarii semnificatiei parametrului Intercept (Intercepție) 𝛽0 , ipotezele testate sunt:


1. H0:  0 =0 (parametrul  0 este semnificativ statistic), H1:  0 ≠0 (parametrul  0 nu este
semnificativ statistic)
2. H0: 𝛽0 ≠ 0 (parametrul  0 este semnificativ statistic), H1: 𝛽0 = 0 (parametrul  0 nu este
semnificativ statistic)
3. H0: 𝛽0 = 0 (parametrul 𝛽0 nu este semnificativ statistic); H1: 𝛽0 ≠ 0 (parametrul 𝛽0 este
semnificativ statistic);

Răspuns: 3) este varianta adevărată.

o) Probabilitatea maxima pt. care putem sustine ca  0 este semnificativ statistic este .........

Răspuns:
Probabilitatea maxima pt. care putem sustine ca 𝛽0 este semnificativ statistic se determina cu relatia:
100-Pvalue(  0 )%=100-0.000007*100=100-0.0007=99.9993>95%.
T.DIST.2T(7.2365,13) – determinarea lui pvalue
p) Probabilitatea maxima pt. care putem sustine ca 𝛽1 este semnificativ statistic este .........

Răspuns:
Probabilitatea maxima pt. care putem sustine ca 𝛽1 este semnificativ statistic se determina cu relatia:
100-Pvalue(𝛽1 )%= 100-0.000000012*100=100-0.0000012=99.9999988>95%.

q) Intervalul de încredere pentru parametrul  0 arată că:


1. Dacă distanța de la locul incendiului până la stația de pompieri ar fi egală cu 0, atunci valoarea
medie a prejudiciului ar fi cuprinsă între 4.0708 și 5.7678 mii EUR.
2. Dacă distanța de la locul incendiului până la stația de pompieri ar fi egală cu 0, atunci valoarea
medie a prejudiciului ar fi cuprinsă între 7.2096 și 13.3462 mii EUR.
3. Nu se poate interpreta acest interval.

Răspuns:

𝑏0 − 𝑡𝑐𝑟𝑖𝑡 ⋅ 𝑠𝑏0 ≤ 𝛽0 ≤ 𝑏0 + 𝑡𝑐𝑟𝑖𝑡 ⋅ 𝑠𝑏0

10.2779 − 2.16 ⋅ 1,4202 ≤ 𝛽0 ≤ 10.2779 + 2.16 ⋅ 1,4202


7,2096 ≤ 𝛽0 ≤ 13,3462

Varianta 2) este corectă.

Valorile celor doua limite ale intervalului pentru un anumit parametru se interpreteaza numai daca
parametrul respectiv este semnificativ statistic.

r) Intervalul de încredere pentru parametrul 𝛽1 arată că:


1. Dacă distanța de la locul incendiului până la stația de pompieri ar crește cu 1 zeci km, atunci
valoarea prejudiciului ar crește, în medie, cu o valoare cuprinsă între 4.0708 și 5.7678 mii
EUR.
2. Dacă distanța de la locul incendiului până la stația de pompieri ar crește cu 1 zeci km, atunci
valoarea prejudiciului ar crește, în medie, cu o valoare cuprinsă între 7.2096 și 13.3462 mii
EUR.
Răspuns:
𝑏1 − 𝑡𝑐𝑟𝑖𝑡 ⋅ 𝑠𝑏1 ≤ 𝛽1 ≤ 𝑏1 + 𝑡𝑐𝑟𝑖𝑡 ⋅ 𝑠𝑏1
Idem mai sus.
4,0708 ≤ 𝛽1 ≤ 5,7678

Varianta 1) este corectă.

s) Dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci km, atunci nivelul
prejudiciului ar fi .........
În modelul de regresie liniară yˆ i = b0 + b1  xi = 10,2779 + 4,9193  xi , i = 1,15 înlocuim pe xi cu
valoarea de 6,5, obţinându-se valoarea corespunzătoare a lui Y:

yˆ i = 10,2779 + 4,9193  6,5 = 42,25


mii euro.

Notațiile pentru indicatorii cuprinși în tabelul dat sunt:

Regression Statistics
Multiple R R = 0,9609 raportul de corelaţie
R Square R2 = 0,9234 coeficientul de determinaţie
Adjusted R Square 0,9175
Standard Error Se= MSE = 2,3163 abaterea standard a erorilor
Observations n = 15 volumul eşantionului

ANOVA
df SS MS F Significance F
Regression k=1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654
Total n-1 = 14 SST = 911,5173

k=numarul de variabile independente (k=1)

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
s b0 = Lower(β0) = Upper(β0) =
Intercept b0 = 10,2779 1,4202 tcalc(β0) = 7,2365 0,000007 7,2096 13,3462
Distanta sb1 = Lower(β1) = Upper(β1) =
(zeci km) b1 = 4,9193 0,3927 tcalc(β1) = 12,525 0,000000012 4,0708 5,7678
Problema 2. Un profesor de statistică vrea să afle dacă există o relaţie între punctajele studenţilor
săi la testul de statistică, timpul petrecut în cluburi (număr zile) şi cunoştinţele de matematică ale
studenţilor. Pentru 20 de studenţi selectaţi aleator s-au înregistrat valorile următoarelor variabile:
- Timpul petrecut în club, de regulă, pe lună (zile)
- Nota de promovare a examenului de matematică (puncte)
- Punctajul obţinut la testul de statistica (puncte)
În urma prelucrării datelor, în ipoteza unei legături liniare, s-au obţinut următoarele rezultate SPSS:

Model Summary

Model R R Square Adjusted R Square Std. Error of the Estimate

1 Se=√MSE=6,58

a. Predictors: (Constant), Nota_mate, Nr_zile_club

ANOVAa
Model Sum of Squares df Mean Square F Sig.
Regression 2729,25 … … …. 0,000002
1 Residual ….. … …
Total ….. …

Coefficientsa
Model Unstandardized Standardized t Sig. 95,0% Confidence Interval for B
Coefficients Coefficients

B Std. Error Beta Lower Bound Upper Bound


Sb0=10,7
(Constant) b0= 37.46 3,49 ,003 14,81 60,11
36
Nr_zile_club Sb1=1,43
1 b1 = -2,870 -,333 …. ,062 -5,90 ….
(X1) 5
Nota_mate Sb2=1,15
b2 = 4.25 ,611 …. ,002 …. 6,70
(X2) 9

a) Variabila/variabilele independenta(e) este/sunt ......................., iar cea dependenta


este .............................

Răspuns:
2 Variabile independente (sau variabile cauzale sau explicative sau exogene):
X1 – variabila independenta: Nr. zile in club
X2 – variabila independenta: Nota matematica
1 Variabilă dependent (sau variabiă effect, explicate sau endogenă):
Y – variabila dependenta: Punctajul la statistica
Cele doua variabile independente pot fi gasite in tabelul “Coefficients”, sub cuvantul
“Constant” (in SPSS) sau “Intercept” (in Excel).

b) Volumul esantionului este .............


Răspuns:
Volumul eșantionului n = 20 (numărul de studenți selectați din populația totală).
c) Modelul de regresie liniara in esantion este:
c1. 𝑦̂ = 37,46 + 2,87 ⋅ 𝑥1 − 4,25 ⋅ 𝑥2 , i = 1,20
c2. 𝑦̂ = 37,46 − 2,87 ⋅ 𝑥1 + 4,25 ⋅ 𝑥2 , i = 1,20
c3. 𝑦̂ = 37,46 + 4,25 ⋅ 𝑥1 − 2,87 ⋅ 𝑥2 , i = 1,20

Modelul liniar de regresie la nivelul populatiei totale este yi =  0 + 1 x1i +  2 x2i +  i .


 0 , 1 ,  2 reprezinta parametrii modelului (primul se numeste “interceptie” sau termenul liber; al
doilea si al treilea sunt parametrii “panta” , numiti si coeficienti de regresie partiala).
Modelul liniar de regresie la nivelul esantionului este yi = b0 + b1 x1i + b2 x2i + ei .
b0 , b1 , b2 sunt estimatorii parametrilor  0 , 1 ,  2 .
Ecuaţia de regresie liniară este:
𝑦̂ = 𝑏0 + 𝑏1 ⋅ 𝑥1 + 𝑏2 ⋅ 𝑥2
Valorile celor trei estimatori (b0, b1 si b2) se gasesc in coloana B – Unstandardized coefficients
din SPSS, sau in coloana Coefficients din Excel. .
b1= - 2.870
b0, b2 = ?

𝛽0
𝑏0 𝑏0
𝑡𝑐𝑎𝑙𝑐 = = = 3.49
𝑠𝑏0 10.736

𝑏0 = 10.736 ∗ 3.49 = 37.46

Upper(Beta_2)= b2 + tcrit * sb2

tcrit = ?

T.INV.2T(0.05,17)
tcrit = 2.11
6,70 = b2 + 2.11 * 1.159
b2 = 4.25
n-k-1=20-2-1=17

Răspuns: c2.

d) Completați afirmațiile:
1. Dacă numarul zilelor petrecute in club creste cu 1 zi, punctajul la statistica scade in medie
cu …… puncte (cu conditia ca nota la mate sa ramana constanta)
2. Dacă nota la mate creste cu 1 punct, punctajul la statistica creste in medie cu …… puncte.
(cu conditia ca nr. de zile petrecut in club sa ramana constant)
3. Între nota la mate și punctajul la statistică există o legătură directă/inversă (b2>0)
4. Între numărul de zile petrecut în club și punctajul la statistică există o legătură
directă/inversă. (b1<0)
Afirmația 1) se referă la interpretarea estimatorului pantă b1, deci se completează cu valoarea
absolută a acestuia (2.87).
Afirmația 2) se referă la interpretarea estimatorului pantă b2, deci se completează cu valoarea
acestuia (4.25).
Afirmația 3): b2>0, rezulta ca legatura dintre Y si X2 este directa
Afirmația 4): b1<0, rezulta ca legatura dintre Y si X1 este inversa

e) Parametrul de tip Slope (𝛽1) este/nu este semnificativ statistic, la un nivel de semnificatie α =
0.05 (5%), deoarece:
e1. |𝑡𝑐𝑎𝑙𝑐 (𝛽1 )| > 𝑡𝑐𝑟𝑖𝑡
e2. |𝑡𝑐𝑎𝑙𝑐 (𝛽1 )| < 𝑡𝑐𝑟𝑖𝑡
e3. P-value(𝛽1 ) > 0.05
e4. P-value(𝛽1 ) < 0.05
e5. 𝐿𝑜𝑤𝑒𝑟(𝛽1 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽1 ) sunt pozitive, avand acelasi semn.
e6. 𝐿𝑜𝑤𝑒𝑟(𝛽1 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽1 ) au semne opuse.

Răspuns:
Testarea semnificației statistice a parametrului 𝜷𝟏 :
Ipotezele testate:
H0: 𝛽1 = 0 (parametrul 𝛽1 nu este semnificativ statistic);
H1: 𝛽1 ≠ 0 (parametrul 𝛽1 este semnificativ statistic);

Metode de testare a semnificației parametrului 𝛽1:

1. Prin compararea modulului valorii calculate a testului t (𝒕𝒄𝒂𝒍𝒄 (𝜷𝟏 )) cu valoarea


critică (tcrit=2.11).
- Dacă |𝑡𝑐𝑎𝑙𝑐 (𝛽1 )| > 𝑡𝑐𝑟𝑖𝑡 , se respinge H0, se acceptă H1, deci parametrul 𝛽1 este
semnificativ statistic.
- Dacă |𝑡𝑐𝑎𝑙𝑐 (𝛽1 )| ≤ 𝑡𝑐𝑟𝑖𝑡 , se acceptă H0, deci parametrul 𝛽1 nu este semnificativ statistic.

2. Prin compararea valorii P-value sau Sig. (𝜷𝟏 ) cu nivelul de semnificație alfa (α =
0.05):
- Dacă P-value(𝛽1) < α, atunci parametrul 𝛽1 este semnificativ statistic.
- Dacă P-value(𝛽1) ≥ α, atunci parametrul 𝛽1 nu este semnificativ statistic
3. Prin analiza semnelor celor două limite ale intervalului de încredere pentru 𝜷𝟏
(𝐿𝑜𝑤𝑒𝑟(𝛽1 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽1 ))
- Dacă limitele au semne opuse (una este negativă, cealaltă pozitivă) atunci intervalul îl
cuprinde pe 0, 𝛽1 = 0 și deci 𝛽1 nu este semnificativ statistic.
- Dacă limitele au același semn (ambele sunt negative sau ambele sunt pozitive) atunci
intervalul nu îl cuprinde pe 0, 𝛽1 ≠ 0 și deci 𝛽1 este semnificativ statistic
𝑏1 −2.87
𝑡𝑐𝑎𝑙𝑐 (𝛽1 ) = = = −2
𝑠𝑏1 1.435
|𝑡𝑐𝑎𝑙𝑐 (𝛽1 )| = 2< tcrit =2,11

P-value(𝛽1)= 0,062>0.05
𝐿𝑜𝑤𝑒𝑟(𝛽1 ) = -5,90<0
𝑈𝑝𝑝𝑒𝑟(𝛽1 ) = 𝑏1 + 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏1 = −2.87 + 2.11 ∙ 1.435 = 0,16>0
Coefficientsa
Model Unstandardized Standardized t Sig. 95,0% Confidence Interval for B
Coefficients Coefficients

B Std. Error Beta Lower Bound Upper Bound


(Constant) 37.46 10,736 3,49 ,003 14,81 60,11
1 Nr_zile_club -2,870 1,435 -,333 -2 ,062>0.05 -5,90 0.16.
Nota_mate 4.25 1,159 ,611 …. ,002 …. 6,70

Având în vedere aceste trei metode de testare a semnificației parametrului 𝛽1, rezultă că sunt
indeplinite conditiile din afirmațiile e2, e3 și e6 si deci acestea sunt adevărate.

f) Parametrul Slope (𝛽2) este/nu este semnificativ statistic, la un nivel de semnificatie α = 0.05
(5%), valoarea critica
( tcrit =2,11 ), deoarece:

f1. |𝑡𝑐𝑎𝑙𝑐 (𝛽2 )| > 𝑡𝑐𝑟𝑖𝑡


f2. |𝑡𝑐𝑎𝑙𝑐 (𝛽2 )| < 𝑡𝑐𝑟𝑖𝑡
f3. P-value(𝛽2) > 0.05
f4. P-value(𝛽2) < 0.05
f5. 𝐿𝑜𝑤𝑒𝑟(𝛽2 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽2 ) sunt pozitive, avand acelasi semn.
f6. 𝐿𝑜𝑤𝑒𝑟(𝛽2 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽2 ) au semne opuse.

Răspuns:
Testarea semnificației statistice a parametrului 𝜷𝟐 :
Ipotezele testate:
H0: 𝛽2 = 0 (parametrul 𝛽2 nu este semnificativ statistic);
H1: 𝛽2 ≠ 0 (parametrul 𝛽2 este semnificativ statistic);

Metode de testare a semnificației parametrului 𝛽2:

1. Prin compararea valorii calculate a testului t (𝒕𝒄𝒂𝒍𝒄 (𝜷𝟐 )) cu valoarea critică


(tcrit=2.11).
- Dacă |𝑡𝑐𝑎𝑙𝑐 (𝛽2 )| > 𝑡𝑐𝑟𝑖𝑡 , se respinge H0, se acceptă H1, deci parametrul 𝛽2 este
semnificativ statistic.
- Dacă |𝑡𝑐𝑎𝑙𝑐 (𝛽2 )| ≤ 𝑡𝑐𝑟𝑖𝑡 , se acceptă H0, deci parametrul 𝛽2 nu este semnificativ statistic.

2. Prin compararea valorii P-value(𝜷𝟐 ) cu nivelul de semnificație alfa (α = 0.05):


- Dacă P-value(𝛽2) < α, atunci parametrul 𝛽2 este semnificativ statistic.
- Dacă P-value(𝛽2) ≥ α, atunci parametrul 𝛽2 nu este semnificativ statistic

3. Prin analiza semnelor celor două limite ale intervalului de încredere pentru 𝜷𝟐
(𝐿𝑜𝑤𝑒𝑟(𝛽2 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽2 ))
- Dacă limitele au semne opuse (una este negativă, cealaltă pozitivă) atunci intervalul îl
cuprinde pe 0, 𝛽2 = 0 și deci 𝛽2 nu este semnificativ statistic.
- Dacă limitele au același semn (ambele sunt negative sau ambele sunt pozitive) atunci
intervalul nu îl cuprinde pe 0, 𝛽2 ≠ 0 și deci 𝛽2 este semnificativ statistic
Coefficientsa
Model Unstandardized Standardized t Sig. 95,0% Confidence Interval for B
Coefficients Coefficients

B Std. Error Beta Lower Bound Upper Bound


(Constant) 37.46 10,736 3,49 ,003 14,81 60,11
1 Nr_zile_club -2,870 1,435 -,333 -2 ,062 -5,90 0.16
Nota_mate 4.25 1,159 ,611 3.66 ,002<0.05 1.8 6,70

𝑏2 4.25
𝑡𝑐𝑎𝑙𝑐 (𝛽2 ) = = = 3.66
𝑠𝑏2 1.159

|𝑡𝑐𝑎𝑙𝑐 (𝛽2)| = 3,66> tcrit =2,11

P-value(𝛽2)= 0,002<0.05
𝐿𝑜𝑤𝑒𝑟(𝛽2 ) = b2 - tcrit * sb2 = 4.25 – 2.11 * 1.159 = 1.8 > 0
𝑈𝑝𝑝𝑒𝑟(𝛽2 ) = 6.7 > 0

Având în vedere aceste trei metode de testare a semnificației parametrului 𝛽2, rezultă că sunt
indeplinite conditiile din afirmațiile f1, f4 și f5 si deci acestea sunt adevărate.
g) In cazul testarii semnificatiei parametrului Slope (Pantă) 𝛽1 , ipotezele testate sunt:
1. H0: 𝛽1 = 0 (parametrul 𝛽1 nu este semnificativ statistic); H1: 𝛽1 ≠ 0 (parametrul 𝛽1 este
semnificativ statistic);
2. H0: 𝛽1 ≠ 0 (parametrul 𝛽1 nu este semnificativ statistic); H1: 𝛽1 = 0 (parametrul 𝛽1 este
semnificativ statistic);
3. H0: 𝛽1 = 0 (parametrul 𝛽1 este semnificativ statistic); H1: 𝛽1 ≠ 0 (parametrul 𝛽1 nu este
semnificativ statistic);

Răspuns: 1) este varianta adevărată.


Idem pentru testarea semnificației parametrilor 𝛽0 și 𝛽2.

h) Probabilitățile maxime cu care putem afirma că parametrii 𝛽0 , 𝛽1 și 𝛽2 sunt semnificativi


statistic – în această ordine – sunt: ……… , ………………… și …………………

100-pvalue(β0 )%=100-0,3=99,7%>95%. (parametru semnificativ statistic)


100-pvalue(β1 )%=100-6,2=93,8%<95%. (parametru nesemnificativ statistic)
100-pvalue(β2 )%=100-0,2=99,8%>95%. (parametru semnificativ statistic)

i) Intervalul de încredere pentru parametrul 𝛽2 arată că: ………………


Dacă nota la mate creste cu 1 punct, punctajul la statistica creste in medie cu o valoare cuprinsa
intre 1,8 si 6,7 puncte. (cu conditia ca nr. de zile petrecut in club sa ramana constant)

j) Daca Matricea de corelatie are forma:

Punctaj statistica (Y) Nr. zile in club (X1) Nota matematica (X2)
Punctaj statistica (Y) 1
Nr. zile in club (X1) r(X1,Y)=-0,787 1
Nota matematica (X2) 0,859 -0,742 1

Completati afirmatiile:
1) Intre punctajul la statistica si nota la mate exista o legatura …….
2) Intre punctajul la statistica si timpul petrecut in club exista o legatura …….
3) Intre nota la mate si timpul petrecut in club exista o legatura ………

Raspuns:
Pe diagonala principala se completeaza cu valoarea 1, deoarece semnifica corelatia perfecta a
fiecarei variabile cu ea insasi.

rYX1 = -0,787 indica o legatura inversa si puternica intre punctajul la statistica si timpul petrecut in
club.
rYX2 = +0,859 indica o legatura directa si foarte puternica intre punctajul la statistica si nota la
matematica.
rX1 X2 = -0,742 indica o legatura inversa si puternica intre nota la matematica si timpul petrecut in
club.

k)Punctajul la statistica pe care l-ar putea obtine un student care petrece in club 6 nopti si a
promovat examenul de matematica cu nota 6 este ……. puncte
Raspuns:
În modelul de regresie liniară yˆ i = b0 + b1  x1i + b2  x2i adica yˆ i = 37,46 − 2,87  x1i + 4,25  x2 i
înlocuim pe x1i cu valoarea de 6, si pe x2i cu valoarea de 6, obţinându-se valoarea corespunzătoare
a lui Y:
𝑦̂𝑖 = 37,46 − 2,87 ⋅ 6 + 4,25 ⋅ 6 = 45,74 puncte la statistica. (!!!!)

l) Modelul de regresie este/nu este valid, deoarece: ……………………………..

Testarea validitatii modelului


Nivel de incredere 1-α=0.95 (95%)
Nivel de semnificatie: α=0.05 (5%)
Testarea validității modelului:

H0: MSR(P) = MSE(P) (modelul de regresie nu este valid)


H1: MSR(P) > MSE(P) (modelul de regresie este valid)
Se aplica testul F (Fisher) – ca TUD:
𝑀𝑆𝑅
𝐹𝑐𝑎𝑙𝑐 =
𝑀𝑆𝐸
Se=√MSE=6.58 → MSE=(6.58)2=43.3
MSR=SSR/k=2729,25/2=1364.62
𝑀𝑆𝑅 1364.62
𝐹𝑐𝑎𝑙𝑐 = = = 31.51
𝑀𝑆𝐸 43.3
Fcrit=F(0.05,2,17)=3.59 (F.INV.RT(0.05,2,17))
Fcalc > Fcrit , Fcalc se afla in Rr (Reg. de respingere a lui H0), resping H0, accept H1,
modelul este valid
In plus: Sig.F=0,000002<α=0.05, resping H0, accept H1, modelul este valid

MSE=SSE/(n-k-1)
SSE=MSE • (n-k-1)=43.3•17=736.1
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 0.887 0.7876 …. Se=√MSE=6,58

ANOVAa
Model Sum of Squares df Mean Square F Sig.
Regression SSR=2729,25 k=2 MSR=1364.62 F_calc=31.51 ,000002
1 Residual SSE=736.1 n-k-1=17 MSE=43.3
Total SST=3465.35 n-1=19

m) …..% din variatia punctajelor la testul de statistica este explicat de modelul de regresie.

R 2 %= ?
R2%= SSR/SST*100=2729.25/(2729.25+736.1)*100=2729.25/(3465.35)*100=78.76%
Interpretare R2: 78.76% din variatia totala a punctajului la statistica este explicata de timpul
petrecut in club si de nota la matematica (este explicat de modelul de regresie)

n) Dacă dorim să masuram intensitatea legaturii dintre cele trei variabile putem folosi
………………………………. Valoarea acestuia este egala cu …………………….. si arata ca
…………………………………………..
Indicatorul la nivelul populației totale este/nu este semnificativ statistic deoarece ……………

Raspuns:

Raportul de corelație multipla (în eșantion) R:


𝑅 = √𝑅 2 = √0.7876 = 0.887
𝑅 ∈ [0,1]

Interpretare: legatura de intensitate foarte ridicata (este aproape de 1)


R nu poate indica sensul sau directia legaturii

Testarea semnificației statistice a raportului de corelație în populația totală (R(P) )


H0: R(P) = 0 (R(P) nu este semnificativ statistic – nu există legătură semnificativă între X,Y)
H1: R(P) > 0 (R(P) este semnificativ statistic – există legătură semnificativă între X,Y)
𝑛−𝑘−1 𝑅2 17 0.7876 𝑀𝑆𝑅
𝐹𝑐𝑎𝑙𝑐 = ∙ 2
= ∙ = = 31.51
𝑘 1−𝑅 1 1 − 0.7876 𝑀𝑆𝐸
𝐹𝑐𝑟𝑖𝑡 = 𝐹𝛼,𝑘,𝑛−𝑘−1 = 𝐹0.05,2,17 = 3.59
Regula de decizie:
Metoda 1 (Fcalc vs. Fcrit)
𝐹𝑐𝑎𝑙𝑐 > 𝐹𝑐𝑟𝑖𝑡 → 𝐹𝑐𝑎𝑙𝑐 ∈ 𝑅𝑟 → resping H0, accept H1, R(P) este semnificativ statistic
Metoda 2 (Sig. sau pvalue vs. α)
Sig.F=0,000002< α=0.05 → resping H0, accept H1, R(P) este semnificativ statistic
Daca se cere si analiza sensului legaturii:
b1 = - 2,870
b2 =4,25

Semnul lui b1, b2


b1<0 legatura inversa intre X1 si Y
b2>0 legatura directa intre X2 si Y

o) Coeficientii de regresie standardizati arata ca ........................................

Intrucat: |Coef_std (Nota mate)| = 0.611 > |Coef_std (Nr.zile club)|=0.333 rezulta ca nota la
mate a influentat mai puternic punctajul obtinut la testul de statistica decat timpul petrecut in
club.

S-ar putea să vă placă și