Documente Academic
Documente Profesional
Documente Cultură
de regresie liniară
1
Număr poliţe în funcţie de Timpul mediu
Pentru 15 agenţi de asigurări, angajaţi ai unei companii de asigurări de
viaţă, se cunosc datele privind timpul mediu (X) petrecut de un agent cu
un potenţial client şi numărul de poliţe (Y) încheiate de fiecare într-o
săptămână .
X: Timp mediu
25 23 30 25 20 33 18 21 22 30 26 26 27 29 20
(în minute)
Y: Nr. poliţe 10 11 14 12 8 18 9 10 10 15 11 15 12 14 11
Cerinţe:
1. Să se testeze validitatea modelului de regresie pentru un nivel de
semnificaţie = 5% (valoare tabelară: 4,67);
2. Să se testeze semnificaţia parametrilor modelului de regresie
( nivel de semnificaţie = 5%; valoare tabelară: 2,160);
3. Să se determine intervalele de încredere ale acestora;
4. Să se testeze semnificația raportului de corelație pentru un nivel de
semnificaţie = 5% (valoare tabelară: 2,160);
Estimarea modelului în Excel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R
0.763923
Square
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.640152 46.302727 0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.000000
Upper
Coefficients Standard Error t Stat P-value Lower 95%
95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.689313
Timpul mediu 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619
Regression Statistics
Table 1.SUMMARY OUTPUT
Regression Statistics
SSR SSE
Multiple R
0.883621 R= = 1−
Raportul de corelatie (R) SST SST
SSR SSE
R Square
Coeficientul (gradul ) de determinaţie
0.780786 R2 = = 1−
SST SST
Observations
15
Numărul observaţiilor (n)
Interpretare R-Square
df
SS (degree of MS =SS / df
F
Sursa variaţiei (Sum of Squares) freedom) (media pătratelor Significance F
(testul F)
(suma pătratelor) (grade de =dispersia corectată)
libertate)
( )
n
SSR = yˆ i − y SSR
2
MSR =
i =1 k=1 k
Regression (variaţia
SSR=79,64 79,640152
datorată regresiei) Testul
n SSE
SSE = ( yi − yˆ i ) MSE = MSR
2 0,000013< 0,05
n-k-1=13 n − k −1 F=
i =1 MSE
Residual (resping H0 –
(variaţia reziduală) SSE= 22,36 1,719988 model valid)
( )
n F = 46,302727
SST = yi − y
2
i =1 n-1=14
Total (variaţia SST= 102
totală) SST=SSR + SSE
Testarea validităţii modelului de regresie
9
I
Testarea semnificaţiei parametrilor modelului
0 nu este semnificativ
diferit de zero
1 este semnificativ diferit
de zero
R2=78.07%
Fcalc=46.30
10
Testarea semnificaţiei parametrilor modelului
Testăm ipotezele
a) H0: 0= 0 a − 1.73
tcalc = = = −0.846
sa 2.046
H1: 0 ≠ 0
tcritic = t0, 025;13 = 2,160
b) H0: 1 = 0 b 0.549
tcalc = = = 6.804
sb 0.08
H1: 1≠ 0
Deoarece n = 15 30 avem eşantion de volum redus şi pentru testare vom
utiliza testul t.
11
Testarea semnificaţiei parametrilor modelului
Decizia pentru 1 :
12
Testarea semnificaţiei parametrilor folosind P-value
Despre P-value
13
Testarea semnificaţiei parametrilor folosind P-value
Pentru parametrul 0 :
Pentru parametrul 1 :
14
Intervale de încredere pentru parametrii
modelului
15
Coeficientul de corelaţie liniară
COV ( X ,Y ) xy ( x i − X )( yi − Y )
= = = i =1
x y x y N 2
N
2
i =1
( xi − X )
i =1
( y i − Y )
Media estimatorului r este
E (r ) =
Abaterea standard este
1− r2
sr =
n−2
16
Testarea semnificaţiei coeficientului de corelaţie
n xi − xi n yi − yi
i =1 i =1 i =1 i =1
H0 : = 0
( nu este semnificativ statistic)
H1 : 0
( este semnificativ statistic)
r n−2
tcalc = t critic = t / 2,n − 2
1− r 2
Decizia: tcalc t / 2,n − 2 se resp.Ho, se acc.H1, coeficientul de corelatie este semnificativ statistic.
18
Realizarea de previziuni utilizând modelul de regresie
• Tipuri de previziuni
– Previziuni punctuale
– Previziuni pe intervale de încredere
19
Realizarea de previziuni utilizând modelul de regresie
20
Realizarea de previziuni utilizând modelul de regresie
21
Realizarea de previziuni utilizând modelul de regresie
22
Realizarea de previziuni utilizând modelul de regresie
y0 − y0
Statistica t = are o distribuţie Student cu ( n − 2) grade de libertate.
se( y 0 − y 0 )
Un interval de încredere 100 (1 − )% pentru y0 , este de forma:
y 0 − t / 2, n − 2 se( y 0 − y 0 ) y 0 y 0 + t / 2, n − 2 se( y 0 − y 0 )
23
Realizarea de previziuni utilizând modelul de regresie
A) Interval de încredere
pentru valoarea medie a Y
Yˆi
lui y , fiind dat x0
B) Intervalul de încredere
pentru predicţia unei valori y0
fiind dat x0
24
Realizarea de previziuni
Cerinţă
◼ 6. Să se construiască un interval de încredere pentru numărul de poliţe
dacă valoarea anticipată a timpului mediu petrecut de un agent cu un
potenţial client este de 35 minute, dacă rezultatele se garantează cu o
probabilitate de 95%.
Realizarea de previziuni utilizând modelul de regresie
Estimaţie
punctuală
Dacă timpul mediu este x0 = 35 , atunci
1 2
( x0 − x ) 1 (35 − 25) 2
2
se 1 + + n = 1.7191 + + = 2.484
n 2 15 264
i ( x − x ) Rezultatele se
i =1
garantează cu
probabilitatea 95%
y0 17 .492 2,53 1.576 = 13,5;21,5 26
Problemă Regresie liniară simplă rezolvată (1) Econometrie: MK, an II, 2021-2022
Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare difuzate şi numărul
vizitatorilor (mii pers.). În urma prelucrării datelor observate cu Excel am obținut următorul output:
Rezolvare:
a) Ecuația de regresie este 𝑦̂𝑖 = 1,49 + 2,99 ∙ 𝑥𝑖 (am rotunjit valorile la a doua zecimală)
Interpretare 𝑏1 :
semnul lui 𝑏1 : 𝑏1 > 0 ⇒ există o legătură directă între cele două variabile (valorile celor două
variabile se modifică în același sens: ambele cresc sau ambele scad);
f) Validitatea modelului
H0: modelul nu este valid (nu există deosebiri esențiale între împrăștierea
valorilor lui Y datorate factorului X și împrăștierea valorilor lui Y datorate erorii)
H1: modelul este valid (împrăștierea valorilor lui Y datorate factorului X diferă
semnificativ de împrăștierea valorilor lui Y datorate erorii)
𝑀𝑆𝑅
Se folosește testul F: 𝐹𝑐𝑎𝑙𝑐 = 𝑀𝑆𝐸
Corespunzător valorii lui F calculat avem Significance F, (de fapt, valoarea
P-value corespunzătoare lui F calculat) care reprezintă pragul de semnificație calculat
(probabilitatea de a obține o valoare mai mare ca F calculat, sau, altfel spus reprezintă
probabilitatea de a face o eroare dacă respingem ipoteza nulă 𝐻0).
Exercițiu. Pentru a studia legătura dintre două variabile (X şi Y) au fost înregistrate valorile
pentru 12 unităţi statistice. În urma prelucrării datelor s-au obţinut următoarele rezultate:
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2
unde 𝑠𝑥2 = , ∑(𝑥𝑖 − 𝑥̅ )2 = ∑(𝑥𝑖2 − 2 ∙ 𝑥̅ ∙ 𝑥𝑖 + 𝑥̅ 2 ) = ∑ 𝑥𝑖2 − 𝑛 ∙ 𝑥̅ 2
𝑛−1
∑𝑛 ̅)2
𝑖=1(𝑦𝑖 −𝑦
unde 𝑠𝑦2 = , ∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖2 − 2 ∙ 𝑦̅ ∙ 𝑦𝑖 + 𝑦̅ 2 ) = ∑ 𝑦𝑖2 − 𝑛 ∙ 𝑦̅ 2
𝑛−1
Concluzia? Care din cele două variabile este mai omogenă? X sau Y? De ce?
𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟𝑥𝑦 = ∈ [−1, +1]
√[𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 ][𝑛 ∑ 𝑦𝑖2 −(∑ 𝑦𝑖 )2 ]
Interpretare ?
𝑟𝑥𝑦 = ........ arată că între variabilele X şi Y există o legătură ..........................................?
1
3) Analiza de regresie se ocupă cu descrierea şi evaluarea legăturii dintre o variabilă
dependentă sau explicată şi una sau mai multe variabile independente sau explicative, cu scopul
de a estima şi de a previziona valoarea medie a variabilei dependente, cunoscându-se valorile
fixate ale variabilelor independente (valori fixate în urma unor eşantionări repetate).
Considerăm două variabile economice X şi Y pentru care cunoaştem n perechi de
observaţii:(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), . . . , (𝑥𝑛 , 𝑦𝑛 ).
Ne interesează cum se modifică variabila Y sub acţiunea variabilei X.
Ecuaţia 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
defineşte modelul unifactorial de regresie liniară.
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Modelul include o componentă deterministă 𝛽0 + 𝛽1 𝑥𝑖 şi o componentă stochastică, 𝜀.
Variabilele X şi Y sunt variabile observabile, adică valorile lor pot fi măsurate.
Variabila 𝜺 este numită eroare aleatoare sau termen eroare sau variabilă de perturbaţie şi
reprezintă efectul tuturor factorilor, în afara factorului X, care îl afectează pe Y şi care sunt
consideraţi neobservabili.
Parametrii de regresie 𝛽0 şi 𝛽1 se vor estima pe baza valorilor variabilelor X şi Y.
Parametrul 0 se numeşte parametru de interceptare. Parametrul 𝛽0 exprimă valoarea
variabilei dependente Y când variabila independentă X, este egală cu zero,
Parametrul 𝛽1 reprezintă panta dreptei de regresie şi arată cu cât se modifică, în medie,
variabila Y atunci când variabila X se modifică cu o unitate.
Semnul parametrului pantă 𝛽1 arată dacă dependenţa dintre cele două variabile este directă sau
inversă.
Considerăm doi estimatori: 𝛽̂0 şi 𝛽̂1, ai parametrilor reali 𝛽0 şi 𝛽1
(se pot folosi notatiile: 𝑏0 şi 𝑏1 )
𝑦𝑖 se numeşte valoarea observată (reală sau adevărată).
𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 ( 𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 ) se numeşte valoarea ajustată a lui y i .
Definim 𝑒𝑖 = 𝜀̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 abaterea dintre valoarea observată şi valoarea ajustată.
𝑒𝑖 = 𝜀̂𝑖 se numeşte reziduu sau valoare reziduală sau eroare estimată.
Erorile aleatoare 𝜀𝑖 sunt neobservabile, dar reziduurile 𝜀̂𝑖 , sunt observabile.
Estimarea parametrilor modelului prin metoda celor mai mici pătrate (MCMMP):
Se minimizează suma pătratelor abaterilor dintre valorile reale 𝑦𝑖 şi valorile ajustate 𝑦̂𝑖 .
Se foloseşte şi notaţia OLS (Ordinary Least Squares).
Suma pătratelor reziduurilor sau erorilor estimate este o funcţie de două necunoscute, 𝛽̂0 şi 𝛽̂1
(sau 𝑏0 şi 𝑏1 , sau a şi b), în raport cu care se va face minimizarea. Avem:
𝑛 𝑛 𝑛
2
𝑏0 ∙ 𝑛 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖
{
𝑏0 ∙ ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 ∙ 𝑦𝑖
Soluţiile sistemului se pot obţine folosind metoda determinanţilor:
𝛥𝑏0 ∑ 𝑦𝑖 ∑ 𝑥𝑖2 −∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖
𝑏0 = = (1)
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2
𝛥𝑏1 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑏1 = = (2)
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2
Dacă împărţim prima ecuaţie normală prin n, obţinem:
𝑏0 = 𝑦̄ − 𝑏1 𝑥̄ (3)
După înlocuirea estimatorului a în a doua ecuaţie normală, obţinem:
∑ 𝑥𝑖 𝑦𝑖 −𝑛𝑥̄ 𝑦̄
𝑏1 = ∑ 𝑥𝑖2 −𝑛𝑥̄ 2
(4)
3
Modele Regresie liniară unifactorială (simplă)
Ex1. Consumul unei familii în funcţie de Venitul disponibil
Pentru a evalua influenţa Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile: Venitul disponibil al familiei si Cheltuielile
de Consum ale familiei.
X 80 100 120 140 160 180 200 220 240 260
Y 70 65 90 95 110 115 120 140 155 150
Fiecare familie a fost selectată, la întâmplare, dintr-un grup de familii cu un venit net disponibil fixat.
Valorile celor două variabile sunt exprimate în mii lei, astfel încât prima familie câştigă 80 mii lei şi
consumă 70 mii lei anual.
Variabilele sunt:
X – Venitul disponibil al familiei, exprimat în mii lei
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – Cheltuielile de Consum ale familiei, exprimate în mii lei
(variabila dependentă sau variabila explicată sau variabila endogenă)
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.
3. Să se testeze validitatea modelului de regresie liniară la un prag de semnificaţie de 5%
(nivel de semnificaţie =0,05; valoare tabelară 5,32).
4. Calculaţi coeficientul de determinaţie şi interpretaţi rezultatul obţinut.
5. Calculaţi raportul de corelaţie, testaţi semnificaţia acestuia şi interpretaţi rezultatul obţinut.
6. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson si testaţi semnificaţia statistică a acestuia.
7. Să se rezolve problema în Excel
8. Să se testeze semnificaţia statistică a parametrilor modelului
(nivel de semnificaţie =0,05; valoare tabelară: 2,306).
9. Determinaţi şi interpretaţi intervalele de încredere 95% pentru parametrii modelului
10. Să se raporteze rezultatele analizei de regresie
11. Să se previzioneze cheltuielile medii de consum ale unei familii, în ipoteza că venitul disponibil
este de 280 mii lei.
12. Să se previzioneze cheltuielile de consum ale unei familii, în ipoteza că venitul disponibil este de
280 mii lei.
Rezolvare:
1. Pentru a identifica existenţa unei relaţii de dependenţă între variabilele analizate, ca şi forma şi sensul
relaţiei de dependenţă, construim diagrama împrăştierii datelor. Pentru a crea o diagramă a datelor trebuie
să stabilim care variabilă ar trebui să apară pe axa orizontală. În analiza de regresie, variabila explicativă
apare totdeauna pe axa orizontală iar variabila explicată pe axa verticală.
Folosim Excel pentru a efectua calculele pentru estimarea unui model de regresie.
Valorile observate pentru variabilele X şi Y pot fi introduse în coloanele A şi B sau B și C.
1
Reprezentăm grafic perechile de puncte observate (𝑥𝑖 , 𝑦𝑖 ).
În Excel, selectăm: Insert / Chart / XY(Scatter)…
2. Rezultă că putem considera că între cele două variabile există o relaţie de forma: 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ; 𝑖 = 1,2, . . . , 𝑛.
Notăm estimatorii parametrilor 𝛽0 şi 𝛽1 cu 𝑏0 şi 𝑏1 sau 𝛽̂0 şi 𝛽̂1
Pentru a determina estimatorii 𝑏0 şi 𝑏1 ai parametrilor 𝛽0 şi 𝛽1, rezolvăm sistemul de ecuaţii normale:
𝑏0 𝑛 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖 10𝑏0 + 1700𝑏1 = 1110
{ 2 {
𝑏0 ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖 1700𝑏0 + 322000𝑏1 = 205500
Soluţiile sistemului se pot obţine folosind metoda determinanţilor:
𝛥𝑏0 ∑ 𝑦𝑖 ∑ 𝑥𝑖2 −∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 (1110)(322000)−(1700)(205500)
𝑏0 = = ⇒ 𝑏0 = ≈ 24,4545
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 (10)(322000)−(1700)2
𝛥𝑏1 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖 (10)(205500)−(1700)(1110)
𝑏1 = = ⇒ 𝑏1 = ≈ 0,5091
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 (10)(322000)−(1700)2
𝑛 ∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑥𝑖 𝑛 ∑ 𝑦𝑖
unde ∆= | 2 |; ∆𝑏0 = | | ; ∆𝑏1 = | |
∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖2 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖
Valorile estimatorii 𝑏0 şi 𝑏1 se pot afla și folosind formulele:
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) (16800)
𝑏1 = ⇒ 𝑏1 = ≈ 0,5091
∑(𝑥𝑖 −𝑥̄ )2 √(33000)(8890)
𝑏0 = 𝑦̄ − 𝑏1 𝑥̄ ⇒ 𝑏0 = 111 − (0,5091)(170) ≈ 24,4545
2
Fie α nivelul sau pragul de semnificaţie al testului, iar 1-α este nivelul de încredere al testului. Dacă nu se
specifică, vom considera în general că =0,05 sau 100α% = 5%, iar 1-=0,95 sau 100(1-α)% = 95%.
Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:
𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̄ )2 = 8890,0 - variaţia totală a valorilor variabilei Y, suma pătratelor abaterilor totale.
𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̄ )2 =8552,73 reprezintă variaţia explicată prin factorul de regresie.
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑒𝑖2 =337,27 - variaţia neexplicata (reziduala), variaţia datorată erorilor.
SST=SSR+SSE
𝑆𝑆𝐸
𝑀𝑆𝐸 = 𝑛−2 = 𝑠𝑒2 =337,27/8=42,159 - varianţa erorilor în eşantion (dispersia reziduurilor)
𝑆𝑆𝐸
𝑠𝑒 = √𝑛−2 este abaterea standard a erorilor în eşantion
𝑆𝑆𝑇
De asemenea, se poate calcula si dispersia de selecţie a lui Y, adică 𝑠𝑦2 = 𝑛−1
3
𝑆𝑆𝑅 ∑(𝑦̂ −𝑦̄ )2 𝑆𝑆𝐸 ∑(𝑦𝑖 −𝑦̂𝑖 )2
𝑅 2 = 𝑆𝑆𝑇 = ∑(𝑦𝑖 −𝑦̄ )2 sau 𝑅 2 = 1 − 𝑆𝑆𝑇 = 1 − ∑(𝑦𝑖 −𝑦̄ )2
0 ≤ 𝑅2 ≤ 1
𝑖
În ce măsură, variaţia cheltuielilor de consum este influenţată de venitul disponibil al familiei, pe baza
modelului de regresie determinat?
𝑹𝟐 ≈ 𝟎, 𝟗𝟔𝟐𝟏, arată că 96,21% din variaţia cheltuielilor de consum (Y) este explicată prin variaţia
venitului disponibil (X). Deoarece 𝑅 2 poate fi cel mult 1, valoarea obţinută sugerează că dreapta de
regresie estimată aproximează (ajustează) foarte bine datele de observaţie.
4
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑆𝑥𝑦 𝑆
𝑏1 = =𝑆 ⇒ 𝑟𝑥𝑦 = 𝑏1 𝑆𝑥 .
∑(𝑥𝑖 −𝑥̄ )2 𝑥𝑥 𝑦
Rezultă că 𝑟𝑥𝑦 are acelaşi semn cu coeficientul de regresie 𝑏1 .
𝑟 = 𝑟𝑥𝑦 = 0,9808 ⇒ există o legătură directă şi foarte puternică între cele două variabile analizate.
În EXCEL se utilizează funcţia CORREL pentru determinarea coeficientului de corelaţie Pearson.
5
8. Să se testeze semnificaţia statistică a parametrilor modelului
Inferenţa statistică privind parametrii modelului se poate realiza prin:
• Testarea ipotezei statistice referitoare la semnificaţia parametrilor;
• Estimarea pe interval de încredere a parametrilor modelului.
𝑖 ∑ 𝑥2 1 𝑥̄ 2
𝑠𝛽̂0 = 𝑠𝑏0 = 𝑠𝑒 ⋅ √𝑛 ∑(𝑥 −𝑥̄ = 𝑠𝑒 ⋅ √𝑛 + ∑(𝑥 −𝑥̄ )2 = 6,4138
)2 𝑖 𝑖
6
Observaţie:
2
Pentru cazul k=1 şi coeficientul pantă avem 𝑡𝑐𝑎𝑙𝑐 =𝐹
2
Verificare: (14,2432) = 202,87
Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑏0 −0 24,4545
𝑡calc = = = 3,8128
𝑠𝑏0 6,4138
𝑡calc = 24,4545/6,4138 = 3,8128; 𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 = 2,306
Deoarece 3,8128>2,306 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1 ⇒ 𝛽0 este semnificativ statistic.
7
10. Raportarea rezultatelor analizei de regresie
𝑦̂𝑖 = 24,4545 + 0,5091 × 𝑥𝑖
𝑠𝑒 (6,4138) (0,0357) 𝑅 2 = 0,9621
𝑡 (3,8128) (14,2432) 𝑑𝑓 = 8
𝑝 (0,0051) (0,0000) 𝐹 = 202,8679
11. Să se previzioneze (prognozeze) cheltuielile medii de consum ale unei familii, în ipoteza că
venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Suntem în situaţia de a prognoza media condiționată 𝐸(𝑌|𝑋 = 𝑥𝑛+1 ) = 𝛽0 + 𝛽1 𝑥𝑛+1
Putem obţine estimaţii punctuale sau prin intervale de încredere.
Folosim ecuaţia de regresie estimată: 𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
O estimaţie punctuală a previziunii mediei este
𝑦̂𝑛+1 = 𝑏0 + 𝑏1 𝑥𝑛+1 = 24,4545 + 0,5091 ⋅ 280 = 167,0025 mii lei
Un Interval de încredere pentru predicţia mediei condiţionate este de forma :
1 (𝑥𝑛+1 − 𝑥̄ )2
𝑦̂𝑛+1 ± 𝑡𝛼,𝑛−2 ⋅ √𝑠𝑒2 ( + )
2 𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (4,4356)
156,7741 ≤ 𝐸(𝑌|𝑥𝑛+1 = 280) ≤ 177,2310
Dacă obţinem intervale de încredere 95% pentru fiecare X dat, vom obţine, ca interval de încredere, o
bandă de încredere pentru funcţia de regresie a populaţiei.
Modelul Cerere-Pret
60
50
40
cantitate
30 Series1
20
10
0
0 2 4 6 8 10 12
pret
2. Pe baza datelor de la nivelul eşantionului, să se determine ecuaţia de regresie liniară care modelează
legătura dintre cele două variabile. Să se estimeze parametrii modelului şi să se interpreteze rezultatele
obţinute.
Considerăm modelul:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 , 𝑖 = 1,2, . . . , 𝑛.
Pentru a determina estimatorii 𝛽̂0 şi 𝛽̂1 ai parametrilor 𝛽0 şi 𝛽1, rezolvăm sistemul de ecuaţii normale ale
lui Gauss.
𝛽̂0 𝑛 + 𝛽̂1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖 10𝛽̂0 + 55𝛽̂1 = 378
{ { .
𝛽̂0 ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 𝑦𝑖 55𝛽̂0 + 385𝛽̂1 = 1901
Obţinem: 𝛽̂0 ≈ 49,6667 şi 𝛽̂1 ≈ −2,1575
Dreapta de regresie estimată este
𝑦̂𝑖 = 49,6667 − 2,1575 ⋅ 𝑥𝑖
9
Regresie liniară simplă − output din Excel de completat − Rezolvare
Exercițiu: Pentru a determina legătura dintre Consumul zilnic de tablete de ciocolată al unei persoane şi
Preţul unei tablete (în euro), am folosit un model de regresie liniară unifactorială 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀.
În urma prelucrării datelor observate cu Excel, am obţinut rezultatele de mai jos:
Regression Statistics
Multiple R ………
R Square ………
Adjusted R Square 0,6205
Standard Error 0,1289
Observations 11
ANOVA
df SS MS F
Regression ……….. ……… ……….. 17,3554.
Residual ……….. ……… ………..
Total ……… ………..
Coefficients Stand.Error t Stat P-value Lower 95% Upper 95%
Intercept 2,6917 0,1220 ……….. 0,0000 2,4157 ………
X Variab.1 ……….. 0,1145 ……….. 0,0024 -0,7359 ………..
Rezolvare.
a) Ne gândim ce informaţii sunt cunoscute şi care informaţii pot fi completate mai întâi.
𝑆𝑆𝑅
Multiple R este Raportul de corelaţie dintre cele două variabile: 𝑅 = √𝑆𝑆𝑇 = ? Nu putem calcula acum.
𝑆𝑆𝑅
R Square este Coeficientul de determinaţie: 𝑅 2 = 𝑆𝑆𝑇 = ? Nu putem calcula acum.
Standard Error este abaterea standard a erorilor în eşantion: 𝑠𝑒 = 0,1289
𝑆𝑆𝐸
Ştim că 𝑀𝑆𝐸 = 𝑛−2 = 𝑠𝑒2 = (0,1289)2 = 0,016615 = 0,0166
Pe coloana df avem: k=1; n-2=9; n-1=10
Putem calcula SSE=MSE*9 = 0,1494
Din F și MSE aflăm MSR=F*MSE = (17,3554)*(0,0166) = 0,2881
Rezultă SSR = 0,2881
SST = SSR+SSE = 0,2881+0,0166 = 0,4375
𝑆𝑆𝑅 0,2881
Coeficientul de determinaţie este: 𝑅 2 = 𝑆𝑆𝑇 = 0,4375 = 0,6585
𝑆𝑆𝑅
Raportul de corelaţie este : 𝑅 = √𝑆𝑆𝑇 = √0,6585 = 0,8115
Putem calcula parametrul pantă din limitele Intervalelor de încredere.
Limita inferioară (Lower 95%) = 𝑏1 − 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏1 = −0,7359
2
𝑏1 = 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏1 + (−0,7359) = (2,26)*(0,1145) −0,7359 = −0,4771
2
Completăm coloana „t Stat”
𝑏0 −0 2,6917
Pentru 𝑏0 avem 𝑡calc = = 0,1220 = 22,0631
𝑠𝑏0
𝑏1 −0 −0,4771
Pentru 𝑏1 avem 𝑡calc = = = −4,1668
𝑠𝑏1 0,1145
Completăm coloana „Upper 95%”
Pentru 𝑏0 avem Limita superioară (Upper 95%) = 𝑏0 + 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏0 = 2,6917+(2,26)*(0,1220) = 2,9674
2
Pentru 𝑏1 avem Limita superioară (Upper 95%) = 𝑏1 + 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏1 = (−0,4771)+2,26*(0,1145) = −0,2183
2
c) Testaţi validitatea modelului (nivelul de semnificaţie este = 0,05 şi valoarea tabelară 5,12) .
H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
𝑀𝑆𝑅
Statistica testului este: 𝐹 = ~𝐹𝑖𝑠h𝑒𝑟 1,𝑛−2
𝑀𝑆𝐸
Regiunea critică: 𝑅𝑐 : 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼;1,𝑛−2
𝐹tabelat = 𝐹critic = 𝐹𝛼;1,𝑛−2 = 𝐹0,05;1,9 = 5,12
𝐹calculat = 17,3554 > 5,12
Deoarece 𝐹calculat ∈ 𝑅𝑐 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.
Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
• Folosim testul t
• Folosim P-value
• Folosim intervalele de încredere
𝑏1 −𝛽1 −0,4771−(−0,3)
𝑡calc = = = −1,54
𝑠𝑏1 0,1145
Deoarece −1,54 > −2,26 𝑡𝑐𝑎𝑙𝑐 𝑅𝑐 acceptăm H0 ⇒ 𝛽1 nu diferă semnificativ de −0,3.
g) Previzionaţi Consumul zilnic de tablete de ciocolată al unei persoane ştiind că Preţul unei tablete este
de 2 euro.
Regression Statistics
Multiple R 0.8114
R Square 0.6584
Adjusted R Square 0.6205
Standard Error 0.1289
Observations 11
ANOVA
df SS MS F Significance F
Regression 1 0.2881 0.2881 17.3479 0.0024
Residual 9 0.1495 0.0166
Total 10 0.4376